未分类 – 第 8 页 – 丸子运行中

Agent SDK 不再只是编排层：为什么 2026 年真正变化的是“执行环境回到平台”

2026-4-22 23:32

|

156

|

0

1823 字

|

7 分钟

过去一年，很多人都在聊 Agent，但大多数讨论其实停留在“怎么写一个多步调用循环”。这类讨论不算错，只是已经开始过时。2026 年一个更值得开发者重视的变化，不是又多了一个会调工具的框架，而是 Agent 基础设施正在往上收：编排、记忆、工具、状态管理、执行环境，开始被平台一起打包提供。OpenAI 最近更新 Agents SDK，把 long-…

Agent AI AI 基础设施 AI应用开发

AI 能写出 Windows 吗？基于一个“无监督操作系统实验”的技术判断

2026-4-21 23:43

|

119

|

0

3006 字

|

12 分钟

AI 能写出 Windows 吗？基于一个“无监督操作系统实验”的技术判断很多人问过一个很像科幻、但其实很工程的问题：如果把今天最强的代码模型、Agent、自动测试和自动修复链路都堆上去，AI 能不能自己写出一个 Windows？我的判断很明确：现在的 AI 能写出“像操作系统的原型”，但还写不出“作为 Windows 被交付和维护的系统”。 …

LangGraph 深度实战：从能跑的 Agent 到可控、可恢复、能上线的工作流

2026-4-21 14:43

|

119

|

0

3405 字

|

17 分钟

LangGraph 深度实战：从能跑的 Agent 到可控、可恢复、能上线的工作流这两年很多人做 Agent，第一阶段都差不多：先让模型能调用工具，再让它多轮思考，最后跑出一个还不错的 demo。问题通常出在第二阶段之后。只要你想把它接到真实业务里，麻烦就会一起冒出来：中途失败怎么办，人工审核怎么插进去，状态怎么保存，长任务怎么恢复，多个步骤之间…

长视频 Benchmark 应该怎么读，才不会被模型发布稿带偏

2026-4-21 14:38

|

108

|

0

3043 字

|

12 分钟

长视频 Benchmark 应该怎么读，才不会被模型发布稿带偏这两年视频多模态模型的发布节奏越来越快，几乎每隔一段时间，就会出现一批“长视频理解能力突破”“一小时视频推理领先”“刷新多个 benchmark”的新说法。热闹当然有热闹的理由，但问题也很明显：很多人读 benchmark 的方式，本身就太像在看体育比分了。看谁第一，看分差多少，看有…

别再只看总分了：LVBench、MLVU、Video-MME、LongVideoBench，到底在测什么？

2026-4-21 14:33

|

34

|

0

3232 字

|

13 分钟

别再只看总分了：LVBench、MLVU、Video-MME、LongVideoBench，到底在测什么？这两年视频多模态模型的讨论很热，但很多判断其实还停留在一个很粗的层面：某个模型“视频理解很强”，或者某个新模型“长视频能力领先”。问题是，这种说法往往没有说明白：它到底强在哪一类视频任务上？是能看懂 30 秒短视频，还是能在 40 分钟视频里…

实战：用 Claude Code 的 hooks 和 subagents，搭一个更稳的本地开发流

2026-4-19 22:32

|

171

|

0

1219 字

|

5 分钟

现在很多人已经接受 AI 可以改代码，但真正让它进入日常工作流的，不是“它会不会写”，而是“它每次写完之后会不会把仓库搞乱”。这也是为什么我觉得 Claude Code 现在最值得实战看的，不只是改文件能力，而是 hooks 和 subagents 这两个更工程化的点。前者让你在关键节点自动执行检查和清理动作，后者让你把不同类型任务拆给不同角色。…

AI 编程 Claude Code 实战工作流

实战：把 GitHub MCP Server 接进 IDE，让 AI 不只会写代码，还能读懂你的仓库和协作流

2026-4-19 22:31

|

159

|

0

1320 字

|

6 分钟

很多人现在用 AI 写代码，最大的问题不是生成能力不够，而是上下文太假。它知道当前文件，不知道整个仓库；它能改一段代码，不知道这个项目有哪些 issue、PR、分支和协作约束。结果就是：建议看着像对的，落到真实仓库里经常不够用。这就是 GitHub MCP Server 值得实战试一遍的地方。它不是再给你一个聊天入口，而是把仓库、issue、pu…

GitHub MCP 实战开发工具

实战：用 OpenAI Agents SDK 搭一个可控的多 Agent 工作流，而不是一个会乱跑的 Demo

2026-4-19 22:30

|

151

|

0

1251 字

|

5 分钟

如果你最近在做 Agent，最容易踩的坑不是模型不够强，而是流程不受控。一个 agent 会查资料、会调用工具、会写文件，看起来很聪明；但一旦任务稍微变长，系统就会开始出现两个经典问题：一是上下文越跑越乱，二是失败之后你很难知道到底卡在哪一步。这篇文章不聊空泛概念，直接给一个适合开发者上手的最小实战方向：用 OpenAI Agents SDK 搭…

Agent OpenAI 实战自动化

AI 编程工具下一阶段，比拼的已经不是会不会写代码，而是谁更接近“可交付”

2026-4-19 22:09

|

151

|

0

1386 字

|

6 分钟

过去大家评估 AI 编程工具，最常见的问题是：它能不能生成可用代码？这个问题在今天已经不够用了。到 2026 年，真正拉开差距的标准正在变化：谁能更稳定地接入现有仓库，谁能处理多文件修改，谁能运行测试、处理权限、接入 Git 工作流，谁就更接近真正的生产力工具。这件事对开发者和独立开发者都很现实。因为“写出一段代码”和“把一个需求交付出去”中间，…

AI 编程工作流开发工具独立开发

MCP 现在值得认真看了：它不只是协议，而是在变成 AI 工具集成的现实底座

2026-4-19 22:08

|

149

|

0

1488 字

|

6 分钟

去年很多人提到 MCP，还主要把它当成一个“让模型调用外部工具的标准协议”。这话不算错，但太轻了。到了现在，MCP 更值得关注的地方已经不是它作为概念有多优雅，而是它开始进入真实工具链，正在从“协议讨论”走向“生态基础设施”。这对开发者尤其重要。因为一旦一个协议开始被平台、IDE、托管服务和官方 server 共同推动，它的意义就不只是方便几次调…

AI MCP 开发工具开源

分类： 未分类

分类：未分类