我最近越来越不想看那种“多 Agent 协作架构图”了。不是因为它们完全没用,而是很多团队在真正跑起来之前,连最外层那层壳都没搭对:任务怎么启动,状态怎么收敛,工具怎么限权,日志怎么回放,失败后怎么继续。这个阶段谈一堆 Planner、Researcher、Reviewer,通常只是在给未来的维护成本提前贷款。
这也是我为什么会重新看 OpenAI 这一轮围绕 Responses API 和 Agents SDK 的更新。去年很多人把注意力放在“Agent 会不会替代工作流编排”上,今年更现实的问题其实是:长任务应用到底有没有一套足够稳的工程外壳。如果没有,你做的不是 agentic app,而是一堆偶尔能跑通的 demo。
我为什么觉得这次变化值得认真看
公开信息里有两个信号很关键。第一,OpenAI 在 2025 年 3 月推出了 Responses API 和初版 Agents SDK,明确把工具调用、状态管理和 agent 构建往同一套开发面收口。第二,2026 年 4 月又继续推进 Agents SDK,把文件检查、命令执行、代码编辑和长时间任务放进受控 sandbox 这种能力往前推了一步。换句话说,平台方已经不再只卖“会回答问题的模型”,而是在卖“可运行任务的壳层”。 citeturn549190search0turn690268search2
这件事对个人开发者和小团队是有价值的,因为你终于可以少搭一点胶水。但它真正节省的,不是几行 API 调用代码,而是下面这些反复出问题的边角:
- 任务跑到一半,模型上下文爆掉后怎么压缩;
- 工具调用过多时,如何保留最少但足够的中间状态;
- 命令执行和文件修改放在哪个边界里才不会失控;
- 用户追问“它刚才为什么改了这个文件”时,你能不能回放。
真正难的不是编排,而是把任务生命周期收口
很多开发者第一次做 agent,脑子里想的是“我要不要拆成 3 个 agent”。但从工程上看,前面更重要的问题其实是这一串:
receive task
-> decide allowed tools
-> hydrate minimal context
-> run loop
-> compact state
-> checkpoint artifacts
-> request human review or continue
-> persist trace
只要这条链没有稳定下来,多 Agent 只会把问题乘以 N。因为你会多出 agent 间状态同步、工具权限隔离、失败恢复、成本归因这些新坑。很多演示里看起来很丝滑,是因为它们根本没有把错误路径算进去。
OpenAI 在 2026 年 2 月那篇讲 long-running agents 的文章里提到 Shell、Skills、Compaction 这些模式,本质上都在解决一件事:让 agent 在长任务里少丢上下文、少重复劳动、少把历史垃圾带进下一轮。这比“再加一个 planner agent”重要得多。 citeturn690268search10
我会先怎么搭这个“长任务外壳”
如果我是一个人或者三五人的小团队,我不会先追求复杂编排。我会先把下面四层做出来:
- 任务输入层:把需求写成结构化对象,而不是一大段 prompt。
- 工具白名单层:每个任务只开放必要工具,例如只读 git、受限 shell、指定目录文件编辑。
- 检查点层:每完成一个子步骤就落盘 artifacts、diff、命令输出。
- 压缩层:每轮只保留下一轮真正需要的摘要、引用和失败原因。
task = {
"goal": "为 billing 模块增加 usage quota 告警",
"repo": "app-server",
"constraints": ["不能修改 public API", "必须补测试"],
"allowed_paths": ["services/billing", "tests/billing"],
"allowed_tools": ["read_file", "edit_file", "run_test"],
"handoff_policy": "schema_change_requires_human_review"
}
这个结构没什么炫技成分,但它能逼你把任务边界说清楚。很多团队嘴上在做 agent,实际上还是在把需求模糊地丢给模型,再祈祷它不要越界。
被夸大的地方也很明显
我不太认同一种说法:既然平台已经开始提供更完整的 agent 壳层,那开发团队以后只要专注业务逻辑就行。这话对 demo 成立,对生产并不成立。
- 第一,平台提供的是通用壳,不会替你定义业务风险边界。
- 第二,长任务越稳定,真正暴露出来的反而是你自己仓库和流程的脏乱差。
- 第三,工具一旦能跑 shell、改文件、发起网络请求,安全和审计就不再是附属功能。
所以这波变化不是“大家终于可以放心 all in agent 了”,而是“终于有机会把 agent 从 demo 状态推到工程状态了”。这两句话差别很大。
个人开发者和小团队该怎么投时间
如果你是个人开发者,我建议把它当成工作台增强,不要当成完全自治的软件工厂。最适合的场景是:
- 生成受约束的小范围改动;
- 批量读文件后给出迁移建议;
- 自动跑测试、收集失败点并整理 diff;
- 把重复但边界清晰的维护任务半自动化。
如果你是小团队,我会建议先拿一个内部仓库做 2 周试验,只验证三件事:任务成功率、人工回看成本、失败后续跑能力。别一上来追求“一个 agent 接全仓库”。那通常不是野心大,而是边界管理太松。
我的判断
我会重度关注 Responses API 和 Agents SDK 这条线,但不是因为我相信多 Agent 神话,而是因为它正在把“长任务 AI 应用”的基础设施做得更像真的工程系统。对个人开发者来说,现在最值得投入的,不是设计多漂亮的协作架构,而是先做一个可回放、可续跑、可限权的长任务外壳。
把这层壳搭对以后,你再讨论要不要多 Agent,才不是在空中画图。