Agent – 第 2 页 – 丸子运行中

高级工具调用看起来让 Agent 更强，但很多系统真正先爆掉的是复杂度和成本

2026-5-07 8:40

|

199

|

0

1666 字

|

7 分钟

每次看到 Agent 工具调用能力增强，大家第一反应通常都是兴奋：能查网页了，能并行调工具了，能自动编排代码了，终于更像“会做事”的系统了。这个方向当然对，但我最近越来越强烈的感受是，很多系统不是先败在模型不够强，而是先败在工具调用把复杂度和成本一起放大。 Anthropic 在 2025 年底公开过 advanced tool use，提到 pr…

很多团队以为 Agent 能不能上线取决于模型，其实更早卡住的是治理层

2026-5-07 8:40

|

159

|

0

1485 字

|

7 分钟

我现在越来越觉得，很多 Agent 项目最后能不能上线，关键根本不在模型。模型当然重要，但它通常不是第一个把项目卡死的地方。更常见的现实是：团队刚把原型跑起来，接下来就被一连串更难回答的问题绊住——谁来审计？谁来兜底？错误动作怎么算？权限怎么切？出事后能不能还原发生了什么？ OpenAI 在 2026 年发布的《Building Governed …

Agent AI 基础设施 AI 工作流 Evals OpenAI

记忆和压缩开始变成 Agent 可靠性的基础设施，不做这一层系统迟早会发散

2026-5-07 8:39

|

145

|

0

1698 字

|

8 分钟

很多人提到 Agent 记忆，第一反应还是“让它记住用户偏好”或者“跨会话别忘事”。这当然有用，但我现在越来越觉得，这个理解已经不够了。真正决定 Agent 能不能长时间稳定工作、能不能跨多步任务继续推进的，不只是有没有记忆，而是你有没有把记忆和压缩当成一层基础设施来设计。 OpenAI 最新的 Cookbook 已经把 memory 和 comp…

Agent AI 基础设施 AI 工作流 Anthropic OpenAI

我为什么越来越不相信“编码代理看起来不错”这种评估，真正有用的是技能级评测

2026-5-07 8:39

|

154

|

0

1664 字

|

7 分钟

我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事：要么演示做得顺，要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后，问题不是它能不能偶尔写出一段对的代码，而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。 OpenAI 在 2026 年初公开的《Testing Agent Ski…

Agent AI 编程 Codex Evals OpenAI

Workspace Agents 真正改变的不是聊天体验，而是团队如何把经验固化成可复用流程

2026-5-07 8:38

|

168

|

0

1672 字

|

7 分钟

很多人第一次看到 Workspace Agents，会下意识把它理解成“企业版 GPTs”或者“能连更多工具的聊天机器人”。我觉得这个理解太浅了。真正值得开发者关注的，不是它把聊天做得更像助手，而是它开始把团队里原本散落在人脑、文档和口头传承里的流程，收敛成一个可以被共享、重复运行、持续改进的执行单元。 OpenAI 在 2026 年 4 月公布 …

Agent AI 工作流 Codex OpenAI

上下文工程开始变成新的维护成本，Agent 技能层也许比模型升级更值得投入

2026-5-07 8:31

|

151

|

0

1843 字

|

8 分钟

我原本以为，2026 年 Agent 这一波继续往前走，最值得追的是模型升级。后来越看越觉得不对。模型当然还在进步，但真正开始决定系统能不能长时间稳定工作的，越来越像是另一个层：上下文工程，以及围绕它长出来的技能层。 Anthropic 在 2025 年专门写了 Effective context engineering for AI agents…

Agent AI 编程 Anthropic Codex OpenAI

A2A 值得看，但个人开发者别急着重仓 Agent 互联这条线

2026-5-07 8:31

|

162

|

0

1779 字

|

8 分钟

我最近看 A2A 相关资料时，最大的感受不是“多智能体时代来了”，而是另一种更朴素的判断：大家终于开始认真面对一个现实——当 Agent 变多之后，靠私有胶水代码把它们一个个串起来，会很快失控。 Google 在 2025 年公布 Agent2Agent Protocol，到了 2026 年又持续在开发者博客里谈 A2A 1.0、协议生态和与 A2…

Agent Agent Framework AI Agent AI 工作流

后台长任务会改变 Agent 产品形态，但别把异步执行想得太轻松

2026-5-07 8:30

|

151

|

0

1781 字

|

8 分钟

很多人第一次用 Agent 产品，会默认把它当成一个聊天界面：我发一句，你回一句，最好几十秒内结束。但只要任务开始碰到搜索、代码执行、远程工具、长链路推理，这种交互模型很快就不够用了。真正的问题不是模型能不能继续想，而是你的产品能不能承受一个任务跑十几分钟、几十分钟，甚至更久。这就是我最近特别关注 background mode 的原因。Open…

Agent AI 基础设施 AI 工作流 OpenAI Responses API

MCP 真正开始难用的地方，不是接协议，而是授权、状态和界面

2026-5-07 8:30

|

151

|

0

1876 字

|

8 分钟

去年很多人讨论 MCP，还停留在“终于有统一协议了”这个阶段。到了现在，我对它的感受已经变了：协议本身当然重要，但真正开始决定项目能不能落地的，已经不是 JSON-RPC 长什么样，而是授权怎么做、状态怎么保存、界面怎么呈现、服务器怎么治理。这也是我为什么觉得 MCP 现在值得写深一点。因为它已经从“开发者社区里一个挺酷的协议”开始进入更现实的工…

Agent AI Agent AI 应用开发 MCP OAuth 2.0

Responses API 和新一代 Agents SDK 值得学，但别再把 Agent 当成一个巨型 Prompt

2026-5-05 11:06

|

160

|

0

1927 字

|

8 分钟

这两年很多团队做 Agent，表面上看是在升级模型，实际上只是在把 prompt 写得越来越长、把工具列表堆得越来越多、把状态偷偷塞进各种缓存和数据库里。它能跑，但很不稳。所以我现在看 Responses API 和新一代 Agents SDK，最重要的地方并不是“OpenAI 又发了新东西”，而是它们在把一件长期很混乱的事逐渐收回正轨：Agen…

Agent AI应用开发 Codex OpenAI Responses API

标签： Agent