标签: Agent

50 篇文章

我为什么越来越不相信“编码代理看起来不错”这种评估,真正有用的是技能级评测
我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事:要么演示做得顺,要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后,问题不是它能不能偶尔写出一段对的代码,而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。 OpenAI 在 2026 年初公开的《Testing Agent Ski…
Workspace Agents 真正改变的不是聊天体验,而是团队如何把经验固化成可复用流程
很多人第一次看到 Workspace Agents,会下意识把它理解成“企业版 GPTs”或者“能连更多工具的聊天机器人”。我觉得这个理解太浅了。真正值得开发者关注的,不是它把聊天做得更像助手,而是它开始把团队里原本散落在人脑、文档和口头传承里的流程,收敛成一个可以被共享、重复运行、持续改进的执行单元。 OpenAI 在 2026 年 4 月公布 …
上下文工程开始变成新的维护成本,Agent 技能层也许比模型升级更值得投入
我原本以为,2026 年 Agent 这一波继续往前走,最值得追的是模型升级。后来越看越觉得不对。模型当然还在进步,但真正开始决定系统能不能长时间稳定工作的,越来越像是另一个层:上下文工程,以及围绕它长出来的技能层。 Anthropic 在 2025 年专门写了 Effective context engineering for AI agents…
A2A 值得看,但个人开发者别急着重仓 Agent 互联这条线
我最近看 A2A 相关资料时,最大的感受不是“多智能体时代来了”,而是另一种更朴素的判断:大家终于开始认真面对一个现实——当 Agent 变多之后,靠私有胶水代码把它们一个个串起来,会很快失控。 Google 在 2025 年公布 Agent2Agent Protocol,到了 2026 年又持续在开发者博客里谈 A2A 1.0、协议生态和与 A2…
后台长任务会改变 Agent 产品形态,但别把异步执行想得太轻松
很多人第一次用 Agent 产品,会默认把它当成一个聊天界面:我发一句,你回一句,最好几十秒内结束。但只要任务开始碰到搜索、代码执行、远程工具、长链路推理,这种交互模型很快就不够用了。真正的问题不是模型能不能继续想,而是你的产品能不能承受一个任务跑十几分钟、几十分钟,甚至更久。 这就是我最近特别关注 background mode 的原因。Open…
MCP 真正开始难用的地方,不是接协议,而是授权、状态和界面
去年很多人讨论 MCP,还停留在“终于有统一协议了”这个阶段。到了现在,我对它的感受已经变了:协议本身当然重要,但真正开始决定项目能不能落地的,已经不是 JSON-RPC 长什么样,而是授权怎么做、状态怎么保存、界面怎么呈现、服务器怎么治理。 这也是我为什么觉得 MCP 现在值得写深一点。因为它已经从“开发者社区里一个挺酷的协议”开始进入更现实的工…
Responses API 和新一代 Agents SDK 值得学,但别再把 Agent 当成一个巨型 Prompt
这两年很多团队做 Agent,表面上看是在升级模型,实际上只是在把 prompt 写得越来越长、把工具列表堆得越来越多、把状态偷偷塞进各种缓存和数据库里。它能跑,但很不稳。 所以我现在看 Responses API 和新一代 Agents SDK,最重要的地方并不是“OpenAI 又发了新东西”,而是它们在把一件长期很混乱的事逐渐收回正轨:Agen…
统一 AI 应用栈开始成形了,但独立开发者别急着把自己绑死在一个平台上
过去一年做 AI 应用,很像在搭乐高:模型一层、工具调用一层、工作流编排一层、记忆层一层、聊天 UI 一层、部署和监控再来一层。能跑起来当然可以,但拼得越多,后面越像在维护自己的小型集成平台。最近一个很明显的趋势是:统一 AI 应用栈正在开始成形。无论是模型厂商往上做 agent 框架,还是应用平台往下包工具、状态、UI 和部署,大家都在做同一件事…
Coding Agent 正在从聊天助手变成异步 Worker,这才是今年更大的变化
很多人还在拿 Coding Agent 跟聊天式编程助手比较,我觉得这个比较已经开始过时了。2026 年真正值得注意的变化,不是它回答代码问题更快了,也不是补全更聪明了,而是越来越多产品开始把 Agent 从“你问一句它答一句”的前台助手,改造成可以被派单、排队、审查、回收结果的异步 Worker。为什么这件事比模型分数更重要因为这直接改变了开发工…
Agent Memory 正在变成基础设施,不再只是一个“更聪明的聊天记录”
这两个月我越来越确定一件事:Agent 的 memory,正在从“锦上添花的功能点”变成一层真正的基础设施。很多人一提 memory,脑子里想到的还是“让机器人记住用户喜欢什么”。这当然算一种能力,但工程上更重要的,不是它会不会记住一句偏好,而是它能不能在多轮任务、跨会话协作、长周期执行里,维持一个可复用、可检索、可校正的上下文层。为什么现在这件事…