很多人提到 Agent 记忆,第一反应还是“让它记住用户偏好”或者“跨会话别忘事”。这当然有用,但我现在越来越觉得,这个理解已经不够了。真正决定 Agent 能不能长时间稳定工作、能不能跨多步任务继续推进的,不只是有没有记忆,而是你有没有把记忆和压缩当成一层基础设施来设计。 OpenAI 最新的 Cookbook 已经把 memory 和 comp…
我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事:要么演示做得顺,要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后,问题不是它能不能偶尔写出一段对的代码,而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。 OpenAI 在 2026 年初公开的《Testing Agent Ski…
很多人第一次看到 Workspace Agents,会下意识把它理解成“企业版 GPTs”或者“能连更多工具的聊天机器人”。我觉得这个理解太浅了。真正值得开发者关注的,不是它把聊天做得更像助手,而是它开始把团队里原本散落在人脑、文档和口头传承里的流程,收敛成一个可以被共享、重复运行、持续改进的执行单元。 OpenAI 在 2026 年 4 月公布 …
我原本以为,2026 年 Agent 这一波继续往前走,最值得追的是模型升级。后来越看越觉得不对。模型当然还在进步,但真正开始决定系统能不能长时间稳定工作的,越来越像是另一个层:上下文工程,以及围绕它长出来的技能层。 Anthropic 在 2025 年专门写了 Effective context engineering for AI agents…
我最近看 A2A 相关资料时,最大的感受不是“多智能体时代来了”,而是另一种更朴素的判断:大家终于开始认真面对一个现实——当 Agent 变多之后,靠私有胶水代码把它们一个个串起来,会很快失控。 Google 在 2025 年公布 Agent2Agent Protocol,到了 2026 年又持续在开发者博客里谈 A2A 1.0、协议生态和与 A2…
很多人第一次用 Agent 产品,会默认把它当成一个聊天界面:我发一句,你回一句,最好几十秒内结束。但只要任务开始碰到搜索、代码执行、远程工具、长链路推理,这种交互模型很快就不够用了。真正的问题不是模型能不能继续想,而是你的产品能不能承受一个任务跑十几分钟、几十分钟,甚至更久。 这就是我最近特别关注 background mode 的原因。Open…
去年很多人讨论 MCP,还停留在“终于有统一协议了”这个阶段。到了现在,我对它的感受已经变了:协议本身当然重要,但真正开始决定项目能不能落地的,已经不是 JSON-RPC 长什么样,而是授权怎么做、状态怎么保存、界面怎么呈现、服务器怎么治理。 这也是我为什么觉得 MCP 现在值得写深一点。因为它已经从“开发者社区里一个挺酷的协议”开始进入更现实的工…
我一开始以为,所谓云端编码代理,只是把 IDE 里的补全和对话面板搬到浏览器里。后来越看越觉得不是这么回事。真正的变化不在“能不能写代码”,而在它开始接管一整段原本需要人类持续盯着的工程流程:拉代码、看上下文、跑命令、修失败、继续尝试、最后给出可审阅结果。 这件事为什么值得单独写?因为它意味着开发者工具正在从“交互式助手”变成“可持续运行的任务执行…
这两年很多团队做 Agent,表面上看是在升级模型,实际上只是在把 prompt 写得越来越长、把工具列表堆得越来越多、把状态偷偷塞进各种缓存和数据库里。它能跑,但很不稳。 所以我现在看 Responses API 和新一代 Agents SDK,最重要的地方并不是“OpenAI 又发了新东西”,而是它们在把一件长期很混乱的事逐渐收回正轨:Agen…
我不是突然开始讨厌 Python。我只是越来越不想继续维护那套大家默认接受了很多年的组合:pyenv + virtualenv + pip + pip-tools/poetry + 一点点 shell 脚本 + 一点点 CI 魔法。 这套东西不是不能用,而是它在 2026 年已经越来越像“历史兼容产物”,不是我愿意主动选的新起点。我的判断也很直接:…