很多人期待长任务编程 Agent,是因为它看起来能把“我想要一个功能”直接变成 PR。我对这个期待比较谨慎。Agent 能跑更久,能自己读文件、改代码、跑测试,当然是进步。但它越能自主执行,越暴露一个老问题:需求如果写得像聊天,最后就会得到一个像聊天一样含糊的实现。 OpenAI 在 Codex 相关技术文章里讲过 agent loop、工具调用、…
我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事:要么演示做得顺,要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后,问题不是它能不能偶尔写出一段对的代码,而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。 OpenAI 在 2026 年初公开的《Testing Agent Ski…
很多人第一次看到 Workspace Agents,会下意识把它理解成“企业版 GPTs”或者“能连更多工具的聊天机器人”。我觉得这个理解太浅了。真正值得开发者关注的,不是它把聊天做得更像助手,而是它开始把团队里原本散落在人脑、文档和口头传承里的流程,收敛成一个可以被共享、重复运行、持续改进的执行单元。 OpenAI 在 2026 年 4 月公布 …
我原本以为,2026 年 Agent 这一波继续往前走,最值得追的是模型升级。后来越看越觉得不对。模型当然还在进步,但真正开始决定系统能不能长时间稳定工作的,越来越像是另一个层:上下文工程,以及围绕它长出来的技能层。 Anthropic 在 2025 年专门写了 Effective context engineering for AI agents…
我一开始以为,所谓云端编码代理,只是把 IDE 里的补全和对话面板搬到浏览器里。后来越看越觉得不是这么回事。真正的变化不在“能不能写代码”,而在它开始接管一整段原本需要人类持续盯着的工程流程:拉代码、看上下文、跑命令、修失败、继续尝试、最后给出可审阅结果。 这件事为什么值得单独写?因为它意味着开发者工具正在从“交互式助手”变成“可持续运行的任务执行…
这两年很多团队做 Agent,表面上看是在升级模型,实际上只是在把 prompt 写得越来越长、把工具列表堆得越来越多、把状态偷偷塞进各种缓存和数据库里。它能跑,但很不稳。 所以我现在看 Responses API 和新一代 Agents SDK,最重要的地方并不是“OpenAI 又发了新东西”,而是它们在把一件长期很混乱的事逐渐收回正轨:Agen…
很多人还在拿 Coding Agent 跟聊天式编程助手比较,我觉得这个比较已经开始过时了。2026 年真正值得注意的变化,不是它回答代码问题更快了,也不是补全更聪明了,而是越来越多产品开始把 Agent 从“你问一句它答一句”的前台助手,改造成可以被派单、排队、审查、回收结果的异步 Worker。为什么这件事比模型分数更重要因为这直接改变了开发工…
现在的 AI 编程工具开始提供模型选择:GitHub Copilot coding agent 支持 model picker,Claude、Codex、Copilot 等也越来越多地出现在同一个开发流程里。很多讨论会迅速滑向“哪个模型最强”。这个问题当然重要,但对个人开发者来说,更有用的问题是:什么任务该用什么模型,什么时候不值得用贵模型。 我的…
这两个月,AI 编程圈最不缺的新东西,就是“又一个会写代码的助手”。但如果只把 Codex App 看成 OpenAI 给 ChatGPT 套上的桌面壳子,那就有点低估它了。 我觉得它真正值得关注的点,不是模型更强,也不是界面更花,而是它把多线程软件开发这件事,第一次做成了一个普通开发者也能直接上手的产品:一个项目里并行跑多个线程、每个线程有独立上…
AI 编程的下一场竞争,不是谁更聪明,而是谁把“等待时间”干掉了 这两年大家讨论 AI 编程,最容易盯着模型能力看:代码补全更准了没有,复杂任务能不能一次做完,多文件修改会不会把项目搞坏。问题当然重要,但到了 2026 年,一个更现实的瓶颈已经浮出水面:很多时候,开发者感知到的“慢”,已经不主要来自模型不够聪明,而来自整条 agent 执行链路太笨…