标签: Codex

14 篇文章

长任务编程 Agent 不是让你少写需求,而是逼你把需求写得更像接口
很多人期待长任务编程 Agent,是因为它看起来能把“我想要一个功能”直接变成 PR。我对这个期待比较谨慎。Agent 能跑更久,能自己读文件、改代码、跑测试,当然是进步。但它越能自主执行,越暴露一个老问题:需求如果写得像聊天,最后就会得到一个像聊天一样含糊的实现。 OpenAI 在 Codex 相关技术文章里讲过 agent loop、工具调用、…
我为什么越来越不相信“编码代理看起来不错”这种评估,真正有用的是技能级评测
我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事:要么演示做得顺,要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后,问题不是它能不能偶尔写出一段对的代码,而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。 OpenAI 在 2026 年初公开的《Testing Agent Ski…
Workspace Agents 真正改变的不是聊天体验,而是团队如何把经验固化成可复用流程
很多人第一次看到 Workspace Agents,会下意识把它理解成“企业版 GPTs”或者“能连更多工具的聊天机器人”。我觉得这个理解太浅了。真正值得开发者关注的,不是它把聊天做得更像助手,而是它开始把团队里原本散落在人脑、文档和口头传承里的流程,收敛成一个可以被共享、重复运行、持续改进的执行单元。 OpenAI 在 2026 年 4 月公布 …
上下文工程开始变成新的维护成本,Agent 技能层也许比模型升级更值得投入
我原本以为,2026 年 Agent 这一波继续往前走,最值得追的是模型升级。后来越看越觉得不对。模型当然还在进步,但真正开始决定系统能不能长时间稳定工作的,越来越像是另一个层:上下文工程,以及围绕它长出来的技能层。 Anthropic 在 2025 年专门写了 Effective context engineering for AI agents…
云端编码代理正在改写开发流程,但先别把它当成更强的 IDE 插件
我一开始以为,所谓云端编码代理,只是把 IDE 里的补全和对话面板搬到浏览器里。后来越看越觉得不是这么回事。真正的变化不在“能不能写代码”,而在它开始接管一整段原本需要人类持续盯着的工程流程:拉代码、看上下文、跑命令、修失败、继续尝试、最后给出可审阅结果。 这件事为什么值得单独写?因为它意味着开发者工具正在从“交互式助手”变成“可持续运行的任务执行…
Responses API 和新一代 Agents SDK 值得学,但别再把 Agent 当成一个巨型 Prompt
这两年很多团队做 Agent,表面上看是在升级模型,实际上只是在把 prompt 写得越来越长、把工具列表堆得越来越多、把状态偷偷塞进各种缓存和数据库里。它能跑,但很不稳。 所以我现在看 Responses API 和新一代 Agents SDK,最重要的地方并不是“OpenAI 又发了新东西”,而是它们在把一件长期很混乱的事逐渐收回正轨:Agen…
Coding Agent 正在从聊天助手变成异步 Worker,这才是今年更大的变化
很多人还在拿 Coding Agent 跟聊天式编程助手比较,我觉得这个比较已经开始过时了。2026 年真正值得注意的变化,不是它回答代码问题更快了,也不是补全更聪明了,而是越来越多产品开始把 Agent 从“你问一句它答一句”的前台助手,改造成可以被派单、排队、审查、回收结果的异步 Worker。为什么这件事比模型分数更重要因为这直接改变了开发工…
多模型 Coding Agent 实战:别把模型选择当信仰问题
现在的 AI 编程工具开始提供模型选择:GitHub Copilot coding agent 支持 model picker,Claude、Codex、Copilot 等也越来越多地出现在同一个开发流程里。很多讨论会迅速滑向“哪个模型最强”。这个问题当然重要,但对个人开发者来说,更有用的问题是:什么任务该用什么模型,什么时候不值得用贵模型。 我的…
Codex App 真正值得关注的,不是“又一个 AI 编程工具”,而是多线程软件开发开始产品化
这两个月,AI 编程圈最不缺的新东西,就是“又一个会写代码的助手”。但如果只把 Codex App 看成 OpenAI 给 ChatGPT 套上的桌面壳子,那就有点低估它了。 我觉得它真正值得关注的点,不是模型更强,也不是界面更花,而是它把多线程软件开发这件事,第一次做成了一个普通开发者也能直接上手的产品:一个项目里并行跑多个线程、每个线程有独立上…
AI 编程的下一场竞争,不是谁更聪明,而是谁把“等待时间”干掉了
AI 编程的下一场竞争,不是谁更聪明,而是谁把“等待时间”干掉了 这两年大家讨论 AI 编程,最容易盯着模型能力看:代码补全更准了没有,复杂任务能不能一次做完,多文件修改会不会把项目搞坏。问题当然重要,但到了 2026 年,一个更现实的瓶颈已经浮出水面:很多时候,开发者感知到的“慢”,已经不主要来自模型不够聪明,而来自整条 agent 执行链路太笨…