过去一年,很多人谈 Agent,谈得像是在谈一种会自动完成工作的“数字员工”。但真正让 Agent 在 2026 年开始变得值得认真投入的,不是模型突然聪明到了某个临界点,而是围绕它的一整套工程基础终于开始成形:统一的响应接口、内建工具调用、可追踪的状态、可控的执行环境,以及更适合长流程任务的 SDK 抽象。 这件事为什么值得写?因为它意味着 Ag…
OpenAI 在 2026 年 4 月更新 Agents SDK,把沙箱执行能力更正式地推到了台前。很多人看到这个消息时,会把它理解成“多了一个运行代码的环境”。我觉得这个理解偏浅了。这件事真正重要的地方在于:Agent 开发正在从“能调模型”走向“有完整执行基础设施”。也就是说,行业开始认真处理一个长期被 demo 掩盖的问题——模型要完成多步任…
过去一年,大家谈“上下文工程”时,很多人脑子里想的还是另一种提示词技巧:怎么写 system prompt,怎么塞背景,怎么让模型少跑偏。这个方向当然没错,但我越来越觉得,它已经不够了。真正重要的变化是:上下文开始从聊天窗口里的临时文本,变成仓库里的长期资产。这不是一个措辞变化,而是开发工作流正在发生迁移。Google 在 2025 年底介绍 Ge…
这两个月我越来越确定一件事:Agent 赛道真正拉开差距的地方,已经不是“模型会不会写代码”,而是你怎么把模型放进一个能持续工作的执行框架里。很多人到现在还把长任务 Agent 理解成“更长的 Prompt + 更多工具”。这个理解在做 demo 时还能凑合,一旦任务跨文件、跨步骤、跨小时,问题就会立刻暴露:上下文变脏、任务跑偏、自评失真、失败后无…
最近一波“龙虾系”产品很容易让人看花眼:OpenClaw、WorkBuddy、QClaw、EasyClaw,再加上阿里的悟空,看起来都在做“能替你干活的 AI Agent”,但它们其实并不处在同一个竞争层级。 如果你把它们当成五个完全平级的软件来比,大概率会越比越乱。因为这里面既有开源底座,也有面向个人的桌面代理产品,还有长在企业组织系统里的 AI…
先给结论:OpenClaw 和 Kiro CLI 很适合搭配,但前提是你别把它理解成“两个 AI 工具叠加一下”。更准确的说法是,OpenClaw 负责做长期在线的入口、路由和自动化壳层,Kiro CLI 负责在具体代码仓库里完成分析、修改和持续会话。一个偏“总控台”,一个偏“落地执行层”。这两个东西分工清楚之后,组合价值才会出来。 这篇文章不讲空…
终端里的 AI 工具这两年不少,但很多产品的问题也很一致:演示看起来很顺手,真正放进开发工作流之后,要么上下文太浅,要么只能当聊天壳子,要么一接入团队规范就开始失真。Kiro CLI 值得写,不是因为它“又一个 AI Coding 工具”,而是它在 CLI 里把几个真正影响长期可用性的能力拼起来了:会话持久化、Steering、Hooks、MCP,…
Anthropic 刚发布 Claude Opus 4.7,官方把重点放在软件工程、长时复杂任务和更好的视觉能力上。很多人看到这类发布,第一反应还是去比参数、比榜单、比“谁更强”。但说实话,到了 2026 年这个阶段,只把模型升级理解成一次性能刷新,已经有点落后了。我认为 Opus 4.7 真正值得看的,不是它把“回答”做得更漂亮,而是它继续强化了…
过去一段时间,MCP 几乎成了 AI 工具圈的公共语言。很多产品、框架、插件都在往 MCP 靠,官方规范也在继续推进,注册表、SDK 分层、MCP Apps 这类配套能力陆续补齐。热度是真的,但问题也来了:一热,大家就容易把它讲成“接上 MCP,AI 就万物互联”。这显然过头了。我的判断是,MCP 值得关注,而且是重度关注。但关注方式不是追着每个 …
OpenAI 这几个月对 Codex 的推进,透露出的重点已经不是“把代码写得更快”这么简单了。2 月推出 Codex 桌面应用时,核心卖点是多 agent 并行、长任务协作;到 4 月的新版本,重点又继续往前推:它开始更深地接入开发者日常工具,能看多个文件和终端,能连远端 devbox,甚至把浏览器也拉进同一个工作流。这件事真正值得开发者关注的地…