作者: 丸子

142 篇文章

Agent 真正开始变得可用,不是因为更聪明,而是因为更像一套可控的软件系统
过去一年,很多人谈 Agent,谈得像是在谈一种会自动完成工作的“数字员工”。但真正让 Agent 在 2026 年开始变得值得认真投入的,不是模型突然聪明到了某个临界点,而是围绕它的一整套工程基础终于开始成形:统一的响应接口、内建工具调用、可追踪的状态、可控的执行环境,以及更适合长流程任务的 SDK 抽象。 这件事为什么值得写?因为它意味着 Ag…
Agent SDK 开始内建沙箱,这不是功能补丁,而是 AI 开发基础设施开始成型
OpenAI 在 2026 年 4 月更新 Agents SDK,把沙箱执行能力更正式地推到了台前。很多人看到这个消息时,会把它理解成“多了一个运行代码的环境”。我觉得这个理解偏浅了。这件事真正重要的地方在于:Agent 开发正在从“能调模型”走向“有完整执行基础设施”。也就是说,行业开始认真处理一个长期被 demo 掩盖的问题——模型要完成多步任…
提示词不会消失,但它正在退居二线:为什么上下文工程正在从聊天技巧变成仓库资产
过去一年,大家谈“上下文工程”时,很多人脑子里想的还是另一种提示词技巧:怎么写 system prompt,怎么塞背景,怎么让模型少跑偏。这个方向当然没错,但我越来越觉得,它已经不够了。真正重要的变化是:上下文开始从聊天窗口里的临时文本,变成仓库里的长期资产。这不是一个措辞变化,而是开发工作流正在发生迁移。Google 在 2025 年底介绍 Ge…
别再把长任务 Agent 当成一个 Prompt:2026 年真正拉开差距的是 Harness
这两个月我越来越确定一件事:Agent 赛道真正拉开差距的地方,已经不是“模型会不会写代码”,而是你怎么把模型放进一个能持续工作的执行框架里。很多人到现在还把长任务 Agent 理解成“更长的 Prompt + 更多工具”。这个理解在做 demo 时还能凑合,一旦任务跨文件、跨步骤、跨小时,问题就会立刻暴露:上下文变脏、任务跑偏、自评失真、失败后无…
OpenClaw、WorkBuddy、悟空、QClaw、EasyClaw,到底该选哪个?一篇讲透开源底座、桌面代理和企业 AI 工作平台
最近一波“龙虾系”产品很容易让人看花眼:OpenClaw、WorkBuddy、QClaw、EasyClaw,再加上阿里的悟空,看起来都在做“能替你干活的 AI Agent”,但它们其实并不处在同一个竞争层级。 如果你把它们当成五个完全平级的软件来比,大概率会越比越乱。因为这里面既有开源底座,也有面向个人的桌面代理产品,还有长在企业组织系统里的 AI…
OpenClaw + Kiro CLI 实战:把聊天入口和代码执行层真正接起来
先给结论:OpenClaw 和 Kiro CLI 很适合搭配,但前提是你别把它理解成“两个 AI 工具叠加一下”。更准确的说法是,OpenClaw 负责做长期在线的入口、路由和自动化壳层,Kiro CLI 负责在具体代码仓库里完成分析、修改和持续会话。一个偏“总控台”,一个偏“落地执行层”。这两个东西分工清楚之后,组合价值才会出来。 这篇文章不讲空…
Kiro CLI 实战:从安装到真正用起来
终端里的 AI 工具这两年不少,但很多产品的问题也很一致:演示看起来很顺手,真正放进开发工作流之后,要么上下文太浅,要么只能当聊天壳子,要么一接入团队规范就开始失真。Kiro CLI 值得写,不是因为它“又一个 AI Coding 工具”,而是它在 CLI 里把几个真正影响长期可用性的能力拼起来了:会话持久化、Steering、Hooks、MCP,…
Claude Opus 4.7 值得关注,但别把它看成“更强模型”这么简单
Anthropic 刚发布 Claude Opus 4.7,官方把重点放在软件工程、长时复杂任务和更好的视觉能力上。很多人看到这类发布,第一反应还是去比参数、比榜单、比“谁更强”。但说实话,到了 2026 年这个阶段,只把模型升级理解成一次性能刷新,已经有点落后了。我认为 Opus 4.7 真正值得看的,不是它把“回答”做得更漂亮,而是它继续强化了…
MCP 到了该认真做减法的时候:它不是万能接口,而是 AI 工具层的基础协议
过去一段时间,MCP 几乎成了 AI 工具圈的公共语言。很多产品、框架、插件都在往 MCP 靠,官方规范也在继续推进,注册表、SDK 分层、MCP Apps 这类配套能力陆续补齐。热度是真的,但问题也来了:一热,大家就容易把它讲成“接上 MCP,AI 就万物互联”。这显然过头了。我的判断是,MCP 值得关注,而且是重度关注。但关注方式不是追着每个 …
Codex 不是又一个聊天框:AI 编程正在从“补全助手”变成“多任务执行器”
OpenAI 这几个月对 Codex 的推进,透露出的重点已经不是“把代码写得更快”这么简单了。2 月推出 Codex 桌面应用时,核心卖点是多 agent 并行、长任务协作;到 4 月的新版本,重点又继续往前推:它开始更深地接入开发者日常工具,能看多个文件和终端,能连远端 devbox,甚至把浏览器也拉进同一个工作流。这件事真正值得开发者关注的地…