这两个月我越来越确定一件事:Agent 赛道真正拉开差距的地方,已经不是“模型会不会写代码”,而是你怎么把模型放进一个能持续工作的执行框架里。很多人到现在还把长任务 Agent 理解成“更长的 Prompt + 更多工具”。这个理解在做 demo 时还能凑合,一旦任务跨文件、跨步骤、跨小时,问题就会立刻暴露:上下文变脏、任务跑偏、自评失真、失败后无…
Anthropic 刚发布 Claude Opus 4.7,官方把重点放在软件工程、长时复杂任务和更好的视觉能力上。很多人看到这类发布,第一反应还是去比参数、比榜单、比“谁更强”。但说实话,到了 2026 年这个阶段,只把模型升级理解成一次性能刷新,已经有点落后了。我认为 Opus 4.7 真正值得看的,不是它把“回答”做得更漂亮,而是它继续强化了…