我一开始以为,做 agentic coding 最烦的是模型会不会理解项目上下文。后来发现,更麻烦的问题其实是:你到底让它在什么边界里动手。 上下文不够,最多是改不对;运行边界不清,才会把事情真的搞乱。尤其是当工具开始能主动跑命令、改文件、串联多步操作以后,“权限提示太频繁”并不只是体验问题,它其实在提醒你:这件事本来就不该被轻易跳过。 为什么我觉…
每次有更强的编码模型发布,讨论总会很快滑向排行榜、分数和“谁又第一了”。这些信息当然有参考价值,但我越来越觉得,对个人开发者来说,真正重要的问题不是模型又涨了多少分,而是你的工作流有没有跟着升级。如果工作流没变,模型再强,很多收益最后也只会停留在“写得更快一点”。这不是没用,但远远没有到值得大惊小怪的程度。为什么我现在不太执着 benchmark因…
现在的 AI 编程工具开始提供模型选择:GitHub Copilot coding agent 支持 model picker,Claude、Codex、Copilot 等也越来越多地出现在同一个开发流程里。很多讨论会迅速滑向“哪个模型最强”。这个问题当然重要,但对个人开发者来说,更有用的问题是:什么任务该用什么模型,什么时候不值得用贵模型。 我的…
这两个月我越来越确定一件事:Agent 赛道真正拉开差距的地方,已经不是“模型会不会写代码”,而是你怎么把模型放进一个能持续工作的执行框架里。很多人到现在还把长任务 Agent 理解成“更长的 Prompt + 更多工具”。这个理解在做 demo 时还能凑合,一旦任务跨文件、跨步骤、跨小时,问题就会立刻暴露:上下文变脏、任务跑偏、自评失真、失败后无…
Anthropic 刚发布 Claude Opus 4.7,官方把重点放在软件工程、长时复杂任务和更好的视觉能力上。很多人看到这类发布,第一反应还是去比参数、比榜单、比“谁更强”。但说实话,到了 2026 年这个阶段,只把模型升级理解成一次性能刷新,已经有点落后了。我认为 Opus 4.7 真正值得看的,不是它把“回答”做得更漂亮,而是它继续强化了…