我越来越觉得,Agent 产品接下来比拼的重点,不会只是模型够不够强,而是交互设计够不够靠谱。尤其是当 agent 能连续执行十几步、几十步操作时,最差的设计就是每走一步都弹一次确认框。表面上看这很安全,实际上很容易把人训练成机械点同意,最后既没有效率,也没有真正的控制感。 Anthropic 最近谈到 Claude Code 的一个方向,我觉得很…
很多人看 Codex,第一反应还是把它当成一个“OpenAI 也来做 AI 编程了”的产品补位。我觉得这个理解已经有点落后。最近的 Codex 更新、独立 app、并行线程、worktree、automations,以及面向不同任务的模型选择,透露出来的方向更像一个完整工作台:它不只是回答代码问题,而是试图承接从任务分发、执行到审阅的一整段流程。 …
我对很多 agent 框架一直比较克制,不是因为它们没意思,而是因为过去不少项目更像概念展示:跑几个 demo 很顺,真进生产环境就开始暴露稳定性、治理、兼容性和维护成本问题。微软最近把 Agent Framework 推到 1.0,我觉得它的重要性就在这里——这不是又一个“会多代理编排”的新框架,而是一个很明确的信号:agent 开发正在进入更传…
过去一年,很多人提到 MCP(Model Context Protocol)时,注意力都放在“模型终于能接外部工具了”。这当然重要,但到了 2026 年,我反而觉得这已经不是最值得看的部分。真正说明 MCP 进入下一阶段的信号,是它开始讨论传输扩展、代理通信、治理成熟和企业可用性。这意味着它正在从“开发者圈子里的方便协议”变成“需要被基础设施团队认…
这波 AI 编程工具更新里,我觉得 Cursor 3 值得认真看,但原因不是它又做了一个更花哨的编辑器界面,而是它把产品重心进一步从“你在代码里逐行写”转向“你在多个代理之间分配任务、审阅结果、决定合并”。这不是体验层面的修修补补,而是开发工作流角色的变化。 过去大家对 AI IDE 的想象,大多还是更强的补全、更懂项目的对话框、更快的重构建议。到…
Prompt 火起来之后,围绕它的产品也越来越多:Playground、Prompt 管理、评测平台、观测平台、优化框架、自动搜索、提示词市场、模板库,名字听起来都很合理。 问题在于,很多团队买了一圈工具之后才发现,自己真正缺的可能只是一个能对比版本的小后台,或者一组可复跑的测试集,而不是一整套“LLM 平台”。 所以,提示词相关产品最怕的不是不会…
很多人一听“提示词工程”,脑子里想到的还是个人技巧:会不会写模板、会不会下指令、会不会让模型更听话。 这当然是其中一部分,但如果你把 prompt 真正放进产品、工作流或团队协作里,就会很快发现:提示词工程的重点根本不在“写得漂亮”,而在“能不能持续迭代、可验证、可回滚、可协作”。 也就是说,Prompt engineering 一旦进入生产环境,…
很多人第一次把 prompt 用进产品,最先撞上的不是“效果不够惊艳”,而是“效果不够稳定”。同一个 prompt,今天能用,明天就跑偏;一组测试数据表现不错,一到真实用户输入就开始翻车。 这很正常。提示词从来都不是一个“写完就结束”的静态文案,而更像一层概率接口。你想让它更稳,靠的不是神秘技巧,而是更好的结构化设计。 如果只给一句结论,我的判断是…
很多人写 prompt 的方式,本质上不是“设计任务”,而是在“堆要求”。他们会写很多形容词:专业一点、深入一点、像专家一点、清晰一点、详细一点、简洁一点。结果往往是,字数变长了,效果却没有明显变好。 原因很简单:模型更擅长执行清晰任务,不擅长猜测模糊期待。 所以,想写好提示词,第一步不是学华丽模板,而是学会把“我想要什么”拆成模型可执行的说明。真…
过去两年,“提示词”被讲得有点像咒语:有人把它说成一套神秘技巧,仿佛只要背几个模板,就能让模型瞬间变聪明;也有人开始反过来鄙视它,觉得 prompt 只是过渡产物,迟早会被更强的模型吞掉。 这两种看法都不太对。 对普通开发者来说,提示词更准确的理解是:你给模型下达任务时,用来描述目标、上下文、约束和输出要求的接口层。 它不神秘,也不低级。它本质上更…