我现在越来越不太相信很多团队嘴里的“我们已经把经验沉淀成 Skill 了”。不少时候,他们做的事情其实很简单:把原来聊天框里那段已经很长的 system prompt,挪进一个叫 SKILL.md、agent.md、workflow.md 的文件里,然后继续往里面堆规则、堆例外、堆工具说明、堆输出格式,最后给自己一种“我们已经工程化了”的幻觉。 这…
我一开始也觉得,Skill 这套说法多少有点重新发明 prompt。你给模型一段更长的说明,附几份文档,再绑几个工具,不就差不多了吗?后来我看了一圈现在主流产品和文档,发现这件事确实有营销包装,但也不能简单归成“换个名字继续卖提示词”。真正被单独拿出来讲的,不是那一段自然语言本身,而是把一段可重复的做事方法,封装成可调用、可共享、可版本化、可维护的…
我现在越来越觉得,很多 Agent 项目最后能不能上线,关键根本不在模型。模型当然重要,但它通常不是第一个把项目卡死的地方。更常见的现实是:团队刚把原型跑起来,接下来就被一连串更难回答的问题绊住——谁来审计?谁来兜底?错误动作怎么算?权限怎么切?出事后能不能还原发生了什么? OpenAI 在 2026 年发布的《Building Governed …
很多人提到 Agent 记忆,第一反应还是“让它记住用户偏好”或者“跨会话别忘事”。这当然有用,但我现在越来越觉得,这个理解已经不够了。真正决定 Agent 能不能长时间稳定工作、能不能跨多步任务继续推进的,不只是有没有记忆,而是你有没有把记忆和压缩当成一层基础设施来设计。 OpenAI 最新的 Cookbook 已经把 memory 和 comp…
很多人第一次看到 Workspace Agents,会下意识把它理解成“企业版 GPTs”或者“能连更多工具的聊天机器人”。我觉得这个理解太浅了。真正值得开发者关注的,不是它把聊天做得更像助手,而是它开始把团队里原本散落在人脑、文档和口头传承里的流程,收敛成一个可以被共享、重复运行、持续改进的执行单元。 OpenAI 在 2026 年 4 月公布 …
我最近看 A2A 相关资料时,最大的感受不是“多智能体时代来了”,而是另一种更朴素的判断:大家终于开始认真面对一个现实——当 Agent 变多之后,靠私有胶水代码把它们一个个串起来,会很快失控。 Google 在 2025 年公布 Agent2Agent Protocol,到了 2026 年又持续在开发者博客里谈 A2A 1.0、协议生态和与 A2…
很多人第一次用 Agent 产品,会默认把它当成一个聊天界面:我发一句,你回一句,最好几十秒内结束。但只要任务开始碰到搜索、代码执行、远程工具、长链路推理,这种交互模型很快就不够用了。真正的问题不是模型能不能继续想,而是你的产品能不能承受一个任务跑十几分钟、几十分钟,甚至更久。 这就是我最近特别关注 background mode 的原因。Open…
我一开始以为,所谓云端编码代理,只是把 IDE 里的补全和对话面板搬到浏览器里。后来越看越觉得不是这么回事。真正的变化不在“能不能写代码”,而在它开始接管一整段原本需要人类持续盯着的工程流程:拉代码、看上下文、跑命令、修失败、继续尝试、最后给出可审阅结果。 这件事为什么值得单独写?因为它意味着开发者工具正在从“交互式助手”变成“可持续运行的任务执行…
我一开始以为 MCP 最大的问题是协议本身,后来发现不是。协议反而是这件事里最容易的一部分。真正麻烦的,是当你的工具越来越多、模型越来越会主动调用工具之后,谁来决定它能调用什么、在什么上下文里调用、出了问题怎么追。 这也是我现在看 MCP 的核心判断:它当然值得关注,但对开发者来说,真正要投入时间的不是“再接几个 server”,而是尽快把权限边界…
这两个月我越来越确定一件事:Agent 的 memory,正在从“锦上添花的功能点”变成一层真正的基础设施。很多人一提 memory,脑子里想到的还是“让机器人记住用户喜欢什么”。这当然算一种能力,但工程上更重要的,不是它会不会记住一句偏好,而是它能不能在多轮任务、跨会话协作、长周期执行里,维持一个可复用、可检索、可校正的上下文层。为什么现在这件事…