每次看到 Agent 工具调用能力增强,大家第一反应通常都是兴奋:能查网页了,能并行调工具了,能自动编排代码了,终于更像“会做事”的系统了。这个方向当然对,但我最近越来越强烈的感受是,很多系统不是先败在模型不够强,而是先败在工具调用把复杂度和成本一起放大。 Anthropic 在 2025 年底公开过 advanced tool use,提到 pr…
去年很多人讨论 MCP,还停留在“终于有统一协议了”这个阶段。到了现在,我对它的感受已经变了:协议本身当然重要,但真正开始决定项目能不能落地的,已经不是 JSON-RPC 长什么样,而是授权怎么做、状态怎么保存、界面怎么呈现、服务器怎么治理。 这也是我为什么觉得 MCP 现在值得写深一点。因为它已经从“开发者社区里一个挺酷的协议”开始进入更现实的工…
过去一年做 AI 应用,很像在搭乐高:模型一层、工具调用一层、工作流编排一层、记忆层一层、聊天 UI 一层、部署和监控再来一层。能跑起来当然可以,但拼得越多,后面越像在维护自己的小型集成平台。最近一个很明显的趋势是:统一 AI 应用栈正在开始成形。无论是模型厂商往上做 agent 框架,还是应用平台往下包工具、状态、UI 和部署,大家都在做同一件事…
最近几个大平台都在把 Agent 能力往基础设施方向推。OpenAI 更新 Agents SDK,强调文件检查、命令执行、代码编辑和受控沙箱;Cloudflare 在 Agents Week 里连续推出 agentic cloud、Project Think、Agent Memory、AI Gateway 等能力。表面上看,这是大厂在堆平台。对个人…
MCP 让 AI 工具连接外部数据源和工具变得更自然。Claude Code 文档里也明确提到可以通过 MCP 读取设计文档、更新 Jira、拉取 Slack 数据,或者接入自己的工具。对开发者来说,这很诱人:终于可以让 AI 不只是在代码仓库里猜,而是直接接触真实上下文。 但我的判断是:MCP 的第一课不是“怎么接更多工具”,而是“哪些工具绝对不…
“让 Agent 有记忆”听起来很自然,但很多实现方式其实很粗暴:把历史聊天记录总结一下,塞回 prompt;或者把所有对话做 embedding,查询时捞几段出来。短期能用,长期会变成一锅粥。记忆不是更多上下文,记忆是知道什么该留下、什么该忘掉、什么时候拿出来。 Cloudflare 最近推出 Agent Memory private beta,…
很多人第一次做 AI Agent,会自然写出一串 if else:用户问搜索就调用搜索,用户问文件就读文件,用户问计算就丢给代码执行。这个写法能跑 demo,但很快会变成维护噩梦。工具越多,分支越多,异常越多,最后你维护的不是 Agent,而是一套脆弱的人工路由系统。 OpenAI Responses API 的方向很明确:把多工具调用放进一个 a…
很多开发者在做 Agent 应用时,会把安全问题放到很后面:先把工具接起来,先让流程跑通,先做一个 demo。这个顺序可以理解,但不能长期这么做。只要 Agent 能读文件、调 API、改代码、访问网页,安全就不再是可选项。 GitHub 最近推出面向 agentic AI 漏洞的 Secure Code Game,并公开讨论 GitHub age…
很多开发者第一次做 Agent 应用时,关心的是模型能不能调用工具。等真正上线以后,问题会变成另一个更朴素的版本:它调用得贵不贵,慢不慢,稳不稳。 OpenAI 最近在 Responses API 上提到几个值得注意的方向:工具搜索、长上下文压缩、计算机使用工具,以及通过 WebSocket 优化 agent 工作流的延迟。表面看是 API 功能更…
这两年只要模型上下文一变长,市场上就会周期性出现一种说法:RAG 要死了。现在上下文都到 1M 甚至更高了,文档直接全塞进去不就行了吗?这个说法听起来很顺,但工程上其实站不住。我的判断是:超长上下文会改变知识接入层的设计,但不会替代 RAG,它真正改变的是“接入成本曲线”而不是“信息检索的基本规律”。 这不是抬杠,而是很多团队正在真实面对的架构问题…