Responses API 的新变化说明了一件事：Agent 应用的瓶颈正在从“会不会调用工具”转向“调用得贵不贵”

很多开发者第一次做 Agent 应用时，关心的是模型能不能调用工具。等真正上线以后，问题会变成另一个更朴素的版本：它调用得贵不贵，慢不慢，稳不稳。

OpenAI 最近在 Responses API 上提到几个值得注意的方向：工具搜索、长上下文压缩、计算机使用工具，以及通过 WebSocket 优化 agent 工作流的延迟。表面看是 API 功能更新，实际上暴露的是 Agent 应用进入生产环境后绕不开的基础设施问题。

工具越多，问题不一定越少

早期 Agent demo 喜欢把几十个工具塞给模型，仿佛工具越多，能力越强。但在真实系统里，工具列表本身会占上下文，工具描述会影响缓存命中，错误工具会制造无效调用，权限边界也会变复杂。

工具搜索这个方向值得关注，因为它承认了一个现实：模型不应该每次都背着完整工具箱上路。更合理的做法，是让模型在运行时发现和选择需要的工具，把大工具面延迟到真正需要时再展开。

1M token 上下文听起来很诱人，但个人开发者不能把它理解成“以后不用整理上下文了”。长上下文解决的是容量问题，不自动解决相关性问题。把一堆日志、文档、代码、聊天记录全部塞进去，模型依然可能被噪声拖慢，甚至做出错误判断。

更有价值的是压缩和上下文管理：哪些信息保留，哪些信息丢弃，哪些信息转成结构化状态。Agent 应用的长期运行，本质上需要记忆管理，而不是无限制堆 token。

对小团队和个人开发者来说，现在不必急着追逐所有新 API。更应该先建立几个底层习惯：记录每次工具调用的输入输出，统计 token 和延迟，给高风险工具加审批，把上下文构造逻辑从业务代码里拆出来。

如果一个 Agent 应用无法解释“为什么这次调用花了这么久、为什么用了这个工具、为什么上下文里有这些内容”，它就还不适合承担关键任务。

我的判断是：未来 Agent 应用的竞争，不只是模型能力竞争，而是调用链路治理能力竞争。会写 prompt 的人很多，能把工具、上下文、延迟、成本和权限管住的人会更稀缺。

参考：OpenAI API Changelog、OpenAI《Speeding up agentic workflows with WebSockets》。