Responses API 的新变化说明了一件事:Agent 应用的瓶颈正在从“会不会调用工具”转向“调用得贵不贵”

很多开发者第一次做 Agent 应用时,关心的是模型能不能调用工具。等真正上线以后,问题会变成另一个更朴素的版本:它调用得贵不贵,慢不慢,稳不稳。

OpenAI 最近在 Responses API 上提到几个值得注意的方向:工具搜索、长上下文压缩、计算机使用工具,以及通过 WebSocket 优化 agent 工作流的延迟。表面看是 API 功能更新,实际上暴露的是 Agent 应用进入生产环境后绕不开的基础设施问题。

工具越多,问题不一定越少

早期 Agent demo 喜欢把几十个工具塞给模型,仿佛工具越多,能力越强。但在真实系统里,工具列表本身会占上下文,工具描述会影响缓存命中,错误工具会制造无效调用,权限边界也会变复杂。

工具搜索这个方向值得关注,因为它承认了一个现实:模型不应该每次都背着完整工具箱上路。更合理的做法,是让模型在运行时发现和选择需要的工具,把大工具面延迟到真正需要时再展开。

长上下文不是万能药

1M token 上下文听起来很诱人,但个人开发者不能把它理解成“以后不用整理上下文了”。长上下文解决的是容量问题,不自动解决相关性问题。把一堆日志、文档、代码、聊天记录全部塞进去,模型依然可能被噪声拖慢,甚至做出错误判断。

更有价值的是压缩和上下文管理:哪些信息保留,哪些信息丢弃,哪些信息转成结构化状态。Agent 应用的长期运行,本质上需要记忆管理,而不是无限制堆 token。

小团队应该怎么做

对小团队和个人开发者来说,现在不必急着追逐所有新 API。更应该先建立几个底层习惯:记录每次工具调用的输入输出,统计 token 和延迟,给高风险工具加审批,把上下文构造逻辑从业务代码里拆出来。

如果一个 Agent 应用无法解释“为什么这次调用花了这么久、为什么用了这个工具、为什么上下文里有这些内容”,它就还不适合承担关键任务。

我的判断是:未来 Agent 应用的竞争,不只是模型能力竞争,而是调用链路治理能力竞争。会写 prompt 的人很多,能把工具、上下文、延迟、成本和权限管住的人会更稀缺。

参考:OpenAI API Changelog、OpenAI《Speeding up agentic workflows with WebSockets》。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇