我为什么越来越不相信“编码代理看起来不错”这种评估,真正有用的是技能级评测

我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事:要么演示做得顺,要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后,问题不是它能不能偶尔写出一段对的代码,而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。

OpenAI 在 2026 年初公开的《Testing Agent Skills Systematically with Evals》很值得开发者重视。它的价值不是再告诉你“要做评测”,而是把评测粒度往下压了一层:不要只评模型输出,要评技能本身。这个转向我很认同,因为编码代理真正可维护的部分,往往不是模型参数,而是你给它封装出来的工作流、skill、资源文件和执行约束。

为什么“看起来不错”很危险

很多团队测编码代理,做法其实很像试玩:给它一个任务,看它能不能改对。这个方法的问题很明显。你看到的是一次结果,看不到的是:

  • 它是不是走了不该走的路径;
  • 它是不是读了太多无关文件;
  • 它是不是用了成本过高的工具组合;
  • 它这次成功只是碰巧,还是流程本身已经稳定。

编码代理最容易制造的一种错觉,就是“最后 diff 看上去没问题”。但真实开发里,最终结果只是成本的一部分。另一个更大的成本,是为了得到这份结果,系统到底绕了多少弯、制造了多少噪音、留下了多少下次还会复发的不确定性。

为什么我更看重技能级评测

因为技能级评测更接近真实维护对象。模型升级通常不是你能控制的,但技能、流程和 harness 是你自己的资产。只要你把高频任务抽成 skill,真正该问的问题就变成了:

  • 这个 skill 在同类任务上成功率多高;
  • 失败时最常见的原因是什么;
  • 每次运行平均要读多少文件、调多少工具、花多少轮;
  • 升级 skill 之后,是变稳了,还是只是变复杂了。

这类问题一旦开始被量化,你对编码代理的判断就会从“主观印象”转向“工程资产质量”。这才是我觉得评测真正有价值的地方。

skill: fix-failing-tests
dataset:
  - case: missing import after refactor
  - case: flaky assertion under retry path
  - case: wrong fixture scope
metrics:
  - task_success
  - files_touched
  - tool_calls
  - reviewer_edits_after_agent
  - rerun_success

上面这个结构不复杂,但它已经足够把评测从“它会不会修 bug”变成“它是怎么修 bug 的”。

真正该测的,不只是正确率

很多人一谈评测就想到 pass rate。我觉得这不够。对编码代理来说,至少还有三类指标经常被低估。

  • 路径效率:是不是总要读半个仓库才开始动手;
  • 审阅成本:人类要花多少时间才能确认这次改动可信;
  • 回归稳定性:同一类任务下次再来,会不会犯回同样的错误。

我尤其看重“reviewer_edits_after_agent”这类指标。因为很多代理并不是完全做错,而是做得差一点点,最后还要人花很多时间收尾。这个成本如果不算进去,很容易高估代理的真实价值。

为什么这件事对个人开发者也重要

有些人会觉得,评测是大团队才需要的。我的判断正好相反。个人开发者更该早一点做最小评测,因为你没有多余时间反复踩同一个坑。只要某个任务你一周会交给代理做 3 次以上,它就值得被记录和比较。

你不需要上来就做完整评测平台。一个 CSV、一个小脚本、十几个真实 case,就足够暴露很多问题。最重要的是别只记“成功了几次”,而要记“失败集中在什么模式”“哪种资源文件最有帮助”“哪种提示改动只是增加 token,没有增加稳定性”。

被夸大的地方也要看到

当然,我也不想把评测说成银弹。评测同样有代价:

  • 数据集很容易过拟合你当前的任务习惯;
  • 一些指标好看,不代表在新场景下还成立;
  • 写 graders 和维护 case 本身也要时间;
  • 如果任务边界本来就不清楚,评测会先暴露产品定义问题。

但这恰恰是它值得做的原因。评测不是为了证明系统很好,而是为了尽早让你看到它到底哪里不稳。

如果半天时间只能做一件事

我会选一个最常见的技能,比如“修测试失败”或者“补最小回归测试”,收集 10 个真实 case,固定 skill 说明和资源文件,连续跑两轮。然后只看三件事:成功率、人工收尾时间、重复错误是否下降。

只要这三项开始有记录,你就已经比大多数“感觉它挺好用”的使用方式更接近生产思维了。

我的判断

编码代理接下来真正的护城河,不会只是模型更强,而是有没有把高频任务沉淀成可测、可改、可迭代的技能资产。技能级评测不会让系统自动变好,但它会让你知道哪里值得改、哪里只是幻觉。对个人开发者和小团队来说,我会把这件事列为现在就该投入的工程习惯。别再满足于“演示跑通了”,真正值钱的是“同类任务下周还能稳稳跑通”。

参考来源类型:OpenAI Developers 官方博客与 Cookbook(Testing Agent Skills Systematically with Evals、Agents/Evals 相关 Cookbook)。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇