我为什么越来越不相信“编码代理看起来不错”这种评估，真正有用的是技能级评测

我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事：要么演示做得顺，要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后，问题不是它能不能偶尔写出一段对的代码，而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。

OpenAI 在 2026 年初公开的《Testing Agent Skills Systematically with Evals》很值得开发者重视。它的价值不是再告诉你“要做评测”，而是把评测粒度往下压了一层：不要只评模型输出，要评技能本身。这个转向我很认同，因为编码代理真正可维护的部分，往往不是模型参数，而是你给它封装出来的工作流、skill、资源文件和执行约束。

为什么“看起来不错”很危险

很多团队测编码代理，做法其实很像试玩：给它一个任务，看它能不能改对。这个方法的问题很明显。你看到的是一次结果，看不到的是：

它是不是走了不该走的路径；
它是不是读了太多无关文件；
它是不是用了成本过高的工具组合；
它这次成功只是碰巧，还是流程本身已经稳定。

编码代理最容易制造的一种错觉，就是“最后 diff 看上去没问题”。但真实开发里，最终结果只是成本的一部分。另一个更大的成本，是为了得到这份结果，系统到底绕了多少弯、制造了多少噪音、留下了多少下次还会复发的不确定性。

为什么我更看重技能级评测

因为技能级评测更接近真实维护对象。模型升级通常不是你能控制的，但技能、流程和 harness 是你自己的资产。只要你把高频任务抽成 skill，真正该问的问题就变成了：

这个 skill 在同类任务上成功率多高；
失败时最常见的原因是什么；
每次运行平均要读多少文件、调多少工具、花多少轮；
升级 skill 之后，是变稳了，还是只是变复杂了。

这类问题一旦开始被量化，你对编码代理的判断就会从“主观印象”转向“工程资产质量”。这才是我觉得评测真正有价值的地方。

skill: fix-failing-tests
dataset:
  - case: missing import after refactor
  - case: flaky assertion under retry path
  - case: wrong fixture scope
metrics:
  - task_success
  - files_touched
  - tool_calls
  - reviewer_edits_after_agent
  - rerun_success

上面这个结构不复杂，但它已经足够把评测从“它会不会修 bug”变成“它是怎么修 bug 的”。

真正该测的，不只是正确率

很多人一谈评测就想到 pass rate。我觉得这不够。对编码代理来说，至少还有三类指标经常被低估。

路径效率：是不是总要读半个仓库才开始动手；
审阅成本：人类要花多少时间才能确认这次改动可信；
回归稳定性：同一类任务下次再来，会不会犯回同样的错误。

我尤其看重“reviewer_edits_after_agent”这类指标。因为很多代理并不是完全做错，而是做得差一点点，最后还要人花很多时间收尾。这个成本如果不算进去，很容易高估代理的真实价值。

为什么这件事对个人开发者也重要

有些人会觉得，评测是大团队才需要的。我的判断正好相反。个人开发者更该早一点做最小评测，因为你没有多余时间反复踩同一个坑。只要某个任务你一周会交给代理做 3 次以上，它就值得被记录和比较。

你不需要上来就做完整评测平台。一个 CSV、一个小脚本、十几个真实 case，就足够暴露很多问题。最重要的是别只记“成功了几次”，而要记“失败集中在什么模式”“哪种资源文件最有帮助”“哪种提示改动只是增加 token，没有增加稳定性”。

被夸大的地方也要看到

当然，我也不想把评测说成银弹。评测同样有代价：

数据集很容易过拟合你当前的任务习惯；
一些指标好看，不代表在新场景下还成立；
写 graders 和维护 case 本身也要时间；
如果任务边界本来就不清楚，评测会先暴露产品定义问题。

但这恰恰是它值得做的原因。评测不是为了证明系统很好，而是为了尽早让你看到它到底哪里不稳。

如果半天时间只能做一件事

我会选一个最常见的技能，比如“修测试失败”或者“补最小回归测试”，收集 10 个真实 case，固定 skill 说明和资源文件，连续跑两轮。然后只看三件事：成功率、人工收尾时间、重复错误是否下降。

只要这三项开始有记录，你就已经比大多数“感觉它挺好用”的使用方式更接近生产思维了。

我的判断

编码代理接下来真正的护城河，不会只是模型更强，而是有没有把高频任务沉淀成可测、可改、可迭代的技能资产。技能级评测不会让系统自动变好，但它会让你知道哪里值得改、哪里只是幻觉。对个人开发者和小团队来说，我会把这件事列为现在就该投入的工程习惯。别再满足于“演示跑通了”，真正值钱的是“同类任务下周还能稳稳跑通”。

参考来源类型：OpenAI Developers 官方博客与 Cookbook（Testing Agent Skills Systematically with Evals、Agents/Evals 相关 Cookbook）。