标签: Evals

3 篇文章

现在做 Agent,最容易被忽略的不是提示词,而是可回放的 traces 和最小 eval 集
我现在越来越不想讨论“提示词怎么写得更聪明”了。不是 prompt 不重要,而是很多 agent 项目一旦进入第二周,真正拖垮迭代速度的通常不是提示词,而是你根本不知道它上一次为什么成功、这一次为什么失败、换个模型以后到底退化了多少。 说得直接一点:没有 traces 和最小 eval 集,很多所谓的 agent 调优其实只是情绪化开发。今天觉得它…
很多团队以为 Agent 能不能上线取决于模型,其实更早卡住的是治理层
我现在越来越觉得,很多 Agent 项目最后能不能上线,关键根本不在模型。模型当然重要,但它通常不是第一个把项目卡死的地方。更常见的现实是:团队刚把原型跑起来,接下来就被一连串更难回答的问题绊住——谁来审计?谁来兜底?错误动作怎么算?权限怎么切?出事后能不能还原发生了什么? OpenAI 在 2026 年发布的《Building Governed …
我为什么越来越不相信“编码代理看起来不错”这种评估,真正有用的是技能级评测
我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事:要么演示做得顺,要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后,问题不是它能不能偶尔写出一段对的代码,而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。 OpenAI 在 2026 年初公开的《Testing Agent Ski…