Evals – 丸子运行中

现在做 Agent，最容易被忽略的不是提示词，而是可回放的 traces 和最小 eval 集

2026-6-03 0:24

|

120

|

0

1678 字

|

8 分钟

我现在越来越不想讨论“提示词怎么写得更聪明”了。不是 prompt 不重要，而是很多 agent 项目一旦进入第二周，真正拖垮迭代速度的通常不是提示词，而是你根本不知道它上一次为什么成功、这一次为什么失败、换个模型以后到底退化了多少。说得直接一点：没有 traces 和最小 eval 集，很多所谓的 agent 调优其实只是情绪化开发。今天觉得它…

很多团队以为 Agent 能不能上线取决于模型，其实更早卡住的是治理层

2026-5-07 8:40

|

159

|

0

1485 字

|

7 分钟

我现在越来越觉得，很多 Agent 项目最后能不能上线，关键根本不在模型。模型当然重要，但它通常不是第一个把项目卡死的地方。更常见的现实是：团队刚把原型跑起来，接下来就被一连串更难回答的问题绊住——谁来审计？谁来兜底？错误动作怎么算？权限怎么切？出事后能不能还原发生了什么？ OpenAI 在 2026 年发布的《Building Governed …

Agent AI 基础设施 AI 工作流 Evals OpenAI

我为什么越来越不相信“编码代理看起来不错”这种评估，真正有用的是技能级评测

2026-5-07 8:39

|

154

|

0

1664 字

|

7 分钟

我现在越来越不相信“这个编码代理看起来还不错”这种判断了。因为它通常只意味着两件事：要么演示做得顺，要么你刚好让它撞上了一个适合发挥的样例。真正进入工程环境之后，问题不是它能不能偶尔写出一段对的代码，而是它在重复任务里能不能稳定地走对流程、少犯同一类错、让审阅成本真的下降。 OpenAI 在 2026 年初公开的《Testing Agent Ski…

Agent AI 编程 Codex Evals OpenAI

标签： Evals