怎么知道你的 Agent 变好了：评测入门

01熟悉的场景THE FAMILIAR SCENE

改了一句提示词，拿两个例子试了试，输出顺眼多了——"变好了"，提交。第二天自己再用，另一类问题的回答明显变差了。回去改，这边修好，那边又坏。

几轮下来，你开始怀疑自己在原地画圈：每次都"感觉变好了"，整体却说不清有没有进步。问题不在改的手艺，在你手里没有一把不变的尺子——每次"变好"，都是拿新的例子、新的心情量出来的。

02感觉为什么不可靠WHY FEELINGS LIE

三个偏差叠在一起，让"感觉变好了"几乎不构成证据：

输出本身有随机性。同一个问题问两遍，答案就不完全一样。你看到的"变好"，可能只是这一次掷骰子掷得好。

你试的是顺手的例子。随手一试，试的多半是心里有底的问题——刁钻的、曾经翻车的，恰恰不在"随手"的范围里。

记忆偏心。改完之后，人倾向于记住成功的那几次，忘掉失败的——不是不诚实，是注意力天然为自己的改动辩护。

F-003 把"验证方式"列为看项目的四样东西之一；轮到自己的项目，验证方式不能是"我感觉"。它需要一个能被别人重复的形态。

03一张不换的考卷A FIXED EXAM

评测（evals）听起来是大厂的事，它的最小形态其实只有三件东西，一个脚本加一个数据文件就装得下：

固定的题。十几二十个真实案例——注意"真实"：从你自己的使用记录里挑，而且要把翻过车的案例放进去。翻车案例进考卷，就是最朴素的回归测试：这次修好的东西，下次改动再弄坏，考卷会立刻告诉你。

固定的判卷。每道题事先写清怎么算对。粗分三档就够用：精确匹配（答案唯一）、要点命中（该提到的点提到了没）、人工过目（只留给真没法自动判的）。判卷标准写下来的那一刻，你会发现不少题其实自己都没想清楚什么叫"对"——这本身就是收获。

可重跑。一条命令跑完所有题、出一个分。跑不动全部就跑子集，但必须是"一条命令"——门槛高一点，你就会回到"随手试两个"的老路上。

三件齐了之后，纪律只有一条：考卷不随手换。题一换，前后分数就没法比了。要加题（应该定期加），记下加题的日期，分数曲线在那一天断开重计。

04分数之外看轨迹BEYOND THE SCORE

分数只说"变了"，说不出"为什么"。N-007 讲过一个判断：通过率数字会说谎，评测要能被审计——任务、环境、轨迹、产物、验证都留着，才能回答"为什么"。

学生版的做法很轻：每次跑分，把每道题的完整输出存档（标上日期和改动说明）。哪道题从对变错，拿两次的输出对着看，比盯着分数曲线有用得多——你看到的是它在哪一步开始偏的。

最后一个提醒：考卷用久了，会不知不觉只为考卷优化——题库之外的世界并没有变好。解法还是加题：定期把新翻车的案例收进来。题库比手感诚实，但只有不断进新题的题库，才比你诚实。

05连回判断TO THE NOTES

这份底稿补的是 F-003 四样东西里"验证方式"的动手版；它同时给 F-010 的两句追问测试备好了第二句的答案——"怎么知道它对？"从此你手里有一张可以摊开的考卷，而不是一句"我测过"。完整的判断在笔记：为什么评测必须留 trace、能 replay，通过率为什么会说谎，见 N-007 为什么 Coding Agent 评测需要 trace 和 replay。

想看一个照这个思路搭的实物，站内有：P-001 OpenAgent Evaluation Platform——把题、轨迹、判卷、重跑组织成一条可追问的链路，档案页可对照。

底稿负责让你手里有考卷；考卷怎么被别人审计、被别人信，判断在笔记里。

06自测清单SELF CHECK

上次"感觉变好了"，你试了几个例子？是顺手的，还是刁钻的？
手上有一张不换的考卷吗？多少道题？
翻过车的案例，进考卷了吗？
能一条命令重跑全部题、出一个分吗？
某道题从对变错时，你能拿出两次的完整输出对着看吗？