01熟悉的场景THE FAMILIAR SCENE
改了一句提示词,拿两个例子试了试,输出顺眼多了——"变好了",提交。第二天自己再用,另一类问题的回答明显变差了。回去改,这边修好,那边又坏。
几轮下来,你开始怀疑自己在原地画圈:每次都"感觉变好了",整体却说不清有没有进步。问题不在改的手艺,在你手里没有一把不变的尺子——每次"变好",都是拿新的例子、新的心情量出来的。
02感觉为什么不可靠WHY FEELINGS LIE
三个偏差叠在一起,让"感觉变好了"几乎不构成证据:
输出本身有随机性。同一个问题问两遍,答案就不完全一样。你看到的"变好",可能只是这一次掷骰子掷得好。
你试的是顺手的例子。随手一试,试的多半是心里有底的问题——刁钻的、曾经翻车的,恰恰不在"随手"的范围里。
记忆偏心。改完之后,人倾向于记住成功的那几次,忘掉失败的——不是不诚实,是注意力天然为自己的改动辩护。
F-003 把"验证方式"列为看项目的四样东西之一;轮到自己的项目,验证方式不能是"我感觉"。它需要一个能被别人重复的形态。
03一张不换的考卷A FIXED EXAM
评测(evals)听起来是大厂的事,它的最小形态其实只有三件东西,一个脚本加一个数据文件就装得下:
固定的题。十几二十个真实案例——注意"真实":从你自己的使用记录里挑,而且要把翻过车的案例放进去。翻车案例进考卷,就是最朴素的回归测试:这次修好的东西,下次改动再弄坏,考卷会立刻告诉你。
固定的判卷。每道题事先写清怎么算对。粗分三档就够用:精确匹配(答案唯一)、要点命中(该提到的点提到了没)、人工过目(只留给真没法自动判的)。判卷标准写下来的那一刻,你会发现不少题其实自己都没想清楚什么叫"对"——这本身就是收获。
可重跑。一条命令跑完所有题、出一个分。跑不动全部就跑子集,但必须是"一条命令"——门槛高一点,你就会回到"随手试两个"的老路上。
三件齐了之后,纪律只有一条:考卷不随手换。题一换,前后分数就没法比了。要加题(应该定期加),记下加题的日期,分数曲线在那一天断开重计。
04分数之外看轨迹BEYOND THE SCORE
分数只说"变了",说不出"为什么"。N-007 讲过一个判断:通过率数字会说谎,评测要能被审计——任务、环境、轨迹、产物、验证都留着,才能回答"为什么"。
学生版的做法很轻:每次跑分,把每道题的完整输出存档(标上日期和改动说明)。哪道题从对变错,拿两次的输出对着看,比盯着分数曲线有用得多——你看到的是它在哪一步开始偏的。
最后一个提醒:考卷用久了,会不知不觉只为考卷优化——题库之外的世界并没有变好。解法还是加题:定期把新翻车的案例收进来。题库比手感诚实,但只有不断进新题的题库,才比你诚实。
05连回判断TO THE NOTES
这份底稿补的是 F-003 四样东西里"验证方式"的动手版;它同时给 F-010 的两句追问测试备好了第二句的答案——"怎么知道它对?"从此你手里有一张可以摊开的考卷,而不是一句"我测过"。完整的判断在笔记:为什么评测必须留 trace、能 replay,通过率为什么会说谎,见 N-007 为什么 Coding Agent 评测需要 trace 和 replay。
想看一个照这个思路搭的实物,站内有:P-001 OpenAgent Evaluation Platform——把题、轨迹、判卷、重跑组织成一条可追问的链路,档案页可对照。
底稿负责让你手里有考卷;考卷怎么被别人审计、被别人信,判断在笔记里。
06自测清单SELF CHECK
- 上次"感觉变好了",你试了几个例子?是顺手的,还是刁钻的?
- 手上有一张不换的考卷吗?多少道题?
- 翻过车的案例,进考卷了吗?
- 能一条命令重跑全部题、出一个分吗?
- 某道题从对变错时,你能拿出两次的完整输出对着看吗?