01先问要不要多DO YOU NEED MANY
默认答案是不要。任务能在一个上下文里装下、一个角色能从头干到尾,单 Agent 就是最好的结构:最便宜、最好调试、出了错最容易定位。先把一个跑通,是比"上多 Agent"更成熟的起点。
真正需要"多"的理由只有三类:装不下——任务的材料超过一个上下文能有效处理的量(F-004 讲过,上下文越长越贵越笨);种类杂——进来的任务类型不一,每一类都值得配一个窄工具、专提示词的专家;需要独立性——想要多个不受彼此影响的判断来对冲单点偏见,最典型的是"生成者不该当自己的审校"。
三个理由分别对应三种基本形态:流水线、分诊台、评审团。形态是跟着问题走的,不是跟着流行走的。
图 F-007 · 三种基本协作形态(示意)
02流水线:顺序分工PIPELINE
把任务拆成工序,每个 Agent 负责一段,产物顺流而下:调研的只管调研,起草的拿着调研稿起草,审校的最后把关。和工厂流水线同理——每个工位职责窄,所以可以做得深;每段产物明确,所以可以单独验收。
它的软肋也和工厂一样:上游的错误顺流而下。调研阶段搞错的事实,起草和审校大概率一路放行,因为每个工位只盯自己那一段。所以流水线的关键工程不在各段内部,而在交接处——每段产物要有明确的合格标准,坏件不能流入下一段(N-009 讲长任务系统时,把交接处的检查叫"质量检查点")。
适合流水线的任务特征:工序天然有先后、每段产物可以被检验、整件事一个人(一个 Agent)干会因为战线太长而顾此失彼。
03评审团:并行独立PANEL
让几个 Agent 独立地做同一件事——或者从不同视角审同一个对象——最后汇总。价值不在人多,在独立:彼此不看对方的答案,各自的偏差才不会互相传染,汇总时才有对冲的效果。独立性一旦被破坏(比如后审的看到了先审的结论),评审团就退化成了昂贵的复读机。
一个可以摸到的例子:本站内容发布前的审查就是小评审团——一个视角审"是否符合定位",另一个视角审"是否触碰红线",两份报告独立产出后再汇总裁决。定位问题和红线问题是两类不同的失败,分开审才不会互相迁就——这正是这个结构存在的理由。
评审团有一个常被漏掉的部件:裁决点。意见汇总之后总要有人(或一条明确的规则)拍板,否则"三个评审两个意见"就是新的僵局。裁决点在哪、按什么规则裁,要在设计时定好——这又回到了那个老问题:责任要有落点。
04分诊台:先分类,再分派TRIAGE
一个入口 Agent 只做一件事:判断来的是什么任务,分派给对应的专家 Agent。像医院分诊台——它不治病,但它决定你见哪个科的医生。好处是每个专家可以配窄工具、写专用提示词,小而精(F-006 讲过:按任务配钥匙串,不配万能钥匙)。
它的风险集中在一点:分诊错,全盘错。把报价问题分给了闲聊专家,后面的一切精确都是精确地跑偏。所以分诊台自己需要被单独评测——拿一组已知类型的任务测它的分类准确率,这比测任何一个专家都优先(F-003 的固定题集在这里直接可用)。
三种形态可以组合:分诊台在最前,流水线在各科室内部,关键产出交给评审团把关。组合不是目的,每加一层结构都要能回答"它替我挡住了什么问题"。
05协作的隐藏账单HIDDEN COSTS
多 Agent 的成本不只是"调用次数乘以几"。通信本身是上下文:A 的产出要塞进 B 的输入,转述会丢信息、会放大偏差,链条越长失真越多。排查变难:单 Agent 出错看一条 trace,多 Agent 出错要先弄清"错在哪一棒"——没有逐环节的留痕,多 Agent 系统的失败就是一团迷雾(N-007 讲的 trace 纪律,在这里从重要变成救命)。
所以上多 Agent 之前的自问是:为了对冲的那个问题,值不值得接受成倍的成本和排查复杂度。答案经常是"先不值得"——这不是保守,是把结构的钱花在刀刃上。
06常见误区PITFALLS
把多 Agent 当性能升级。结构弥补不了能力:单 Agent 做不对的任务,多 Agent 只会把错误分布得更广。先让一个做对,再考虑用结构去对冲它偶尔的不稳。
为架构图上多而多。"我们是多 Agent 系统"不是卖点,就像"我们公司有很多部门"不是卖点。评估这类系统,问的还是老三样:每个 Agent 的边界是什么、交接处怎么验收、出错怎么定位。
只设计协作,不设计裁决。谁汇总、谁拍板、谁为最终产出负责——这些问题在人类组织里叫治理,在多 Agent 系统里同样存在,而且同样不会自动解决。
07连回判断TO THE NOTES
交接处的质量门与留痕纪律,见 N-009 长任务系统和 N-007 trace 与 replay;"先跑通一个,不要先搭平台"的组织版判断,见 N-008 审核闭环;裁决点与责任落点的宏观框架,见 N-011 责任结构的重写;而"责任要有落点"这句话的原始出处,见 N-006 边界不清为什么失败。
08自测清单SELF CHECK
- 能说出"需要多"的三个理由,以及各对应哪种形态吗?
- 流水线最该防的错误发生在哪里?用什么防?
- 评审团的价值来自什么?什么情况下它退化成复读机?
- 为什么分诊台要在所有专家之前先被评测?
- 看到一个"多 Agent 系统",你会先问哪三个问题?