多 Agent 协作的基本形态

01先问要不要多DO YOU NEED MANY

默认答案是不要。任务能在一个上下文里装下、一个角色能从头干到尾，单 Agent 就是最好的结构：最便宜、最好调试、出了错最容易定位。先把一个跑通，是比"上多 Agent"更成熟的起点。

真正需要"多"的理由只有三类：装不下——任务的材料超过一个上下文能有效处理的量（F-004 讲过，上下文越长越贵越笨）；种类杂——进来的任务类型不一，每一类都值得配一个窄工具、专提示词的专家；需要独立性——想要多个不受彼此影响的判断来对冲单点偏见，最典型的是"生成者不该当自己的审校"。

三个理由分别对应三种基本形态：流水线、分诊台、评审团。形态是跟着问题走的，不是跟着流行走的。

图 F-007 · 三种基本协作形态（示意）

02流水线：顺序分工PIPELINE

把任务拆成工序，每个 Agent 负责一段，产物顺流而下：调研的只管调研，起草的拿着调研稿起草，审校的最后把关。和工厂流水线同理——每个工位职责窄，所以可以做得深；每段产物明确，所以可以单独验收。

它的软肋也和工厂一样：上游的错误顺流而下。调研阶段搞错的事实，起草和审校大概率一路放行，因为每个工位只盯自己那一段。所以流水线的关键工程不在各段内部，而在交接处——每段产物要有明确的合格标准，坏件不能流入下一段（N-009 讲长任务系统时，把交接处的检查叫"质量检查点"）。

适合流水线的任务特征：工序天然有先后、每段产物可以被检验、整件事一个人（一个 Agent）干会因为战线太长而顾此失彼。

03评审团：并行独立PANEL

让几个 Agent 独立地做同一件事——或者从不同视角审同一个对象——最后汇总。价值不在人多，在独立：彼此不看对方的答案，各自的偏差才不会互相传染，汇总时才有对冲的效果。独立性一旦被破坏（比如后审的看到了先审的结论），评审团就退化成了昂贵的复读机。

一个可以摸到的例子：本站内容发布前的审查就是小评审团——一个视角审"是否符合定位"，另一个视角审"是否触碰红线"，两份报告独立产出后再汇总裁决。定位问题和红线问题是两类不同的失败，分开审才不会互相迁就——这正是这个结构存在的理由。

评审团有一个常被漏掉的部件：裁决点。意见汇总之后总要有人（或一条明确的规则）拍板，否则"三个评审两个意见"就是新的僵局。裁决点在哪、按什么规则裁，要在设计时定好——这又回到了那个老问题：责任要有落点。

04分诊台：先分类，再分派TRIAGE

一个入口 Agent 只做一件事：判断来的是什么任务，分派给对应的专家 Agent。像医院分诊台——它不治病，但它决定你见哪个科的医生。好处是每个专家可以配窄工具、写专用提示词，小而精（F-006 讲过：按任务配钥匙串，不配万能钥匙）。

它的风险集中在一点：分诊错，全盘错。把报价问题分给了闲聊专家，后面的一切精确都是精确地跑偏。所以分诊台自己需要被单独评测——拿一组已知类型的任务测它的分类准确率，这比测任何一个专家都优先（F-003 的固定题集在这里直接可用）。

三种形态可以组合：分诊台在最前，流水线在各科室内部，关键产出交给评审团把关。组合不是目的，每加一层结构都要能回答"它替我挡住了什么问题"。

05协作的隐藏账单HIDDEN COSTS

多 Agent 的成本不只是"调用次数乘以几"。通信本身是上下文：A 的产出要塞进 B 的输入，转述会丢信息、会放大偏差，链条越长失真越多。排查变难：单 Agent 出错看一条 trace，多 Agent 出错要先弄清"错在哪一棒"——没有逐环节的留痕，多 Agent 系统的失败就是一团迷雾（N-007 讲的 trace 纪律，在这里从重要变成救命）。

所以上多 Agent 之前的自问是：为了对冲的那个问题，值不值得接受成倍的成本和排查复杂度。答案经常是"先不值得"——这不是保守，是把结构的钱花在刀刃上。

06常见误区PITFALLS

把多 Agent 当性能升级。结构弥补不了能力：单 Agent 做不对的任务，多 Agent 只会把错误分布得更广。先让一个做对，再考虑用结构去对冲它偶尔的不稳。

为架构图上多而多。"我们是多 Agent 系统"不是卖点，就像"我们公司有很多部门"不是卖点。评估这类系统，问的还是老三样：每个 Agent 的边界是什么、交接处怎么验收、出错怎么定位。

只设计协作，不设计裁决。谁汇总、谁拍板、谁为最终产出负责——这些问题在人类组织里叫治理，在多 Agent 系统里同样存在，而且同样不会自动解决。

07连回判断TO THE NOTES

交接处的质量门与留痕纪律，见 N-009 长任务系统和 N-007 trace 与 replay；"先跑通一个，不要先搭平台"的组织版判断，见 N-008 审核闭环；裁决点与责任落点的宏观框架，见 N-011 责任结构的重写；而"责任要有落点"这句话的原始出处，见 N-006 边界不清为什么失败。

08自测清单SELF CHECK

能说出"需要多"的三个理由，以及各对应哪种形态吗？
流水线最该防的错误发生在哪里？用什么防？
评审团的价值来自什么？什么情况下它退化成复读机？
为什么分诊台要在所有专家之前先被评测？
看到一个"多 Agent 系统"，你会先问哪三个问题？