OPALL

OPALL-F-007 · STUDY · 已整理 ORGANIZED · 前置:F-001 F-006

多 Agent 协作的基本形态

Patterns of multi-agent collaboration

多 Agent 不是"更强的 Agent",是一种组织结构的选择。学它之前先记住一个反直觉的事实:一个 Agent 干不对的事,十个通常干得更乱。

01先问要不要多DO YOU NEED MANY

默认答案是不要。任务能在一个上下文里装下、一个角色能从头干到尾,单 Agent 就是最好的结构:最便宜、最好调试、出了错最容易定位。先把一个跑通,是比"上多 Agent"更成熟的起点。

真正需要"多"的理由只有三类:装不下——任务的材料超过一个上下文能有效处理的量(F-004 讲过,上下文越长越贵越笨);种类杂——进来的任务类型不一,每一类都值得配一个窄工具、专提示词的专家;需要独立性——想要多个不受彼此影响的判断来对冲单点偏见,最典型的是"生成者不该当自己的审校"。

三个理由分别对应三种基本形态:流水线、分诊台、评审团。形态是跟着问题走的,不是跟着流行走的。

流水线 顺序接力 · 各管一段 错误会沿链传递 评审团 任务 评甲 评乙 评丙 汇裁 并行独立 · 用一致性换可信 分诊台 来件 分诊 专甲 专乙 专丙 先分类 · 再派给专门的

图 F-007 · 三种基本协作形态(示意)

02流水线:顺序分工PIPELINE

把任务拆成工序,每个 Agent 负责一段,产物顺流而下:调研的只管调研,起草的拿着调研稿起草,审校的最后把关。和工厂流水线同理——每个工位职责窄,所以可以做得深;每段产物明确,所以可以单独验收。

它的软肋也和工厂一样:上游的错误顺流而下。调研阶段搞错的事实,起草和审校大概率一路放行,因为每个工位只盯自己那一段。所以流水线的关键工程不在各段内部,而在交接处——每段产物要有明确的合格标准,坏件不能流入下一段(N-009 讲长任务系统时,把交接处的检查叫"质量检查点")。

适合流水线的任务特征:工序天然有先后、每段产物可以被检验、整件事一个人(一个 Agent)干会因为战线太长而顾此失彼。

03评审团:并行独立PANEL

让几个 Agent 独立地做同一件事——或者从不同视角审同一个对象——最后汇总。价值不在人多,在独立:彼此不看对方的答案,各自的偏差才不会互相传染,汇总时才有对冲的效果。独立性一旦被破坏(比如后审的看到了先审的结论),评审团就退化成了昂贵的复读机。

一个可以摸到的例子:本站内容发布前的审查就是小评审团——一个视角审"是否符合定位",另一个视角审"是否触碰红线",两份报告独立产出后再汇总裁决。定位问题和红线问题是两类不同的失败,分开审才不会互相迁就——这正是这个结构存在的理由。

评审团有一个常被漏掉的部件:裁决点。意见汇总之后总要有人(或一条明确的规则)拍板,否则"三个评审两个意见"就是新的僵局。裁决点在哪、按什么规则裁,要在设计时定好——这又回到了那个老问题:责任要有落点。

04分诊台:先分类,再分派TRIAGE

一个入口 Agent 只做一件事:判断来的是什么任务,分派给对应的专家 Agent。像医院分诊台——它不治病,但它决定你见哪个科的医生。好处是每个专家可以配窄工具、写专用提示词,小而精(F-006 讲过:按任务配钥匙串,不配万能钥匙)。

它的风险集中在一点:分诊错,全盘错。把报价问题分给了闲聊专家,后面的一切精确都是精确地跑偏。所以分诊台自己需要被单独评测——拿一组已知类型的任务测它的分类准确率,这比测任何一个专家都优先(F-003 的固定题集在这里直接可用)。

三种形态可以组合:分诊台在最前,流水线在各科室内部,关键产出交给评审团把关。组合不是目的,每加一层结构都要能回答"它替我挡住了什么问题"。

05协作的隐藏账单HIDDEN COSTS

多 Agent 的成本不只是"调用次数乘以几"。通信本身是上下文:A 的产出要塞进 B 的输入,转述会丢信息、会放大偏差,链条越长失真越多。排查变难:单 Agent 出错看一条 trace,多 Agent 出错要先弄清"错在哪一棒"——没有逐环节的留痕,多 Agent 系统的失败就是一团迷雾(N-007 讲的 trace 纪律,在这里从重要变成救命)。

所以上多 Agent 之前的自问是:为了对冲的那个问题,值不值得接受成倍的成本和排查复杂度。答案经常是"先不值得"——这不是保守,是把结构的钱花在刀刃上。

06常见误区PITFALLS

把多 Agent 当性能升级。结构弥补不了能力:单 Agent 做不对的任务,多 Agent 只会把错误分布得更广。先让一个做对,再考虑用结构去对冲它偶尔的不稳。

为架构图上多而多。"我们是多 Agent 系统"不是卖点,就像"我们公司有很多部门"不是卖点。评估这类系统,问的还是老三样:每个 Agent 的边界是什么、交接处怎么验收、出错怎么定位。

只设计协作,不设计裁决。谁汇总、谁拍板、谁为最终产出负责——这些问题在人类组织里叫治理,在多 Agent 系统里同样存在,而且同样不会自动解决。

07连回判断TO THE NOTES

交接处的质量门与留痕纪律,见 N-009 长任务系统N-007 trace 与 replay;"先跑通一个,不要先搭平台"的组织版判断,见 N-008 审核闭环;裁决点与责任落点的宏观框架,见 N-011 责任结构的重写;而"责任要有落点"这句话的原始出处,见 N-006 边界不清为什么失败

08自测清单SELF CHECK

  • 能说出"需要多"的三个理由,以及各对应哪种形态吗?
  • 流水线最该防的错误发生在哪里?用什么防?
  • 评审团的价值来自什么?什么情况下它退化成复读机?
  • 为什么分诊台要在所有专家之前先被评测?
  • 看到一个"多 Agent 系统",你会先问哪三个问题?