OPALL

OPALL-F-005 · STUDY · 已整理 ORGANIZED · 前置:F-001 F-004

提示词、微调与工具:三种改变模型行为的方式

Three levers: prompt, fine-tune, augment

想让模型按你的意思办事,只有三种手段:给它便签、给它参考书、送它去培训。选错顺序,可能多花数倍甚至十倍的钱办同一件事。

01三种手段一张图THE MAP

把模型想成一位新来的能干同事。想让他把活干成你要的样子,办法无非三类:

贴便签——把要求写在任务单上:"用这个格式、注意这三点、参考这个例子"。这就是提示词

给参考书和工具——把资料放他手边(检索增强,F-002 讲过),把系统权限开给他(工具调用,F-001 讲过)。他的脑子没变,但可用的材料和手脚变了。这类统称增强

送去培训——用几百上千个示范例子重新训练他的习惯,从此不用每次叮嘱。这就是微调

三种手段改变的东西不同:便签改变这一次的行为,参考书改变可用的事实,培训改变默认的习惯。分清这个,后面的选择题就简单了。

02提示词:最便宜的杠杆PROMPTING

提示词是三者中几乎零成本、即时生效、随改随撤的手段——所以它永远是第一选项。它的杠杆比多数人以为的大得多——从业者的普遍经验是:生产系统之间的效果差距,大头往往在提示词质量,而不是模型选择。

好提示词没有魔法,只有三件朴素的事:说明(背景、目标、边界写清楚,像给真人同事交代任务那样)、示例(给一两个"照这样做"的样本,比十句形容词管用)、约束(格式、长度、禁止事项,说"不要什么"和说"要什么"同样重要)。

把提示词当成代码对待:放进版本管理、改动要留记录、效果要用固定题集回归(F-003 的第二层评测)。"上次明明好好的"这种玄学,九成是提示词被随手改了又没人记得。

03增强:给资料,不改脑子AUGMENTATION

当问题出在"它不知道"——不知道你的产品资料、今天的库存、内部的规矩——培训解决不了,便签也写不下,正确的手段是增强:检索让它读到该读的,工具让它查到该查的。

一条重要的分界:知识放外面,不放脑子里。资料在外面,改了就能立刻生效、能控制权限、能追查来源(F-002 的秩序问题);硬要通过微调把知识灌进模型,知识一过期就得重新训练,而且你永远说不清某个答案是从哪来的。

04微调:改的是习惯,不是知识FINE-TUNING

微调的正确用途窄得多:让模型稳定地输出某种形态——严格的格式、特定的行文风格、领域的行话口径、大批量重复任务的一致性。一句话:教风格、教格式、教习惯,不教事实。

它的代价也是三者中最重的:要准备成百上千条高质量示范、要花钱训练、效果不满意要重来、模型升级后可能要重做。所以它是最后的手段——当提示词已经写到位、增强已经给到位,输出的"形"还是不稳,才轮到它。

05选择的顺序THE ORDER

默认顺序永远是:提示词 → 增强 → 微调。理由是三条曲线的走向一致——成本从低到高、生效从快到慢、可逆性从强到弱。用可逆的便宜手段逼近目标,剩下的缺口再考虑贵的。

判断口诀:输出不对味(语气/格式/详略),修提示词;输出不知道(缺事实/缺资料),上增强;输出不稳定(提示词写尽了还是时好时坏),才谈微调。

还有一问要先问:这事真需要改模型行为吗?很多"AI 不好用"最后发现是任务没拆清楚——那是流程问题,三种手段都救不了。

06常见误区PITFALLS

一上来就要微调。"我们要训练自己的模型"听起来像认真投入,多数时候是最贵的绕路。先证明提示词和增强真的到顶了,再谈训练。

把微调当知识库。想让模型"记住"公司资料就去微调——方向反了。知识要可更新、可追溯、可控权限,这三样微调全给不了,增强全给得了。

把提示词当一次性工作。写完就不管、谁都能随手改、没有回归测试——然后奇怪系统"越用越差"。提示词是资产,按资产管理。

07连回判断TO THE NOTES

增强路线里"资料有没有资格进系统"的秩序问题,见 N-002;提示词回归测试用的固定题集,见 F-003 第 03 节;三种手段的成本差异背后的物理直觉,见 F-004。若委托方开口就是“要训练自己的模型”,先带对方把这个顺序走一遍——这也是这份底稿最实用的场景。

08自测清单SELF CHECK

  • 能用便签/参考书/培训向非技术者解释三种手段吗?
  • 能说出"不对味/不知道/不稳定"各对应哪种手段吗?
  • 知道为什么知识应该放外面而不是微调进脑子吗?
  • 你的提示词现在有版本管理和回归题集吗?
  • 听到"我们要微调",会先问哪两个问题?