01熟悉的场景THE FAMILIAR SCENE
想让 AI 帮你跑个脚本、装个依赖,手停在"允许"按钮上:它会不会删错目录?会不会把什么东西传出去?给它开全权,心里发毛;每一步都点确认,跟自己干没区别。
这个纠结不是多虑。它是 Agent 从"会说"走向"会做"、再到循环里没有人(F-001 的第三、四级)之后,行业正在正面解的题。而解法的主流形态,是一个很老的工程思想:与其管住它的手,不如管住它待的地方。
02房间这个比喻THE ROOM
F-006 讲过三层缰绳:给什么工具、每个工具能到哪、什么动作要过人。但那三层管的是工具和流程,之下还有一层更底的问题——它执行代码的那个环境,本身能碰到什么?工具清单说"你可以跑代码",没有回答"跑代码的地方连着你的家目录吗"。
请陌生师傅来家里干活,你不会把全屋钥匙交出去,而是给他一间专门的工作间:需要的材料搬进去,干完活成品拿出来,中间他在里面怎么折腾都行。沙箱就是给 Agent 的这间房——一个隔离出来的执行环境,里面自由,墙外碰不到。
这个比喻里藏着信任模型的转变,也是这份底稿最想留下的一句话:对 Agent 的信任,不该建立在"它不会犯错"上——模型总会犯错——该建立在"它犯错也出不了这间房"上。前者赌的是概率,后者靠的是结构。
03三面墙与一扇门WALLS AND A DOOR
图 F-012 · 沙箱的三面墙与一扇门(示意)
一间够用的房,三面墙各管一类后果:
文件墙。它能读、能写哪些目录,管的是"删错东西、看到不该看的东西"。最好的形态是用完即弃——房间是快照,干完活整间拆掉,下次给新的。
网络墙。它能连哪些地址,管的是两个方向的风险——里面的数据被带出去,外面的指令被塞进来。全放开和全禁止都省事,难的是中间那条按需开口的线。
资源墙。CPU、内存、时长的上限,管的是"跑飞"——F-001 说过循环本身需要缰绳,也说过"一个不会停的 Agent 比一个不会做的 Agent 危险得多",资源墙是后一句在执行层的兜底。
还有一扇门。成品要经过确认才拿出房间。这正是 F-001 循环图里那道"人工确认门"在沙箱场景的落点——沙箱管住过程的风险,门管住结果的风险,两个缺一不可:房间再严实,把错误的成品直接部署出去,墙就白砌了。
04为什么大家都在砌墙WHY WALLS, WHY NOW
从公开信息看,这段时间云厂商在开源 Agent 沙箱方案,创业公司把"隔离执行环境"本身做成了产品。是不是已经"标配"还要再观察,但方向不难理解:Agent 要进严肃场景,第一道被问的不再是"它多聪明",而是"它出事怎么办"——权限问题没有工程解法,采购就没法签字(这背后是 N-011 讲的责任结构)。
对学生,这件事有两层意思。往小说,你本机跑 Agent,最朴素的沙箱今天就能有:单独的工作目录、容器或虚拟机(一间现成的"房间")、重要数据只读挂载——哪怕只是"别让它在家目录裸奔",也是同一个思想的第一步。往大说,隔离与权限正在从安全团队的专业领域,变成 Agent 工程的入门常识——学它不是为了做安全,是为了让你做的 Agent 有资格被信任。
05连回判断TO THE NOTES
这间房在站内有完整的上下文:工具层的缰绳(能调什么),见 F-006;循环为什么需要门,见 F-001;边界不清的 Agent 项目为什么容易失败——权限、异常、审核、日志和回退被省略的代价,见 N-006;再往上一层,谁签字、谁负责、谁留证据,见 N-011 责任结构的重写——房间,说到底是责任结构落在执行层的物理形态。
底稿负责把房间画出来;给不给钥匙、门槛设在哪,判断在笔记里。
06自测清单SELF CHECK
- 让 AI 跑代码之前,说得出它此刻能碰到哪些文件吗?
- 你的 Agent 工作目录,和你的重要数据隔开了吗?
- 三面墙——文件、网络、资源——你现在的设置各在哪一面开着口?
- 看到"全自动 Agent"的演示,会先问一句它跑在什么隔离里吗?
- 能向别人解释"信任它不犯错"和"犯错也出不了房间"的区别吗?