Agent 的房间：沙箱与权限入门

01熟悉的场景THE FAMILIAR SCENE

想让 AI 帮你跑个脚本、装个依赖，手停在"允许"按钮上：它会不会删错目录？会不会把什么东西传出去？给它开全权，心里发毛；每一步都点确认，跟自己干没区别。

这个纠结不是多虑。它是 Agent 从"会说"走向"会做"、再到循环里没有人（F-001 的第三、四级）之后，行业正在正面解的题。而解法的主流形态，是一个很老的工程思想：与其管住它的手，不如管住它待的地方。

02房间这个比喻THE ROOM

F-006 讲过三层缰绳：给什么工具、每个工具能到哪、什么动作要过人。但那三层管的是工具和流程，之下还有一层更底的问题——它执行代码的那个环境，本身能碰到什么？工具清单说"你可以跑代码"，没有回答"跑代码的地方连着你的家目录吗"。

请陌生师傅来家里干活，你不会把全屋钥匙交出去，而是给他一间专门的工作间：需要的材料搬进去，干完活成品拿出来，中间他在里面怎么折腾都行。沙箱就是给 Agent 的这间房——一个隔离出来的执行环境，里面自由，墙外碰不到。

这个比喻里藏着信任模型的转变，也是这份底稿最想留下的一句话：对 Agent 的信任，不该建立在"它不会犯错"上——模型总会犯错——该建立在"它犯错也出不了这间房"上。前者赌的是概率，后者靠的是结构。

03三面墙与一扇门WALLS AND A DOOR

图 F-012 · 沙箱的三面墙与一扇门（示意）

一间够用的房，三面墙各管一类后果：

文件墙。它能读、能写哪些目录，管的是"删错东西、看到不该看的东西"。最好的形态是用完即弃——房间是快照，干完活整间拆掉，下次给新的。

网络墙。它能连哪些地址，管的是两个方向的风险——里面的数据被带出去，外面的指令被塞进来。全放开和全禁止都省事，难的是中间那条按需开口的线。

资源墙。CPU、内存、时长的上限，管的是"跑飞"——F-001 说过循环本身需要缰绳，也说过"一个不会停的 Agent 比一个不会做的 Agent 危险得多"，资源墙是后一句在执行层的兜底。

还有一扇门。成品要经过确认才拿出房间。这正是 F-001 循环图里那道"人工确认门"在沙箱场景的落点——沙箱管住过程的风险，门管住结果的风险，两个缺一不可：房间再严实，把错误的成品直接部署出去，墙就白砌了。

04为什么大家都在砌墙WHY WALLS, WHY NOW

从公开信息看，这段时间云厂商在开源 Agent 沙箱方案，创业公司把"隔离执行环境"本身做成了产品。是不是已经"标配"还要再观察，但方向不难理解：Agent 要进严肃场景，第一道被问的不再是"它多聪明"，而是"它出事怎么办"——权限问题没有工程解法，采购就没法签字（这背后是 N-011 讲的责任结构）。

对学生，这件事有两层意思。往小说，你本机跑 Agent，最朴素的沙箱今天就能有：单独的工作目录、容器或虚拟机（一间现成的"房间"）、重要数据只读挂载——哪怕只是"别让它在家目录裸奔"，也是同一个思想的第一步。往大说，隔离与权限正在从安全团队的专业领域，变成 Agent 工程的入门常识——学它不是为了做安全，是为了让你做的 Agent 有资格被信任。

05连回判断TO THE NOTES

这间房在站内有完整的上下文：工具层的缰绳（能调什么），见 F-006；循环为什么需要门，见 F-001；边界不清的 Agent 项目为什么容易失败——权限、异常、审核、日志和回退被省略的代价，见 N-006；再往上一层，谁签字、谁负责、谁留证据，见 N-011 责任结构的重写——房间，说到底是责任结构落在执行层的物理形态。

底稿负责把房间画出来；给不给钥匙、门槛设在哪，判断在笔记里。

06自测清单SELF CHECK

让 AI 跑代码之前，说得出它此刻能碰到哪些文件吗？
你的 Agent 工作目录，和你的重要数据隔开了吗？
三面墙——文件、网络、资源——你现在的设置各在哪一面开着口？
看到"全自动 Agent"的演示，会先问一句它跑在什么隔离里吗？
能向别人解释"信任它不犯错"和"犯错也出不了房间"的区别吗？