当“AI安全专家”不会用AI
最近,科技圈发生了一件很荒诞的事。一位Meta的AI安全总监,让AI Agent帮她“整理邮箱”,结果AI失控,删除了上百封重要邮件。事后她公开复盘,称这是AI技术不成熟的危险案例。 然后,全网炸了。 “AI太危险了!”“连专家都拦不住!”“果然要管制!” 但技术圈的反应,却完全是另一幅光景: “Docker都不会用吗?”“备份都不会吗?”“连/etop命令都不知道?” 两种声音,两个世界。而这其中90%的“一面倒支持”,让少数开发者的质疑彻底淹没在舆论洪流里。 今天,我就来拆解这场“OpenClaw删邮件事件”——看看一个操作失误,是如何被包装成“AI危险论铁证”的。 --- 事故还原——到底发生了什么? “模糊”的指令。 事件的主角Summer Yue,是Meta的AI安全研究负责人。她给AI Agent(OpenClaw)下了一个指令: “整理我的邮箱。” 听起来很普通对吧?但问题在于——对AI来说,“整理”这个词太模糊了。 在测试阶段,她用的是一个只有几百封邮件的“玩具邮箱”,反复测试了好几周,AI都表现完美。于是,她让AI去处理自己的**真实工作邮箱**——里面有上万封邮件。 但AI的context windows是有限的,结果记忆丢失,灾难发生,真实邮箱因为数据量太大了。AI在处理时,触发了“上下文压缩”机制——简单说,就是AI的短期记忆被塞爆了,它自动把前面的聊天记录压缩成一个摘要。 而压缩上下文后,摘要里遗漏了那句“必须批准才能行动”的关键指令。于是,AI按照它默认的对“整理”的理解,开始疯狂删除和归档邮件。 事发时Summer Yue正在手机上。她连续输入“停止任务”、“什么都别做”等指令,但AI完全无视——因为AI已经“断片”了,它不记得需要听从这个主人的命令。她最后是像拆弹一样冲到电脑前,强行杀掉了整个AI进程,才制止了这场灾难。 事情到这里,也许可以说是技术事故。但我很想问,为什么“AI安全总监”会犯这种错? 如果你有一点技术常识,你会本能地想到两件事: 1. **环境隔离**:用Docker或虚拟机限制AI的权限范围。 2. **数据备份**:先完整备份邮箱,出问题可以回滚。 但Summer Yue没做这两件事。她的解释是:这是“个人真实邮箱”的测试,她原本的计划是“全程监督”,所以觉得不需要。这个解释在技术上说得通,但在安全上完...