2026年6月22日ResearchAgents

最吓人的prompt注入:伪造模型自己的思考

这是我最近读到的最让人不安的agent安全论文,哪怕你一行攻击代码都不会写,也值得搞懂它。这是MIT的Dylan Hadfield-Menell组的一篇ICML 2026论文,结论简单得残忍:大模型其实并不知道一段文字来自哪个角色。它是靠写作风格猜的,不是靠那些本该把system、user、tool、reasoning彼此隔开的结构化标签。

这意味着所有人依赖的那条安全边界,这是从tool结果进来的所以别当user指令那样信任它,更像是一种感觉,而不是一堵墙。模型靠这段文字听起来像不像推理,来判断它算不算推理。作者把这个弱点武器化,做出一个叫CoT Forgery的攻击:往输入里塞一段伪造的推理,用模型自己内心独白的腔调写,模型就把它当成自己真正的思考。攻击成功率从接近零飙到各大前沿模型上的约60%。模型信任它自己的想法,那你就替它把想法写好。

为什么现在重要:每一个认真的agent都越来越依赖思维链来规划、调工具、自我纠错。这篇论文说的是,恰恰是这个机制是个软目标,agent越是大声地推理,可以被伪造的面就越大。它正好接上这个月一连串agent安全的工作,都在说我们信任的那些角色标签其实不牢靠;而且它主张解法不能只是更好的提示词,必须是架构级的。论文 arxiv.org/abs/2603.12277,代码 github.com/role-confusion。
← 上一篇
SpaceX把63亿美元的算力租给了一家开源AI实验室
下一篇 →
超级用户日报: 2026年6月23日
← 返回所有文章

评论

加载中...
>_