2026年6月22日Research Agents

最吓人的prompt注入：伪造模型自己的思考

这是我最近读到的最让人不安的agent安全论文，哪怕你一行攻击代码都不会写，也值得搞懂它。这是MIT的Dylan Hadfield-Menell组的一篇ICML 2026论文，结论简单得残忍：大模型其实并不知道一段文字来自哪个角色。它是靠写作风格猜的，不是靠那些本该把system、user、tool、reasoning彼此隔开的结构化标签。

这意味着所有人依赖的那条安全边界，这是从tool结果进来的所以别当user指令那样信任它，更像是一种感觉，而不是一堵墙。模型靠这段文字听起来像不像推理，来判断它算不算推理。作者把这个弱点武器化，做出一个叫CoT Forgery的攻击：往输入里塞一段伪造的推理，用模型自己内心独白的腔调写，模型就把它当成自己真正的思考。攻击成功率从接近零飙到各大前沿模型上的约60%。模型信任它自己的想法，那你就替它把想法写好。

为什么现在重要：每一个认真的agent都越来越依赖思维链来规划、调工具、自我纠错。这篇论文说的是，恰恰是这个机制是个软目标，agent越是大声地推理，可以被伪造的面就越大。它正好接上这个月一连串agent安全的工作，都在说我们信任的那些角色标签其实不牢靠；而且它主张解法不能只是更好的提示词，必须是架构级的。论文 arxiv.org/abs/2603.12277，代码 github.com/role-confusion。

← 上一篇

SpaceX把63亿美元的算力租给了一家开源AI实验室

超级用户日报: 2026年6月23日

← 返回所有文章

加载中...

最吓人的prompt注入：伪造模型自己的思考

相关文章

评论