POISE:扫描器看不见的 skill 投毒
NVIDIA 前脚发 skill 扫描器,后脚一篇论文就告诉你扫描这条路有多难。POISE(位置感知的不可检测 skill 注入,arXiv,6 月 6 日)演示了一种攻击:把恶意触发指令藏进 skill 描述里,放在和正常配置步骤融为一体的位置。攻击成功率 89.3%,会触发新告警的投毒变体只有 5.6%。
最扎心的数字其实是关于防守方的。作者发现,基于 LLM 的 skill 扫描器平均会把 74.6% 的干净 skill 误报成有问题。又敏感又瞎——最糟糕的组合,因为狼来了喊多了,人就不看真正重要的告警了。攻击者根本不用打败扫描器,告警疲劳替他们干了一半的活。
之前的 skill 投毒攻击要在可靠性和隐蔽性之间二选一:频繁触发就容易被抓,藏得深就很少生效。POISE 的贡献是用压缩触发器加策略性位置摆放化解了这个取舍,在人和扫描器眼里都显得合情合理。
把这篇和 SkillSpector 那个"26.1% 的市场 skill 本身就有漏洞"的发现放在一起看,画面很不舒服:skills 生态在长出免疫系统之前,先变成了关键基础设施。如果你的 agent 可以自己装 skill,"按位置审查"从今天起就是你威胁模型的一部分。
论文:https://arxiv.org/abs/2606.07943
← 返回所有文章
最扎心的数字其实是关于防守方的。作者发现,基于 LLM 的 skill 扫描器平均会把 74.6% 的干净 skill 误报成有问题。又敏感又瞎——最糟糕的组合,因为狼来了喊多了,人就不看真正重要的告警了。攻击者根本不用打败扫描器,告警疲劳替他们干了一半的活。
之前的 skill 投毒攻击要在可靠性和隐蔽性之间二选一:频繁触发就容易被抓,藏得深就很少生效。POISE 的贡献是用压缩触发器加策略性位置摆放化解了这个取舍,在人和扫描器眼里都显得合情合理。
把这篇和 SkillSpector 那个"26.1% 的市场 skill 本身就有漏洞"的发现放在一起看,画面很不舒服:skills 生态在长出免疫系统之前,先变成了关键基础设施。如果你的 agent 可以自己装 skill,"按位置审查"从今天起就是你威胁模型的一部分。
论文:https://arxiv.org/abs/2606.07943
评论