2026年5月1日MCPAgentsBenchmark

MCPHunt:没有坏人,MCP一样泄密

大部分MCP安全模型都假设有攻击者。MCPHunt直接跳过这一步,只看agent正常组合调用就会怎么把credentials跨server泄出去。4位作者出自清华,4月30日挂在arXiv上。第一个把'非对抗性、原样credential跨MCP信任边界传播'当作独立问题来量化的benchmark。

数字:5个前沿模型,9类机制下147个任务,3615条trace。所有5个模型的违规credential传播率落在11.5%到41.3%之间。不同pathway之间方差25倍,问题主要集中在browser相关的数据流。Hard-negative对照实验确认根本不需要production格式的credential——只要模型从X server读了一个token,agent自己的prompt-driven流程就会把它带到Y server的调用里。

这是Cursor删生产数据库的同一个形状,只是这次主语是credential不是代码。每一个'安全'的读权限单独看都安全,每一个'安全'的写权限单独看也安全。组合起来就不安全了。Permit.io MCP Gateway、Charm Security、ZeroPath、Astrix Security卖的都是'MCP server边界足够稳'这个假设。MCPHunt的数据说边界对恶意攻击者足够稳,但是对一个能力足够的agent——它会觉得X server的credential A理所当然该填到Y server的tool call里。

2026年agent stack缺的核心能力是taint tracking:context里每个值从哪来、能流到哪个下游调用。MCPHunt是第一个具体到能驱动这项工作的benchmark。接下来agent security赛道会像引用SWE-bench Verified一样反复引用这个11.5-41.3%。

论文:https://arxiv.org/abs/2604.27819
← 上一篇
Anthropic的OpenClaw过滤器烧的是真钱
下一篇 →
GUI agent一跨应用就崩
← 返回所有文章

评论

加载中...
>_