2026年5月1日MCP Agents Benchmark

MCPHunt：没有坏人，MCP一样泄密

大部分MCP安全模型都假设有攻击者。MCPHunt直接跳过这一步，只看agent正常组合调用就会怎么把credentials跨server泄出去。4位作者出自清华，4月30日挂在arXiv上。第一个把'非对抗性、原样credential跨MCP信任边界传播'当作独立问题来量化的benchmark。

数字：5个前沿模型，9类机制下147个任务，3615条trace。所有5个模型的违规credential传播率落在11.5%到41.3%之间。不同pathway之间方差25倍，问题主要集中在browser相关的数据流。Hard-negative对照实验确认根本不需要production格式的credential——只要模型从X server读了一个token，agent自己的prompt-driven流程就会把它带到Y server的调用里。

这是Cursor删生产数据库的同一个形状，只是这次主语是credential不是代码。每一个'安全'的读权限单独看都安全，每一个'安全'的写权限单独看也安全。组合起来就不安全了。Permit.io MCP Gateway、Charm Security、ZeroPath、Astrix Security卖的都是'MCP server边界足够稳'这个假设。MCPHunt的数据说边界对恶意攻击者足够稳，但是对一个能力足够的agent——它会觉得X server的credential A理所当然该填到Y server的tool call里。

2026年agent stack缺的核心能力是taint tracking：context里每个值从哪来、能流到哪个下游调用。MCPHunt是第一个具体到能驱动这项工作的benchmark。接下来agent security赛道会像引用SWE-bench Verified一样反复引用这个11.5-41.3%。

论文：https://arxiv.org/abs/2604.27819

← 上一篇

Anthropic的OpenClaw过滤器烧的是真钱

GUI agent一跨应用就崩

← 返回所有文章

加载中...

MCPHunt：没有坏人，MCP一样泄密

相关文章

评论