2026年5月4日Research Agents Benchmark

每次调用工具都要交税。一篇新论文把账算清楚了

arXiv 2605.00136，Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents，这周从Kaituo Zhang和合作者那边甩出来。它量化的，正是Agent产品宣讲里大家都装作没看见的那个东西——每次调用工具都要付代价：吃延迟、吃Token、吃准确率。模型读到一个不符合预期Schema的工具返回，思维链就断了。

方法很直接。同一组任务跑两次，一次给Agent工具，一次不给。差值就是税——你为了给Agent腰里多挂一把工具实际付出去的钱。数字不小。在不少任务上，给了工具的Agent反而干得更差，因为工具返回直接把思考链带跑偏了。

这跟前几天的AgentFloor（arXiv 2605.00334）刚好凑成完整的论证。AgentFloor证明小开源模型在大部分短链工具调用任务上能跟GPT-5打平。两篇论文叠在一起，结论清晰得刺人——第一步，工具比你以为的贵。第二步，工具能用的时候，小模型够了。所以用前沿模型包一堆工具的创业Stack在结构上是有问题的——前沿模型买的是长链规划，不是短链工具调度。

对做产品的人来说，这意味着工具设计不是免费的架构工作。每加一个工具，都得跟不加工具的基准比，过得了准确率加延迟那条线才算数。这篇论文就是证明这条线不便宜的收据。

https://arxiv.org/abs/2605.00136

← 上一篇

Anthropic和OpenAI同一天娶了PE

AEM：多轮Agent训练一直缺的那个RL小技巧

← 返回所有文章

加载中...

每次调用工具都要交税。一篇新论文把账算清楚了

相关文章

评论