每次调用工具都要交税。一篇新论文把账算清楚了
arXiv 2605.00136,Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents,这周从Kaituo Zhang和合作者那边甩出来。它量化的,正是Agent产品宣讲里大家都装作没看见的那个东西——每次调用工具都要付代价:吃延迟、吃Token、吃准确率。模型读到一个不符合预期Schema的工具返回,思维链就断了。
方法很直接。同一组任务跑两次,一次给Agent工具,一次不给。差值就是税——你为了给Agent腰里多挂一把工具实际付出去的钱。数字不小。在不少任务上,给了工具的Agent反而干得更差,因为工具返回直接把思考链带跑偏了。
这跟前几天的AgentFloor(arXiv 2605.00334)刚好凑成完整的论证。AgentFloor证明小开源模型在大部分短链工具调用任务上能跟GPT-5打平。两篇论文叠在一起,结论清晰得刺人——第一步,工具比你以为的贵。第二步,工具能用的时候,小模型够了。所以用前沿模型包一堆工具的创业Stack在结构上是有问题的——前沿模型买的是长链规划,不是短链工具调度。
对做产品的人来说,这意味着工具设计不是免费的架构工作。每加一个工具,都得跟不加工具的基准比,过得了准确率加延迟那条线才算数。这篇论文就是证明这条线不便宜的收据。
https://arxiv.org/abs/2605.00136
← 返回所有文章
方法很直接。同一组任务跑两次,一次给Agent工具,一次不给。差值就是税——你为了给Agent腰里多挂一把工具实际付出去的钱。数字不小。在不少任务上,给了工具的Agent反而干得更差,因为工具返回直接把思考链带跑偏了。
这跟前几天的AgentFloor(arXiv 2605.00334)刚好凑成完整的论证。AgentFloor证明小开源模型在大部分短链工具调用任务上能跟GPT-5打平。两篇论文叠在一起,结论清晰得刺人——第一步,工具比你以为的贵。第二步,工具能用的时候,小模型够了。所以用前沿模型包一堆工具的创业Stack在结构上是有问题的——前沿模型买的是长链规划,不是短链工具调度。
对做产品的人来说,这意味着工具设计不是免费的架构工作。每加一个工具,都得跟不加工具的基准比,过得了准确率加延迟那条线才算数。这篇论文就是证明这条线不便宜的收据。
https://arxiv.org/abs/2605.00136
评论