2026年4月9日Research Benchmark Agents

PTE：新指标证明工具调用越多，智能体表现越差

做智能体的人都假设调用越多工具结果越好。中科大的一篇新论文证明了相反的结论：工具使用成本越高的轨迹，推理正确率反而越低。简单地多用工具不会提高答案质量。

论文提出了PTE——预填充Token等价量——一个硬件感知的工具集成推理效率指标。洞察是：现有指标比如token数和工具调用次数完全没抓住智能体真正慢在哪里。当智能体调用外部工具时，会产生一个暂停导致KV-Cache被驱逐，强制重新计算。工具返回的未过滤响应膨胀了缓存，让后续每一步解码都更慢。PTE把这些全部捕获——内部推理成本、外部工具成本、缓存驱逐惩罚——归到一个数字里。

在高并发生产环境中与实际延迟对比验证，PTE的对齐度显著优于标准token计数。作者在五个工具集成推理基准上识别出四种不同的低效模式：冗余工具调用、工具输出过于冗长、不必要的推理循环、过早的工具调用。

反直觉的发现才是重点。智能体应该激进地使用所有可用工具这个假设是错的。最好的智能体轨迹是那些精准调用工具的——正确的工具、正确的时机、正确的查询。代码已开源。

https://github.com/sqs-ustc/tool-reasoning-framework-PTE

← 上一篇

TUI-use：让AI智能体操作交互式终端程序

灵感雷达: April 09, 2026

← 返回所有文章

加载中...

PTE：新指标证明工具调用越多，智能体表现越差

相关文章

评论