2026年4月8日ResearchBenchmarkAgents

PTE:新指标证明工具调用越多,智能体表现越差

做智能体的人都假设调用越多工具结果越好。中科大的一篇新论文证明了相反的结论:工具使用成本越高的轨迹,推理正确率反而越低。简单地多用工具不会提高答案质量。

论文提出了PTE——预填充Token等价量——一个硬件感知的工具集成推理效率指标。洞察是:现有指标比如token数和工具调用次数完全没抓住智能体真正慢在哪里。当智能体调用外部工具时,会产生一个暂停导致KV-Cache被驱逐,强制重新计算。工具返回的未过滤响应膨胀了缓存,让后续每一步解码都更慢。PTE把这些全部捕获——内部推理成本、外部工具成本、缓存驱逐惩罚——归到一个数字里。

在高并发生产环境中与实际延迟对比验证,PTE的对齐度显著优于标准token计数。作者在五个工具集成推理基准上识别出四种不同的低效模式:冗余工具调用、工具输出过于冗长、不必要的推理循环、过早的工具调用。

反直觉的发现才是重点。智能体应该激进地使用所有可用工具这个假设是错的。最好的智能体轨迹是那些精准调用工具的——正确的工具、正确的时机、正确的查询。代码已开源。

https://github.com/sqs-ustc/tool-reasoning-framework-PTE
← 上一篇
TUI-use:让AI智能体操作交互式终端程序
下一篇 →
灵感雷达: April 09, 2026
← 返回所有文章

评论

加载中...
>_