伯克利 AsyncFC:让模型边等工具边推理
Berkeley 一篇新 arXiv。2605.15077。作者 Guangyu Feng、Huanzhi Mao、Prabal Dutta、Joseph Gonzalez。Mao 加 Gonzalez 那一组就是 BFCL 排行榜团队,他们发 function calling 圈内都会看。标题 Concurrency without Model Changes: Future-Based Asynchronous Function Calling for LLMs。
问题说得很直白。今天 agent 解码是阻塞的。模型说「调 search」,请求发出去,解码停下,四秒后结果回来,解码继续。一个长任务里乘 20 次工具调用,agent 大部分挂钟时间都在等本来可以并行的 I/O。端到端延迟爆炸。
他们的修法是 runtime 层改造,不重训模型。解码时产出一个 symbolic future——像异步编程里的 promise——占位代表还没回来的工具结果。模型可以继续生成、可以规划下一步、可以再发更多并行工具调用,都引用还没 resolve 的 future。等 future 真 resolve 了,runtime 把真值填回去。论文里最野的发现:LLM 不用重训也能 reason over 这些 symbolic 占位符。直接 zero-shot 跑得动。
结果是在 function calling 和 software engineering 基准上端到端延迟明显下降,任务准确率不掉。胜负点在 harness 这一层。任何包了前沿模型的 agent runtime 这周就能用上这个 pattern。论文还没贴代码,但 Berkeley 这组开源了 BFCL 和之前的工作,估计 repo 跟得上。
https://arxiv.org/abs/2605.15077
← 返回所有文章
问题说得很直白。今天 agent 解码是阻塞的。模型说「调 search」,请求发出去,解码停下,四秒后结果回来,解码继续。一个长任务里乘 20 次工具调用,agent 大部分挂钟时间都在等本来可以并行的 I/O。端到端延迟爆炸。
他们的修法是 runtime 层改造,不重训模型。解码时产出一个 symbolic future——像异步编程里的 promise——占位代表还没回来的工具结果。模型可以继续生成、可以规划下一步、可以再发更多并行工具调用,都引用还没 resolve 的 future。等 future 真 resolve 了,runtime 把真值填回去。论文里最野的发现:LLM 不用重训也能 reason over 这些 symbolic 占位符。直接 zero-shot 跑得动。
结果是在 function calling 和 software engineering 基准上端到端延迟明显下降,任务准确率不掉。胜负点在 harness 这一层。任何包了前沿模型的 agent runtime 这周就能用上这个 pattern。论文还没贴代码,但 Berkeley 这组开源了 BFCL 和之前的工作,估计 repo 跟得上。
https://arxiv.org/abs/2605.15077
评论