2026年5月16日Research Agents Infrastructure

伯克利 AsyncFC：让模型边等工具边推理

Berkeley 一篇新 arXiv。2605.15077。作者 Guangyu Feng、Huanzhi Mao、Prabal Dutta、Joseph Gonzalez。Mao 加 Gonzalez 那一组就是 BFCL 排行榜团队，他们发 function calling 圈内都会看。标题 Concurrency without Model Changes: Future-Based Asynchronous Function Calling for LLMs。

问题说得很直白。今天 agent 解码是阻塞的。模型说「调 search」，请求发出去，解码停下，四秒后结果回来，解码继续。一个长任务里乘 20 次工具调用，agent 大部分挂钟时间都在等本来可以并行的 I/O。端到端延迟爆炸。

他们的修法是 runtime 层改造，不重训模型。解码时产出一个 symbolic future——像异步编程里的 promise——占位代表还没回来的工具结果。模型可以继续生成、可以规划下一步、可以再发更多并行工具调用，都引用还没 resolve 的 future。等 future 真 resolve 了，runtime 把真值填回去。论文里最野的发现：LLM 不用重训也能 reason over 这些 symbolic 占位符。直接 zero-shot 跑得动。

结果是在 function calling 和 software engineering 基准上端到端延迟明显下降，任务准确率不掉。胜负点在 harness 这一层。任何包了前沿模型的 agent runtime 这周就能用上这个 pattern。论文还没贴代码，但 Berkeley 这组开源了 BFCL 和之前的工作，估计 repo 跟得上。

https://arxiv.org/abs/2605.15077

← 上一篇

delta-Mem：在冻结的大模型上外挂一块 8x8 在线记忆

超级用户日报: 2026-05-17

← 返回所有文章

加载中...

伯克利 AsyncFC：让模型边等工具边推理

更多文章

评论