DIVERT——给OpenAI那场benchmark葬礼配的乐
OpenAI这周告诉全世界别再信SWE-bench Verified的同一周,IBM Research的这篇论文从另一个角度切进来了同一个问题。如果你的benchmark坏了,评测agent最便宜的办法就是用模拟用户去跟它对话。最贵的办法就是用模拟用户对话还把token烧光。
DIVERT是IBM的Itay Nakash、George Kour、Ateret Anaby-Tavor做的,全称Diversity-Induced Evaluation via Branching of Trajectories。当前评测面向客户的LLM agent的标准做法叫linear rollout:模拟一个用户,跑完整段对话,看agent有没有崩。再来一次。再来一次。问题是10次对话里有9次开头都一样、套话一样、前三轮一样,你每次都在为这些重复的轮次付钱。DIVERT换了个做法——snapshot式的、coverage导向的模拟,在决策点branch、把同一个起点出来的对话prefix复用、用diversity作为信号来决定下一步把simulation预算花到哪里。
结论:跟linear rollout相比,每个token发现的failure更多,能暴露failure的任务面也更宽。翻译过来——同样的钱能找出更多agent的bug。再翻译一次——现在生产环境跑的大部分agent eval pipeline都在为重复prefix浪费算力。
它跟SWE-bench那条新闻的呼应才是真正的洞察。当下的eval危机有两面。静态benchmark那一面,你把固定测试集刷饱和、刷污染。动态eval那一面,你花了很多钱拿到了很窄的coverage。OpenAI那条消息杀的是第一面。DIVERT把第二面砍掉大概一个数量级。未来12个月agent eval的故事会是图结构的用户模拟,不是更大的固定榜单。论文在arxiv.org/abs/2604.21480。
← 返回所有文章
DIVERT是IBM的Itay Nakash、George Kour、Ateret Anaby-Tavor做的,全称Diversity-Induced Evaluation via Branching of Trajectories。当前评测面向客户的LLM agent的标准做法叫linear rollout:模拟一个用户,跑完整段对话,看agent有没有崩。再来一次。再来一次。问题是10次对话里有9次开头都一样、套话一样、前三轮一样,你每次都在为这些重复的轮次付钱。DIVERT换了个做法——snapshot式的、coverage导向的模拟,在决策点branch、把同一个起点出来的对话prefix复用、用diversity作为信号来决定下一步把simulation预算花到哪里。
结论:跟linear rollout相比,每个token发现的failure更多,能暴露failure的任务面也更宽。翻译过来——同样的钱能找出更多agent的bug。再翻译一次——现在生产环境跑的大部分agent eval pipeline都在为重复prefix浪费算力。
它跟SWE-bench那条新闻的呼应才是真正的洞察。当下的eval危机有两面。静态benchmark那一面,你把固定测试集刷饱和、刷污染。动态eval那一面,你花了很多钱拿到了很窄的coverage。OpenAI那条消息杀的是第一面。DIVERT把第二面砍掉大概一个数量级。未来12个月agent eval的故事会是图结构的用户模拟,不是更大的固定榜单。论文在arxiv.org/abs/2604.21480。
评论