2026年4月26日Research Benchmark Agents

DIVERT——给OpenAI那场benchmark葬礼配的乐

OpenAI这周告诉全世界别再信SWE-bench Verified的同一周，IBM Research的这篇论文从另一个角度切进来了同一个问题。如果你的benchmark坏了，评测agent最便宜的办法就是用模拟用户去跟它对话。最贵的办法就是用模拟用户对话还把token烧光。

DIVERT是IBM的Itay Nakash、George Kour、Ateret Anaby-Tavor做的，全称Diversity-Induced Evaluation via Branching of Trajectories。当前评测面向客户的LLM agent的标准做法叫linear rollout：模拟一个用户，跑完整段对话，看agent有没有崩。再来一次。再来一次。问题是10次对话里有9次开头都一样、套话一样、前三轮一样，你每次都在为这些重复的轮次付钱。DIVERT换了个做法——snapshot式的、coverage导向的模拟，在决策点branch、把同一个起点出来的对话prefix复用、用diversity作为信号来决定下一步把simulation预算花到哪里。

结论：跟linear rollout相比，每个token发现的failure更多，能暴露failure的任务面也更宽。翻译过来——同样的钱能找出更多agent的bug。再翻译一次——现在生产环境跑的大部分agent eval pipeline都在为重复prefix浪费算力。

它跟SWE-bench那条新闻的呼应才是真正的洞察。当下的eval危机有两面。静态benchmark那一面，你把固定测试集刷饱和、刷污染。动态eval那一面，你花了很多钱拿到了很窄的coverage。OpenAI那条消息杀的是第一面。DIVERT把第二面砍掉大概一个数量级。未来12个月agent eval的故事会是图结构的用户模拟，不是更大的固定榜单。论文在arxiv.org/abs/2604.21480。

← 上一篇

Ace——GitHub赌coding agent需要多人模式

超级用户日报: 2026-04-27

← 返回所有文章

加载中...

DIVERT——给OpenAI那场benchmark葬礼配的乐

更多文章

评论