2026年5月14日Agents Benchmark Research

EVA-Bench 给语音 agent 搭了第一个真正的端到端评测

EVA-Bench 论文（arXiv 2605.13841，HuggingFace 114 个赞）是语音 agent 赛道里第一个真正的端到端评测框架。多作者团队，里面有 Tara Bogavelli、Gabrielle Gauthier Melançon、Hari Subramani——从署名模式看大概率是 Mila 或者 Cohere 系。

创新点是用机器人对机器人的语音对话来跑动态多轮场景。所以不是拿固定话术跟 ASR 准确率去测语音 agent，而是让语音 agent 跟模拟来电方在受控场景里对话，从两个维度打分——EVA-A 看任务准确率，EVA-X 看体验质量。213 个企业级场景做底座，加上口音跟噪声扰动下的鲁棒性测试。

核心数字很残酷。测试里没有一个系统能在两个指标上同时跑过 0.5。峰值表现跟可靠表现的中位数差距 0.44。口音跟噪声扰动暴露出来的弱点是按结构性分布的，在脚本化轮次测试里完全看不到。2026 年的语音 agent 在单条 happy path 上还行，其它地方一抓一大把不稳定。

为什么重要——Vapi 刚拿 $5000 万 B 轮、$5 亿投后估值，主要是因为接下了 Amazon Ring 100% 的入站语音流量。ElevenLabs $110 亿估值。语音 agent 融资是企业 AI 这两个季度最热的子赛道。EVA-Bench 是第一个让买方能脱离厂商 demo 来选型的基准。预期它会变成语音版的 SWE-Bench，就像 SWE-Bench 变成 coding agent 的参照系一样。完整框架、套件、数据都会开源。论文是 arXiv 2605.13841。

← 上一篇

新论文叫 memory agent 别再「整合」记忆了

超级用户日报: 2026-05-15

← 返回所有文章

加载中...

EVA-Bench 给语音 agent 搭了第一个真正的端到端评测

相关文章

评论