EVA-Bench 给语音 agent 搭了第一个真正的端到端评测
EVA-Bench 论文(arXiv 2605.13841,HuggingFace 114 个赞)是语音 agent 赛道里第一个真正的端到端评测框架。多作者团队,里面有 Tara Bogavelli、Gabrielle Gauthier Melançon、Hari Subramani——从署名模式看大概率是 Mila 或者 Cohere 系。
创新点是用机器人对机器人的语音对话来跑动态多轮场景。所以不是拿固定话术跟 ASR 准确率去测语音 agent,而是让语音 agent 跟模拟来电方在受控场景里对话,从两个维度打分——EVA-A 看任务准确率,EVA-X 看体验质量。213 个企业级场景做底座,加上口音跟噪声扰动下的鲁棒性测试。
核心数字很残酷。测试里没有一个系统能在两个指标上同时跑过 0.5。峰值表现跟可靠表现的中位数差距 0.44。口音跟噪声扰动暴露出来的弱点是按结构性分布的,在脚本化轮次测试里完全看不到。2026 年的语音 agent 在单条 happy path 上还行,其它地方一抓一大把不稳定。
为什么重要——Vapi 刚拿 $5000 万 B 轮、$5 亿投后估值,主要是因为接下了 Amazon Ring 100% 的入站语音流量。ElevenLabs $110 亿估值。语音 agent 融资是企业 AI 这两个季度最热的子赛道。EVA-Bench 是第一个让买方能脱离厂商 demo 来选型的基准。预期它会变成语音版的 SWE-Bench,就像 SWE-Bench 变成 coding agent 的参照系一样。完整框架、套件、数据都会开源。论文是 arXiv 2605.13841。
← 返回所有文章
创新点是用机器人对机器人的语音对话来跑动态多轮场景。所以不是拿固定话术跟 ASR 准确率去测语音 agent,而是让语音 agent 跟模拟来电方在受控场景里对话,从两个维度打分——EVA-A 看任务准确率,EVA-X 看体验质量。213 个企业级场景做底座,加上口音跟噪声扰动下的鲁棒性测试。
核心数字很残酷。测试里没有一个系统能在两个指标上同时跑过 0.5。峰值表现跟可靠表现的中位数差距 0.44。口音跟噪声扰动暴露出来的弱点是按结构性分布的,在脚本化轮次测试里完全看不到。2026 年的语音 agent 在单条 happy path 上还行,其它地方一抓一大把不稳定。
为什么重要——Vapi 刚拿 $5000 万 B 轮、$5 亿投后估值,主要是因为接下了 Amazon Ring 100% 的入站语音流量。ElevenLabs $110 亿估值。语音 agent 融资是企业 AI 这两个季度最热的子赛道。EVA-Bench 是第一个让买方能脱离厂商 demo 来选型的基准。预期它会变成语音版的 SWE-Bench,就像 SWE-Bench 变成 coding agent 的参照系一样。完整框架、套件、数据都会开源。论文是 arXiv 2605.13841。
评论