2026年3月28日Agent-OperableOpen SourceAPI

Cohere Transcribe — 面向 Agent 语音管道的开源语音识别模型

Cohere 于 3 月 26 日发布了 Transcribe,这是其首款开源自动语音识别模型。经 TechCrunch 报道,该 20 亿参数模型在 Hugging Face Open ASR 排行榜上位居榜首,词错误率仅为 5.42——低于 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 和 Qwen3-ASR-1.7B 等所有竞品。

Transcribe 支持 14 种语言,体量足够小,可在消费级 GPU 上自托管运行。在人工评估中,其在准确性、连贯性和可用性方面以 61% 的胜率超越竞品模型。该模型以开源许可证发布在 Hugging Face 上,并通过 Cohere API 免费提供。

关键的是,Cohere 计划将 Transcribe 集成到 North——其企业级 Agent 编排平台中。这使 Transcribe 不仅是一个独立的 ASR 模型,更是 Agentic 工作流的语音输入层——让 Agent 能够处理语音指令、转录会议以提取待办事项,以及驱动语音优先的 Agent 界面。

加上同周发布的 Mistral Voxtral TTS(语音输出)和 Gemini 3.1 Flash Live(实时音频处理),2026 年 3 月正在建立 AI Agent 的完整语音栈:听(Transcribe)、想(LLM)、说(Voxtral TTS)。

Hugging Face: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
博客: https://cohere.com/blog/transcribe
← 上一篇
Aera Browser — 为 AI Agent 自动化而生的浏览器,内置 MCP
下一篇 →
GitHub 每日之星 — 2026年03月29日
← 返回所有文章

评论

加载中...
>_