Cohere Transcribe — エージェント音声パイプライン向けオープンソース音声認識モデル
Cohereが3月26日に初のオープンソース自動音声認識モデル「Transcribe」を発表した。TechCrunchが報じ、Hugging Face Open ASRリーダーボードで首位を獲得。20億パラメータのモデルで、単語誤り率5.42を達成——Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2、Qwen3-ASR-1.7Bなどすべての競合を下回った。
14言語に対応し、コンシューマーグレードGPUでのセルフホスティングに十分なコンパクトさ。人間による評価では、正確性・一貫性・使いやすさにおいて競合モデルに対し61%の勝率を達成した。オープンソースライセンスでHugging Faceに公開され、Cohere APIを通じて無料で利用可能。
重要な点として、CohereはTranscribeをエンタープライズ向けエージェントオーケストレーションプラットフォーム「North」に統合する計画だ。これによりTranscribeは単独のASRモデルにとどまらず、Agenticワークフローの音声入力レイヤーとなる——エージェントが音声指示を処理し、会議を文字起こしてアクションアイテムを抽出し、音声ファーストのエージェントインターフェースを駆動できる。
同週にMistralのVoxtral TTS(音声出力)とGemini 3.1 Flash Live(リアルタイム音声処理)も発表され、2026年3月はAIエージェントの完全な音声スタックを確立しつつある。
Hugging Face: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
ブログ: https://cohere.com/blog/transcribe
← Back to all articles
14言語に対応し、コンシューマーグレードGPUでのセルフホスティングに十分なコンパクトさ。人間による評価では、正確性・一貫性・使いやすさにおいて競合モデルに対し61%の勝率を達成した。オープンソースライセンスでHugging Faceに公開され、Cohere APIを通じて無料で利用可能。
重要な点として、CohereはTranscribeをエンタープライズ向けエージェントオーケストレーションプラットフォーム「North」に統合する計画だ。これによりTranscribeは単独のASRモデルにとどまらず、Agenticワークフローの音声入力レイヤーとなる——エージェントが音声指示を処理し、会議を文字起こしてアクションアイテムを抽出し、音声ファーストのエージェントインターフェースを駆動できる。
同週にMistralのVoxtral TTS(音声出力)とGemini 3.1 Flash Live(リアルタイム音声処理)も発表され、2026年3月はAIエージェントの完全な音声スタックを確立しつつある。
Hugging Face: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
ブログ: https://cohere.com/blog/transcribe
Comments