March 28, 2026Agent-Operable Open Source API

Cohere Transcribe — エージェント音声パイプライン向けオープンソース音声認識モデル

Cohereが3月26日に初のオープンソース自動音声認識モデル「Transcribe」を発表した。TechCrunchが報じ、Hugging Face Open ASRリーダーボードで首位を獲得。20億パラメータのモデルで、単語誤り率5.42を達成——Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2、Qwen3-ASR-1.7Bなどすべての競合を下回った。

14言語に対応し、コンシューマーグレードGPUでのセルフホスティングに十分なコンパクトさ。人間による評価では、正確性・一貫性・使いやすさにおいて競合モデルに対し61%の勝率を達成した。オープンソースライセンスでHugging Faceに公開され、Cohere APIを通じて無料で利用可能。

重要な点として、CohereはTranscribeをエンタープライズ向けエージェントオーケストレーションプラットフォーム「North」に統合する計画だ。これによりTranscribeは単独のASRモデルにとどまらず、Agenticワークフローの音声入力レイヤーとなる——エージェントが音声指示を処理し、会議を文字起こしてアクションアイテムを抽出し、音声ファーストのエージェントインターフェースを駆動できる。

同週にMistralのVoxtral TTS（音声出力）とGemini 3.1 Flash Live（リアルタイム音声処理）も発表され、2026年3月はAIエージェントの完全な音声スタックを確立しつつある。

Hugging Face: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
ブログ: https://cohere.com/blog/transcribe

← Previous

Aera Browser — MCP内蔵、AIエージェント自動化のために作られたブラウザ

スーパーユーザーデイリー: 2026-03-29

← Back to all articles

Cohere Transcribe — エージェント音声パイプライン向けオープンソース音声認識モデル

More Articles

Comments