Gemini 3.1 Flash Live:GoogleがAIエージェント向けリアルタイム音声モデルを発表
Googleは3月26日にGemini 3.1 Flash Liveを発表しました。リアルタイムの音声・ビジョンエージェント構築のために設計された、同社最高品質のオーディオモデルです。音声、映像、ツール呼び出しを処理し、前世代の2.5 Flash Native Audioよりも低レイテンシで会話速度の応答を実現します。
エージェントエコシステムにとって重要な機能は、ライブオーディオセッション中のネイティブツール使用です。エージェントは自然な音声会話を維持しながら、データベースのクエリ、API呼び出し、ソフトウェア制御を同時に行えます。また、交通や テレビなどの背景ノイズから関連する音声をより適切に区別し、ピッチやペースなどの音響的なニュアンスを認識します。
Gemini 3.1 Flash LiveはGoogle AI StudioのGemini Live APIを通じて利用可能で、90以上の言語でリアルタイムマルチモーダル会話をサポートします。Googleはこれを使用して、200以上の国と地域でSearch Liveをグローバル展開しています。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/
← Back to all articles
エージェントエコシステムにとって重要な機能は、ライブオーディオセッション中のネイティブツール使用です。エージェントは自然な音声会話を維持しながら、データベースのクエリ、API呼び出し、ソフトウェア制御を同時に行えます。また、交通や テレビなどの背景ノイズから関連する音声をより適切に区別し、ピッチやペースなどの音響的なニュアンスを認識します。
Gemini 3.1 Flash LiveはGoogle AI StudioのGemini Live APIを通じて利用可能で、90以上の言語でリアルタイムマルチモーダル会話をサポートします。Googleはこれを使用して、200以上の国と地域でSearch Liveをグローバル展開しています。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/
Comments