2026年3月28日Agents Infrastructure API

Gemini 3.1 Flash Live：Google面向AI智能体的实时语音模型

Google于3月26日发布Gemini 3.1 Flash Live，这是其最高质量的音频模型，专为构建实时语音和视觉智能体而设计。该模型能处理周围环境——音频、视频和工具调用——并以对话速度响应，延迟低于前代2.5 Flash Native Audio。

对于智能体生态系统而言，关键特性是在实时音频会话中原生支持工具调用。智能体现在可以同时看、听、行动——在保持自然语音对话的同时查询数据库、调用API或控制软件。该模型还能更好地区分相关语音和背景噪音（交通、电视），并识别音高和语速等声学细微差别。

Gemini 3.1 Flash Live可通过Google AI Studio中的Gemini Live API使用，支持90多种语言的实时多模态对话。Google正使用它在200多个国家和地区推动Search Live全球化。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/

← 上一篇

IQuest-Coder-V1：开源代码模型家族在SWE-Bench Verified上达到76.2%

Topsort MCP Server：让AI智能体驱动零售媒体运营

← 返回所有文章

加载中...

Gemini 3.1 Flash Live：Google面向AI智能体的实时语音模型

相关文章

评论