2026年3月28日AgentsInfrastructureAPI

Gemini 3.1 Flash Live:Google面向AI智能体的实时语音模型

Google于3月26日发布Gemini 3.1 Flash Live,这是其最高质量的音频模型,专为构建实时语音和视觉智能体而设计。该模型能处理周围环境——音频、视频和工具调用——并以对话速度响应,延迟低于前代2.5 Flash Native Audio。

对于智能体生态系统而言,关键特性是在实时音频会话中原生支持工具调用。智能体现在可以同时看、听、行动——在保持自然语音对话的同时查询数据库、调用API或控制软件。该模型还能更好地区分相关语音和背景噪音(交通、电视),并识别音高和语速等声学细微差别。

Gemini 3.1 Flash Live可通过Google AI Studio中的Gemini Live API使用,支持90多种语言的实时多模态对话。Google正使用它在200多个国家和地区推动Search Live全球化。

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/
← 上一篇
IQuest-Coder-V1:开源代码模型家族在SWE-Bench Verified上达到76.2%
下一篇 →
Topsort MCP Server:让AI智能体驱动零售媒体运营
← 返回所有文章

评论

加载中...
>_