2026年3月27日Open Source Agents Infrastructure

Voxtral TTS：Mistral发布面向AI智能体的开源语音模型

Mistral于3月26日发布Voxtral TTS，一款开源权重的文本转语音模型，专为驱动语音AI助手和企业客服智能体而设计。该模型支持九种语言，仅需三秒参考音频即可克隆声音。

模型仅有40亿参数，轻量到足以在消费级硬件上运行——现代笔记本电脑、中端桌面GPU，甚至部分高端移动设备在高压缩率下均可使用。它能生成富有情感表现力的语音，跨语言保持口音和语调，且在语言切换时不会丢失声音一致性。

模型既提供API服务（每1000字符0.016美元），也以Creative Commons许可证在Hugging Face上提供开源权重下载。附带多个参考声音供开发者即刻上手。

Voxtral TTS使Mistral直接进入与ElevenLabs、Deepgram和OpenAI在语音AI领域的竞争。开源权重发布意义重大：开发者可以完全在本地运行AI智能体的语音能力，无需将音频数据发送到外部API。

对于智能体生态而言，语音是智能体交互界面的下一个前沿。随着智能体从纯文本交互走向多模态对话，像Voxtral TTS这样轻量级的开源语音模型成为关键基础设施——实现既经济高效又保护隐私的语音智能体。详情见 https://mistral.ai/news/voxtral-tts。

← 上一篇

Gumloop获5000万美元B轮融资，让每位员工都能构建AI智能体

GitHub 每日之星 — 2026年03月28日

← 返回所有文章

加载中...

Voxtral TTS：Mistral发布面向AI智能体的开源语音模型

相关文章

评论