2026年3月27日Open SourceAgentsInfrastructure

Voxtral TTS:Mistral发布面向AI智能体的开源语音模型

Mistral于3月26日发布Voxtral TTS,一款开源权重的文本转语音模型,专为驱动语音AI助手和企业客服智能体而设计。该模型支持九种语言,仅需三秒参考音频即可克隆声音。

模型仅有40亿参数,轻量到足以在消费级硬件上运行——现代笔记本电脑、中端桌面GPU,甚至部分高端移动设备在高压缩率下均可使用。它能生成富有情感表现力的语音,跨语言保持口音和语调,且在语言切换时不会丢失声音一致性。

模型既提供API服务(每1000字符0.016美元),也以Creative Commons许可证在Hugging Face上提供开源权重下载。附带多个参考声音供开发者即刻上手。

Voxtral TTS使Mistral直接进入与ElevenLabs、Deepgram和OpenAI在语音AI领域的竞争。开源权重发布意义重大:开发者可以完全在本地运行AI智能体的语音能力,无需将音频数据发送到外部API。

对于智能体生态而言,语音是智能体交互界面的下一个前沿。随着智能体从纯文本交互走向多模态对话,像Voxtral TTS这样轻量级的开源语音模型成为关键基础设施——实现既经济高效又保护隐私的语音智能体。详情见 https://mistral.ai/news/voxtral-tts。
← 上一篇
Gumloop获5000万美元B轮融资,让每位员工都能构建AI智能体
下一篇 →
GitHub 每日之星 — 2026年03月28日
← 返回所有文章

评论

加载中...
>_