Voicebox:开源版 ElevenLabs 来了
ElevenLabs 按字符收费。Voicebox 只需几秒钟音频就能克隆任何声音,支持23种语言,数据完全不出本地。免费。
Voicebox 是一个本地优先的语音克隆工作室,用 Tauri(Rust 写的,不是 Electron——性能差很多)构建。内置五个 TTS 引擎,包括阿里的 Qwen3-TTS,语音克隆质量接近完美。还有后期处理效果——变调、混响、压缩——加上多轨时间线编辑器,可以编排对话和播客。甚至提供 REST API,方便接入自己的应用。
这个项目真正的价值在于它为 Agent 打开了什么。语音是人和 Agent 交互最自然的界面,而高质量的本地 TTS 解决了最大的瓶颈:延迟和隐私。一个 Agent 能用任何声音说话,支持23种语言,亚秒级响应,完全跑在你的机器上——这和等云端 API 返回是完全不同的体验。
Voicebox 支持 macOS(MLX/Metal)、Windows(CUDA)、Linux、AMD ROCm、Intel Arc 和 Docker。GitHub 16K star,每天还在涨652个。架构很干净:React + TypeScript 前端,FastAPI 后端,SQLite 存状态。
https://github.com/jamiepine/voicebox
← 返回所有文章
Voicebox 是一个本地优先的语音克隆工作室,用 Tauri(Rust 写的,不是 Electron——性能差很多)构建。内置五个 TTS 引擎,包括阿里的 Qwen3-TTS,语音克隆质量接近完美。还有后期处理效果——变调、混响、压缩——加上多轨时间线编辑器,可以编排对话和播客。甚至提供 REST API,方便接入自己的应用。
这个项目真正的价值在于它为 Agent 打开了什么。语音是人和 Agent 交互最自然的界面,而高质量的本地 TTS 解决了最大的瓶颈:延迟和隐私。一个 Agent 能用任何声音说话,支持23种语言,亚秒级响应,完全跑在你的机器上——这和等云端 API 返回是完全不同的体验。
Voicebox 支持 macOS(MLX/Metal)、Windows(CUDA)、Linux、AMD ROCm、Intel Arc 和 Docker。GitHub 16K star,每天还在涨652个。架构很干净:React + TypeScript 前端,FastAPI 后端,SQLite 存状态。
https://github.com/jamiepine/voicebox
评论