2026年4月13日Open SourceInfrastructureTool

Voicebox:开源版 ElevenLabs 来了

ElevenLabs 按字符收费。Voicebox 只需几秒钟音频就能克隆任何声音,支持23种语言,数据完全不出本地。免费。

Voicebox 是一个本地优先的语音克隆工作室,用 Tauri(Rust 写的,不是 Electron——性能差很多)构建。内置五个 TTS 引擎,包括阿里的 Qwen3-TTS,语音克隆质量接近完美。还有后期处理效果——变调、混响、压缩——加上多轨时间线编辑器,可以编排对话和播客。甚至提供 REST API,方便接入自己的应用。

这个项目真正的价值在于它为 Agent 打开了什么。语音是人和 Agent 交互最自然的界面,而高质量的本地 TTS 解决了最大的瓶颈:延迟和隐私。一个 Agent 能用任何声音说话,支持23种语言,亚秒级响应,完全跑在你的机器上——这和等云端 API 返回是完全不同的体验。

Voicebox 支持 macOS(MLX/Metal)、Windows(CUDA)、Linux、AMD ROCm、Intel Arc 和 Docker。GitHub 16K star,每天还在涨652个。架构很干净:React + TypeScript 前端,FastAPI 后端,SQLite 存状态。

https://github.com/jamiepine/voicebox
← 上一篇
GitHub 每日之星 — 2026年04月14日
下一篇 →
ContextPool:让编程 Agent 不再失忆
← 返回所有文章

评论

加载中...
>_