Parlor:你的MacBook现在是一个实时多模态Agent
Google发布Gemma 4 E2B。两天后,有人用它搭了一个完全本地运行的多模态AI——能看、能听、能说话,全程跑在MacBook Pro上。
Parlor的概念极其简单:打开浏览器标签页,授权摄像头和麦克风,然后开始说话。AI看着你的摄像头画面,听你说话,同时处理两种输入,用合成语音回应你。没有云端,没有API密钥,没有服务器成本。一切都在你的机器上运行。
技术栈是三个模型协同工作。Gemma 4 E2B通过LiteRT-LM处理语音理解和视觉。Kokoro负责文本转语音(macOS上用MLX,Linux上用ONNX)。Silero VAD在浏览器里做语音活动检测。FastAPI服务器通过WebSocket把一切串起来。
性能数据:在M3 Pro上,语音和视觉处理需要1.8-2.2秒,响应生成约0.3秒,TTS再花0.3-0.7秒。端到端延迟2.5-3.0秒。不算即时,但完全可以对话。你甚至可以在AI说话时打断它。
整套系统大约2.6GB的Gemma模型加TTS模型。Python 3.12,Apache 2.0许可证。一天内304颗星,已经有26个fork。
说白了这件事的意义在于:半年前,在本地跑一个多模态agent是个研究课题。现在是一个周末项目。云端和本地agent能力的差距正在以超出所有人预期的速度缩小。每一台Apple Silicon的Mac都在变成agent运行时,Parlor是目前最清晰的证明。
https://github.com/fikrikarim/parlor
← 返回所有文章
Parlor的概念极其简单:打开浏览器标签页,授权摄像头和麦克风,然后开始说话。AI看着你的摄像头画面,听你说话,同时处理两种输入,用合成语音回应你。没有云端,没有API密钥,没有服务器成本。一切都在你的机器上运行。
技术栈是三个模型协同工作。Gemma 4 E2B通过LiteRT-LM处理语音理解和视觉。Kokoro负责文本转语音(macOS上用MLX,Linux上用ONNX)。Silero VAD在浏览器里做语音活动检测。FastAPI服务器通过WebSocket把一切串起来。
性能数据:在M3 Pro上,语音和视觉处理需要1.8-2.2秒,响应生成约0.3秒,TTS再花0.3-0.7秒。端到端延迟2.5-3.0秒。不算即时,但完全可以对话。你甚至可以在AI说话时打断它。
整套系统大约2.6GB的Gemma模型加TTS模型。Python 3.12,Apache 2.0许可证。一天内304颗星,已经有26个fork。
说白了这件事的意义在于:半年前,在本地跑一个多模态agent是个研究课题。现在是一个周末项目。云端和本地agent能力的差距正在以超出所有人预期的速度缩小。每一台Apple Silicon的Mac都在变成agent运行时,Parlor是目前最清晰的证明。
https://github.com/fikrikarim/parlor
评论