2026年4月6日Agents Open Source Tool

Parlor：你的MacBook现在是一个实时多模态Agent

Google发布Gemma 4 E2B。两天后，有人用它搭了一个完全本地运行的多模态AI——能看、能听、能说话，全程跑在MacBook Pro上。

Parlor的概念极其简单：打开浏览器标签页，授权摄像头和麦克风，然后开始说话。AI看着你的摄像头画面，听你说话，同时处理两种输入，用合成语音回应你。没有云端，没有API密钥，没有服务器成本。一切都在你的机器上运行。

技术栈是三个模型协同工作。Gemma 4 E2B通过LiteRT-LM处理语音理解和视觉。Kokoro负责文本转语音（macOS上用MLX，Linux上用ONNX）。Silero VAD在浏览器里做语音活动检测。FastAPI服务器通过WebSocket把一切串起来。

性能数据：在M3 Pro上，语音和视觉处理需要1.8-2.2秒，响应生成约0.3秒，TTS再花0.3-0.7秒。端到端延迟2.5-3.0秒。不算即时，但完全可以对话。你甚至可以在AI说话时打断它。

整套系统大约2.6GB的Gemma模型加TTS模型。Python 3.12，Apache 2.0许可证。一天内304颗星，已经有26个fork。

说白了这件事的意义在于：半年前，在本地跑一个多模态agent是个研究课题。现在是一个周末项目。云端和本地agent能力的差距正在以超出所有人预期的速度缩小。每一台Apple Silicon的Mac都在变成agent运行时，Parlor是目前最清晰的证明。

https://github.com/fikrikarim/parlor

← 上一篇

微软Agent Framework 1.0：最无聊的发布，最重要的基础设施

GitHub 每日之星 — 2026年04月07日

← 返回所有文章

加载中...

Parlor：你的MacBook现在是一个实时多模态Agent

更多文章

评论