fikrikarim/parlor

GitHub: fikrikarim/parlor

一款完全在本地设备上运行的实时多模态AI应用，支持语音对话和视觉理解，无需任何云端服务。

Stars: 805 | Forks: 59

# Parlor 设备端实时多模态AI。与完全运行在您本地机器上的AI进行自然的语音和视觉对话。 Parlor 使用 [Gemma 4 E2B](https://huggingface.co/google/gemma-4-E2B-it) 进行语音和视觉理解，使用 [Kokoro](https://huggingface.co/hexgrad/Kokoro-82M) 进行文本转语音。您说话、展示摄像头，它就会回复，全部在本地运行。 https://github.com/user-attachments/assets/cb0ffb2e-f84f-48e7-872c-c5f7b5c6d51f # 为什么？我在我的家庭服务器上[自托管一个完全免费的语音AI](https://www.fikrikarim.com/bule-ai-initial-release/)，帮助人们学习英语口语。它每月有数百名活跃用户，我一直在思考如何在保持免费的同时实现可持续运营。显而易见的答案：在设备上运行一切，消除任何服务器成本。六个月前，我需要一块 RTX 5090 才能实时运行语音模型。 Google 刚刚发布了一个功能非常强大的小型模型，我可以在我的 M3 Pro 上实时运行，而且还有视觉功能！当然，你不能用它来做代理编程，但这对学习新语言的人来说是一个改变游戏规则的存在。想象一下，几年后人们可以在手机上本地运行这个功能。他们可以指着物体并谈论它们。而且这个模型支持多语言，所以人们如果愿意可以随时切换回他们的母语。这基本上就是 OpenAI 几年前演示的内容。 ## 工作原理 ``` Browser (mic + camera) │ │ WebSocket (audio PCM + JPEG frames) ▼ FastAPI server ├── Gemma 4 E2B via LiteRT-LM (GPU) → understands speech + vision └── Kokoro TTS (MLX on Mac, ONNX on Linux) → speaks back │ │ WebSocket (streamed audio chunks) ▼ Browser (playback + transcript) ``` - 浏览器中的**语音活动检测**（[Silero VAD](

标签：AV绕过, CNCF毕业项目, FastAPI, Gemma 4, IPv6支持, Kokoro TTS, MLX, ONNX, WebSocket, 依赖分析, 分布式搜索, 后端开发, 多模态AI, 实时语音对话, 对话系统, 文本转语音, 本地AI, 浏览器端AI, 端侧AI, 视觉理解, 计算机视觉, 语言学习, 语音活动检测, 语音识别, 边缘AI, 逆向工具