fikrikarim/parlor
GitHub: fikrikarim/parlor
一款完全在本地设备上运行的实时多模态AI应用,支持语音对话和视觉理解,无需任何云端服务。
Stars: 805 | Forks: 59
# Parlor
设备端实时多模态AI。与完全运行在您本地机器上的AI进行自然的语音和视觉对话。
Parlor 使用 [Gemma 4 E2B](https://huggingface.co/google/gemma-4-E2B-it) 进行语音和视觉理解,使用 [Kokoro](https://huggingface.co/hexgrad/Kokoro-82M) 进行文本转语音。您说话、展示摄像头,它就会回复,全部在本地运行。
https://github.com/user-attachments/assets/cb0ffb2e-f84f-48e7-872c-c5f7b5c6d51f
# 为什么?
我在我的家庭服务器上[自托管一个完全免费的语音AI](https://www.fikrikarim.com/bule-ai-initial-release/),帮助人们学习英语口语。它每月有数百名活跃用户,我一直在思考如何在保持免费的同时实现可持续运营。
显而易见的答案:在设备上运行一切,消除任何服务器成本。六个月前,我需要一块 RTX 5090 才能实时运行语音模型。
Google 刚刚发布了一个功能非常强大的小型模型,我可以在我的 M3 Pro 上实时运行,而且还有视觉功能!当然,你不能用它来做代理编程,但这对学习新语言的人来说是一个改变游戏规则的存在。想象一下,几年后人们可以在手机上本地运行这个功能。他们可以指着物体并谈论它们。而且这个模型支持多语言,所以人们如果愿意可以随时切换回他们的母语。这基本上就是 OpenAI 几年前演示的内容。
## 工作原理
```
Browser (mic + camera)
│
│ WebSocket (audio PCM + JPEG frames)
▼
FastAPI server
├── Gemma 4 E2B via LiteRT-LM (GPU) → understands speech + vision
└── Kokoro TTS (MLX on Mac, ONNX on Linux) → speaks back
│
│ WebSocket (streamed audio chunks)
▼
Browser (playback + transcript)
```
- 浏览器中的**语音活动检测**([Silero VAD](
标签:AV绕过, CNCF毕业项目, FastAPI, Gemma 4, IPv6支持, Kokoro TTS, MLX, ONNX, WebSocket, 依赖分析, 分布式搜索, 后端开发, 多模态AI, 实时语音对话, 对话系统, 文本转语音, 本地AI, 浏览器端AI, 端侧AI, 视觉理解, 计算机视觉, 语言学习, 语音活动检测, 语音识别, 边缘AI, 逆向工具