GetStream/Vision-Agents
GitHub: GetStream/Vision-Agents
一个开源的多模态AI Agent框架,专注于构建能实时观看、聆听和理解视频的智能应用,支持多种模型和视频服务商的超低延迟集成。
Stars: 7078 | Forks: 537
# 通过 Stream 打开 Vision Agents
[](https://github.com/GetStream/Vision-Agents/actions)
[](http://badge.fury.io/py/vision-agents)

[](https://github.com/GetStream/Vision-Agents/blob/main/LICENSE)
[](https://discord.gg/RkhX9PxMS6)
## 构建实时视觉 AI Agent
https://github.com/user-attachments/assets/d9778ab9-938d-4101-8605-ff879c29b0e4
### 能够观看、聆听和理解视频的多模态 AI Agent。
Vision Agents 为您提供了构建模块,可创建由您的模型、您的基础设施和您的用例驱动的智能、低延迟视频体验。
### 主要亮点
- **Video AI:** 为实时 Video AI 而构建。结合 YOLO、Roboflow 以及其他模型与 Gemini/OpenAI 进行实时处理。
- **Low Latency:** 快速加入(500ms)并使用 [Stream 的边缘网络](https://getstream.io/video/)将音频/视频延迟保持在 30ms 以下。
- **Open:** 由 Stream 构建,但适用于任何视频边缘网络。
- **Native APIs:** 来自 OpenAI(`create response`)、Gemini(`generate`)和 Claude(`create message`)的原生 SDK 方法——始终访问最新的 LLM 能力。
- **SDKs:** 适用于 React、Android、iOS、Flutter、React Native 和 Unity 的 SDK,由 Stream 的超低延迟网络提供支持。
https://github.com/user-attachments/assets/d66587ea-7af4-40c4-9966-5c04fbcf467c
## 查看实际应用
### 体育教练
https://github.com/user-attachments/assets/d1258ac2-ca98-4019-80e4-41ec5530117e
此示例向您展示了如何使用 YOLO 和 Gemini Live 构建高尔夫教练 AI。
将快速的对象检测模型(如 YOLO)与完整的实时 AI 结合使用,对于许多不同的 Video AI 用例非常有用。
例如:无人机火灾检测、体育/电子游戏教练、物理治疗、健身教练、just dance 风格的游戏等。
```
# 部分示例,完整示例:examples/02_golf_coach_example/golf_coach_example.py
agent = Agent(
edge=getstream.Edge(),
agent_user=agent_user,
instructions="Read @golf_coach.md",
llm=gemini.Realtime(fps=10),
# llm=openai.Realtime(fps=1), # Careful with FPS can get expensive
processors=[ultralytics.YOLOPoseProcessor(model_path="yolo11n-pose.pt", device="cuda")],
)
```
### 具有 package 盗窃检测功能的安防摄像头
https://github.com/user-attachments/assets/92a2cdd8-909c-46d8-aab7-039a90efc186
此示例展示了一个安防摄像头系统,它可以检测人脸、追踪包裹并检测包裹何时被盗。它会自动生成“通缉”海报,并实时将其发布到 X 上。
它结合了人脸识别、YOLOv11 对象检测、Nano Banana 和 Gemini,实现了带有语音交互的完整安全工作流程。
```
# 部分示例,完整示例:examples/04_security_camera_example/security_camera_example.py
security_processor = SecurityCameraProcessor(
fps=5,
model_path="weights_custom.pt", # YOLOv11 for package detection
package_conf_threshold=0.7,
)
agent = Agent(
edge=getstream.Edge(),
agent_user=User(name="Security AI", id="agent"),
instructions="Read @instructions.md",
processors=[security_processor],
llm=gemini.LLM("gemini-2.5-flash-lite"),
tts=elevenlabs.TTS(),
stt=deepgram.STT(),
)
```
### Cluely 风格的隐形助手(即将推出)
像 Cluely 这样的应用程序通过隐形叠加层提供实时指导。此示例向您展示了如何构建自己的隐形助手。
它结合了 Gemini realtime(用于观看您的屏幕和音频),并且不广播音频(仅文本)。这种方法非常通用,可用于:销售指导、求职面试作弊、现实世界/在职指导(配合眼镜使用)
演示视频
```
agent = Agent(
edge=StreamEdge(), # low latency edge. clients for React, iOS, Android, RN, Flutter etc.
agent_user=agent_user, # the user object for the agent (name, image etc)
instructions="You are silently helping the user pass this interview. See @interview_coach.md",
# gemini realtime, no need to set tts, or sst (though that's also supported)
llm=gemini.Realtime()
)
```
## 快速开始
**步骤 1:通过 uv 安装**
`uv add vision-agents`
**步骤 2:(可选)安装额外的集成**
`uv add "vision-agents[getstream, openai, elevenlabs, deepgram]"`
**步骤 3:获取您的 Stream API 凭证**
从 [Stream](https://getstream.io/) 获取免费的 API 密钥。开发者每月可获得 **333,000 参与者分钟数**,并通过 Maker Program 获得额外积分。
## 功能
| **功能** | **描述** |
|-------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------|
| **通过 WebRTC 实现真正的实时** | 直接流式传输到支持它的模型提供商,以实现即时视觉理解。 |
| **间隔/处理器 Pipeline** | 对于不支持 WebRTC 的提供商,在模型调用之前/之后使用可插拔的视频处理器(例如 YOLO、Roboflow 或自定义 PyTorch/ONNX)处理帧。 |
| **轮流检测与话者分离** | 保持对话自然;知道 Agent 何时应该说话或保持安静,以及谁在说话。 |
| **语音活动检测 (VAD)** | 智能地触发动作并有效地利用资源。 |
| **语音↔文本↔语音** | 启用低延迟循环以实现流畅的对话式语音 UX。 |
| **工具/函数调用** | 在对话中执行任意代码和 API。创建 Linear 工单、查询天气、触发电话或访问内部服务。 |
| **通过 Stream Chat 实现的内置记忆** | Agent 在轮次和会话之间自然地回忆上下文。 |
| **文本后信道** | 在通话期间静默给 Agent 发送消息。 |
| **电话和 RAG** | 使用 Twilio 和 Turbopuffer 通过呼入或呼出电话与 Agent 交互 |
## 开箱即用的集成
| **插件名称** | **描述** | **文档链接** |
|-----------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------|
| AWS Bedrock | 使用 Amazon Nova 模型的实时语音转语音插件,支持自动重连 | [AWS](https://visionagents.ai/integrations/aws-bedrock) |
| AWS Polly | 使用 Amazon 基于云的服务的 TTS 插件,具有自然的声音和神经引擎支持 | [AWS Polly](https://visionagents.ai/integrations/aws-polly) |
| Cartesia | 用于实时语音应用程序中真实语音合成的 TTS 插件 | [Cartesia](https://visionagents.ai/integrations/cartesia) |
| Decart | 实时 AI 视频转换服务,用于将艺术风格和效果应用于视频流 | [Decart](https://visionagents.ai/integrations/decart) |
| Deepgram | STT 插件,用于快速、准确的实时转录和话者分离 | [Deepgram](https://visionagents.ai/integrations/deepgram) |
| ElevenLabs | TTS 插件,为会话 Agent 提供高度逼真和富有表现力的声音 | [ElevenLabs](https://visionagents.ai/integrations/elevenlabs) |
| Fast-Whisper | 使用 OpenAI 的 Whisper 模型和 CTranslate2 进行快速推理的高性能 STT 插件 | [Fast-Whisper](https://visionagents.ai/integrations/fast-whisper) |
| Fish Audio | 具有自动语言检测和声音克隆功能的 STT 和 TTS 插件 | [Fish Audio](https://visionagents.ai/integrations/fish) |
| Gemini | 用于构建会话 Agent 的 Realtime API,支持语音和视频。插件支持 LLM、Gemini Live 以及 Gemini 3 Flash 的 VLM 接口。 | [Gemini](https://visionagents.ai/integrations/gemini) |
| HeyGen | 由 [HeyGen](https://heygen.com/) 驱动的实时交互式虚拟人 | [HeyGen](https://visionagents.ai/integrations/heygen) |
| Hugging Face | LLM 插件,提供访问 Hugging Face Hub 上托管的许多开源语言模型,由外部提供商(Cerebras、Together、Groq 等)提供支持 | [Hugging Face](https://visionagents.ai/integrations/huggingface) |
| Inworld | TTS 插件,为实时会话 AI Agent 提供高质量的流式语音 | [Inworld](https://visionagents.ai/integrations/inworld) |
| Kokoro | 用于离线语音合成的本地 TTS 引擎,具有低延迟 | [Kokoro](https://visionagents.ai/integrations/kokoro) |
| Mistral Voxtral | Mistral Voxtral 是一个具有话者分离功能的实时转录工具。 | [Mistral Voxtral](https://visionagents.ai/integrations/mistral) |
| Moondream | Moondream 提供实时检测和 VLM 能力。开发者可以选择使用托管 API 或在本地 CUDA 设备上运行。Vision Agents 开箱即用地支持 Moondream 的 Detect、Caption 和 VQA 技能。 | [Moondream](https://visionagents.ai/integrations/moondream) |
| NVIDIA Cosmos 2 | 使用 NVIDIA Cosmos 2 模型的 VLM 插件,用于视频理解,具有自动帧缓冲和流式响应 | [NVIDIA](https://visionagents.ai/integrations/nvidia) |
| OpenAI | 用于构建会话 Agent 的 Realtime API,开箱即用地支持通过 WebRTC 直接进行实时视频、LLM 和 Open AI TTS | [OpenAI](https://visionagents.ai/integrations/openai) |
| OpenRouter | LLM 插件,通过统一的 API 提供对多个提供商(Anthropic、Google、OpenAI)的访问 | [OpenRouter](https://visionagents.ai/integrations/openrouter) |
| Qwen | 使用阿里巴巴 Qwen3 的实时音频插件,具有原生音频输出和内置语音识别 | [Qwen](https://visionagents.ai/integrations/qwen) |
| Roboflow | 使用 Roboflow 托管 API 或本地 RF-DETR 模型的对象检测处理器 | [Roboflow](https://visionagents.ai/integrations/roboflow) |
| Smart Turn | 结合 Silero VAD、Whisper 和神经模型的高级轮流检测系统,用于自然对话流程 | [Smart Turn](https://visionagents.ai/integrations/smart-turn) |
| TurboPuffer | 使用 TurboPuffer 进行混合搜索(向量 + BM25)的 RAG 插件,使用 Gemini embeddings 进行检索增强生成 | [TurboPuffer](https://visionagents.ai/guides/rag) |
| Twilio | 语音通话集成插件,通过 Twilio Media Streams 实现双向音频流,具有通话注册和音频转换功能 | [Twilio](https://github.com/GetStream/Vision-Agents/tree/main/examples/03_phone_and_rag_example) |
| Ultralytics | 使用 YOLO 模型和骨架叠加的实时姿态检测处理器 | [Ultralytics](https://visionagents.ai/integrations/ultralytics) |
| Vogent | 用于语音对话中智能轮流发言的神经轮流检测系统 | [Vogent](https://visionagents.ai/integrations/vogent) |
| Wizper | 由 Whisper v3 驱动的具有实时翻译功能的 STT 插件 | [Wizper](https://visionagents.ai/integrations/wizper) |
| xAI | 使用 xAI Grok 模型的 LLM 插件,具有高级推理和实时知识 | [xAI](https://visionagents.ai/integrations/xai) |
## 处理器
处理器让您的 Agent 实时**管理状态**并**处理音频/视频**。
它们负责处理繁重的工作,例如:
- 运行较小的模型
- 进行 API 调用
- 转换媒体
……这样您就可以专注于您的 Agent 逻辑。
## 文档
查看我们的入门指南 [VisionAgents.ai](https://visionagents.ai/)。
- **快速入门:** [构建语音 AI 应用](https://visionagents.ai/introduction/voice-agents)
- **快速入门:** [构建 Video AI 应用](https://visionagents.ai/introduction/video-agents)
- **教程:** [构建实时会议助手](https://github.com/GetStream/Vision-Agents/tree/main/examples/01_simple_agent_example)
- **教程:** [构建实时体育教练](https://github.com/GetStream/Vision-Agents/tree/main/examples/02_golf_coach_example)
## 示例
| 🔮 演示应用 | |
|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------|
| Cartesia
使用 Cartesia 的 Sonic 3 模型从视觉上观察画面中的内容,并带有情感地讲述故事。• 实时视觉理解
• 情感化叙事
• 逐帧分析
[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/plugins/cartesia/example) |
|
| Realtime Stable Diffusion
使用 Vision Agents 和 Decart 的 Mirage 2 模型进行实时 Stable Diffusion,以创建交互式场景和故事。• 实时视频风格重绘
• 交互式场景生成
• Stable Diffusion 集成
[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/plugins/decart/example) |
|
| Golf Coach
结合使用 Gemini Live、Vision Agents 和 Ultralytics YOLO,我们能够追踪用户的姿态,并就其高尔夫动作提供实时的可操作反馈。• 实时姿态追踪
• 可操作的教练反馈
• YOLO 姿态检测
• Gemini Live 集成
[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/examples/02_golf_coach_example) |
|
| GeoGuesser
结合 OpenAI Realtime 和 Vision Agents,我们可以通过要求它识别我们真实世界环境中的地点,将 GeoGuesser 提升到一个新的水平。• 真实世界位置识别
• OpenAI Realtime 集成
• 视觉场景理解
[>源代码和教程](https://visionagents.ai/integrations/openai#openai-realtime) |
|
| Phone and RAG
通过电话使用 Twilio 与您的 Agent 交互。此示例演示了如何使用 TurboPuffer 进行检索增强生成 (RAG),以赋予您的 Agent 专业知识。• 呼入/呼出电话
• Twilio Media Streams 集成
• 使用 TurboPuffer 进行向量搜索
• 检索增强生成
[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/examples/03_phone_and_rag_example) |
|
| Security Camera
具有人脸识别、包裹检测和自动盗窃响应的安防摄像头。使用 Nano Banana 生成通缉海报,并在包裹消失时将其发布到 X 上。• 人脸检测与命名识别
• YOLOv11 包裹检测
• 自动生成通缉海报
• 实时发布到 X
[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/examples/04_security_camera_example) |
|
## 开发
参见 [DEVELOPMENT.md](DEVELOPMENT.md)
## 开放平台
想要添加您的平台或提供商?请联系 **nash@getstream.io**。
## 精彩的 Video AI
我们推荐关注的视觉 AI 顶尖人物与项目
| [
](https://x.com/demishassabis) | [
](https://x.com/OfficialLoganK) | [
](https://x.com/ultralytics) |
|:--------------------------------------------------------------------------------------------------------------------------------------:|:---------------------------------------------------------------------------------------------------------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------:|
| [@demishassabis](https://x.com/demishassabis)CEO @ Google DeepMind
获得了诺贝尔奖 | [@OfficialLoganK](https://x.com/OfficialLoganK)
产品负责人 @ Gemini
发布关于机器人视觉的内容 | [@ultralytics](https://x.com/ultralytics)
各种快速视觉 AI 模型
姿态、检测、分割、分类 | | [
](https://x.com/skalskip92) | [
](https://x.com/moondreamai) | [
](https://x.com/kwindla) |
|:-----------------------------------------------------------------------------------------------------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------------------------------------------------------------------------------:|
| [@skalskip92](https://x.com/skalskip92)开源负责人 @ Roboflow
构建视觉 AI 工具 | [@moondreamai](https://x.com/moondreamai)
小巧而强大的视觉模型
轻量级、快速、高效 | [@kwindla](https://x.com/kwindla)
Pipecat / Daily
分享 AI 和视觉见解 | | [
](https://x.com/juberti) | [
](https://x.com/romainhuet) | [
](https://x.com/thorwebdev) |
|:--------------------------------------------------------------------------------------------------------------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------:|
| [@juberti](https://x.com/juberti)实时 AI 负责人 @ OpenAI
实时 AI 系统 | [@romainhuet](https://x.com/romainhuet)
开发者体验负责人 @ OpenAI
开发者工具与 API | [@thorwebdev](https://x.com/thorwebdev)
Eleven Labs
语音和 AI 实验 | | [
](https://x.com/mervenoyann) | [
](https://x.com/stash_pomichter) | [
](https://x.com/Mentraglass) |
|:------------------------------------------------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------------------------------------------------:|:---------------------------------------------------------------------------------------------------------------------------------------------------:|
| [@mervenoyann](https://x.com/mervenoyann)Hugging Face
发布大量关于 Video AI 的内容 | [@stash_pomichter](https://x.com/stash_pomichter)
机器人空间记忆
机器人与 AI 导航 | [@Mentraglass](https://x.com/Mentraglass)
开源智能眼镜
内置 AI 功能的开源、可折腾 AR 眼镜 | | [
](https://x.com/vikhyatk) |
|:-------------------------------------------------------------------------------------------------------------------------------:|
| [@vikhyatk](https://x.com/vikhyatk)AI 工程师
开源 AI 项目,Moondream AI 创造者 | ## 灵感来源 - Livekit Agents:出色的语法,仅限 Livekit - Pipecat:灵活,但更冗长。 - OpenAI Agents:仅专注于 OpenAI ## 路线图 ### 0.1 – 首次发布 - 10月 - 可用的 TTS、Gemini & OpenAI ### 0.2 - 简化 - 11月 - 简化了库并提高了代码质量 - Deepgram Nova 3, Elevenlabs Scribe 2, Fish, Moondream, QWen3, Smart turn, Vogent, Inworld, Heygen, AWS 等 - 改进了 OpenAI & Gemini 实时性能 - 音频与视频工具 ### 0.3 - 示例与部署 - 1月 - 用于 Agent 部署的生产级 HTTP API (`uv run
标签:Android, Apex, Claude, CVE检测, DLL 劫持, DNS解析, DSL, Flutter, Gemini, iOS, OpenAI, Petitpotam, Python, React, React Native, Stream, Syscalls, Unity, YOLO, 人工智能, 低延迟, 体育教练AI, 内存规避, 多模态AI, 大语言模型, 威胁情报, 实时视频处理, 实时通信, 开发者工具, 开源项目, 无后门, 智能体开发, 机器学习, 深度学习, 用户模式Hook绕过, 目标检测, 视觉AI代理, 视频分析, 计算机视觉, 边缘网络, 逆向工具, 音频处理