GetStream/Vision-Agents

GitHub: GetStream/Vision-Agents

一个开源的多模态AI Agent框架，专注于构建能实时观看、聆听和理解视频的智能应用，支持多种模型和视频服务商的超低延迟集成。

Stars: 7926 | Forks: 660

# 通过 Stream 打开 Vision Agents [![build](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/72876fba10134212.svg)](https://github.com/GetStream/Vision-Agents/actions) [![PyPI version](https://badge.fury.io/py/vision-agents.svg)](http://badge.fury.io/py/vision-agents) ![PyPI - Python Version](https://img.shields.io/pypi/pyversions/vision-agents.svg) [![License](https://img.shields.io/github/license/GetStream/Vision-Agents)](https://github.com/GetStream/Vision-Agents/blob/main/LICENSE) [![Discord](https://img.shields.io/discord/1108586339550638090)](https://discord.gg/RkhX9PxMS6) ## 构建实时视觉 AI Agent https://github.com/user-attachments/assets/d9778ab9-938d-4101-8605-ff879c29b0e4 ### 能够观看、聆听和理解视频的多模态 AI Agent。 Vision Agents 为您提供了构建模块，可创建由您的模型、您的基础设施和您的用例驱动的智能、低延迟视频体验。 ### 主要亮点 - **Video AI：** 为实时 Video AI 而构建。结合 YOLO、Roboflow 以及其他模型与 Gemini/OpenAI 进行实时处理。 - **Low Latency：** 快速加入（500ms）并使用 [Stream 的边缘网络](https://getstream.io/video/)将音频/视频延迟保持在 30ms 以下。 - **Open：** 由 Stream 构建，但适用于任何视频边缘网络。 - **Native APIs：** 来自 OpenAI（`create response`）、Gemini（`generate`）和 Claude（`create message`）的原生 SDK 方法——始终访问最新的 LLM 能力。 - **SDKs：** 适用于 React、Android、iOS、Flutter、React Native 和 Unity 的 SDK，由 Stream 的超低延迟网络提供支持。 https://github.com/user-attachments/assets/d66587ea-7af4-40c4-9966-5c04fbcf467c ## 查看实际应用 ### 体育教练 https://github.com/user-attachments/assets/d1258ac2-ca98-4019-80e4-41ec5530117e 此示例向您展示了如何使用 YOLO 和 Gemini Live 构建高尔夫教练 AI。将快速的对象检测模型（如 YOLO）与完整的实时 AI 结合使用，对于许多不同的 Video AI 用例非常有用。例如：无人机火灾检测、体育/电子游戏教练、物理治疗、健身教练、just dance 风格的游戏等。 ``` # 部分示例，完整示例：examples/02_golf_coach_example/golf_coach_example.py agent = Agent( edge=getstream.Edge(), agent_user=agent_user, instructions="Read @golf_coach.md", llm=gemini.Realtime(fps=10), # llm=openai.Realtime(fps=1), # Careful with FPS can get expensive processors=[ultralytics.YOLOPoseProcessor(model_path="yolo11n-pose.pt", device="cuda")], ) ``` ### 具有 package 盗窃检测功能的安防摄像头 https://github.com/user-attachments/assets/92a2cdd8-909c-46d8-aab7-039a90efc186 此示例展示了一个安防摄像头系统，它可以检测人脸、追踪包裹并检测包裹何时被盗。它会自动生成“通缉”海报，并实时将其发布到 X 上。它结合了人脸识别、YOLOv11 对象检测、Nano Banana 和 Gemini，实现了带有语音交互的完整安全工作流程。 ``` # 部分示例，完整示例：examples/04_security_camera_example/security_camera_example.py security_processor = SecurityCameraProcessor( fps=5, model_path="weights_custom.pt", # YOLOv11 for package detection package_conf_threshold=0.7, ) agent = Agent( edge=getstream.Edge(), agent_user=User(name="Security AI", id="agent"), instructions="Read @instructions.md", processors=[security_processor], llm=gemini.LLM("gemini-2.5-flash-lite"), tts=elevenlabs.TTS(), stt=deepgram.STT(), ) ``` ### Cluely 风格的隐形助手（即将推出）像 Cluely 这样的应用程序通过隐形叠加层提供实时指导。此示例向您展示了如何构建自己的隐形助手。它结合了 Gemini realtime（用于观看您的屏幕和音频），并且不广播音频（仅文本）。这种方法非常通用，可用于：销售指导、求职面试作弊、现实世界/在职指导（配合眼镜使用）演示视频 ``` agent = Agent( edge=StreamEdge(), # low latency edge. clients for React, iOS, Android, RN, Flutter etc. agent_user=agent_user, # the user object for the agent (name, image etc) instructions="You are silently helping the user pass this interview. See @interview_coach.md", # gemini realtime, no need to set tts, or sst (though that's also supported) llm=gemini.Realtime() ) ``` ## 快速开始 **步骤 1：通过 uv 安装** `uv add vision-agents` **步骤 2：（可选）安装额外的集成** `uv add "vision-agents[getstream, openai, elevenlabs, deepgram]"` **步骤 3：获取您的 Stream API 凭证** 从 [Stream](https://getstream.io/) 获取免费的 API 密钥。开发者每月可获得 **333,000 参与者分钟数**，并通过 Maker Program 获得额外积分。 ## 功能 | **功能** | **描述** | |-------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------| | **通过 WebRTC 实现真正的实时** | 直接流式传输到支持它的模型提供商，以实现即时视觉理解。 | | **间隔/处理器 Pipeline** | 对于不支持 WebRTC 的提供商，在模型调用之前/之后使用可插拔的视频处理器（例如 YOLO、Roboflow 或自定义 PyTorch/ONNX）处理帧。 | | **轮流检测与话者分离** | 保持对话自然；知道 Agent 何时应该说话或保持安静，以及谁在说话。 | | **语音活动检测 (VAD)** | 智能地触发动作并有效地利用资源。 | | **语音↔文本↔语音** | 启用低延迟循环以实现流畅的对话式语音 UX。 | | **工具/函数调用** | 在对话中执行任意代码和 API。创建 Linear 工单、查询天气、触发电话或访问内部服务。 | | **通过 Stream Chat 实现的内置记忆** | Agent 在轮次和会话之间自然地回忆上下文。 | | **文本后信道** | 在通话期间静默给 Agent 发送消息。 | | **电话和 RAG** | 使用 Twilio 和 Turbopuffer 通过呼入或呼出电话与 Agent 交互 | ## 开箱即用的集成 | **插件名称** | **描述** | **文档链接** | |-----------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------| | AWS Bedrock | 使用 Amazon Nova 模型的实时语音转语音插件，支持自动重连 | [AWS](https://visionagents.ai/integrations/aws-bedrock) | | AWS Polly | 使用 Amazon 基于云的服务的 TTS 插件，具有自然的声音和神经引擎支持 | [AWS Polly](https://visionagents.ai/integrations/aws-polly) | | Cartesia | 用于实时语音应用程序中真实语音合成的 TTS 插件 | [Cartesia](https://visionagents.ai/integrations/cartesia) | | Decart | 实时 AI 视频转换服务，用于将艺术风格和效果应用于视频流 | [Decart](https://visionagents.ai/integrations/decart) | | Deepgram | STT 插件，用于快速、准确的实时转录和话者分离 | [Deepgram](https://visionagents.ai/integrations/deepgram) | | ElevenLabs | TTS 插件，为会话 Agent 提供高度逼真和富有表现力的声音 | [ElevenLabs](https://visionagents.ai/integrations/elevenlabs) | | Fast-Whisper | 使用 OpenAI 的 Whisper 模型和 CTranslate2 进行快速推理的高性能 STT 插件 | [Fast-Whisper](https://visionagents.ai/integrations/fast-whisper) | | Fish Audio | 具有自动语言检测和声音克隆功能的 STT 和 TTS 插件 | [Fish Audio](https://visionagents.ai/integrations/fish) | | Gemini | 用于构建会话 Agent 的 Realtime API，支持语音和视频。插件支持 LLM、Gemini Live 以及 Gemini 3 Flash 的 VLM 接口。 | [Gemini](https://visionagents.ai/integrations/gemini) | | HeyGen | 由 [HeyGen](https://heygen.com/) 驱动的实时交互式虚拟人 | [HeyGen](https://visionagents.ai/integrations/heygen) | | Hugging Face | LLM 插件，提供访问 Hugging Face Hub 上托管的许多开源语言模型，由外部提供商（Cerebras、Together、Groq 等）提供支持 | [Hugging Face](https://visionagents.ai/integrations/huggingface) | | Inworld | TTS 插件，为实时会话 AI Agent 提供高质量的流式语音 | [Inworld](https://visionagents.ai/integrations/inworld) | | Kokoro | 用于离线语音合成的本地 TTS 引擎，具有低延迟 | [Kokoro](https://visionagents.ai/integrations/kokoro) | | Mistral Voxtral | Mistral Voxtral 是一个具有话者分离功能的实时转录工具。 | [Mistral Voxtral](https://visionagents.ai/integrations/mistral) | | Moondream | Moondream 提供实时检测和 VLM 能力。开发者可以选择使用托管 API 或在本地 CUDA 设备上运行。Vision Agents 开箱即用地支持 Moondream 的 Detect、Caption 和 VQA 技能。 | [Moondream](https://visionagents.ai/integrations/moondream) | | NVIDIA Cosmos 2 | 使用 NVIDIA Cosmos 2 模型的 VLM 插件，用于视频理解，具有自动帧缓冲和流式响应 | [NVIDIA](https://visionagents.ai/integrations/nvidia) | | OpenAI | 用于构建会话 Agent 的 Realtime API，开箱即用地支持通过 WebRTC 直接进行实时视频、LLM 和 Open AI TTS | [OpenAI](https://visionagents.ai/integrations/openai) | | OpenRouter | LLM 插件，通过统一的 API 提供对多个提供商（Anthropic、Google、OpenAI）的访问 | [OpenRouter](https://visionagents.ai/integrations/openrouter) | | Qwen | 使用阿里巴巴 Qwen3 的实时音频插件，具有原生音频输出和内置语音识别 | [Qwen](https://visionagents.ai/integrations/qwen) | | Roboflow | 使用 Roboflow 托管 API 或本地 RF-DETR 模型的对象检测处理器 | [Roboflow](https://visionagents.ai/integrations/roboflow) | | Smart Turn | 结合 Silero VAD、Whisper 和神经模型的高级轮流检测系统，用于自然对话流程 | [Smart Turn](https://visionagents.ai/integrations/smart-turn) | | TurboPuffer | 使用 TurboPuffer 进行混合搜索（向量 + BM25）的 RAG 插件，使用 Gemini embeddings 进行检索增强生成 | [TurboPuffer](https://visionagents.ai/guides/rag) | | Twilio | 语音通话集成插件，通过 Twilio Media Streams 实现双向音频流，具有通话注册和音频转换功能 | [Twilio](https://github.com/GetStream/Vision-Agents/tree/main/examples/03_phone_and_rag_example) | | Ultralytics | 使用 YOLO 模型和骨架叠加的实时姿态检测处理器 | [Ultralytics](https://visionagents.ai/integrations/ultralytics) | | Vogent | 用于语音对话中智能轮流发言的神经轮流检测系统 | [Vogent](https://visionagents.ai/integrations/vogent) | | Wizper | 由 Whisper v3 驱动的具有实时翻译功能的 STT 插件 | [Wizper](https://visionagents.ai/integrations/wizper) | | xAI | 使用 xAI Grok 模型的 LLM 插件，具有高级推理和实时知识 | [xAI](https://visionagents.ai/integrations/xai) | ## 处理器处理器让您的 Agent 实时**管理状态**并**处理音频/视频**。它们负责处理繁重的工作，例如： - 运行较小的模型 - 进行 API 调用 - 转换媒体 ……这样您就可以专注于您的 Agent 逻辑。 ## 文档查看我们的入门指南 [VisionAgents.ai](https://visionagents.ai/)。 - **快速入门：** [构建语音 AI 应用](https://visionagents.ai/introduction/voice-agents) - **快速入门：** [构建 Video AI 应用](https://visionagents.ai/introduction/video-agents) - **教程：** [构建实时会议助手](https://github.com/GetStream/Vision-Agents/tree/main/examples/01_simple_agent_example) - **教程：** [构建实时体育教练](https://github.com/GetStream/Vision-Agents/tree/main/examples/02_golf_coach_example) ## 示例 | 🔮 演示应用 | | |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------| |

Cartesia

使用 Cartesia 的 Sonic 3 模型从视觉上观察画面中的内容，并带有情感地讲述故事。

• 实时视觉理解
• 情感化叙事
• 逐帧分析

[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/plugins/cartesia/example) | Cartesia Demo

| |

Realtime Stable Diffusion

使用 Vision Agents 和 Decart 的 Mirage 2 模型进行实时 Stable Diffusion，以创建交互式场景和故事。

• 实时视频风格重绘
• 交互式场景生成
• Stable Diffusion 集成

[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/plugins/decart/example) | Mirage Demo

| |

Golf Coach

结合使用 Gemini Live、Vision Agents 和 Ultralytics YOLO，我们能够追踪用户的姿态，并就其高尔夫动作提供实时的可操作反馈。

• 实时姿态追踪
• 可操作的教练反馈
• YOLO 姿态检测
• Gemini Live 集成

[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/examples/02_golf_coach_example) | Golf Coach Demo

| |

GeoGuesser

结合 OpenAI Realtime 和 Vision Agents，我们可以通过要求它识别我们真实世界环境中的地点，将 GeoGuesser 提升到一个新的水平。

• 真实世界位置识别
• OpenAI Realtime 集成
• 视觉场景理解

[>源代码和教程](https://visionagents.ai/integrations/openai#openai-realtime) | GeoGuesser Demo

| |

Phone and RAG

通过电话使用 Twilio 与您的 Agent 交互。此示例演示了如何使用 TurboPuffer 进行检索增强生成 (RAG)，以赋予您的 Agent 专业知识。

• 呼入/呼出电话
• Twilio Media Streams 集成
• 使用 TurboPuffer 进行向量搜索
• 检索增强生成

[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/examples/03_phone_and_rag_example) | Phone and RAG Demo

| |

Security Camera

具有人脸识别、包裹检测和自动盗窃响应的安防摄像头。使用 Nano Banana 生成通缉海报，并在包裹消失时将其发布到 X 上。

• 人脸检测与命名识别
• YOLOv11 包裹检测
• 自动生成通缉海报
• 实时发布到 X

[>源代码和教程](https://github.com/GetStream/Vision-Agents/tree/main/examples/04_security_camera_example) | Security Camera Demo

| ## 开发参见 [DEVELOPMENT.md](DEVELOPMENT.md) ## 开放平台想要添加您的平台或提供商？请联系 **nash@getstream.io**。 ## 精彩的 Video AI 我们推荐关注的视觉 AI 顶尖人物与项目 | [

](https://x.com/demishassabis) | [

](https://x.com/OfficialLoganK) | [

](https://x.com/ultralytics) | |:--------------------------------------------------------------------------------------------------------------------------------------:|:---------------------------------------------------------------------------------------------------------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------:| | [@demishassabis](https://x.com/demishassabis)
CEO @ Google DeepMind
_{获得了诺贝尔奖} | [@OfficialLoganK](https://x.com/OfficialLoganK)
产品负责人 @ Gemini
_{发布关于机器人视觉的内容} | [@ultralytics](https://x.com/ultralytics)
各种快速视觉 AI 模型
_{姿态、检测、分割、分类} | | [

](https://x.com/skalskip92) | [

](https://x.com/moondreamai) | [

](https://x.com/kwindla) | |:-----------------------------------------------------------------------------------------------------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------------------------------------------------------------------------------:| | [@skalskip92](https://x.com/skalskip92)
开源负责人 @ Roboflow
_{构建视觉 AI 工具} | [@moondreamai](https://x.com/moondreamai)
小巧而强大的视觉模型
_{轻量级、快速、高效} | [@kwindla](https://x.com/kwindla)
Pipecat / Daily
_{分享 AI 和视觉见解} | | [

](https://x.com/juberti) | [

](https://x.com/romainhuet) | [

](https://x.com/thorwebdev) | |:--------------------------------------------------------------------------------------------------------------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------:| | [@juberti](https://x.com/juberti)
实时 AI 负责人 @ OpenAI
_{实时 AI 系统} | [@romainhuet](https://x.com/romainhuet)
开发者体验负责人 @ OpenAI
_{开发者工具与 API} | [@thorwebdev](https://x.com/thorwebdev)
Eleven Labs
_{语音和 AI 实验} | | [

](https://x.com/mervenoyann) | [

](https://x.com/stash_pomichter) | [

](https://x.com/Mentraglass) | |:------------------------------------------------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------------------------------------------------:|:---------------------------------------------------------------------------------------------------------------------------------------------------:| | [@mervenoyann](https://x.com/mervenoyann)
Hugging Face
_{发布大量关于 Video AI 的内容} | [@stash_pomichter](https://x.com/stash_pomichter)
机器人空间记忆
_{机器人与 AI 导航} | [@Mentraglass](https://x.com/Mentraglass)
开源智能眼镜
_{内置 AI 功能的开源、可折腾 AR 眼镜} | | [

](https://x.com/vikhyatk) | |:-------------------------------------------------------------------------------------------------------------------------------:| | [@vikhyatk](https://x.com/vikhyatk)
AI 工程师
_{开源 AI 项目，Moondream AI 创造者} | ## 灵感来源 - Livekit Agents：出色的语法，仅限 Livekit - Pipecat：灵活，但更冗长。 - OpenAI Agents：仅专注于 OpenAI ## 路线图 ### 0.1 – 首次发布 - 10月 - 可用的 TTS、Gemini & OpenAI ### 0.2 - 简化 - 11月 - 简化了库并提高了代码质量 - Deepgram Nova 3, Elevenlabs Scribe 2, Fish, Moondream, QWen3, Smart turn, Vogent, Inworld, Heygen, AWS 等 - 改进了 OpenAI & Gemini 实时性能 - 音频与视频工具 ### 0.3 - 示例与部署 - 1月 - 用于 Agent 部署的生产级 HTTP API (`uv run serve`) - 指标与可观测性堆栈 - 具有 RAG 能力的电话/语音集成 - 10 个新的 LLM 插件 ([AWS Nova 2](plugins/aws), [Qwen 3 Realtime](plugins/qwen), [NVIDIA Cosmos 2](plugins/nvidia), [Pocket TTS](plugins/pocket), [Deepgram TTS](plugins/deepgram), [OpenRouter](plugins/openrouter), [HuggingFace Inference](plugins/huggingface), [Roboflow](plugins/roboflow), [Twilio](plugins/twilio), [Turbopuffer](plugins/turbopuffer)) - 现实世界示例 ([安防摄像头](examples/05_security_camera_example), [电话集成](examples/03_phone_and_rag_example), [足球解说员](examples/04_football_commentator_example), [支持 GPU 的 Docker 部署](examples/07_deploy_example), [Agent 服务器](examples/08_agent_server_example)) - 稳定性：修复了参与者同步、视频帧处理、Agent 生命周期和屏幕共享的问题 ### 0.4 文档/优化 - 卓越的文档/优化 - 更好的 Roboflow 标注文档 - 自动化维护工作流 - 本地摄像头/音频支持 AND/OR WebRTC 连接 - 嵌入式/机器人示例 ## Vision AI 的局限性 Video AI 是 AI 的前沿领域。最先进的技术每天都在变化，以帮助模型理解实时视频。在构建集成时，我们注意到了以下局限性（2025 年 12 月） * Video AI 在处理小文本时很吃力。如果您希望 AI 读取游戏中的比分，它经常会出错并产生幻觉 * 较长的视频可能导致 AI 丢失上下文。例如，如果它正在观看一场足球比赛，它会在 30 秒后感到困惑 * 大多数应用程序需要结合小型专用模型（如 Yolo/Roboflow/Moondream）、API 调用以获取更多上下文，以及较大的模型（如 gemini/openAI） * 由于性能限制，图像大小和 FPS 需要保持相对较低 * 视频不会在实时模型中触发响应。您总是需要发送音频/文本来触发响应。 ## 我们正在招聘加入这个项目背后的团队 - 我们正在招聘一位资深 Python 工程师，以架构、构建和维护一个强大的工具包，帮助开发者将语音和 Video AI 集成到他们的产品中。 [在此申请](https://jobs.ashbyhq.com/stream/3bea7dba-54e1-4c71-aa02-712a075842df?utm_source=Jmv9QOkznl) ## Star 历史 [![Star History Chart](https://api.star-history.com/svg?repos=GetStream/vision-agents&type=timeline&legend=top-left)](https://www.star-history.com/#GetStream/vision-agents&type=timeline&legend=top-left)

标签：Android, Apex, Claude, CVE检测, DLL 劫持, DNS解析, DSL, Flutter, Gemini, iOS, OpenAI, Petitpotam, Python, React, React Native, Stream, Syscalls, Unity, YOLO, 人工智能, 低延迟, 体育教练AI, 内存规避, 多模态AI, 大语言模型, 威胁情报, 实时视频处理, 实时通信, 开发者工具, 开源项目, 无后门, 智能体开发, 机器学习, 深度学习, 用户模式Hook绕过, 目标检测, 视觉AI代理, 视频分析, 计算机视觉, 边缘网络, 逆向工具, 音频处理