NVIDIA-AI-Blueprints/video-search-and-summarization
GitHub: NVIDIA-AI-Blueprints/video-search-and-summarization
NVIDIA 提供的一套端到端参考架构,用于构建融合 VLM 和 LLM 的 GPU 加速视觉 Agent,支持视频搜索、摘要、问答和实时告警等视频智能分析工作流。
Stars: 1526 | Forks: 320
NVIDIA AI Blueprint:视频搜索与摘要 (VSS)
### 目录
- [概述](#overview)
- [用例 / 问题描述](#use-case--problem-description)
- [Agent 工作流](#agent-workflows)
- [软件组件](#software-components)
- [目标受众](#target-audience)
- [仓库结构概览](#repository-structure-overview)
- [文档](#documentation)
- [前置条件](#prerequisites)
- [硬件要求](#hardware-requirements)
- [快速入门指南](#quickstart-guide)
- [许可证](#license)
## 概述
[NVIDIA Blueprint for Video Search and Summarization (VSS)](https://docs.nvidia.com/vss/latest/index.html) 提供了一套参考架构,用于构建视觉 Agent 和 AI 驱动的视频分析应用程序。这些架构将加速视觉微服务、视觉语言模型 (VLM) 和大语言模型 (LLM) 结合在一起,以便您可以在现有应用程序中将它们作为独立的微服务使用,或作为更大型视觉 Agent 的一部分使用。
VSS 分为三个处理和分析领域:**实时视频智能**(特征提取、嵌入和流理解,并将结果发布到消息代理)、**下游分析**(将元数据丰富为轨迹、事件和经过验证的警报),以及 **Agent 和离线处理**(用于搜索、问答、摘要和片段检索的编排工具,包括通过 Model Context Protocol 进行的操作)。
本仓库实现了该蓝图,并为自然语言视频 Agent 提供了 [NVIDIA 构建体验](https://build.nvidia.com/nvidia/video-search-and-summarization)——包括搜索、摘要、视觉问答和相关工作流——由生成式 AI、VLM 和 LLM 以及在下述堆栈中配置的 [NVIDIA NIM](https://build.nvidia.com/) 微服务提供支持。
## 用例 / 问题描述
用于视频搜索和摘要的 NVIDIA AI Blueprint 解决了部署能够与大量视频数据(包括已存储和正在流式传输的数据)进行交互的视觉 Agent 的挑战。它可用于创建视觉 AI Agent,并应用于众多用例,例如智能空间监控、仓库自动化和 SOP 验证。在快速准确的视频分析能够带来更佳决策和更高运营效率的场景中,这一点尤为重要。
## Agent 工作流
我们提供了多个参考 [Agent 工作流](https://docs.nvidia.com/vss/3.1.0/adding-workflows.html),演示了 Agent 如何利用各个独立组件:
| 工作流 | 描述 |
|----------|-------------|
| [问答与报告生成 (快速入门)](https://docs.nvidia.com/vss/3.1.0/quickstart.html) | 视频检索、基于 VLM 的问答,以及针对短视频片段的报告生成 |
| [警报验证](https://docs.nvidia.com/vss/3.1.0/agent-workflow-alert-verification.html) | 使用感知(目标检测、跟踪)和行为分析对视频进行实时处理以生成警报,随后通过 VLM 对其进行验证以减少误报 |
| [实时警报](https://docs.nvidia.com/vss/3.1.0/agent-workflow-rt-alert.html) | 通过 VLM 持续处理视频流以进行异常检测 |
| [视频搜索](https://docs.nvidia.com/vss/3.1.0/agent-workflow-search.html) | 使用视频嵌入在视频归档中进行自然语言搜索 (alpha) |
| [长视频摘要](https://docs.nvidia.com/vss/3.1.0/agent-workflow-lvs.html) | 通过对密集字幕进行分块和聚合,对长视频录像进行分析和摘要 |
## 软件组件
1. **NIM 微服务**:以下是本蓝图中使用的模型:
- [Cosmos-Reason2-8B](https://build.nvidia.com/nvidia/cosmos-reason2-8b)
- [NVIDIA Nemotron-Nano-9B-v2](https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2)
2. **实时视频智能**:实时视频智能层实时从视频数据中提取丰富的视觉特征、语义嵌入和上下文理解,并将结果发布到消息代理以供下游分析和 Agent 工作流使用。它提供了三个用于处理视频流的核心微服务。
3. **下游分析**:下游分析层处理并丰富由实时视频智能微服务生成的元数据流,将原始检测结果转化为可操作的洞察和经过验证的警报。
4. **Agent 与离线处理**:顶层 Agent 利用 Model Context Protocol (MCP) 通过统一的工具接口访问视频分析数据、事件记录和视觉处理功能。它集成了多种基于视觉的工具,包括使用 Vision Language Models (VLM) 进行的视频理解、使用嵌入进行的语义视频搜索、用于长录像分析的长视频摘要,以及视频快照/片段检索。
## 目标受众
本蓝图设计易于设置并提供了广泛的配置选项,但需要专业技术知识。它适用于:
1. **视频分析师和 IT 工程师**:专注于分析视频数据并确保高效处理和摘要的专业人员。本蓝图提供了一键部署步骤、易于管理的配置和即插即用的模型,使早期开发者也能轻松上手。
2. **GenAI 开发者 / 机器学习工程师**:需要针对特定用例定制蓝图的专业人士。这包括为独特数据集修改 pipeline 以及根据需要对 LLM 进行微调。对于高级用户,本蓝图提供了详细的配置选项和自定义部署可能性,从而实现广泛的定制和优化。
## 仓库结构概览
| 目录 | 描述 |
|-----------|-------------|
| `agent/` | 视频搜索和摘要 Agent (Python)。包含 `src/vss_agents/`(工具、Agent、API、嵌入、评估器、视频分析)、`tests/`、`stubs/`、`docker/` 和 `3rdparty/`。详见 [agent/README.md](agent/README.md)。 |
| `deployments/` | 部署配置和 Docker Compose:NIM 模型配置 (`nim/`)、开发者工作流 (`developer-workflow/` — dev-profile-base, dev-profile-search, dev-profile-alerts, dev-profile-lvs)、基础服务、LVS、RTVI、VLM-as-verifier、VST 以及根目录下的 `compose.yml`。 |
| `scripts/` | 部署和修补脚本,包括 Brev launchable notebook (`deploy_vss_launchable.ipynb`) 和 dev-profile / 修补脚本。 |
| `skills/` | 与 [agentskills.io](https://agentskills.io/specification) 兼容的 VSS Agent 技能:每个技能对应一个包含 `SKILL.md` frontmatter 的独立子目录。涵盖搜索、摘要、警报、VIOS、RT-VLM、LVS 及其他相关工作流的部署和使用——请参阅 [skills/README.md](skills/README.md) 中的目录和安装说明。 |
| `ui/` | 前端 monorepo (Next.js, Turbo):`apps/` (nemo-agent-toolkit-ui, nv-metropolis-bp-vss-ui) 和共享的 `packages/`。详见 [ui/README.md](ui/README.md)。 |
## 文档
有关此蓝图的详细说明和更多信息,请参阅[官方文档](https://docs.nvidia.com/vss/3.1.0/index.html)。
## 前置条件
### 获取 API Key
- 本地托管 NVIDIA NIM 需要 NVIDIA AI Enterprise 开发者许可证。
- API 目录密钥:
- NVIDIA [API 目录](https://build.nvidia.com/) 或 [NGC](https://org.ngc.nvidia.com/setup/api-keys)([生成密钥的步骤](https://docs.nvidia.com/ngc/gpu-cloud/ngc-user-guide/index.html#generating-api-key))
## 硬件要求
平台要求可能会因 VSS 及其依赖项(如 VLM、LLM 等)所使用的配置和部署拓扑而异。有关已验证的 GPU 拓扑列表及应使用的配置,请参阅 [GPU 要求](https://docs.nvidia.com/vss/3.1.0/prerequisites.html#development-profile-gpu-requirements)。
## 快速入门指南
### Launchable 部署
**适用场景:** 希望使用您自己的视频快速入门,且无需担心硬件和软件要求。
按照[文档](https://docs.nvidia.com/vss/3.1.0/cloud-brev.html)和 [scripts](scripts/) 目录中的 notebook 完成所有前置条件,并在 2xRTX PRO 6000 SE AWS 实例中使用 Brev Launchable 部署该蓝图。
- [scripts/deploy_vss_launchable.ipynb](scripts/deploy_vss_launchable.ipynb):此 notebook 专为使用临时存储的 AWS CSP 量身定制。
### Docker Compose 部署
**适用场景:** 在您自己的硬件或裸机云实例上部署 VSS Agent。
#### 系统要求
- 操作系统:
- x86 主机:Ubuntu 22.04 或 Ubuntu 24.04
- DGX-SPARK:DGX OS 7.4.0
- IGX-THOR:Jetson Linux BSP (Rel 38.5)
- AGX-THOR:Jetson Linux BSP (Rel 38.4)
- NVIDIA 驱动程序:
- 580.105.08(搭载 Ubuntu 24.04 的 x86 主机)
- 580.65.06(搭载 Ubuntu 22.04 的 x86 主机)
- 580.95.05 (DGX-SPARK)
- 580.00 (IGX-THOR 和 AGX-THOR)
- NVIDIA Container Toolkit:1.17.8+
- Docker:27.2.0+
- Docker Compose:v2.29.0+
- NGC CLI:4.10.0+
有关安装详情,请参阅[前置条件部分](https://docs.nvidia.com/vss/3.1.0/prerequisites.html)。
## 许可证
请参阅 [LICENSE](LICENSE)
标签:AI Blueprint, AI视频分析, AI解决方案, C2, NIM微服务, 事件检测与告警, 人工智能, 元数据提取, 参考架构, 大语言模型(LLM), 威胁情报, 实时视频处理, 开发者工具, 微服务架构, 模型上下文协议(MCP), 消息代理, 版权保护, 生成式AI, 用户模式Hook绕过, 索引, 视觉智能体, 视觉语言模型(VLM), 视觉问答(Q&A), 视频内容理解, 视频分析与检索, 视频智能摘要, 视频检索, 视频流处理, 计算机视觉, 请求拦截, 边缘计算, 进程保护, 逆向工具