NVIDIA-AI-Blueprints/video-search-and-summarization

GitHub: NVIDIA-AI-Blueprints/video-search-and-summarization

NVIDIA 提供的一套端到端参考架构，用于构建融合 VLM 和 LLM 的 GPU 加速视觉 Agent，支持视频搜索、摘要、问答和实时告警等视频智能分析工作流。

Stars: 1750 | Forks: 360

NVIDIA AI Blueprint：视频搜索与摘要 (VSS)

### 目录 - [概述](#overview) - [用例 / 问题描述](#use-case--problem-description) - [Agent 工作流](#agent-workflows) - [软件组件](#software-components) - [目标受众](#target-audience) - [仓库结构概览](#repository-structure-overview) - [文档](#documentation) - [前置条件](#prerequisites) - [硬件要求](#hardware-requirements) - [快速入门指南](#quickstart-guide) - [许可证](#license) ## 概述 [NVIDIA Blueprint for Video Search and Summarization (VSS)](https://docs.nvidia.com/vss/latest/index.html) 提供了一套参考架构，用于构建视觉 Agent 和 AI 驱动的视频分析应用程序。这些架构将加速视觉微服务、视觉语言模型 (VLM) 和大语言模型 (LLM) 结合在一起，以便您可以在现有应用程序中将它们作为独立的微服务使用，或作为更大型视觉 Agent 的一部分使用。 VSS 分为三个处理和分析领域：**实时视频智能**（特征提取、嵌入和流理解，并将结果发布到消息代理）、**下游分析**（将元数据丰富为轨迹、事件和经过验证的警报），以及 **Agent 和离线处理**（用于搜索、问答、摘要和片段检索的编排工具，包括通过 Model Context Protocol 进行的操作）。本仓库实现了该蓝图，并为自然语言视频 Agent 提供了 [NVIDIA 构建体验](https://build.nvidia.com/nvidia/video-search-and-summarization)——包括搜索、摘要、视觉问答和相关工作流——由生成式 AI、VLM 和 LLM 以及在下述堆栈中配置的 [NVIDIA NIM](https://build.nvidia.com/) 微服务提供支持。 ## 用例 / 问题描述用于视频搜索和摘要的 NVIDIA AI Blueprint 解决了部署能够与大量视频数据（包括已存储和正在流式传输的数据）进行交互的视觉 Agent 的挑战。它可用于创建视觉 AI Agent，并应用于众多用例，例如智能空间监控、仓库自动化和 SOP 验证。在快速准确的视频分析能够带来更佳决策和更高运营效率的场景中，这一点尤为重要。 ## Agent 工作流我们提供了多个参考 [Agent 工作流](https://docs.nvidia.com/vss/3.1.0/adding-workflows.html)，演示了 Agent 如何利用各个独立组件： | 工作流 | 描述 | |----------|-------------| | [问答与报告生成 (快速入门)](https://docs.nvidia.com/vss/3.1.0/quickstart.html) | 视频检索、基于 VLM 的问答，以及针对短视频片段的报告生成 | | [警报验证](https://docs.nvidia.com/vss/3.1.0/agent-workflow-alert-verification.html) | 使用感知（目标检测、跟踪）和行为分析对视频进行实时处理以生成警报，随后通过 VLM 对其进行验证以减少误报 | | [实时警报](https://docs.nvidia.com/vss/3.1.0/agent-workflow-rt-alert.html) | 通过 VLM 持续处理视频流以进行异常检测 | | [视频搜索](https://docs.nvidia.com/vss/3.1.0/agent-workflow-search.html) | 使用视频嵌入在视频归档中进行自然语言搜索 (alpha) | | [长视频摘要](https://docs.nvidia.com/vss/3.1.0/agent-workflow-lvs.html) | 通过对密集字幕进行分块和聚合，对长视频录像进行分析和摘要 | ## 软件组件

1. **NIM 微服务**：以下是本蓝图中使用的模型： - [Cosmos-Reason2-8B](https://build.nvidia.com/nvidia/cosmos-reason2-8b) - [NVIDIA Nemotron-Nano-9B-v2](https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2) 2. **实时视频智能**：实时视频智能层实时从视频数据中提取丰富的视觉特征、语义嵌入和上下文理解，并将结果发布到消息代理以供下游分析和 Agent 工作流使用。它提供了三个用于处理视频流的核心微服务。 3. **下游分析**：下游分析层处理并丰富由实时视频智能微服务生成的元数据流，将原始检测结果转化为可操作的洞察和经过验证的警报。 4. **Agent 与离线处理**：顶层 Agent 利用 Model Context Protocol (MCP) 通过统一的工具接口访问视频分析数据、事件记录和视觉处理功能。它集成了多种基于视觉的工具，包括使用 Vision Language Models (VLM) 进行的视频理解、使用嵌入进行的语义视频搜索、用于长录像分析的长视频摘要，以及视频快照/片段检索。 ## 目标受众本蓝图设计易于设置并提供了广泛的配置选项，但需要专业技术知识。它适用于： 1. **视频分析师和 IT 工程师**：专注于分析视频数据并确保高效处理和摘要的专业人员。本蓝图提供了一键部署步骤、易于管理的配置和即插即用的模型，使早期开发者也能轻松上手。 2. **GenAI 开发者 / 机器学习工程师**：需要针对特定用例定制蓝图的专业人士。这包括为独特数据集修改 pipeline 以及根据需要对 LLM 进行微调。对于高级用户，本蓝图提供了详细的配置选项和自定义部署可能性，从而实现广泛的定制和优化。 ## 仓库结构概览 | 目录 | 描述 | |-----------|-------------| | `agent/` | 视频搜索和摘要 Agent (Python)。包含 `src/vss_agents/`（工具、Agent、API、嵌入、评估器、视频分析）、`tests/`、`stubs/`、`docker/` 和 `3rdparty/`。详见 [agent/README.md](agent/README.md)。 | | `deployments/` | 部署配置和 Docker Compose：NIM 模型配置 (`nim/`)、开发者工作流 (`developer-workflow/` — dev-profile-base, dev-profile-search, dev-profile-alerts, dev-profile-lvs)、基础服务、LVS、RTVI、VLM-as-verifier、VST 以及根目录下的 `compose.yml`。 | | `scripts/` | 部署和修补脚本，包括 Brev launchable notebook (`deploy_vss_launchable.ipynb`) 和 dev-profile / 修补脚本。 | | `skills/` | 与 [agentskills.io](https://agentskills.io/specification) 兼容的 VSS Agent 技能：每个技能对应一个包含 `SKILL.md` frontmatter 的独立子目录。涵盖搜索、摘要、警报、VIOS、RT-VLM、LVS 及其他相关工作流的部署和使用——请参阅 [skills/README.md](skills/README.md) 中的目录和安装说明。 | | `ui/` | 前端 monorepo (Next.js, Turbo)：`apps/` (nemo-agent-toolkit-ui, nv-metropolis-bp-vss-ui) 和共享的 `packages/`。详见 [ui/README.md](ui/README.md)。 | ## 文档有关此蓝图的详细说明和更多信息，请参阅[官方文档](https://docs.nvidia.com/vss/3.1.0/index.html)。 ## 前置条件 ### 获取 API Key - 本地托管 NVIDIA NIM 需要 NVIDIA AI Enterprise 开发者许可证。 - API 目录密钥： - NVIDIA [API 目录](https://build.nvidia.com/) 或 [NGC](https://org.ngc.nvidia.com/setup/api-keys)（[生成密钥的步骤](https://docs.nvidia.com/ngc/gpu-cloud/ngc-user-guide/index.html#generating-api-key)） ## 硬件要求平台要求可能会因 VSS 及其依赖项（如 VLM、LLM 等）所使用的配置和部署拓扑而异。有关已验证的 GPU 拓扑列表及应使用的配置，请参阅 [GPU 要求](https://docs.nvidia.com/vss/3.1.0/prerequisites.html#development-profile-gpu-requirements)。 ## 快速入门指南 ### Launchable 部署 **适用场景：** 希望使用您自己的视频快速入门，且无需担心硬件和软件要求。按照[文档](https://docs.nvidia.com/vss/3.1.0/cloud-brev.html)和 [scripts](scripts/) 目录中的 notebook 完成所有前置条件，并在 2xRTX PRO 6000 SE AWS 实例中使用 Brev Launchable 部署该蓝图。 - [scripts/deploy_vss_launchable.ipynb](scripts/deploy_vss_launchable.ipynb)：此 notebook 专为使用临时存储的 AWS CSP 量身定制。 ### Docker Compose 部署 **适用场景：** 在您自己的硬件或裸机云实例上部署 VSS Agent。 #### 系统要求 - 操作系统： - x86 主机：Ubuntu 22.04 或 Ubuntu 24.04 - DGX-SPARK：DGX OS 7.4.0 - IGX-THOR：Jetson Linux BSP (Rel 38.5) - AGX-THOR：Jetson Linux BSP (Rel 38.4) - NVIDIA 驱动程序： - 580.105.08（搭载 Ubuntu 24.04 的 x86 主机） - 580.65.06（搭载 Ubuntu 22.04 的 x86 主机） - 580.95.05 (DGX-SPARK) - 580.00 (IGX-THOR 和 AGX-THOR) - NVIDIA Container Toolkit：1.17.8+ - Docker：27.2.0+ - Docker Compose：v2.29.0+ - NGC CLI：4.10.0+ 有关安装详情，请参阅[前置条件部分](https://docs.nvidia.com/vss/3.1.0/prerequisites.html)。 ## 许可证请参阅 [LICENSE](LICENSE)

标签：AI Blueprint, AI视频分析, AI解决方案, C2, NIM微服务, 事件检测与告警, 人工智能, 元数据提取, 参考架构, 大语言模型(LLM), 威胁情报, 实时视频处理, 开发者工具, 微服务架构, 模型上下文协议(MCP), 消息代理, 版权保护, 生成式AI, 用户模式Hook绕过, 索引, 视觉智能体, 视觉语言模型(VLM), 视觉问答(Q&A), 视频内容理解, 视频分析与检索, 视频智能摘要, 视频检索, 视频流处理, 计算机视觉, 请求拦截, 边缘计算, 进程保护, 逆向工具