AgenticHardening/awesome-agentic-hardening

GitHub: AgenticHardening/awesome-agentic-hardening

一个系统化的 Agentic AI 安全资源清单，整合了威胁分析、加固技术、评估工具与治理标准，帮助从业者全面构建和加固自主 Agent 系统的安全防线。

Stars: 6 | Forks: 2

awesome-agentic-hardening

🛡️ 一个精选的工具、论文、框架和最佳实践列表，用于加固 Agentic AI 系统。

涵盖 Prompt 注入防御、运行时沙箱、协议安全、红队测试和治理标准。

## 为什么要建立这个列表？ Agentic AI 系统 —— 即自主使用工具、访问数据并与其他 Agent 协调的 LLM 驱动的 Agent —— 引入了超越传统 LLM 漏洞的全新安全风险类别。这个精选列表按照 **“攻击面 → 加固技术 → 评估与测试 → 治理与标准”** 的流程组织资源，无论你是从红队还是蓝队的角度切入，都能快速找到所需内容。该分类体系与三个权威来源保持一致： | 来源 | 覆盖范围 | |--------|----------| | [OWASP Agentic Top 10 (2026)](https://genai.owasp.org/) | 所有 ASI01–ASI10 风险项 | | [arXiv Academic Surveys](https://arxiv.org/html/2510.23883v2) | 5 种威胁类别 + 4 种防御类别 | | NIST / McKinsey / CSA Governance Frameworks | 完整的治理覆盖 | ## 目录 - [威胁全景](#threat-landscape) - [Prompt 注入与越狱](#1-prompt-injection--jailbreaks) - [工具滥用与自主利用](#2-tool-misuse--autonomous-exploitation) - [记忆与上下文投毒](#3-memory--context-poisoning) - [多 Agent 与协议级威胁](#4-multi-agent--protocol-level-threats) - [身份、权限与供应链风险](#5-identity-privilege--supply-chain-risks) - [加固技术](#hardening-techniques) - [Prompt 加固与输入清洗](#6-prompt-hardening--input-sanitization) - [运行时沙箱与能力限制](#7-runtime-sandboxing--capability-confinement) - [检测、监控与可观测性](#8-detection-monitoring--observability) - [多 Agent 安全与协议加固](#9-multi-agent-security--protocol-hardening) - [评估与测试](#evaluation--testing) - [红队测试与基准](#10-red-teaming--benchmarks) - [数据集与可复现研究](#11-datasets--reproducible-research) - [治理与标准](#governance--standards) - [框架、标准与合规](#12-frameworks-standards--compliance) - [贡献](#contributing) ## 威胁全景 ### 1. Prompt 注入与越狱涵盖直接 Prompt 注入 (DPI)、间接 Prompt 注入 (IPI)、多模态注入（图像/音频/视频嵌入指令）、多语言混淆注入、Payload 分割等。 | 资源 | 类型 | 描述 | |----------|------|-------------| | [Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges](https://arxiv.org/abs/2510.23883) | 📄 论文 | 综合调查，涵盖了 Agentic AI 威胁（Prompt 注入、工具滥用、记忆投毒等）的分类体系、防御策略和评估方法论。(UC Davis, arXiv 2025) | _{[回到顶部 ↑](#contents)} ### 2. 工具滥用与自主利用涵盖未授权的工具调用、自主漏洞利用（一日 CVE 利用）、SQL 注入链、代码执行逃逸等。 | 资源 | 类型 | 描述 | |----------|------|-------------| | _即将推出_ | | | _{[回到顶部 ↑](#contents)} ### 3. 记忆与上下文投毒涵盖长期记忆投毒、RAG 数据污染和会话上下文篡改。 | 资源 | 类型 | 描述 | |----------|------|-------------| | _即将推出_ | | | _{[回到顶部 ↑](#contents)} ### 4. 多 Agent 与协议级威胁涵盖 MCP (Model Context Protocol) 和 A2A (Agent-to-Agent) 协议级攻击，包括恶意 Agent 注册、跨 Agent 传递性注入、协调操纵和通信通道投毒。 | 资源 | 类型 | 描述 | |----------|------|-------------| | [MCP Safety Audit](https://github.com/johnhalloran321/mcpSafetyScanner) | 🔧 工具 | 首个针对 MCP 服务器安全的 Agentic 审计工具。演示了 MCP 设计如何导致重大漏洞利用，包括恶意代码执行、远程访问控制和凭证盗窃。包含 MCPSafetyScanner。(arXiv 2025) | _{[回到顶部 ↑](#contents)} ### 5. 身份、权限与供应链风险涵盖非人类身份 (NHI) 管理、权限滥用、凭证盗窃和供应链投毒。 | 资源 | 类型 | 描述 | |----------|------|-------------| | _即将推出_ | | | _{[回到顶部 ↑](#contents)} ## 加固技术 ### 6. Prompt 加固与输入清洗涵盖 Prompt 加固工程、输入/输出过滤、指令隔离、三明治防御、XML/Markdown 分隔符策略、基于释义的检测等。 | 资源 | 类型 | 描述 | |----------|------|-------------| | [MCP-Guard](https://arxiv.org/abs/2508.10991) | 📦 框架 | 用于保护基于 MCP 的 LLM-工具交互的多阶段纵深防御框架。三阶段流水线：静态扫描 → 深度神经检测 → LLM 仲裁。达到 96.01% 的准确率。包含 MCP-ATTACKBENCH (70,448 个样本)。(arXiv 2025) | _{[回到顶部 ↑](#contents)} ### 7. 运行时沙箱与能力限制涵盖运行时沙箱、最小权限工具调用和基于能力的访问控制。 | 资源 | 类型 | 描述 | |----------|------|-------------| | _即将推出_ | | | _{[回到顶部 ↑](#contents)} ### 8. 检测、监控与可观测性涵盖行为异常检测、工具调用链审计、Agent 行为画像和实时意图监控。 | 资源 | 类型 | 描述 | |----------|------|-------------| | _即将推出_ | | | _{[回到顶部 ↑](#contents)} ### 9. 多 Agent 安全与协议加固涵盖协议级加固（MCP/A2A 认证与加密）、Agent 身份验证、跨 Agent 信任链管理和通信通道完整性检查。 | 资源 | 类型 | 描述 | |----------|------|-------------| | [G-Safeguard](https://github.com/wslong20/G-safeguard) | 🔧 工具 | 针对 LLM 多 Agent 系统的拓扑引导安全框架。利用图神经网络检测多 Agent 话语图上的异常，并通过拓扑干预进行攻击修复。在 Prompt 注入下恢复超过 40% 的性能。(arXiv 2025) | _{[回到顶部 ↑](#contents)} ## 评估与测试 ### 10. 红队测试与基准涵盖安全评估基准（例如 AgentHarm, InjectAgent, ASB）、红队工具和对抗性测试框架。 | 资源 | 类型 | 描述 | |----------|------|-------------| | [AgentDojo](https://github.com/ethz-spylab/agentdojo) | 🔧 工具 | 用于测试工具调用 LLM Agent 上 Prompt 注入攻击和防御的动态评估框架。包含 97 个任务，629 个安全测试用例。(ETH Zurich, NeurIPS 2024) | | [InjecAgent](https://github.com/uiuc-kang-lab/InjecAgent) | 📊 数据集 | 针对工具集成 LLM Agent 中间接 Prompt 注入的基准。包含 17 个用户工具和 62 个攻击者工具的 1,054 个测试用例。(UIUC, ACL 2024 Findings) | | [Agent Security Bench (ASB)](https://github.com/agiresearch/ASB) | 📦 框架 | 形式化并基准化 LLM Agent 攻击/防御的综合框架。包含 10 个场景、10 个 Agent、400+ 工具、27 种攻击/防御方法、7 个指标。最高平均 ASR 达 84.30%。(Rutgers, ICLR 2025) | _{[回到顶部 ↑](#contents)} ### 11. 数据集与可复现研究涵盖公开可用的攻击/防御数据集、可复现实验和 CTF 挑战资源。 | 资源 | 类型 | 描述 | |----------|------|-------------| | _即将推出_ | | | _{[回到顶部 ↑](#contents)} ## 治理与标准 ### 12. 框架、标准与合规涵盖 OWASP Agentic Top 10、NIST AI RMF Overlays、基于 Microsoft NIST 的治理框架、CSA AAGATE 平台、McKinsey Agentic AI 治理手册等。 | 资源 | 类型 | 描述 | |----------|------|-------------| | [OWASP Top 10 for Agentic Applications (2026)](https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/) | 📋 标准 | 经同行评审的框架，识别了自主 AI Agent 的 10 个最关键安全风险 (ASI01–ASI10)。由 100 多位专家开发。 | _{[回到顶部 ↑](#contents)} ## 许可证 [![CC0](https://licensebuttons.net/p/zero/1.0/88x31.png)](https://creativecommons.org/publicdomain/zero/1.0/) 本作品采用 [CC0 1.0 Universal](LICENSE) 许可。

标签：Agentic AI, AI安全, AI治理, AI风险管理, Chat Copilot, DLL 劫持, DNS 反向解析, 人工智能安全, 企业安全, 加固指南, 协议安全, 合规性, 大语言模型, 提示词注入防御, 治理标准, 深度学习安全, 混合加密, 网络安全, 网络资产管理, 蓝队防御, 运行时沙箱, 防御加固, 隐私保护