sumitgiri87/agentic-ai-security-audit-framework
GitHub: sumitgiri87/agentic-ai-security-audit-framework
一套用于审计企业级智能体AI系统安全性与监管合规性的开源方法论框架,覆盖提示注入、多智能体信任边界及记忆投毒等六大攻击维度并映射国际监管法规。
Stars: 0 | Forks: 0
# agentic-ai-security-audit-framework




## 目录
1. [为什么存在此框架](#1-why-this-exists)
2. [现有框架遗漏的六大攻击维度](#2-the-six-attack-dimensions-existing-frameworks-miss)
3. [为什么现有框架不够用](#3-why-existing-frameworks-are-insufficient)
4. [加拿大企业的监管背景](#4-regulatory-context-for-canadian-enterprises)
5. [本框架包含的内容](#5-what-this-framework-contains)
6. [仓库结构](#6-repository-structure)
7. [当前状态](#7-current-status)
8. [目标受众](#8-who-this-is-for)
9. [参考文献](#9-references)
## 1. 为什么存在此框架
2025年,哥伦比亚大学的研究人员实现了从 Anthropic 商业化的 Computer Use agent 中提取信用卡号码**10/10的成功率**。攻击向量是一篇 Reddit 帖子。这不需要任何机器学习知识。同一项研究表明,agent 可以从用户自己的 Gmail 帐户发送网络钓鱼电子邮件、执行恶意软件,以及诱导科研 agent 生成神经毒气的合成路线。
Anthropic 是世界上最注重安全的 AI 公司之一。这不是对它们工程能力的批评。它证明了一个结构性问题:**Agentic AI 系统引入了独立 LLM 中不存在的攻击面,而安全行业尚未跟上步伐。**
根本问题在于,AI agent 不仅仅是一个语言模型。它是一个能够执行以下操作的语言模型:
- 跨会话保持持久记忆
- 调用具有现实世界后果的外部工具和 API
- 浏览网络并读取任意外部内容
- 发送电子邮件、执行代码和写入数据库
- 与其他 agent 协同,默认信任它们的输出
- 以超越人类监督的速度和自主性运行
当一个系统能够阅读一篇 Reddit 帖子,然后窃取你的信用卡数据时,这种威胁模型就不再是聊天机器人的威胁模型了。安全评估方法也必须相应改变。
本仓库就是这一方法论的起点。
## 2. 现有框架遗漏的六大攻击维度
当前的安全框架是为独立的 LLM 或传统软件设计的。它们只能部分处理这些维度中的某些内容。没有一个框架能将这六个维度全部结合起来处理——而在 agentic 系统中,正是这种组合造成了最严重的漏洞。
### 2.1 认知维度 — Prompt Injection
Agent 的推理过程可以直接被嵌入在其读取环境中的对抗性内容所操纵。与 SQL injection 不同,其攻击面是 agent 感知到的任何事物:网页、文档、电子邮件、数据库记录、工具输出。除非经过明确的设计,否则 agent 不会区分来自其操作者的指令和嵌入在外部内容中的指令——而大多数生产部署并未做到这一点。
**为什么在 agentic 系统中情况不同:** 在单轮 LLM 中,prompt injection 的影响范围有限。而在具有工具访问权限的 agent 中,成功的注入可以在任何人看到输出之前触发一系列现实世界中的行动。
### 2.2 时间维度 — 记忆攻击
具有持久记忆(向量存储、情景记忆、会话状态)的 agent 可以在时间 T 被投毒,并在时间 T+N 被利用。攻击者今天在 agent 读取的文档中植入恶意指令。六周后,当 agent 遇到特定触发条件时,该指令就会浮现出来。攻击和利用在时间上是解耦的,这击败了大多数实时监控方法。
**为什么在 agentic 系统中情况不同:** 传统应用程序安全没有类似的情况。目前还没有评估 agent 记忆是否已被破坏的审计方法。
### 2.3 工具集成维度 — 现实行动链
被攻陷的 agent 不仅仅会生成糟糕的文本。它会采取行动:它发送电子邮件、执行查询、调用 API、修改文件。安全边界不是模型本身,而是模型可以触及的每个系统。对此进行评估需要绘制部署的完整工具图谱,并评估每次工具调用是否受限、被记录且可回滚。
**为什么在 agentic 系统中情况不同:** 目前有针对 API 和系统的渗透测试方法。但对于调用这些 API 的自主 AI 编排层,目前尚无相应方法。
### 2.4 信任边界维度 — 多 Agent 系统
在多 agent 架构(LangGraph、CrewAI、AutoGen)中,agent 之间会相互通信。默认情况下,大多数框架将 agent 间的消息视为受信任的输入。一个被攻陷的子 agent 可以向编排 agent 发送指令。一个注入到工作流中的恶意外部 agent 可以发布在整个系统中传播的命令。在生产部署中,规范一个 agent 可以指示另一个 agent 执行什么操作的信任模型几乎从未被正式定义过。
**为什么在 agentic 系统中情况不同:** 这种攻击面在单模型部署中并不存在。它是全新的,且完全未被现有框架所覆盖。
### 2.5 身份流动性
在大多数 agentic 框架中,agent 身份和用户身份之间的界限在结构上是模糊的。Agent 代表用户行动、模拟系统角色,并将权限委托给子 agent。关于哪个实体对特定操作负责,以及该操作是否由人类委托人授权的问题,如果没有经过精心设计的审计日志,事后往往无法解答。
**为什么在 agentic 系统中情况不同:** 在受监管的行业中,将操作归因于已授权的人类委托人是一项合规要求。除非明确构建了归因机制,否则 Agentic 系统在设计上就会打破这一点。
### 2.6 治理差距
一个跨多个系统以机器速度自主运行的 agent,每小时产生的决策数量超出了任何人类监督流程所能审查的范围。这种治理差距不是意图上的失败——它是架构的结构性属性。评估是否存在充分的人类监督,不仅要看名义上是否有人类在环,还要看在 agent 运行的速度和规模下,这种人类监督机制在操作上是否可行。
**为什么在 agentic 系统中情况不同:** 欧盟《AI 法案》对高风险 AI 系统的人类监督要求正是针对这一问题制定的。大多数部署 agent 的企业尚未将人类监督在实际中的意义操作化。
## 3. 为什么现有框架不够用
这不是对构建这些框架的团队的批评。它们是为不同的问题而构建的。问题在于类别不匹配,而不是质量不行。
### OWASP LLM Top 10
OWASP LLM Top 10 是目前最实用的现有资源。它正确识别了 prompt injection、不安全的输出处理和供应链风险。它在 agentic 环境下的局限性在于:
- 它针对的是单个 LLM 漏洞,而不是多 agent 系统架构
- 它没有解决时间攻击向量(记忆投毒)
- 它没有评估 agent 间信任边界的方法
- 它没有映射到监管合规框架
- 它提供的是漏洞分类,而不是审计方法
**它能提供什么:** 一个针对单个 agent 组件的有用的初步检查清单。 **它不能提供什么:** 一种用于端到端评估企业 agentic 部署的结构化测试方法。
### NIST AI RMF
NIST AI RMF 是一个治理框架,而不是安全测试方法。它的四个功能(治理、映射、测量、管理)在概念上是合理的,并为 AI 风险计划提供了有用的组织结构。它的局限性在于:
- 它在设计上是框架无关的,这意味着它不提供具体的测试程序
- 它没有专门针对 agentic 系统的对抗性测试
- 它的测量功能没有定义对于受监管行业而言什么构成充分的证据
- 加拿大监管机构 (OSFI) 提到了 NIST,但并不认为它足以满足模型风险管理义务
**它能提供什么:** 组织词汇和治理结构。 **它不能提供什么:** 一种测试 agent 是否可被利用的方法。
### MITRE ATLAS
MITRE ATLAS 是这三者中技术上最复杂的。它的对抗性 ML 分类法非常严谨,案例研究记录详尽。它在 agentic 环境下的局限性在于:
- 它是为传统意义上的 ML 模型设计的:训练数据攻击、模型规避、模型反演
- 它没有将 prompt injection 作为主要攻击类别进行讨论(虽被列出但未深入展开)
- 未涵盖多 agent 信任边界攻击
- 未涉及记忆投毒攻击
- 它没有映射到企业 LangChain/LangGraph 部署的运营现实
**它能提供什么:** 一个针对模型组件上特定于 ML 的攻击的严谨分类法。 **它不能提供什么:** 对 agentic 编排引入的攻击面的覆盖。
### 综合差距
这三个框架,无论是单独还是结合起来,都无法提供:
1. 一套结构化的方法,用于跨 agent 的完整工具可访问环境测试 prompt injection 韧性
2. 一套用于评估由向量存储支持的持久记忆系统中记忆完整性的程序
3. 一个用于映射和评估 agent 间信任边界的框架
4. 受监管行业合规职能可接受的审计证据模板
5. 与 OSFI E-23、《欧盟 AI 法案》第9-15条、HIPAA 技术保障措施或 PHIPA 要求的映射关系
本仓库旨在填补这一空白。
## 4. 加拿大企业的监管背景
有两项监管工具为部署 agentic AI 的加拿大企业创造了强制性的合规支出。这不是可选项。
### OSFI 指南 E-23 — 模型风险管理
金融机构监理办公室修订了指南 E-23,明确将 AI/ML 模型纳入模型风险管理义务的范围内。对于加拿大联邦监管的金融机构(FRFI)——即五大银行、主要保险公司、联邦监管的养老基金——合规截止日期为**2027年5月**。
E-23 要求 FRFI 维护:
- 涵盖生产中使用的所有模型的模型清单
- 对模型性能和风险的独立验证
- 记录模型的局限性和故障模式
- 持续的监控和治理
Agentic AI 部署符合 E-23 中关于“模型”的定义。独立验证的要求创造了第三方审计的结构性需求。银行无法使用构建该 agent 系统的同一供应商来满足独立验证要求。
### 欧盟《AI 法案》— 第9-15条
欧盟《AI 法案》于2024年8月生效。第9-15条下关于高风险 AI 系统的义务将在2025至2026年间分阶段实施。对于在欧盟有业务、面向欧盟的产品或欧盟数据主体的加拿大企业,这些义务具有域外效力。
第9-15条要求高风险 AI 系统必须具备:
- 风险管理系统(第9条)
- 数据治理程序(第10条)
- 技术文档(第11条)
- 记录保存和日志记录(第12条)
- 透明度和人类监督机制(第13-14条)
- 准确性、鲁棒性和网络安全(第15条)
第15条明确要求高风险 AI 系统必须能够抵御对抗性操纵。这是首个专门针对 AI 系统创建强制性网络安全测试要求的监管工具。
### 实际意义
一家部署 agentic AI 系统用于贷款决策、欺诈检测或客户交互的加拿大银行将面临:
- OSFI E-23 独立验证要求
- 欧盟《AI 法案》高风险系统义务(如果存在任何欧盟联系)
- 潜在的 PHIPA(如果任何工作流中涉及健康数据)
这些义务都无法通过自动化的合规检查清单工具来满足。它们需要有文档记录的方法、合格的独立评估人员以及监管机构可接受的审计证据。本框架旨在生成此类证据。
## 5. 本框架包含的内容
本仓库被结构化为一个完整的审计测试方法。它正在逐步构建中——有关当前可用内容,请参阅[当前状态](#7-current-status)。
### 5.1 审计方法 (`/methodology`)
一个分阶段的审计程序,涵盖:
- **测试前范围界定** — agent 清单、工具图谱映射、数据流文档
- **威胁建模** — 针对部署架构的特定攻击面枚举
- **技术测试** — 针对六大攻击维度中每一个的结构化测试程序
- **证据收集** — 收集什么,如何收集,监管链程序
- **风险评级** — 为 agentic 系统发现量身定制的严重性分类
- **报告** — 发现文档和修复路线图结构
### 5.2 测试工具 (`/test-harness`)
针对每个攻击维度的可执行测试用例:
- Prompt injection payload 库(20+ 个 payload,按注入向量分类)
- 针对基于向量存储的 agent 的记忆投毒测试场景
- 工具调用边界测试
- 多 agent 信任边界探测
- 身份归因压力测试
- 人类监督延迟测量
### 5.3 合规映射器 (`/compliance-mapper`)
一个 CLI 工具和映射文档,将审计发现转化为具体的监管义务:
- OSFI E-23 章节映射
- 欧盟《AI 法案》第9-15条映射
- HIPAA 技术保障措施映射
- NIST AIF 交叉引用
给定一个 LangChain agent 配置,合规映射器会输出针对适用监管要求的差距分析。
### 5.4 证据模板 (`/evidence-templates`)
用于生成受监管行业合规职能可接受的审计证据的结构化模板:
- Agent 清单文档模板
- 工具访问控制矩阵模板
- 测试执行日志格式
- 发现报告模板(结构化适用于 CISO 和法务审查)
- 证明信模板
## 6. 仓库结构
本仓库正在按顺序构建——先有方法,再有工具,最后是模板。构建顺序遵循测试工作流程。
**当前状态:** 方法论基础和跨框架
[控制映射](methodology/control-mapping.md) — 六大维度映射到
OWASP LLM Top 10、NIST AI RMF、MITRE ATLAS、欧盟《AI 法案》和 OSFI E-23
([机器可读的 CSV](methodology/control-mapping.csv)).
**进行中:** Prompt injection 测试工具和 OSFI E-23 合规映射器.
**已计划:** 记忆投毒测试、多 agent 信任边界测试、证据模板。
详情请参阅下方的[当前状态](#7-current-status)。
## 7. 当前状态
本仓库正在积极开发中。构建顺序遵循测试方法论——先进行范围界定和威胁建模,再进行测试,最后进行合规映射。
| 组件 | 状态 |
|---|---|
| 控制映射(6个维度 → 框架与法规) | ✅ 可用 |
| 审计方法(阶段结构 + 每个维度的证据) | 🔄 进行中 |
| Prompt injection 测试工具 | 🔄 进行中 |
| OSFI E-23 合规映射器 | 📅 已计划 |
| 欧盟《AI 法案》第9-15条映射器 | 📅 已计划 |
| 记忆投毒测试用例 | 📅 已计划 |
| 多 agent 信任边界测试 | 📅 已计划 |
| 证据模板 | 📅 已计划 |
组件在真实测试环境中验证通过后即会发布更新。未经验证可用的内容绝不会提前发布。
## 8. 目标受众
**受监管企业中的 CISO 和安全架构师**,正在部署 agentic AI 系统,需要回答这个问题:*这个部署安全吗,我能向监管机构证明这一点吗?* 本框架为您提供了一种结构化的方法来找出答案并记录结果。
**加拿大 FRFI 和安大略省医疗系统中的合规官**,正在推进 OSFI E-23 模型风险管理计划或欧盟《AI 法案》高风险系统文档工作。合规映射器将技术审计发现转化为您的文档所需的监管语言。
**内部红队和安全工程师**,被要求评估 agentic AI 部署,却发现现有的渗透测试方法无法顺畅地对应到该问题上。测试工具被设计为只需最少的设置即可针对实时部署运行。
**在此领域进行探索的独立安全研究员**。这里的一切都是开放的。如果方法有误,请提交 issue。如果您有应包含在测试工具中的攻击研究,请提交 pull request。
**本框架不适用于:** 常规 LLM 安全(请使用 OWASP LLM Top 10 作为起点)、传统的渗透测试,或尚未部署 agentic 系统的组织。其范围被刻意收窄——具有持久记忆、工具访问和多 agent 协调的自主 agent。这种特定性才是关键所在。
## 9. 参考文献
- Liao, Q. et al. (2025). *Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks.* Columbia University. — 10/10 信用卡提取结果。认知攻击维度的首要实证基础。
- Narajala, V.S. and Narayan, O. (2025). *Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents.* arXiv:2504.19956. Amazon Web Services. — 跨五个领域(认知、时间、操作、信任边界、治理)的 ATFAA 9 威胁分类法和 SHIELD 缓解框架。六大攻击维度的框架来源。
- Raza, S., Sapkota, R., Karkee, M., and Emmanouilidis, C. (2025). *TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems.* arXiv:2506.04133. Vector Institute, Toronto / Cornell University. — 跨欧盟《AI 法案》、NIST AI RMF 和 ISO 42001 的监管合规映射。企业及监管可信度来源。
- Gosmar, D. and Dahl, D.A. (2025). *Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems.* arXiv:2509.14956. Preprint. — 多 agent 系统中分布式安全层的架构模式(sidecar、proxy、continuous-listener)。注:仅限原型,未经同行评审。
- OSFI Guideline E-23 — *Model Risk Management* (revised, effective May 2027). Office of the Superintendent of Financial Institutions, Canada.
- EU Artificial Intelligence Act (Regulation 2024/1689) — Articles 9-15. European Parliament, August 2024.
- OWASP Top 10 for Large Language Model Applications (v1.1, 2023).
- NIST AI Risk Management Framework (AI RMF 1.0, January 2023).
- MITRE ATLAS — Adversarial Threat Landscape for Artificial-Intelligence Systems. MITRE Corporation.
- NIST SP 800-53 Rev 5 — Security and Privacy Controls for Information Systems.
- CSA MAESTRO — Multi-Agent Environment Security and Trust Risk Overview (2024).
## 作者
**Sumit Giri, PhD**
AI Lead at Northwright — 构建安全的 agentic AI 系统.
Toronto, Ontario, Canada
LLM Security · Adversarial ML · Cryptography.
[LinkedIn](https://linkedin.com/in/sumitgiri) · [GitHub](https://github.com/sumitgiri87)
*这是独立研究。无供应商关系。与所引用的任何框架或组织无关。研究结果和方法论均代表作者本人的工作。*
标签:AI智能体, CISA项目, DLL 劫持, 人工智能安全, 合规性, 大语言模型, 威胁建模, 审计框架