JonathanCGill/airuntimesecurity.io
GitHub: JonathanCGill/airuntimesecurity.io
一个AI运行时安全框架,通过Guardrails、LLM-as-Judge、人工监督和熔断器的分层架构,解决AI系统在生产环境中面临的Prompt注入、模型操纵和Agent漂移等运行时风险。
Stars: 0 | Forks: 0
# AI Runtime Security
## AI 系统不仅有漏洞,还有行为。
[](docs/foundations/) [](docs/maso/red-team/red-team-playbook.md) [](docs/maso/controls/risk-register.md) [](docs/PACE-RESILIENCE.md) [](https://opensource.org/licenses/MIT)
**一个实用的开源框架,用于在运行时保护 AI 系统——这也是 Prompt 注入、模型操纵和 Agent 漂移实际发生的阶段。**
大多数 AI 安全指南止步于模型层。本框架解决的是部署后的问题:AI 系统在生产环境中如何表现,如何监控这些行为,以及当出现问题时如何进行遏制。基于受监管金融服务领域 20 多年的企业网络安全经验构建。
完整的控制架构专为**贵组织开发和运营的 AI 系统**(自定义模型、RAG 流程、Agent、多 Agent 系统)设计。对于从供应商处采购的 AI(copilots、SaaS、云 AI 平台),本框架提供了思维模型;安全问题和实施细节有所不同。请参阅 [成熟度等级](docs/strategy/maturity-levels.md) 了解框架如何应对这两个方向。
## 您正在解决的问题
您无法在部署前对 AI 系统进行完整测试。输入空间是自然语言——实际上是无限的。涌现行为无法通过传统的测试套件预测。而且对抗性输入总会找到 QA 团队想象不到的边缘情况。
那么,您如何知道它在生产中运行正常?
如今,大多数企业的“AI 安全”只是 Guardrails(护栏):阻止已知不良模式的输入/输出过滤器。这能捕获您可以预先定义的内容。它无法捕获那些流畅、自信但错误的响应。基于幻觉数据的建议。技术上获得授权但在上下文中危险的操作。
**您需要分层运行时控制——而不仅仅是更快的模式匹配。**
## 架构
业界正不约而同地得出同一个答案。NVIDIA NeMo、AWS Bedrock、Azure AI、LangChain、Guardrails AI——所有这些都实施了相同模式的变体:
| 层级 | 功能 | 速度 |
| --- | --- | --- |
| **Guardrails** | 阻止已知不良的输入和输出——PII、注入模式、策略违规 | 实时(~10ms) |
| **LLM-as-Judge** | 检测未知的不良行为——由独立的模型评估响应是否得当 | 异步(~500ms–5s) |
| **Human Oversight** | 决定自动化层无法解决的真正模棱两可的案例 | 按需 |
| **Circuit Breaker** | 当控制本身失效时,停止所有 AI 流量并激活安全回退 | 立即 |
**Guardrails 预防。Judge 检测。人类决策。Circuit Breaker 遏制。**
每一层都能捕获其他层遗漏的内容。移除任何一层,您就会留下缺口。该框架将每个控制项与 **[PACE 韧性架构](docs/PACE-RESILIENCE.md)** 配对——主要、备用、应急、紧急——因此当一层降级时,系统会转换到预定的安全状态,而不是无声地失败。

## 适用对象
**安全负责人**,正在制定 AI 安全策略,并发现现有框架只描述了理想状态,却未说明如何在生产中实现。
**→** [安全负责人视角](docs/stakeholders/security-leaders.md) | [风险与治理视角](docs/stakeholders/risk-and-governance.md)
**架构师**,正在规划控制项在 AI 流程中的位置、成本以及失效时的后果。
**→** [企业架构师视角](docs/stakeholders/enterprise-architects.md) | [快速入门](docs/QUICK_START.md) —— 30 分钟从零到运行控制项
**工程师**,构建 AI 系统,需要实施模式而非演示文稿。Guardrail 配置、Judge Prompt、集成代码。
**→** [AI 工程师视角](docs/stakeholders/ai-engineers.md) | [集成指南](docs/maso/integration/integration-guide.md) —— LangGraph, AutoGen, CrewAI, Bedrock
## 从这里开始
```
pip install airs
airs assess
```
| 我想... | 前往 |
| --- | --- |
| **安装 SDK 并开始编码** | **[SDK 文档](docs/sdk/README.md)** —— `pip install airs` 并构建安全性 |
| **在 30 分钟内入门** | **[快速入门](docs/QUICK_START.md)** —— 从零到运行控制项 |
| **保护单模型 AI 系统** | **[基础框架](docs/foundations/)** —— 80 项控制、风险分级、PACE 韧性 |
| **保护多 Agent 系统** | **[MASO 框架](docs/maso/)** —— 128 项控制、7 个领域、3 个层级 |
| **快速部署低风险 AI** | **[快速通道](docs/FAST-LANE.md)** —— 内部、只读、无监管数据的自我认证 |
| 我在问关于... | 从这里开始 | | --- | --- | | 这些控制项的成本以及如何管理延迟 | [成本与延迟](docs/extensions/technical/cost-and-latency.md) —— 采样策略、延迟预算、分层评估级联 | | 当 Judge 判定错误时会发生什么 | [Judge 保障](docs/core/judge-assurance.md) —— 准确度指标、校准、对抗性测试、故障安全机制 | | Judge 如何被攻击 | [当 Judge 可能被愚弄时](docs/core/when-the-judge-can-be-fooled.md) —— 输出伪造、Judge 操纵、分层缓解措施 | | 保护 AI 供应链 | [供应链控制](docs/maso/controls/supply-chain.md) —— AIBOM、签名清单、MCP 审查、模型溯源 | | 人为操作员疲劳和自动化偏见 | [人为因素](docs/strategy/human-factors.md) —— 技能发展、警报疲劳、挑战率测试 | | Agent 协作时产生的风险 | [涌现风险登记册](docs/maso/controls/risk-register.md) —— 9 个类别中的 34 个风险,含覆盖范围评估 |
| 我想... | 从这里开始 | | --- | --- | | 获取单页参考 | [速查表](docs/CHEATSHEET.md) —— 分类、控制、失效姿态、测试 | | 按风险对系统进行分类 | [风险分级](docs/core/risk-tiers.md) | | 量化 AI 风险以向董事会汇报 | [风险评估](docs/core/risk-assessment.md) | | 使 AI 与业务战略保持一致 | [从战略到生产](docs/strategy/) | | 了解 AI 安全的组织成熟度 | [成熟度等级](docs/strategy/maturity-levels.md) | | 在一张图上看清整个框架 | [地铁图](docs/TUBE-MAP.md) | | 了解 PACE 韧性 | [PACE 方法论](docs/PACE-RESILIENCE.md) | | 对 Agent 运行对抗性测试 | [红队手册](docs/maso/red-team/red-team-playbook.md) | | 在 LangGraph, AutoGen, CrewAI 或 Bedrock 中实施 | [集成指南](docs/maso/integration/integration-guide.md) | | 查看包含每个日志事件的单次端到端事务 | [运行时遥测参考](docs/extensions/technical/runtime-telemetry-reference.md) | | 在基础设施层面强制执行控制 | [基础设施控制](docs/infrastructure/) | | 查看映射到控制项的真实事件 | [事件追踪器](docs/maso/threat-intelligence/incident-tracker.md) | | 查看 MASO 在金融、医疗或能源领域的应用 | [实战案例](docs/maso/examples/worked-examples.md) | | 按角色导航 | [框架地图](docs/FRAMEWORK-MAP.md) | | 了解哪些已验证,哪些未验证 | [成熟度与验证](docs/MATURITY.md) | | 映射到合规要求 | [合规与法律视角](docs/stakeholders/compliance-and-legal.md) | | 查看所有参考资料和延伸阅读 | [参考资料与来源](docs/REFERENCES.md) |
## 当 Agent 与 Agent 对话时
单模型控制假设只有一个 AI、一个上下文窗口、一个信任边界。多 Agent 系统打破了所有这些假设。
当多个 LLM 协作、委托并采取自主行动时,会出现单 Agent 框架无法解决的新的失效模式:
- **Prompt 注入在 Agent 链中传播** —— 一个被污染的文档变成每个下游 Agent 的指令
- **幻觉叠加** —— Agent A 幻觉出一个主张,Agent B 将其作为事实引用,Agent C 以高置信度进行详细阐述
- **委托创造传递性权限** —— 权限通过无人设计的委托链隐性转移
- **失效看起来像成功** —— 最危险的输出是格式良好、自信、一致同意且错误的
**[MASO 框架](docs/maso/)** 将基础扩展到多 Agent 编排:7 个领域的 128 项控制,3 个实施层级(监督 → 管理 → 自主),完全覆盖 LLM 和 Agentic Top 10 OWASP 项目,以及 34 个没有 OWASP 对应项的涌现风险——包括群体思维和合成佐证等认知失效,这是其他框架未曾正式涉及的。
**→ [进入 MASO](docs/maso/)**
## 策略:从想法到运行系统
安全控制回答了*如何保护* AI。它们没有回答*构建什么*、*AI 是否是正确的工具*,或者*组织能否安全地交付和运营它*。
**[从战略到生产](docs/strategy/)** 部分弥合了这一差距:
| 阶段 | 问题 | 产出 |
| --- | --- | --- |
| [业务对齐](docs/strategy/business-alignment.md) | 这值得做吗?AI 是正确的工具吗? | 评估过替代方案的商业案例 |
| [用例定义](docs/strategy/use-case-definition.md) | 它具体做什么? | 十问定义法,用于风险分类 |
| [风险分类](docs/core/risk-tiers.md) | 哪个层级?哪些控制? | 六维度评分档案及治理审批 |
| [从想法到生产](docs/strategy/idea-to-production.md) | 我们如何从想法走到安全运营? | 八阶段生命周期及关卡和负责人 |
策略经常低估的三个约束:**[数据现实](docs/strategy/data-reality.md)** —— 您的数据比您的雄心更能决定您的策略。**[人为因素](docs/strategy/human-factors.md)** —— 如果操作人员没有准备好,控制就不起作用。**[进阶路径](docs/strategy/progression.md)** —— 从低风险转向高风险需要 2-3 年;跳过步骤是最常见的策略失败。**[成熟度等级](docs/strategy/maturity-levels.md)** —— Level 1 和 Level 5 组织的样子,以及为什么真正的差距在于运营纪律而非能力。
## 标准对齐
| 标准 | 覆盖范围 |
| --- | --- |
| [OWASP LLM Top 10 (2025)](https://owasp.org/www-project-top-10-for-large-language-model-applications/) | 基础 + MASO 完整映射 |
| [OWASP Agentic Top 10 (2026)](https://genai.owasp.org/) | MASO 完整映射 |
| [NIST AI RMF](https://www.nist.gov/itl/ai-risk-management-framework) | 治理、映射、测量、管理 |
| [ISO 42001](https://www.iso.org/standard/81230.html) | AI 管理体系对齐 |
| [NIST SP 800-218A](https://csrc.nist.gov/pubs/sp/800/218/a/final) | 部署前补充 |
| [MITRE ATLAS](https://atlas.mitre.org/) | 聚焦 Agent 的威胁情报 |
| [EU AI Act](https://artificialintelligenceact.eu/) | 第 9, 14, 15 条 —— 风险管理、监督、稳健性 |
| [DORA](https://www.digital-operational-resilience-act.com/) | 金融服务的数字运营韧性 |
## 关于本框架
**它提供什么:** - **一种关于控制的思维方式,而非规定。** 框架描述了*什么*需要成为现实以及*为什么*重要。它不强制要求特定的产品、供应商或架构。如果您现有的工具已经满足了一项控制,您不需要新的工具。 - **帮助决定投资重点。** 并非所有控制都同等重要。风险分级、PACE 韧性等级以及基础与多 Agent 控制的区别,都是为了让您能推理优先级。 - **作为设计原则的纵深防御。** 分层方法之所以存在,是因为每一层都覆盖了其他层的缺口。问题不是“我们需要哪一层?”,而是“当每一层都失效时会发生什么?” - **AI 产品的韧性思维。** 传统安全问“我们如何防止坏事?”本框架还问“当预防失效时会发生什么?” - **明确何时*不需要*工具。** 某些控制已由您现有的基础设施处理。框架应该帮助您看到哪里已经有覆盖,而不是说服您购买新东西。 - **一层 AI 专用层,而非替代其他所有内容。** 本框架解决非确定性 AI 行为特有的控制问题。它不替代您现有的 DLP、API 验证、数据库访问控制、IAM、SIEM、安全编码实践或事件响应能力。这些控制很重要——甚至可以说比以往更重要,因为它们是 AI 特定控制遗漏时的安全网。 **它不是什么:** - 不是认证或审计标准。您不能“符合”本框架。 - 不是产品推荐。工具和供应商引用仅作说明,非背书。 - 不能替代对您特定部署的专业安全评估。 - 不是一份完成的文档。AI 安全发展迅速。本框架将随环境变化而演进。
## 仓库结构
``` ├── README.md # This document — start here ├── docs/ # All framework content (served by MkDocs) │ ├── README.md # Site homepage │ ├── foundations/ # Single-model AI security framework │ ├── maso/ # Multi-Agent Security Operations (MASO) │ │ ├── controls/ # 6 domain specifications + risk register │ │ ├── implementation/ # 3 tier guides (supervised, managed, autonomous) │ │ ├── threat-intelligence/ # Incident tracker + emerging threats │ │ ├── red-team/ # Adversarial test playbook (13 scenarios) │ │ ├── integration/ # LangGraph, AutoGen, CrewAI, AWS Bedrock patterns │ │ └── examples/ # Financial services, healthcare, critical infrastructure │ ├── stakeholders/ # Role-based entry points │ ├── core/ # Risk tiers, controls, IAM governance, checklists │ ├── infrastructure/ # 80 technical controls, 11 domains │ ├── extensions/ # Regulatory, templates, worked examples │ ├── insights/ # Analysis articles and emerging challenges │ ├── strategy/ # AI strategy — alignment, data, human factors │ └── images/ # All SVGs and diagrams ├── src/airs/ # Python SDK │ ├── cli/ # CLI assessment tool (airs assess) │ ├── core/ # Models, controls registry, risk classifier │ ├── runtime/ # Three-layer pipeline, PACE, circuit breaker │ └── integrations/ # FastAPI middleware ├── tests/ # 52 tests ├── examples/ # Quick start + FastAPI example app ├── pyproject.toml # Python package configuration ├── overrides/ # MkDocs Material theme overrides └── mkdocs.yml # Site configuration ```
## 关于作者
**Jonathan Gill** 是一名网络安全从业者,在信息技术领域拥有超过 30 年的经验,在企业网络安全领域拥有 20 多年的经验。他的职业生涯跨度涵盖 UNIX 系统管理、构建全国性 ISP 基础设施、主要金融机构的企业安全架构以及外交 IT 服务。
他目前的重点是 AI 安全治理:设计控制架构以应对在企业规模上保护非确定性系统的独特挑战,并将复杂的技术风险转化为工程团队和执行领导层可操作的指导。
- GitHub: [@JonathanCGill](https://github.com/JonathanCGill)
- LinkedIn: [Jonathan Gill](https://www.linkedin.com/in/jonathancgill/)
## 免责声明
本框架根据 [MIT 许可证](LICENSE) 按原样提供。正如 [关于本框架](#about-this-framework) 中所述,它是一个思考工具——而非标准、认证或安全保证。它反映了从业者对行业模式、监管要求和运营经验的综合。
如果您采用本框架的任何部分,您有责任根据您自己的威胁模型、环境和监管义务对其进行验证。
本框架是在 AI 辅助(Claude 和 ChatGPT)下编写,用于起草、结构化和研究综合。架构、控制设计、风险分析和编辑判断由作者完成。
这是一个个人项目。它不隶属于、不由任何雇主、组织或其他实体认可或代表。表达的观点和意见仅代表作者本人,不应被解释为反映了作者目前或曾经关联的任何公司或机构的立场或政策。
常见问题 —— 成本、Judge 可靠性、供应链、人为因素、合规性
| 我在问关于... | 从这里开始 | | --- | --- | | 这些控制项的成本以及如何管理延迟 | [成本与延迟](docs/extensions/technical/cost-and-latency.md) —— 采样策略、延迟预算、分层评估级联 | | 当 Judge 判定错误时会发生什么 | [Judge 保障](docs/core/judge-assurance.md) —— 准确度指标、校准、对抗性测试、故障安全机制 | | Judge 如何被攻击 | [当 Judge 可能被愚弄时](docs/core/when-the-judge-can-be-fooled.md) —— 输出伪造、Judge 操纵、分层缓解措施 | | 保护 AI 供应链 | [供应链控制](docs/maso/controls/supply-chain.md) —— AIBOM、签名清单、MCP 审查、模型溯源 | | 人为操作员疲劳和自动化偏见 | [人为因素](docs/strategy/human-factors.md) —— 技能发展、警报疲劳、挑战率测试 | | Agent 协作时产生的风险 | [涌现风险登记册](docs/maso/controls/risk-register.md) —— 9 个类别中的 34 个风险,含覆盖范围评估 |
更多路径 —— 风险分类、红队测试、策略、实战案例
| 我想... | 从这里开始 | | --- | --- | | 获取单页参考 | [速查表](docs/CHEATSHEET.md) —— 分类、控制、失效姿态、测试 | | 按风险对系统进行分类 | [风险分级](docs/core/risk-tiers.md) | | 量化 AI 风险以向董事会汇报 | [风险评估](docs/core/risk-assessment.md) | | 使 AI 与业务战略保持一致 | [从战略到生产](docs/strategy/) | | 了解 AI 安全的组织成熟度 | [成熟度等级](docs/strategy/maturity-levels.md) | | 在一张图上看清整个框架 | [地铁图](docs/TUBE-MAP.md) | | 了解 PACE 韧性 | [PACE 方法论](docs/PACE-RESILIENCE.md) | | 对 Agent 运行对抗性测试 | [红队手册](docs/maso/red-team/red-team-playbook.md) | | 在 LangGraph, AutoGen, CrewAI 或 Bedrock 中实施 | [集成指南](docs/maso/integration/integration-guide.md) | | 查看包含每个日志事件的单次端到端事务 | [运行时遥测参考](docs/extensions/technical/runtime-telemetry-reference.md) | | 在基础设施层面强制执行控制 | [基础设施控制](docs/infrastructure/) | | 查看映射到控制项的真实事件 | [事件追踪器](docs/maso/threat-intelligence/incident-tracker.md) | | 查看 MASO 在金融、医疗或能源领域的应用 | [实战案例](docs/maso/examples/worked-examples.md) | | 按角色导航 | [框架地图](docs/FRAMEWORK-MAP.md) | | 了解哪些已验证,哪些未验证 | [成熟度与验证](docs/MATURITY.md) | | 映射到合规要求 | [合规与法律视角](docs/stakeholders/compliance-and-legal.md) | | 查看所有参考资料和延伸阅读 | [参考资料与来源](docs/REFERENCES.md) |
它提供什么,不提供什么,以及如何使用
**它提供什么:** - **一种关于控制的思维方式,而非规定。** 框架描述了*什么*需要成为现实以及*为什么*重要。它不强制要求特定的产品、供应商或架构。如果您现有的工具已经满足了一项控制,您不需要新的工具。 - **帮助决定投资重点。** 并非所有控制都同等重要。风险分级、PACE 韧性等级以及基础与多 Agent 控制的区别,都是为了让您能推理优先级。 - **作为设计原则的纵深防御。** 分层方法之所以存在,是因为每一层都覆盖了其他层的缺口。问题不是“我们需要哪一层?”,而是“当每一层都失效时会发生什么?” - **AI 产品的韧性思维。** 传统安全问“我们如何防止坏事?”本框架还问“当预防失效时会发生什么?” - **明确何时*不需要*工具。** 某些控制已由您现有的基础设施处理。框架应该帮助您看到哪里已经有覆盖,而不是说服您购买新东西。 - **一层 AI 专用层,而非替代其他所有内容。** 本框架解决非确定性 AI 行为特有的控制问题。它不替代您现有的 DLP、API 验证、数据库访问控制、IAM、SIEM、安全编码实践或事件响应能力。这些控制很重要——甚至可以说比以往更重要,因为它们是 AI 特定控制遗漏时的安全网。 **它不是什么:** - 不是认证或审计标准。您不能“符合”本框架。 - 不是产品推荐。工具和供应商引用仅作说明,非背书。 - 不能替代对您特定部署的专业安全评估。 - 不是一份完成的文档。AI 安全发展迅速。本框架将随环境变化而演进。
展开查看完整仓库布局
``` ├── README.md # This document — start here ├── docs/ # All framework content (served by MkDocs) │ ├── README.md # Site homepage │ ├── foundations/ # Single-model AI security framework │ ├── maso/ # Multi-Agent Security Operations (MASO) │ │ ├── controls/ # 6 domain specifications + risk register │ │ ├── implementation/ # 3 tier guides (supervised, managed, autonomous) │ │ ├── threat-intelligence/ # Incident tracker + emerging threats │ │ ├── red-team/ # Adversarial test playbook (13 scenarios) │ │ ├── integration/ # LangGraph, AutoGen, CrewAI, AWS Bedrock patterns │ │ └── examples/ # Financial services, healthcare, critical infrastructure │ ├── stakeholders/ # Role-based entry points │ ├── core/ # Risk tiers, controls, IAM governance, checklists │ ├── infrastructure/ # 80 technical controls, 11 domains │ ├── extensions/ # Regulatory, templates, worked examples │ ├── insights/ # Analysis articles and emerging challenges │ ├── strategy/ # AI strategy — alignment, data, human factors │ └── images/ # All SVGs and diagrams ├── src/airs/ # Python SDK │ ├── cli/ # CLI assessment tool (airs assess) │ ├── core/ # Models, controls registry, risk classifier │ ├── runtime/ # Three-layer pipeline, PACE, circuit breaker │ └── integrations/ # FastAPI middleware ├── tests/ # 52 tests ├── examples/ # Quick start + FastAPI example app ├── pyproject.toml # Python package configuration ├── overrides/ # MkDocs Material theme overrides └── mkdocs.yml # Site configuration ```
标签:Agentic AI, AI Runtime Security, AI护栏, AI治理, DLL 劫持, DNS 反向解析, Guardrails, LLM-as-Judge, MITRE ATLAS, OWASP Top 10, PyRIT, RAG管道安全, Streamlit, 人工智能安全, 人工智能安全, 企业网络安全, 合规性, 合规性, 多智能体系统, 大语言模型, 开源安全框架, 异常检测, 智能体安全, 模型操纵, 生成式AI, 私有化部署, 索引, 行为监控, 访问控制, 逆向工具, 配置审计, 防御规避, 韧性工程, 风险控制