aisecurityblueprint/aisecurityblueprint

GitHub: aisecurityblueprint/aisecurityblueprint

面向具备推理、行动和记忆能力的生产级AI系统的运营安全框架，提供涵盖12个控制域的安全治理架构与对抗性检测方案。

Stars: 1 | Forks: 0

# AI 安全蓝图 v2.0 **可观测 · 可控 · 可遏制** 针对具备推理、行动和记忆能力的生产级 AI 系统的实用运营安全框架。 ## 概述现代 AI 系统已不再是单纯的被动软件组件。它们会检索。它们会推理。它们会记忆。它们会委派。它们会执行。它们会交互。本蓝图提供了一个全面的运营安全架构，涵盖 12 个控制域，旨在保护 AI 系统的安全。其中包含实用的检测代码、强制校准协议，以及对已验证内容与占位符内容的诚实评估。 **这不是一份提示工程指南。这是针对能够思考、行动和记忆的系统的控制架构。** ## 内容概览 - **域 01：输入与接口控制** (已完成) - 记录了 8 个攻击向量，并附带功能性检测代码 - 上下文填充、函数注入、RAG 投毒、工具响应注入等 - 确定性风险评估规则（与 NIST/OWASP 对齐） - 强制校准协议（第 4.7.3 节） - **12 域架构** (规划中) - 01 输入与接口控制 ✅ - 02 上下文与 RAG 控制 (规划中) - 03 推理控制 (规划中) - ...以及其他 9 个域 - **运营验证** - 针对 330+ 种对抗性负载进行了测试 - 来自在线 AI 系统的生产环境校准结果 - 真实事件案例及修复措施 - 跨模型验证（Mixtral、Mistral、Qwen） - **治理与成熟度** - 5 级成熟度模型 - 确定性规则（非概率性评分） - 与 OWASP/NIST/MITRE 对齐 - 取证审计追踪（哈希链架构） ## 核心原则 1. **“模型负责建议。架构负责决策。”** - 安全存在于决策时刻，而非提示中 - 控制措施跨越输入、上下文、推理、执行层运行 2. **诚实的验证状态** - 检测阈值是经过校准的占位符，需要进行本地化调整 - 公开记录已验证与未验证的内容 - 提供强制校准协议，而非普遍保证 3. **注重运营而非理论** - 在生产级 AI 系统中开发与验证 - 针对暗网监控信息流、威胁情报和 OSINT 进行了测试 - 包含真实世界的事件案例 4. **可观测 · 可控 · 可遏制** - 每一项决策均记录审计日志 - 带有执行点的运行时治理 - 故障遏制与恢复程序 ## 快速入门 ### 安全架构师 - 阅读：**[AI_Security_Assessment_Blueprint_v2.0.md](./docs/AI_Security_Assessment_Blueprint_v2.0.md)** - 重点关注章节：1.0（基础）、4.2（参考架构）、4.5-4.6（风险与规则） ### 安全工程师 - 阅读：**第 2 节（攻击向量）** + **第 3 节（控制措施）** - 运行：针对您的 endpoint 运行 **[quick_start_validation.py](./code/quick_start_validation.py)** - 实施：**第 4.7.3 节（校准协议）** ### 红队 - 阅读：**第 4.3 节（测试框架）** - 使用：校准数据集中的 **330+ 种对抗性负载** - 验证：**第 4.7.3 节（对抗性验证）** ### 规划 AI 安全的企业 - 阅读：**第 4.1 节（成熟度模型）** → 评估当前状态 - 阅读：**第 4.5 节（风险框架）** → 映射到您面临的威胁 - 规划：**6 周校准协议**（第 4.7.3 节） ## 运营验证本框架已在生产环境中通过运营测试： - **生产运行时间：** 30 天以上 - **测试负载：** 330+ 种对抗性变体 - **测试模型：** Mixtral 8x22B、Mistral 7B、Qwen 3B、Qwen 1.5B - **真实威胁：** 暗网监控、OSINT、威胁情报信息流 - **检测率：** 按攻击向量区分达 87-99.8%（参见案例研究） - **误报率：** 0-2%（为生产环境进行了校准） **详见：**[案例研究：运营验证](./docs/case-study-operational-validation.md) ## 仓库结构

标签：AI原生安全, AI安全, AI安全蓝图, AI治理, API密钥检测, Chat Copilot, CISA项目, CSV导出, MITRE, NIST, RAG安全, Red Canary, 上下文控制, 人工智能安全, 函数注入防护, 取证审计, 合规性, 大模型安全, 大模型风控, 威胁情报, 安全合规, 安全成熟度模型, 安全控制域, 安全架构, 安全运营, 对抗性攻击防御, 开发者工具, 扫描框架, 提示词注入防御, 模型推理安全, 网络代理, 网络安全框架, 输入验证, 逆向工具, 防御加固, 风控系统