joshuamtm/ai-hardening-kit

GitHub: joshuamtm/ai-hardening-kit

一个面向 AI 提示注入风险的便携式测试工具包，提供威胁模型、防御指南与自测脚本。

Stars: 0 | Forks: 0

# AI基础设施加固工具包 *一个实用的入门工具包，适用于正在构建或采用AI助手、希望降低提示注入、数据泄露和连接器滥用风险的人员。* 维护者：Joshua Peskay，访问 [Meet the Moment](https://mtm.now)。该工具包与供应商无关 — 适用于 Claude、ChatGPT、Gemini 以及本地托管的模型。 --- ## 本工具包所围绕的场景你让 Claude 阅读最近的电子邮件并起草对会议邀请的回复。其中一封邮件 — 表面上是供应商咨询 — 包含隐藏在白色文本中的指令，对你不可见但会被智能体处理。这些指令指示 Claude 搜索你的云端硬盘以获取敏感文档，并将其发送到攻击者控制的 URL。这被称为 **间接提示注入**，是在将 AI 助手连接至读取和写入你数据的工具（Gmail、Drive、Slack、CRM、日历等）时，最需要理解的攻击类别。它目前是 OWASP LLM 应用十大风险中的 [#1 风险](https://genai.owasp.org/llmrisk/llm01-prompt-injection/)，Anthropic 自身也 [明确将这一场景](https://www.anthropic.com/news/prompt-injection-defenses) 定义为浏览器和邮件连接智能体的典型威胁。没有模型是免疫的。Claude Opus 4.5 对抗自适应的 Best-of-N 攻击者的成功率约为 1% — 这是一个显著的改进，但并非零。你的防御不能仅依赖模型本身。 --- ## 本工具包提供的内容 | 层级 | 你能获得 | |---|---| | **威胁模型** | 针对拥有 Gmail / Drive / Slack 访问权限的智能体的攻击面的一页心理模型。 | | **防御方案** | 五个可实施的具体防御措施，包含示例及其重要性说明。 | | **平台指南** | 针对 Claude、ChatGPT、Gemini 和本地模型的特定指导；各平台有不同的控制选项需要开启。 | | **检查清单** | 可交付给 CTO、CISO 或 IT 负责人的预部署和季度审查清单。 | | **自测工具** | 一份 Python 脚本，对 Anthropic API 端点运行 22+ 个提示注入探测，使用合成式测试凭证。告诉你哪些信息可能泄露。 | 本工具包 **不会** 让你的 AI 无懈可击。它提供的是防御模式，可将你的暴露程度从“一封精心设计的邮件就能毁掉一周”降低到“攻击者必须同时突破五个独立环节才能获得有用数据”。 --- ## 适用对象 - **非营利组织和小型企业领导者**：被问到“将 Claude/ChatGPT 访问我们的邮件是否安全？”并希望得到真实答案的人。 - **顾问和虚拟 CISO**：在客户采用 AI 助手时需要结构化起点的人。 - **IT 人员**：在组织实施 Claude Desktop、ChatGPT 企业版、Gemini for Workspace 或自定义 LLM 智能体。 - **独立构建者**：使用 Claude Code、ChatGPT 自定义 GPT 或带有 MCP 服务器的本地模型。如果你的 AI 助手 **拥有对你关心的数据的读取权限** 或 **对外部系统的写入权限**（邮件、Slack、Webhook、CRM、代码等），那么本工具包正是为你准备的。 --- ## 如何使用本工具包按以下顺序阅读： 1. [`defenses/01-threat-model.md`](defenses/01-threat-model.md) — 心理模型。10 分钟。不要冒险跳过。 2. [`defenses/02-system-prompt-hardening.md`](defenses/02-system-prompt-hardening.md) — 应放入系统提示的内容（以及不应放入的内容）。 3. [`defenses/03-data-instruction-boundary.md`](defenses/03-data-instruction-boundary.md) — 大语言模型的核心架构问题及绕开方法。 4. [`defenses/04-connector-permissions.md`](defenses/04-connector-permissions.md) — 限定你的 AI 实际能接触的范围。 5. [`defenses/05-egress-controls.md`](defenses/05-egress-controls.md) — 阻止数据外泄。 6. [`platforms/`](platforms/) — 对应你正在使用的平台（Claude、ChatGPT、Gemini、本地）的指南。 7. [`checklists/pre-deployment.md`](checklists/pre-deployment.md) — 在部署前完成此清单。 8. [`test/`](test/) — 运行自测工具。检查报告。 9. 使用 [`checklists/quarterly-review.md`](checklists/quarterly-review.md) 每季度重新运行自测。阅读核心材料的总时间：约 90 分钟。运行自测工具的时间：约 10 分钟。实施有意义的防御措施的时间：2–8 小时，取决于你的技术栈。 --- ## 结构 ``` ai-hardening-kit/ ├── README.md ← You are here ├── LICENSE ← MIT ├── SECURITY.md ← How to report issues in this kit ├── CONTRIBUTING.md ← How to contribute ├── CHANGELOG.md ← Versioned record of what changed when │ ├── defenses/ ← Platform-agnostic defense recipes │ ├── 01-threat-model.md │ ├── 02-system-prompt-hardening.md │ ├── 03-data-instruction-boundary.md │ ├── 04-connector-permissions.md │ └── 05-egress-controls.md │ ├── platforms/ ← Platform-specific controls │ ├── claude.md │ ├── chatgpt.md │ ├── gemini.md │ └── local-models.md │ ├── checklists/ │ ├── pre-deployment.md │ └── quarterly-review.md │ ├── mappings/ ← Framework crosswalk (OWASP / ATLAS / NIST) │ ├── crosswalk.md ← Human-readable │ └── controls.yaml ← Machine-readable │ └── test/ ← Self-test runner ├── README.md ├── pentest.py ├── test_check_leaks.py ← Unit tests for leak detection └── config.template.env ``` --- ## 本工具包不提供的内容 - **安全保证**：提示注入是一个活跃的研究领域。此处的防御措施提高了攻击成本，但无法彻底消除风险。 - **合规认证**：这不是 SOC 2 控制集、HIPAA 检查清单或 GDPR 隐私影响评估。这是实践者的起点。 - **产品**：这是开放内容。Fork 它、适配它、改进它。如果你是顾问，可以围绕它构建服务；如果你是用户，可以直接应用。 - **安全专家的替代品**：如果你处理敏感数据（健康记录、财务数据、法律客户信息），你需要真正的安全审查，而不是一个 GitHub 仓库。 --- ## 框架映射本工具包中的每一个防御、检查项和测试流程都打上了以下标签： - [OWASP LLM 应用十大风险 2025](https://genai.owasp.org/) - [OWASP MCP 十大风险 2025](https://genai.owasp.org/) - [MITRE ATLAS](https://atlas.mitre.org/) v5.4 - [NIST AI 风险管理框架 1.0](https://www.nist.gov/itl/ai-risk-management-framework) 参见 [`mappings/crosswalk.md`](mappings/crosswalk.md)（人工）或 [`mappings/controls.yaml`](mappings/controls.yaml)（机器）。在回答资助方问卷、映射工具包到现有 NIST AI RMF 程序或识别覆盖缺口时使用。 --- ## 版本管理本工具包遵循 [语义化版本控制](https://semver.org/)。请查看 [`CHANGELOG.md`](CHANGELOG.md) 了解每个版本的变更。如需在政策或审计线索中引用本工具包，请固定到标记版本（如 `v1.0.0`）。 --- ## 贡献如果你发现某部分无法正常工作、缺少某个防御措施、存在值得覆盖的新攻击类别，或某个平台需要专属指南 — 请打开 issue 或 pull request。本工具包会在真实从业者提出反馈时不断改进。请参见 [`CONTRIBUTING.md`](CONTRIBUTING.md) 提交流程指南，以及 [`SECURITY.md`](SECURITY.md) 了解如何报告工具包本身的安全问题。 --- ## 致谢与资料来源本工具包参考了以下资料： - [OWASP 大型语言模型应用十大风险（2025）](https://genai.owasp.org/) — LLM 风险的权威分类。 - [OWASP MCP 十大风险（2025）](https://genai.owasp.org/) — 连接器特定风险。 - [Anthropic：在浏览器使用中缓解提示注入风险](https://www.anthropic.com/news/prompt-injection-defenses) — 典型威胁模型。 - [NIST AI 风险管理框架](https://www.nist.gov/itl/ai-risk-management-framework) — 治理层。 - Oasis Security 披露的 [Claude.ai 数据泄露漏洞](https://www.oasis.security/blog/claude-ai-prompt-injection-data-exfiltration-vulnerability) — 该攻击类别的真实案例。 - Meet the Moment 的内部渗透测试技能和虚拟 CISO 实践，其中大多数模式首次在真实非营利组织基础设施上测试。 --- *维护者：Joshua Peskay，CISSP / CISM。最后修订：2026 年 4 月。* *如果你是 AI 安全的新手，觉得内容过于复杂，请从 [`defenses/01-threat-model.md`](defenses/01-threat-model.md) 和 [`checklists/pre-deployment.md`](checklists/pre-deployment.md) 开始。仅这两项内容就能让你领先大多数部署。*

标签：AI基础设施加固, AI安全, API密钥检测, Chat Copilot, ChatGPT, Claude, CVE检测, Drive, Gemini, Gmail, OWASP LLMRisk, Promptflow, Slack, 便携安全套件, 季度审查, 平台安全指南, 提示注入防护, 提示词安全测试, 数据外泄防护, 最小权限, 服务枚举, 本地模型, 白名单过滤, 输入验证, 输出编码, 连接器滥用防护, 逆向工具, 间接提示注入, 防御加固, 防御配方, 零依赖工具, 预部署检查表