stacy-lialkina/prompt-injection-playbook

GitHub: stacy-lialkina/prompt-injection-playbook

一份专注于 AI 代理提示注入风险的实战安全指南,填补设计与交付场景的防护空白。

Stars: 0 | Forks: 0

# 🛡️ 提示注入实战手册 **一份面向产品经理、系统架构师和团队的技术指南,旨在帮助您识别和防范 AI 代理系统中的提示注入风险。** ## 编写初衷 AI 代理正在快速落地:它们可以浏览网页、读取文件、执行工具并调用 API。而每一项能力都可能成为提示注入的入口——不受信任的内容可能劫持代理的行为。 目前大多数安全资料要么过于学术化,要么过度聚焦代码实现。本手册填补了这一空白,专为 **设计和交付 AI 产品** 的人士编写,帮助您在实际场景中做出风险决策。 ## 适用对象 - **产品经理**:规划 AI 功能并评估相关风险 - **系统架构师**:设计多代理系统 - **工程负责人**:审查代理流水线 - **任何**正在评估第三方 AI 工具或插件的人 ## 内容概览 ### 📖 章节 | # | 章节 | 您将学到什么 | |---|------|--------------| | 1 | [攻击面地图](chapters/01-attack-surface-map.md) | 注入可能通过哪些入口进入系统——按风险等级排列的所有输入通道 | | 2 | [攻击解剖](chapters/02-anatomy-of-an-attack.md) | 提示注入的实际工作机制与真实世界模式 | | 3 | [多代理风险](chapters/03-multi-agent-risks.md) | 为什么多代理架构会成倍扩大攻击面 | | 4 | [社区技能与插件](chapters/04-community-skills-and-plugins.md) | 社区贡献的代理扩展所隐藏的危险 | | 5 | [防御模式](chapters/05-defense-patterns.md) | 当前可用的实用缓解策略 | | 6 | [审计实战手册](chapters/06-audit-playbook.md) | 审计现有代理系统的分步流程 | ### ✅ 检查清单 - [上线前安全检查清单](checklists/pre-launch-checklist.md) — 在发布代理功能前使用 - [技能/插件审计清单](checklists/skill-audit-checklist.md) — 在安装社区扩展前使用 - [事件响应模板](checklists/incident-response-template.md) — 发生安全事件时使用 ### 🧪 示例 - [注入模式目录](examples/injection-patterns.md) — 注入技术的分类示例 - [安全与不安全架构对比](examples/architecture-comparison.md) — 设计方案的横向比较 ## 核心原则 本手册建立在以下四个理念之上: 1. **将外部内容视为不可信**:文件、网页、API 响应、用户上传的任何内容——只要代理读取而并非您亲自编写的数据,都可能成为攻击向量。 2. **默认遵循最小权限原则**:代理应仅拥有完成当前任务所需的工具与权限。 3. **纵深防御**:没有单一层面能阻止所有注入。应结合输入过滤、输出验证、沙箱隔离以及人工干预控制。 4. **面向失败设计**:假设注入有时仍会成功。限制影响范围、记录完整日志、确保回滚机制便捷。 ## 使用指南 - **准备启动新 AI 产品?** 先阅读第 1 章和第 5 章,然后使用上线前检查清单。 - **已上线并感到担忧?** 从第 6 章(审计实战手册)和检查清单开始。 - **评估插件或技能?** 直接查看第 4 章和技能审计清单。 - **构建多代理系统?** 第 3 章是您的起点。 ## 贡献 发现了新的注入模式?或有在生产中验证有效的防御方案?欢迎提交 PR。 请确保贡献内容实用、可操作。我们关注的是“周一早上我该做什么”,而非理论上的完备性。 ## 许可证 [CC BY-SA 4.0](LICENSE) — 您可以使用、分享与改编本手册,但需保留原作者署名并以相同许可发布。 *维护者:[Stacy Lialkina](https://github.com/stacy-lialkina) — 负责构建 AI 驱动产品的产品负责人*
标签:AI代理, AI安全, Chat Copilot, Prompt安全, PyRIT, SEO关键词, 产品安全, 信息安全指南, 多智能体系统, 大模型安全, 提示注入, 插件安全, 攻击面分析, 社区技能, 防御加固, 防御模式, 集群管理, 预发布检查清单