stacy-lialkina/prompt-injection-playbook
GitHub: stacy-lialkina/prompt-injection-playbook
一份专注于 AI 代理提示注入风险的实战安全指南,填补设计与交付场景的防护空白。
Stars: 0 | Forks: 0
# 🛡️ 提示注入实战手册
**一份面向产品经理、系统架构师和团队的技术指南,旨在帮助您识别和防范 AI 代理系统中的提示注入风险。**
## 编写初衷
AI 代理正在快速落地:它们可以浏览网页、读取文件、执行工具并调用 API。而每一项能力都可能成为提示注入的入口——不受信任的内容可能劫持代理的行为。
目前大多数安全资料要么过于学术化,要么过度聚焦代码实现。本手册填补了这一空白,专为 **设计和交付 AI 产品** 的人士编写,帮助您在实际场景中做出风险决策。
## 适用对象
- **产品经理**:规划 AI 功能并评估相关风险
- **系统架构师**:设计多代理系统
- **工程负责人**:审查代理流水线
- **任何**正在评估第三方 AI 工具或插件的人
## 内容概览
### 📖 章节
| # | 章节 | 您将学到什么 |
|---|------|--------------|
| 1 | [攻击面地图](chapters/01-attack-surface-map.md) | 注入可能通过哪些入口进入系统——按风险等级排列的所有输入通道 |
| 2 | [攻击解剖](chapters/02-anatomy-of-an-attack.md) | 提示注入的实际工作机制与真实世界模式 |
| 3 | [多代理风险](chapters/03-multi-agent-risks.md) | 为什么多代理架构会成倍扩大攻击面 |
| 4 | [社区技能与插件](chapters/04-community-skills-and-plugins.md) | 社区贡献的代理扩展所隐藏的危险 |
| 5 | [防御模式](chapters/05-defense-patterns.md) | 当前可用的实用缓解策略 |
| 6 | [审计实战手册](chapters/06-audit-playbook.md) | 审计现有代理系统的分步流程 |
### ✅ 检查清单
- [上线前安全检查清单](checklists/pre-launch-checklist.md) — 在发布代理功能前使用
- [技能/插件审计清单](checklists/skill-audit-checklist.md) — 在安装社区扩展前使用
- [事件响应模板](checklists/incident-response-template.md) — 发生安全事件时使用
### 🧪 示例
- [注入模式目录](examples/injection-patterns.md) — 注入技术的分类示例
- [安全与不安全架构对比](examples/architecture-comparison.md) — 设计方案的横向比较
## 核心原则
本手册建立在以下四个理念之上:
1. **将外部内容视为不可信**:文件、网页、API 响应、用户上传的任何内容——只要代理读取而并非您亲自编写的数据,都可能成为攻击向量。
2. **默认遵循最小权限原则**:代理应仅拥有完成当前任务所需的工具与权限。
3. **纵深防御**:没有单一层面能阻止所有注入。应结合输入过滤、输出验证、沙箱隔离以及人工干预控制。
4. **面向失败设计**:假设注入有时仍会成功。限制影响范围、记录完整日志、确保回滚机制便捷。
## 使用指南
- **准备启动新 AI 产品?** 先阅读第 1 章和第 5 章,然后使用上线前检查清单。
- **已上线并感到担忧?** 从第 6 章(审计实战手册)和检查清单开始。
- **评估插件或技能?** 直接查看第 4 章和技能审计清单。
- **构建多代理系统?** 第 3 章是您的起点。
## 贡献
发现了新的注入模式?或有在生产中验证有效的防御方案?欢迎提交 PR。
请确保贡献内容实用、可操作。我们关注的是“周一早上我该做什么”,而非理论上的完备性。
## 许可证
[CC BY-SA 4.0](LICENSE) — 您可以使用、分享与改编本手册,但需保留原作者署名并以相同许可发布。
*维护者:[Stacy Lialkina](https://github.com/stacy-lialkina) — 负责构建 AI 驱动产品的产品负责人*
标签:AI代理, AI安全, Chat Copilot, Prompt安全, PyRIT, SEO关键词, 产品安全, 信息安全指南, 多智能体系统, 大模型安全, 提示注入, 插件安全, 攻击面分析, 社区技能, 防御加固, 防御模式, 集群管理, 预发布检查清单