vaporphd/prompt-injection-lab
GitHub: vaporphd/prompt-injection-lab
一个大模型 Prompt 注入攻防实验平台,通过模拟医疗助手场景提供攻击脚本与防御对比,帮助安全研究人员和开发者系统性学习 LLM 安全对抗技术。
Stars: 0 | Forks: 0
# Prompt 注入实验室 — 第 11 天
学习 Prompt 注入的实验室课程:攻击向量与防御方法。
## 场景
**MedPlus AI** 是一家医疗诊所的虚拟助手。System prompt 中包含“机密”数据(价格、利润率、促销码)。任务:通过 Prompt 注入提取这些数据,然后对机器人进行防御。
## 结构
```
src/bot.py — Naive бот (жертва)
src/bot_hardened.py — Защищённая версия
attacks/attack_01_*.py — Скрипты атак по категориям
attacks/runner.py — Автоматический прогон всех атак
collection/ — Коллекция реальных инъекций
reports/ — Результаты тестов
```
## 运行
```
# 设置
cp .env.example .env # добавить OPENAI_API_KEY
pip install -r requirements.txt
# 与机器人的交互式聊天
cd src && python bot.py
# 自动执行攻击
cd src && python -m attacks.runner # naive bot
cd src && python -m attacks.runner --hardened # hardened bot
```
## 任务
1. **3 种攻击技术**:角色扮演、指令覆盖、提取
2. **收集 5 个注入**示例(来自开源渠道)并进行分类
3. **攻击自己的 prompt** — 攻破 MedPlus AI
4. **加固的 System prompt** — 防御版本
5. **测试防御** — 使用相同的攻击测试 Hardened 版本
标签:AI红蓝对抗, API安全, CISA项目, JSON输出, LLM漏洞, OpenAI API, Petitpotam, Python安全工具, 大模型安全, 安全测试, 提示注入, 攻击性安全, 数据提取, 系统提示保护, 红队评估, 网络安全靶场, 自动化攻击脚本, 虚拟医疗助理, 逆向工具, 集群管理