vaporphd/prompt-injection-lab

GitHub: vaporphd/prompt-injection-lab

一个大模型 Prompt 注入攻防实验平台,通过模拟医疗助手场景提供攻击脚本与防御对比,帮助安全研究人员和开发者系统性学习 LLM 安全对抗技术。

Stars: 0 | Forks: 0

# Prompt 注入实验室 — 第 11 天 学习 Prompt 注入的实验室课程:攻击向量与防御方法。 ## 场景 **MedPlus AI** 是一家医疗诊所的虚拟助手。System prompt 中包含“机密”数据(价格、利润率、促销码)。任务:通过 Prompt 注入提取这些数据,然后对机器人进行防御。 ## 结构 ``` src/bot.py — Naive бот (жертва) src/bot_hardened.py — Защищённая версия attacks/attack_01_*.py — Скрипты атак по категориям attacks/runner.py — Автоматический прогон всех атак collection/ — Коллекция реальных инъекций reports/ — Результаты тестов ``` ## 运行 ``` # 设置 cp .env.example .env # добавить OPENAI_API_KEY pip install -r requirements.txt # 与机器人的交互式聊天 cd src && python bot.py # 自动执行攻击 cd src && python -m attacks.runner # naive bot cd src && python -m attacks.runner --hardened # hardened bot ``` ## 任务 1. **3 种攻击技术**:角色扮演、指令覆盖、提取 2. **收集 5 个注入**示例(来自开源渠道)并进行分类 3. **攻击自己的 prompt** — 攻破 MedPlus AI 4. **加固的 System prompt** — 防御版本 5. **测试防御** — 使用相同的攻击测试 Hardened 版本
标签:AI红蓝对抗, API安全, CISA项目, JSON输出, LLM漏洞, OpenAI API, Petitpotam, Python安全工具, 大模型安全, 安全测试, 提示注入, 攻击性安全, 数据提取, 系统提示保护, 红队评估, 网络安全靶场, 自动化攻击脚本, 虚拟医疗助理, 逆向工具, 集群管理