sameerrajput99/AI-Red-Team-Lab01-Prompt-Leakage
GitHub: sameerrajput99/AI-Red-Team-Lab01-Prompt-Leakage
该项目是一个本地模拟的 AI 红队实验,用于测试和对比聊天机器人在面对 Prompt 泄露攻击时的安全表现,并自动生成评估报告。
Stars: 0 | Forks: 0
# AI 红队实验室 01:Prompt 泄露测试
## 目标
本实验室演示了在模拟 AI 聊天机器人环境中的 Prompt 泄露测试。
目标是检查聊天机器人在进行红队 Prompt 测试时,是否会泄露隐藏的系统指令、内部策略、管理员代码或机密笔记。
## 实验室类型
安全的本地模拟。不测试任何真实网站、真实公司系统或未授权目标。
## 本实验室测试内容
- 隐藏指令提取
- 系统 Prompt 泄露
- 内部策略泄露
- Debug 模式滥用
- 管理员代码请求处理
- 指令覆盖尝试
## 工作原理
该项目对比了两个聊天机器人:
1. **脆弱的聊天机器人**
- 当使用特定的 Prompt 时会泄露内部系统 Prompt。
2. **安全的聊天机器人**
- 阻止对系统 Prompt、内部策略、管理员代码和机密信息的请求。
## 运行实验室
```
python lab1_prompt_leakage.py
```
## 输出
脚本将在终端打印测试结果并生成一份 CSV 报告:
```
results/ai_red_team_lab1_prompt_leakage_results.csv
```
## 示例发现
**标题:** AI 聊天机器人中的 Prompt 泄露
**严重性:** 高
**描述:**
当用户询问隐藏指令、系统 Prompt、内部策略或 Debug 模式时,脆弱的聊天机器人会显示内部系统指令。
**影响:**
攻击者可以提取内部指令、管理员代码、机密笔记和系统级规则。这些信息可以帮助攻击者设计更强大的 Prompt 注入攻击或绕过护栏。
**修复建议:**
聊天机器人绝不应暴露系统 Prompt、内部策略、管理员代码或机密笔记。敏感指令应与用户可见的响应分开。应采用输入过滤、输出验证和严格的访问控制。
## 展示技能
- AI 红队测试
- Prompt 泄露测试
- Prompt 安全测试
- 测试用例设计
- 漏洞报告
- 安全聊天机器人对比
- Python 自动化
标签:AI红队, Python, 大语言模型安全, 安全评估靶场, 提示词泄露测试, 无后门, 机密管理, 逆向工具