sameerrajput99/AI-Red-Team-Lab01-Prompt-Leakage

GitHub: sameerrajput99/AI-Red-Team-Lab01-Prompt-Leakage

该项目是一个本地模拟的 AI 红队实验,用于测试和对比聊天机器人在面对 Prompt 泄露攻击时的安全表现,并自动生成评估报告。

Stars: 0 | Forks: 0

# AI 红队实验室 01:Prompt 泄露测试 ## 目标 本实验室演示了在模拟 AI 聊天机器人环境中的 Prompt 泄露测试。 目标是检查聊天机器人在进行红队 Prompt 测试时,是否会泄露隐藏的系统指令、内部策略、管理员代码或机密笔记。 ## 实验室类型 安全的本地模拟。不测试任何真实网站、真实公司系统或未授权目标。 ## 本实验室测试内容 - 隐藏指令提取 - 系统 Prompt 泄露 - 内部策略泄露 - Debug 模式滥用 - 管理员代码请求处理 - 指令覆盖尝试 ## 工作原理 该项目对比了两个聊天机器人: 1. **脆弱的聊天机器人** - 当使用特定的 Prompt 时会泄露内部系统 Prompt。 2. **安全的聊天机器人** - 阻止对系统 Prompt、内部策略、管理员代码和机密信息的请求。 ## 运行实验室 ``` python lab1_prompt_leakage.py ``` ## 输出 脚本将在终端打印测试结果并生成一份 CSV 报告: ``` results/ai_red_team_lab1_prompt_leakage_results.csv ``` ## 示例发现 **标题:** AI 聊天机器人中的 Prompt 泄露 **严重性:** 高 **描述:** 当用户询问隐藏指令、系统 Prompt、内部策略或 Debug 模式时,脆弱的聊天机器人会显示内部系统指令。 **影响:** 攻击者可以提取内部指令、管理员代码、机密笔记和系统级规则。这些信息可以帮助攻击者设计更强大的 Prompt 注入攻击或绕过护栏。 **修复建议:** 聊天机器人绝不应暴露系统 Prompt、内部策略、管理员代码或机密笔记。敏感指令应与用户可见的响应分开。应采用输入过滤、输出验证和严格的访问控制。 ## 展示技能 - AI 红队测试 - Prompt 泄露测试 - Prompt 安全测试 - 测试用例设计 - 漏洞报告 - 安全聊天机器人对比 - Python 自动化
标签:AI红队, Python, 大语言模型安全, 安全评估靶场, 提示词泄露测试, 无后门, 机密管理, 逆向工具