Neeraj-XTR/AI-Prompt-Red-teamer

GitHub: Neeraj-XTR/AI-Prompt-Red-teamer

基于Python的对抗性提示生成工具，用于批量创建多样化的越狱和提示注入样本，支持红队评估与检测器训练。

Stars: 1 | Forks: 0

AI-Prompt-Red-teamer 本仓库主要专注于生成对抗性提示注入 / 越狱提示。这是一个基于 Python 的系统设计及参考实现，能够自动生成多样化、特定类别的越狱 / 提示注入提示，用于红队测试、检测器训练以及评估语料库的扩展。使用本仓库的步骤： # 1. 克隆仓库 git clone cd AdversarialPromptGenerator # 2. 创建虚拟环境 Windows python -m venv venv venv\Scripts\activate # 3. 安装依赖 pip install -r requirements.txt # 4. 查看可用的攻击类别打开文件： generator/CATEGORIES.py # 5. 生成提示 python main.py --category system_prompt_exfiltration --num-prompts 100 # 6. 查看生成的文件 outputs/system_prompt_exfiltration_.json 此工作流将生成一组多样化的对抗性提示，可用于红队评估、安全测试、检测器训练和基准数据集创建。 ``` REPO Structure adversarial_prompt_generator/ │ ├── main.py ├── generator/ │ ├── __init__.py │ ├── categories.py │ ├── strategies.py │ ├── templates.py │ ├── prompt_generator.py │ ├── diversity_filter.py │ ├── outputs/ │ └── .gitkeep │ ├── requirements.txt └── README.md Script Ideology Attack Category Spec ← structured taxonomy Attack Strategy Bank ← tactics, primitives, patterns Prompt Template Engine ← parametric adversarial templates Variation & Mutation ← paraphrase, obfuscation, role-play Diversity Scoring ← semantic + lexical diversity Output ← JSON / CSV / corpus ```

标签：Adversarial Attack, AI安全, AI评估, Chat Copilot, DLL 劫持, Homebrew安装, Jailbreak, Python, 人工智能, 分类器训练, 反取证, 变异引擎, 域名收集, 大语言模型, 安全测试, 安全评估, 密码管理, 对抗性攻击, 开源搜索引擎, 攻击性安全, 数字取证, 数据展示, 文本生成, 文档结构分析, 无后门, 漏洞靶场, 用户模式Hook绕过, 系统提示词泄露, 红队, 网络安全, 自动化脚本, 语料库生成, 越狱, 逆向工具, 防御检测, 隐私保护