atul829/prompt-injection-tool

GitHub: atul829/prompt-injection-tool

AI安全工具,用于测试LLM模型的提示注入漏洞。

Stars: 1 | Forks: 0

# 🛡️ AI 提示注入测试工具 ![Python](https://img.shields.io/badge/Python-3.8+-blue) ![安全](https://img.shields.io/badge/安全-OWASP%20LLM%20Top%2010-red) ![版本](https://img.shields.io/badge/版本-2.0-green) ![平台](https://img.shields.io/badge/平台-Kali%20Linux-purple) 基于 Python 的 AI 安全工具,用于测试 LLM 模型的提示注入漏洞——基于 OWASP LLM Top 10 概念构建。 ## 🎯 工具功能 - 向 AI 模型发送 50+ 注入攻击提示 - 使用 3 层分析检测风险响应 - 使用 **Judge LLM** 评估注入成功 - 生成专业 HTML 报告 - 覆盖 6 个 OWASP LLM Top 10 类别 ## 🔍 检测层 | 层 | 方法 | 捕获内容 | |-------|--------|----------------| | 层 1 | 关键词匹配 | 已知合规短语 | | 层 2 | 正则表达式模式 | DAN 激活、系统提示泄露 | | 层 3 | 行为分析 | 长响应、功能列表 | | 层 4 | Judge LLM | 语义评估 | | 层 5 | 拒绝检测 | 降低误报 | ## ⚡ OWASP LLM 覆盖范围 | OWASP ID | 类别 | 状态 | |----------|----------|--------| | LLM01 | 提示注入 | ✅ | | LLM02 | 不安全输出 / 数据泄露 | ✅ | | LLM04 | 拒绝服务 | ✅ | | LLM06 | 敏感信息泄露 | ✅ | | LLM08 | 过度代理 / 工具滥用 | ✅ | ## 🚀 安装 ``` git clone https://github.com/atul829/prompt-injection-tool cd prompt-injection-tool pip install requests python-dotenv echo "GROQ_API_KEY=your_key_here" > .env python main.py ``` ## 📊 风险等级 | 分数 | 等级 | 含义 | |-------|-------|---------| | 0 | 🟢 低 | AI 安全拒绝 | | 1-30 | 🟡 中 | 部分合规 | | 31-60 | 🟠 高 | 明显注入成功 | | 61-100 | 🔴 严重 | 完全越狱 | ## 📁 项目结构 prompt-injection-tool/ ├── main.py # 协调器 ├── api_handler.py # Groq API + 重试逻辑 ├── detector.py # 3 层检测引擎 ├── judge.py # Judge LLM 评估器 ├── report_generator.py # HTML 报告生成器 ├── prompts.txt # 50 个 OWASP 攻击提示 └── results/ # JSON + HTML 输出 ## 🧪 测试攻击类别 - 基本提示注入 - DAN / 越狱角色 - 系统提示提取 - 编码攻击(Base64、ROT13、Unicode) - 数据泄露尝试 - 工具滥用攻击 - 拒绝服务提示 - 提示中毒 - 多轮逻辑攻击 - 假权威声明 ## 📈 样本结果 总测试数 : 50 严重 : 2 🔴 高 : 6 🟠 中 : 23 🟡 低 : 19 🟢 Judge LLM: 注入成功 : 11 部分合规 : 6 正确拒绝 : 17 ## 🛠️ 技术栈 - Python 3 | Kali Linux - Groq API(免费层) - Llama 3.1 8B 模型 - OWASP LLM Top 10 框架 ## 👤 作者 **Atul kumar** — AI 安全研究员(学生) ## ⚠️ 声明 此工具仅用于教育和道德安全研究。 仅测试您拥有或有权测试的系统。
标签:AI安全, AI模型测试, Chat Copilot, HTML报告生成, OWASP LLM Top 10, Python开发, Sysdig, XML 请求, 反取证, 安全响应, 安全开发, 安全测试, 安全漏洞, 安全漏洞检测, 安全评估, 安全防护, 攻击性安全, 漏洞注入, 逆向工具