ArshadMahalkari/prompt-injection-detector

GitHub: ArshadMahalkari/prompt-injection-detector

一个基于OpenEnv的AI自适应系统，使用确定性评分与强化学习实时检测并防御提示注入攻击。

Stars: 0 | Forks: 0

## Prompt Injection Detector emoji: 🛡️ colorFrom: blue colorTo: purple sdk: gradio sdk_version: "4.36.1" python_version: "3.10" app_file: app.py pinned: false 🛡️ Prompt Injection Detector Agent (OpenEnv) 一个自适应 AI 安全系统，使用确定性 + 强化风格环境实时检测、评估和学习提示注入攻击。 🚀 概述提示注入是现代 LLM 应用程序中最关键的安全漏洞之一。此项目提供一个生产级评估环境和自适应检测代理，能够：检测直接、间接和对抗性提示注入使用变异模拟真实世界攻击场景通过确定性评分评估响应通过自适应学习随时间提升检测能力 🧠 关键特性 🔍 1. 检测引擎正则表达式与基于模式的检测类别：覆盖攻击角色操纵数据泄露置信度评分系统 ⚔️ 2. 对抗性攻击生成器动态变异提示模拟：混淆（忽略、指令等）间接注入防止过度拟合静态模式 🧪 3. OpenEnv 兼容环境实现： reset() step() state() 基于任务的评估流水线通过 FastAPI 完全 API 驱动 📊 4. 确定性评分系统可重复评分（无随机性）评估：检测准确率攻击分类严重性估计 🔁 5. 自适应学习代理（核心创新）基于奖励反馈更新检测权重强化学习循环：检测 → 评估 → 学习 → 改进实现对新攻击的持续改进 🏗️ 架构用户输入 ↓ 攻击生成器（变异） ↓ 检测引擎（模式 + 权重） ↓ 类别映射 ↓ 评分器（确定性评估） ↓ 自适应代理（权重更新） 📁 项目结构 prompt-injection-env/ │ ├── environment.py # 主 OpenEnv 环境 + API ├── detector.py # 检测逻辑 ├── attack_generator.py # 对抗变异引擎 ├── agent.py # 自适应学习代理 ├── graders.py # 确定性评分 ├── models.py # 数据模型（Pydantic） ├── tasks/ # 基准任务 └── openenv.yaml # OpenEnv 配置 ⚙️ 安装 git clone cd prompt-injection-env python -m venv venv venv\Scripts\activate # Windows pip install -r requirements.txt ▶️ 运行服务器 python environment.py 服务器运行地址： http://localhost:7860 🧪 API 用法 1. 重置环境 POST /reset 2. 步骤（运行检测） POST /step 请求体： {} PowerShell 示例 Invoke-RestMethod -Uri "http://localhost:7860/reset" -Method POST Invoke-RestMethod -Uri "http://localhost:7860/step" -Method POST -Body "{}" -ContentType "application/json" 📈 示例输出 { "reward": 0.85, "done": false, "info": { "task_id": "task_easy", "reward_breakdown": {...}, "tasks_remaining": 3 } } 🧠 学习行为系统根据反馈自适应：正确检测 → 增加权重错误检测 → 降低权重这使得：更好地处理混淆攻击随时间提升检测能力 🎯 使用场景保护 LLM 聊天机器人保护 RAG 流水线企业 AI 安全层 AI 系统的红队测试 🏆 重要性与静态过滤器不同，本系统：从对抗性输入中学习提供可解释的决策提供确定性评估可在真实 AI 流水线中部署 🔮 后续改进基于深度学习的检测通过 LLM 生成攻击可视化仪表板多轮对话防御 📜 许可证 MIT 许可证 👨‍💻 作者 Arshad Mahalkari 计算机工程学生 AI | ML | 系统 | 开源 ## 🚀 MetaHackathon Round 1 - OpenEnv 合规本项目完全兼容 OpenEnv 框架和 MetaHackathon 要求： ### 先决条件 ``` pip install uv pip install huggingface_hub[cli] huggingface-cli login ``` ### 快速启动（OpenEnv 标准） ``` git clone https://github.com/ArshadMahalkari/prompt-injection-detector cd prompt-injection-detector uv sync # or pip install -r requirements.txt ``` ### 本地测试 ``` uv run python environment.py # 或 uv run uvicorn environment:app --host 0.0.0.0 --port 7860 --reload ``` 测试 API： ``` curl -X POST http://localhost:7860/reset curl -X POST http://localhost:7860/step -H "Content-Type: application/json" ``` ### 部署到 HF Spaces 1. `openenv push --repo-id ArshadMahalkari/prompt-injection-detector` 2. 从仓库创建 HF Space（Gradio app.py 自动部署） ### Docker ``` docker build -t prompt-injection-detector . docker run -p 7860:7860 prompt-injection-detector ``` **评估就绪：** 确定性评分器，4 个任务（简单-困难），密集奖励 [0,1]，无 LLM 评分。 ⭐ 最后说明本项目展示了 AI 系统如何从静态防御 → 适应式安全演进，使 LLM 部署更安全、更能抵御不断演变的威胁。

标签：AI安全, API驱动, AV绕过, Chat Copilot, FastAPI, Gradio, OpenEnv, Python, 任务评估, 变异攻击, 大语言模型安全, 实时检测, 对抗攻击, 强化学习, 攻击模拟, 敏感信息检测, 数据外泄, 无后门, 机密管理, 模式匹配, 环境仿真, 生产环境, 确定性评分, 置信度评分, 自动化资产收集, 自适应学习, 角色操纵, 逆向工具, 间接注入, 驱动签名利用