Mri1306/Prompt_Injection

GitHub: Mri1306/Prompt_Injection

基于语义状态机增强的多层防御框架,用于检测和缓解大语言模型中的Prompt注入攻击。

Stars: 0 | Forks: 0

# Prompt 注入防御系统 # 基于 SSM 增强的多层防御,抵御 Prompt 注入攻击 # 基于:"针对 LLM 中 Prompt 注入攻击的多层防御系统" ## 快速开始 ``` # 安装依赖 pip install -r requirements.txt # 设置 Gemini API 密钥(可选——系统在没有此密钥的情况下仍可进行检测) export GEMINI_API_KEY=your_key_here # 在 LLMail 数据集上训练模型 python main.py train # 在测试集上评估(复现 Tables II & III) python main.py evaluate # 在示例提示上运行演示 python main.py demo # 启动 REST API 服务器 python main.py serve # → POST http://localhost:8000/detect # → POST http://localhost:8000/sanitize ``` ## 架构 — 9 层 | 层 | 文件 | 职责 | |-------|------|------| | 1 | `layers/layer1_preprocessor.py` | 消除混淆(算法 1) | | 2 | `layers/layer2_ssm.py` | Semantic State Machine + A(P)(公式 2-3) | | 3 | `layers/layer3_detector.py` | 逐级 RandomForest D_l(f)(公式 4) | | 4 | `layers/layer4_risk.py` | 集成风险分数 L(P)(公式 5) | | 5 | `layers/layer5_invariants.py` | 不变量 I1–I4 + V(P)(公式 6) | | 6 | `layers/layer6_constitutional.py` | Constitutional 验证 | | 7 | `layers/layer7_sanitizer.py` | 自适应清理(算法 2) | | 8 | `layers/layer8_executor.py` | 安全 LLM 执行(Gemini Pro) | | 9 | `layers/layer9_feedback.py` | 日志记录 + 持续学习 | ## 复现论文结果 ``` # Tables II & III — 整体 + 各层级性能 python -c "from data.loader import load_train_test; from evaluation.benchmark import run_benchmark; _, t = load_train_test(); run_benchmark(t)" # Table IV — 消融研究 python -c "from data.loader import load_train_test; from evaluation.ablation import AblationStudy; _, t = load_train_test(); AblationStudy().run(t)" # 延迟分解 python -c "from data.loader import load_train_test; from evaluation.latency_profiler import profile_latency; _, t = load_train_test(); profile_latency(t)" ``` ## 运行测试 ``` pytest tests/ -v ```
标签:AI安全, Apex, AV绕过, Chat Copilot, CISA项目, DLL 劫持, FastAPI, Gemini, LLM, Python, REST API, SSM, Unmanaged PE, 人工智能, 多层级防御, 大语言模型, 提示注入, 数据清洗, 无后门, 机器学习, 消融实验, 用户模式Hook绕过, 网络安全, 自适应净化, 论文复现, 语义状态机, 逆向工具, 防御系统, 随机森林, 隐私保护, 集群管理