Coderyash05/LLM_Prompt_Firewall

GitHub: Coderyash05/LLM_Prompt_Firewall

面向大语言模型的自学习多层提示注入防火墙，通过静态规则、语义匹配与 LLM 裁判三层递进检测及反馈驱动的自适应学习循环，在无需重训模型的前提下持续防御新型提示注入攻击。

Stars: 0 | Forks: 0

# AdaptiveGuard：用于提示注入防御的自学习多层防火墙 ## 概述 **AdaptiveGuard** 是一种新颖的自学习多层提示防火墙，旨在保护大型语言模型（LLM）免受提示注入攻击。与依赖固定规则集或已训练分类器的传统静态防御不同，AdaptiveGuard 通过反馈驱动的自适应学习循环不断从新的攻击模式中学习。该系统集成了三个逐步增强的检测层： | 层级 | 组件 | 功能 | |-------|-----------|----------| | **第一层** | 静态规则过滤器 | 基于 Regex 的模式匹配，用于检测已知攻击模式 | | **第二层** | Embedding 记忆库 | Sentence-BERT 语义相似度与混合评分（70% 语义 + 30% 关键词） | | **第三层** | LLM-as-Judge | 加固的 Llama-3.1-8B-Instant 分类器，用于处理不确定的情况 | 当确认出现新的注入攻击时，**双重更新反馈机制** 会同时更新攻击记忆库（Embedding 存储）并提取**动词锚定的动态规则** —— 无需重新训练模型即可实现自主适应。 ## 核心结果 | 指标 | 第 0 轮（基线） | 第 1 轮（学习后） | 第 2 轮（完全学习） | |--------|---------------------|--------------------------|-------------------------| | **真阳性率 (TPR)** | 76.0% | 37.0% | 37.0% | | **假阳性率 (FPR)** | 0.0% | 0.0% | 0.0% | | **精确率** | 100% | 100% | 100% | | **F1 分数** | 0.864 | 0.540 | 0.540 | | **攻击记忆库大小** | 0 | 100 | 200 | | **总规则数** | 24 | 89 | 141 | ## 工作原理用户输入 → 第一层（静态规则） → 第二层（Embedding 相似度） → 第三层（LLM 评判） → 决策 ↓ ↓ ↓ 匹配则拦截得分 ≥ 0.80 则拦截最终裁决 0.60–0.80 则为不确定 < 0.60 则为安全 ### 检测流水线 ### 自学习反馈循环当第三层确认了未被先前层级检测到的新注入攻击时： 1. **Embedding 记忆库更新：** 攻击的 Sentence-BERT Embedding（384 维）被追加到记忆库中 2. **动态规则提取：** 使用上下文窗口（1 个前缀词 + 动词 + 3 个后缀词）提取动词锚定的 Regex 模式这确保了语义相似的攻击在未来会被第二层捕获，而句法相似的攻击会被第一层捕获 —— 所有这些都无需重新训练 LLM。 ## 数据集 | 类别 | 数量 | 描述 | |----------|-------|-------------| | **纯净样本** | 230 | 科学、技术、历史、常识、数学、健康、艺术、编程 | | **第 1 轮（已知攻击）** | 100 | 朴素重写、忽略/遗忘指令、转义字符、伪造补全 | | **第 2 轮（进阶攻击）** | 100 | 释义忽略、角色注入、权威框架、假设性攻击 | | **第 3 轮（新型攻击）** | 100 | 编码混淆（base64、ROT13、leetspeak）、嵌套攻击、Payload 拆分 | | **总计** | **530** | 230 个纯净样本 + 300 个攻击样本（1:1.3 比例） |

标签：AI安全工具, Apex, CISA项目, DNS 反向解析, Llama-3, LLM防御, NLP, PFX证书, Prompt Firewall, 人工智能安全, 动态规则, 反馈循环, 句子嵌入, 合规性, 向量嵌入, 多层防御, 大模型应用安全, 大语言模型安全, 威胁情报, 开发者工具, 提示注入防御, 提示词过滤, 攻击检测, 机器学习, 机器遗忘, 机密管理, 模式匹配, 源代码安全, 网络安全, 自动化资产收集, 自适应学习, 语义相似度, 逆向工具, 防火墙, 隐私保护, 零日漏洞检测, 静态规则