Coderyash05/LLM_Prompt_Firewall
GitHub: Coderyash05/LLM_Prompt_Firewall
面向大语言模型的自学习多层提示注入防火墙,通过静态规则、语义匹配与 LLM 裁判三层递进检测及反馈驱动的自适应学习循环,在无需重训模型的前提下持续防御新型提示注入攻击。
Stars: 0 | Forks: 0
# AdaptiveGuard:用于提示注入防御的自学习多层防火墙
## 概述
**AdaptiveGuard** 是一种新颖的自学习多层提示防火墙,旨在保护大型语言模型(LLM)免受提示注入攻击。与依赖固定规则集或已训练分类器的传统静态防御不同,AdaptiveGuard 通过反馈驱动的自适应学习循环不断从新的攻击模式中学习。
该系统集成了三个逐步增强的检测层:
| 层级 | 组件 | 功能 |
|-------|-----------|----------|
| **第一层** | 静态规则过滤器 | 基于 Regex 的模式匹配,用于检测已知攻击模式 |
| **第二层** | Embedding 记忆库 | Sentence-BERT 语义相似度与混合评分(70% 语义 + 30% 关键词) |
| **第三层** | LLM-as-Judge | 加固的 Llama-3.1-8B-Instant 分类器,用于处理不确定的情况 |
当确认出现新的注入攻击时,**双重更新反馈机制** 会同时更新攻击记忆库(Embedding 存储)并提取**动词锚定的动态规则** —— 无需重新训练模型即可实现自主适应。
## 核心结果
| 指标 | 第 0 轮(基线) | 第 1 轮(学习后) | 第 2 轮(完全学习) |
|--------|---------------------|--------------------------|-------------------------|
| **真阳性率 (TPR)** | 76.0% | 37.0% | 37.0% |
| **假阳性率 (FPR)** | 0.0% | 0.0% | 0.0% |
| **精确率** | 100% | 100% | 100% |
| **F1 分数** | 0.864 | 0.540 | 0.540 |
| **攻击记忆库大小** | 0 | 100 | 200 |
| **总规则数** | 24 | 89 | 141 |
## 工作原理
用户输入 → 第一层(静态规则) → 第二层(Embedding 相似度) → 第三层(LLM 评判) → 决策
↓ ↓ ↓
匹配则拦截 得分 ≥ 0.80 则拦截 最终裁决
0.60–0.80 则为不确定
< 0.60 则为安全
### 检测流水线
### 自学习反馈循环
当第三层确认了未被先前层级检测到的新注入攻击时:
1. **Embedding 记忆库更新:** 攻击的 Sentence-BERT Embedding(384 维)被追加到记忆库中
2. **动态规则提取:** 使用上下文窗口(1 个前缀词 + 动词 + 3 个后缀词)提取动词锚定的 Regex 模式
这确保了语义相似的攻击在未来会被第二层捕获,而句法相似的攻击会被第一层捕获 —— 所有这些都无需重新训练 LLM。
## 数据集
| 类别 | 数量 | 描述 |
|----------|-------|-------------|
| **纯净样本** | 230 | 科学、技术、历史、常识、数学、健康、艺术、编程 |
| **第 1 轮(已知攻击)** | 100 | 朴素重写、忽略/遗忘指令、转义字符、伪造补全 |
| **第 2 轮(进阶攻击)** | 100 | 释义忽略、角色注入、权威框架、假设性攻击 |
| **第 3 轮(新型攻击)** | 100 | 编码混淆(base64、ROT13、leetspeak)、嵌套攻击、Payload 拆分 |
| **总计** | **530** | 230 个纯净样本 + 300 个攻击样本(1:1.3 比例) |
标签:AI安全工具, Apex, CISA项目, DNS 反向解析, Llama-3, LLM防御, NLP, PFX证书, Prompt Firewall, 人工智能安全, 动态规则, 反馈循环, 句子嵌入, 合规性, 向量嵌入, 多层防御, 大模型应用安全, 大语言模型安全, 威胁情报, 开发者工具, 提示注入防御, 提示词过滤, 攻击检测, 机器学习, 机器遗忘, 机密管理, 模式匹配, 源代码安全, 网络安全, 自动化资产收集, 自适应学习, 语义相似度, 逆向工具, 防火墙, 隐私保护, 零日漏洞检测, 静态规则