Coderyash05/LLM_Prompt_Firewall

GitHub: Coderyash05/LLM_Prompt_Firewall

面向大语言模型的自学习多层提示注入防火墙,通过静态规则、语义匹配与 LLM 裁判三层递进检测及反馈驱动的自适应学习循环,在无需重训模型的前提下持续防御新型提示注入攻击。

Stars: 0 | Forks: 0

# AdaptiveGuard:用于提示注入防御的自学习多层防火墙 ## 概述 **AdaptiveGuard** 是一种新颖的自学习多层提示防火墙,旨在保护大型语言模型(LLM)免受提示注入攻击。与依赖固定规则集或已训练分类器的传统静态防御不同,AdaptiveGuard 通过反馈驱动的自适应学习循环不断从新的攻击模式中学习。 该系统集成了三个逐步增强的检测层: | 层级 | 组件 | 功能 | |-------|-----------|----------| | **第一层** | 静态规则过滤器 | 基于 Regex 的模式匹配,用于检测已知攻击模式 | | **第二层** | Embedding 记忆库 | Sentence-BERT 语义相似度与混合评分(70% 语义 + 30% 关键词) | | **第三层** | LLM-as-Judge | 加固的 Llama-3.1-8B-Instant 分类器,用于处理不确定的情况 | 当确认出现新的注入攻击时,**双重更新反馈机制** 会同时更新攻击记忆库(Embedding 存储)并提取**动词锚定的动态规则** —— 无需重新训练模型即可实现自主适应。 ## 核心结果 | 指标 | 第 0 轮(基线) | 第 1 轮(学习后) | 第 2 轮(完全学习) | |--------|---------------------|--------------------------|-------------------------| | **真阳性率 (TPR)** | 76.0% | 37.0% | 37.0% | | **假阳性率 (FPR)** | 0.0% | 0.0% | 0.0% | | **精确率** | 100% | 100% | 100% | | **F1 分数** | 0.864 | 0.540 | 0.540 | | **攻击记忆库大小** | 0 | 100 | 200 | | **总规则数** | 24 | 89 | 141 | ## 工作原理 用户输入 → 第一层(静态规则) → 第二层(Embedding 相似度) → 第三层(LLM 评判) → 决策 ↓ ↓ ↓ 匹配则拦截 得分 ≥ 0.80 则拦截 最终裁决 0.60–0.80 则为不确定 < 0.60 则为安全 ### 检测流水线 ### 自学习反馈循环 当第三层确认了未被先前层级检测到的新注入攻击时: 1. **Embedding 记忆库更新:** 攻击的 Sentence-BERT Embedding(384 维)被追加到记忆库中 2. **动态规则提取:** 使用上下文窗口(1 个前缀词 + 动词 + 3 个后缀词)提取动词锚定的 Regex 模式 这确保了语义相似的攻击在未来会被第二层捕获,而句法相似的攻击会被第一层捕获 —— 所有这些都无需重新训练 LLM。 ## 数据集 | 类别 | 数量 | 描述 | |----------|-------|-------------| | **纯净样本** | 230 | 科学、技术、历史、常识、数学、健康、艺术、编程 | | **第 1 轮(已知攻击)** | 100 | 朴素重写、忽略/遗忘指令、转义字符、伪造补全 | | **第 2 轮(进阶攻击)** | 100 | 释义忽略、角色注入、权威框架、假设性攻击 | | **第 3 轮(新型攻击)** | 100 | 编码混淆(base64、ROT13、leetspeak)、嵌套攻击、Payload 拆分 | | **总计** | **530** | 230 个纯净样本 + 300 个攻击样本(1:1.3 比例) |
标签:AI安全工具, Apex, CISA项目, DNS 反向解析, Llama-3, LLM防御, NLP, PFX证书, Prompt Firewall, 人工智能安全, 动态规则, 反馈循环, 句子嵌入, 合规性, 向量嵌入, 多层防御, 大模型应用安全, 大语言模型安全, 威胁情报, 开发者工具, 提示注入防御, 提示词过滤, 攻击检测, 机器学习, 机器遗忘, 机密管理, 模式匹配, 源代码安全, 网络安全, 自动化资产收集, 自适应学习, 语义相似度, 逆向工具, 防火墙, 隐私保护, 零日漏洞检测, 静态规则