Mohan404040/knowledge-poisoning-rag-defense-
GitHub: Mohan404040/knowledge-poisoning-rag-defense-
SecRAG 是一个针对 RAG 系统知识投毒攻击的防御框架,通过多层验证与动作图评分机制检测并缓解外部知识源中的恶意内容。
Stars: 1 | Forks: 0
# # SecRAG:针对网络安全 RAG 系统的知识投毒防御
SecRAG 是一个专注于网络安全的检索增强生成(RAG)安全框架,旨在检测并缓解针对大型语言模型(LLM)所使用的外部知识源的知识投毒攻击。
现代 RAG 系统通过从外部文档库检索信息来提升 LLM 的响应质量。然而,攻击者可以通过注入恶意、误导性或投毒内容来操纵这些文档库,从而导致模型生成错误或不安全的输出。SecRAG 通过多层防御架构应对这一挑战,该架构会在检索到的信息影响最终响应之前对其进行验证。
该框架引入了动作图完整性评分机制,并结合检索验证、异常检测和一致性分析,以识别可疑的知识模式。评估工作使用了真实的网络安全数据集进行广泛测试,包括通用漏洞披露(CVE)、合成的攻击文档以及多种 embedding 架构。
## 核心功能
* 检测 RAG pipeline 中的知识投毒攻击。
* 多层安全验证框架。
* 用于响应验证的动作图完整性评分。
* 跨多种 embedding 模型和攻击场景的评估。
* 使用真实 CVE 数据的网络安全专项基准测试。
## 使用的技术
* Python
* 大型语言模型(LLM)
* 检索增强生成(RAG)
* 向量数据库
* 信息检索
* 机器学习
* 网络安全分析
## 结果
* 将攻击成功率从 78.4% 降低至 13.0%。
* 在攻击检测中达到了 0.89 的 F1-score。
* 展现出针对多种知识投毒策略和自适应攻击者的鲁棒性。
## 研究影响
本项目探索了人工智能、网络安全和可信 LLM 系统的交叉领域。这项研究有助于构建安全可靠的、能够在对抗环境中运行的基于 RAG 的应用程序。
**状态:** 研究手稿已完成,可随时提交至期刊/会议。
标签:C2, DLL 劫持, Python, Web报告查看器, 人工智能安全, 合规性, 大语言模型, 异常检测, 无后门, 检索增强生成, 知识污染检测, 网络安全防御框架, 逆向工具