anshulapi/secure-rag
GitHub: anshulapi/secure-rag
该平台从零构建 RAG 系统并评估其针对 prompt 注入、知识库中毒等攻击向量的安全性,兼顾检索质量与防御鲁棒性。
Stars: 0 | Forks: 0
# Secure-RAG
## 针对 Retrieval-Augmented Generation 系统的攻击模拟与防御
一个专注于安全的 Retrieval-Augmented Generation (RAG) 研究平台,用于研究、模拟和防御针对现代 RAG 系统的攻击。
**团队成员**
* Anshul Chandra (23CS3010)
* Dev Saha (23CS3022)
**指导老师**
* Dr. Akash Yadav
## 项目概述
Secure-RAG 旨在从零开始构建一个端到端的 RAG 系统,并评估其针对各种攻击向量的安全性,包括 prompt 注入、知识库中毒、context 填充和资源耗尽攻击。
本项目同时关注检索质量和安全鲁棒性。
## 当前进度
### 第一阶段:基础与检索层 ✅
#### 文档处理
* PDF 加载
* 使用 PyPDF 进行文本提取
* 基于单词的分块
* 重叠分块策略
#### Embedding 层
* Sentence Transformers (all-MiniLM-L6-v2)
* 显式 Embedding 生成
#### 向量数据库
* ChromaDB 集成
* 持久化 ChromaDB 存储
* Collection 管理
#### 检索系统
* 语义检索(向量搜索)
* BM25 关键词检索
* 混合检索(BM25 + 向量搜索)
* Top-K 检索
#### 软件工程
* 模块化检索架构
* 可复用的检索组件
* GitHub 协作工作流
## 当前架构
GPT2.pdf
↓
文本提取
↓
单词分块 + 重叠
↓
Embedding 生成
↓
持久化 ChromaDB
↓
BM25 检索
↓
向量检索
↓
混合检索
↓
Top-K 结果
## 项目结构
secure-rag/
backend/
frontend/
docs/
research/
├── retrieval/
│ ├── base.py
│ ├── bm25.py
│ ├── hybrid.py
│ ├── mmr.py
│ └── topk.py
│
├── attacks/
├── defenses/
├── evaluation/
│
├── pdf_loader.py
├── chunker.py
├── embedder.py
├── vector_store.py
├── rag_pipeline.py
├── test_bm25.py
└── test_hybrid.py
## 后续路线图
### 第二阶段:高级检索
* MMR (Maximal Marginal Relevance)
* 检索优化
* 排序融合
* Context 压缩
### 第三阶段:LLM 集成
* Gemini 集成
* 端到端 RAG Pipeline
* 查询回答生成
* 感知 Context 的 Prompting
### 第四阶段:安全攻击
* Prompt 注入攻击
* 知识库中毒
* Context 填充攻击
* 资源耗尽攻击
### 第五阶段:防御机制
* Prompt 清理
* 输入过滤
* 检索验证
* Context 验证
* 中毒检测
### 第六阶段:评估
* 检索指标
* 安全指标
* RAGAS 评估
* 对比基准测试
## 当前状态
检索基础已完成 ✅
安全研究阶段启动 🚀
标签:ChromaDB, DLL 劫持, RAG, 人工智能安全, 合规性, 大语言模型, 攻击模拟, 逆向工具, 驱动签名利用