anshulapi/secure-rag

GitHub: anshulapi/secure-rag

该平台从零构建 RAG 系统并评估其针对 prompt 注入、知识库中毒等攻击向量的安全性，兼顾检索质量与防御鲁棒性。

Stars: 0 | Forks: 0

# Secure-RAG ## 针对 Retrieval-Augmented Generation 系统的攻击模拟与防御一个专注于安全的 Retrieval-Augmented Generation (RAG) 研究平台，用于研究、模拟和防御针对现代 RAG 系统的攻击。 **团队成员** * Anshul Chandra (23CS3010) * Dev Saha (23CS3022) **指导老师** * Dr. Akash Yadav ## 项目概述 Secure-RAG 旨在从零开始构建一个端到端的 RAG 系统，并评估其针对各种攻击向量的安全性，包括 prompt 注入、知识库中毒、context 填充和资源耗尽攻击。本项目同时关注检索质量和安全鲁棒性。 ## 当前进度 ### 第一阶段：基础与检索层 ✅ #### 文档处理 * PDF 加载 * 使用 PyPDF 进行文本提取 * 基于单词的分块 * 重叠分块策略 #### Embedding 层 * Sentence Transformers (all-MiniLM-L6-v2) * 显式 Embedding 生成 #### 向量数据库 * ChromaDB 集成 * 持久化 ChromaDB 存储 * Collection 管理 #### 检索系统 * 语义检索（向量搜索） * BM25 关键词检索 * 混合检索（BM25 + 向量搜索） * Top-K 检索 #### 软件工程 * 模块化检索架构 * 可复用的检索组件 * GitHub 协作工作流 ## 当前架构 GPT2.pdf ↓ 文本提取 ↓ 单词分块 + 重叠 ↓ Embedding 生成 ↓ 持久化 ChromaDB ↓ BM25 检索 ↓ 向量检索 ↓ 混合检索 ↓ Top-K 结果 ## 项目结构 secure-rag/ backend/ frontend/ docs/ research/ ├── retrieval/ │ ├── base.py │ ├── bm25.py │ ├── hybrid.py │ ├── mmr.py │ └── topk.py │ ├── attacks/ ├── defenses/ ├── evaluation/ │ ├── pdf_loader.py ├── chunker.py ├── embedder.py ├── vector_store.py ├── rag_pipeline.py ├── test_bm25.py └── test_hybrid.py ## 后续路线图 ### 第二阶段：高级检索 * MMR (Maximal Marginal Relevance) * 检索优化 * 排序融合 * Context 压缩 ### 第三阶段：LLM 集成 * Gemini 集成 * 端到端 RAG Pipeline * 查询回答生成 * 感知 Context 的 Prompting ### 第四阶段：安全攻击 * Prompt 注入攻击 * 知识库中毒 * Context 填充攻击 * 资源耗尽攻击 ### 第五阶段：防御机制 * Prompt 清理 * 输入过滤 * 检索验证 * Context 验证 * 中毒检测 ### 第六阶段：评估 * 检索指标 * 安全指标 * RAGAS 评估 * 对比基准测试 ## 当前状态检索基础已完成 ✅ 安全研究阶段启动 🚀

标签：ChromaDB, DLL 劫持, RAG, 人工智能安全, 合规性, 大语言模型, 攻击模拟, 逆向工具, 驱动签名利用