SUHANI-21/rag_malware
GitHub: SUHANI-21/rag_malware
结合 RAG 与大语言模型,利用网络威胁情报数据对恶意软件样本进行语义检索与智能分类的安全分析系统。
Stars: 0 | Forks: 0
# 基于 RAG 的恶意软件分类系统
一个 AI 驱动的恶意软件分类系统,结合了检索增强生成(RAG)、语义相似度搜索和大语言模型(LLM),利用网络威胁情报数据对恶意软件样本进行分类。
该系统集成了:
* 基于 RAG 的检索
* FAISS 相似度搜索
* 恶意软件情报 embedding
* Mistral-7B 推理
* MITRE ATT&CK 映射
以提供基于上下文和情报驱动的恶意软件分类。
# 功能
| 功能 | 描述 |
| -------------------------- | --------------------------------------------------------- |
| 恶意软件分类 | 根据 CTI 描述预测恶意软件家族/类型 |
| RAG Pipeline | 在生成之前检索相关的恶意软件情报 |
| 语义相似度搜索 | 基于 FAISS 的恶意软件相似度检索 |
| 上下文分类 | 使用检索到的 CTI 上下文进行有依据的预测 |
| MITRE ATT&CK 映射 | 将恶意软件行为映射到 ATT&CK 技术 |
| 本地 LLM 推理 | 使用 Mistral-7B |
# 工作流程
## 1. 恶意软件情报收集
该系统使用:
* 恶意软件报告,
* CTI 文档,
* 行为描述,
* ATT&CK 参考。
这些文档构成了恶意软件知识库。
## 2. 文本预处理
预处理包括:
* 转换为小写,
* tokenization,
* 移除停用词,
* chunking。
## 3. Embedding 生成
恶意软件情报 chunk 被转换为语义 embedding,使用:
```
sentence-transformers/all-MiniLM-L6-v2
```
## 4. 向量存储
Embedding 被存储在 FAISS 向量数据库中,用于语义相似度检索。
## 5. 查询处理
用户提供的恶意软件描述将被转换为 embedding,并与存储的恶意软件情报向量进行匹配。
## 6. 语义检索
FAISS 检索在语义上最相关的恶意软件情报 chunk。
# 使用的技术
| 组件 | 技术 |
| --------------- | -------------------------------------- |
| Embedding 模型 | sentence-transformers/all-MiniLM-L6-v2 |
| 向量搜索 | FAISS |
| 本地 LLM | Mistral-7B-Instruct |
| RAG 框架 | LangChain |
| 后端 | Python |
| ML 工具 | scikit-learn |
标签:DLL 劫持, FAISS, Mistral-7B, RAG, 人工智能, 大语言模型, 威胁情报, 开发者工具, 用户模式Hook绕过, 逆向工具