mehmetcetinn9999/Log-Analysis-Via-RAG
GitHub: mehmetcetinn9999/Log-Analysis-Via-RAG
基于 RAG 的网络安全日志分析系统,利用混合检索和 LLM 推理从安全日志中自动提取 IOC、检测威胁并提供可解释的预测性安全评估。
Stars: 0 | Forks: 0
# 基于 RAG 的预测性日志分析
一个基于检索增强生成(RAG)的网络安全助手,专为智能日志分析、威胁检测和预测性安全评估而设计。
## 概述
基于 RAG 的预测性日志分析结合了大型语言模型(LLM)、威胁情报源和混合信息检索技术,用于分析安全日志并提供具备上下文感知能力的网络安全洞察。
该系统集成了多种网络安全知识源,包括 MITRE ATT&CK 和 CISA 已知被利用漏洞(KEV),使安全分析师能够利用有据可查的响应来调查可疑事件。
## 功能
### 混合检索
* BM25 关键词检索
* ChromaDB 向量相似性搜索
* 倒数排名融合(RRF)
### 威胁情报集成
* MITRE ATT&CK 知识库
* CISA KEV 目录
* 自定义威胁报告
### IOC 提取
自动提取:
* IPv4 / IPv6 地址
* 域名
* URL
* 电子邮件地址
* CVE 标识符
* MITRE ATT&CK 技术 ID
* MD5 / SHA1 / SHA256 哈希值
### 预测性安全评估
该系统不仅解释观察到的安全事件,还根据检索到的威胁情报识别潜在的未来风险和攻击模式。
### 评估与可观测性
* 检索评估 pipeline
* 查询日志记录
* 延迟跟踪
* 来源归属
## 架构
```
Security Logs
│
▼
IOC Extraction
│
▼
Hybrid Retrieval
(BM25 + ChromaDB)
│
▼
Threat Intelligence Context
(MITRE + CISA + Reports)
│
▼
LLM Analysis
│
▼
Threat Detection & Prediction
```
## 技术栈
| 组件 | 技术 |
| ---------------- | ---------------------- |
| LLM | Groq / OpenAI / Ollama |
| Embeddings | all-MiniLM-L6-v2 |
| 向量数据库 | ChromaDB |
| 稀疏检索 | BM25 |
| 框架 | LangChain |
| 界面 | Streamlit |
| 评估 | 自定义指标 |
## 安装
```
git clone
cd project
python -m venv venv
source venv/bin/activate
# Windows:
venv\Scripts\activate
pip install -r requirements.txt
```
运行:
```
streamlit run app.py
```
## 项目结构
```
project/
├── app.py
├── rag_engine.py
├── ingest.py
├── ioc_extractor.py
├── evaluate.py
├── config.py
├── data/
├── vectorstore/
├── eval/
└── query_log.jsonl
```
## 学术参考文献
1. Lewis et al. (2020) – Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
2. MITRE ATT&CK Framework
3. CISA Known Exploited Vulnerabilities Catalog
## 生成式 AI 的使用
生成式 AI 工具用于:
* 完善文档
* 代码调试
* 文献探索
核心系统的设计、实现、集成、评估和项目开发均由项目作者完成。
## 作者
计算机工程系
穆拉锡特科·科奇曼大学
2025–2026 春季学期项目
标签:AI风险缓解, Kubernetes, LLM推理, RAG, 向量检索, 威胁情报, 安全日志分析, 安全运营, 开发者工具, 异常检测, 扫描框架, 逆向工具