Gabi-comm/Network-Log-RAG-Chatbot

GitHub: Gabi-comm/Network-Log-RAG-Chatbot

基于 RAG 架构的网络日志智能分析系统，通过向量数据库和本地 LLM 实现自然语言式的安全日志查询与异常检测。

Stars: 0 | Forks: 0

# Network-Log-RAG-Chatbot 一个智能的日志分析系统，使用 embeddings 将网络日志索引到向量数据库（ChromaDB）中，允许本地语言模型聊天机器人（Ollama）进行查询、分析和检测安全异常。 # 结合 LLM 聊天机器人的嵌入式网络日志模型一个智能的、隐私优先的网络日志分析系统。本项目实现了一个检索增强生成（RAG）pipeline，将原始的网络安全日志进行 embedding，存储在向量数据库中，并结合本地的大型语言模型（LLM）聊天机器人，以进行交互式的、自然语言的安全分析。 ## 功能 * **日志 Embedding 与摄取：** 使用 Hugging Face embedding 模型将非结构化的网络日志转换为密集的向量表示。 * **向量存储：** 将 embedded 的日志数据存储在本地，以便进行快速的语义相似度搜索。 * **本地 LLM 集成：** 使用开源的本地语言模型查询 embedded 的日志，以确保数据的隐私和安全。 * **交互式聊天界面：** 允许安全分析师使用自然语言查询复杂的网络行为、追踪异常并生成事件摘要。 ## 技术栈 * **语言：** Python 3.14+ * **框架：** LangChain * **Embeddings：** Hugging Face (`langchain-huggingface`) * **向量数据库：** ChromaDB * **本地 LLM 引擎：** Ollama ## 项目结构本项目被组织成模块化的脚本，代表了检索增强生成（RAG）pipeline 的不同阶段： * **`HR_Policies.txt`**：包含模拟策略信息和隐藏 PII 的原始文本数据集。 * **`redact.py`**：预处理脚本，用于扫描原始文本、检测敏感信息（如 SSN 或电子邮件）并将其清除。 * **`embed.py`**：加载脱敏后的数据，将其分割成易于处理的文本块，生成向量 embeddings，并将它们存储在 ChromaDB 中。 * **`retriever.py`**：处理语义搜索逻辑——接收用户查询，并从向量数据库中获取最相关的文档块。 * **`chatbot.py`**：最终的执行脚本，封装了 retriever 并将其与 Ollama 相连，提供一个交互式的自然语言聊天界面。

标签：AI风险缓解, DLL 劫持, IaC 扫描, 向量数据库, 大语言模型, 检索增强生成, 逆向工具