elifeceisci/Cyber-LLM-Tehdit-Analiz-Platformu-Projesi

GitHub: elifeceisci/Cyber-LLM-Tehdit-Analiz-Platformu-Projesi

一个基于量化的轻量级LLM构建的网络安全日志分析平台，用于自动识别威胁等级并提供处置建议。

Stars: 0 | Forks: 0

# Cyber-LLM 威胁分析平台项目 **编制：Elif Ece İŞÇİ** ## 1. 项目摘要在当今的网络安全生态系统中，每秒都会产生数千条日志数据。安全分析师手动检查这些原始数据（IP 地址、端口信息、错误代码）并将其转化为有意义的攻击报告，在时间和资源上都是低效的。本项目的目标是：开发一个利用自然语言处理（NLP）技术和大型语言模型（LLM）自动分析原始系统日志、确定威胁级别并在几秒钟内提供行动方案的人工智能助手。 ## 2. 问题描述如今，网络安全团队面临着大量的日志、事件和警报。手动分析这些数据会导致时间浪费、关键威胁被忽视以及运营成本增加。本项目旨在解决缺乏能够快速且一致地确定网络事件数据威胁级别（低–中–严重）的自动分类系统的问题。 ## 3. 解决方案该问题通过基于 LLM 的混合架构来解决。开发的解决方案由两个主要层组成： ## 4. 基于 LLM 的语义分析层  处理网络事件/日志数据的自然语言表示。  解读事件的上下文、严重性和潜在影响。  从 LLM 输出中提取数值和分类特征。 ## 5. 基于机器学习的分类层  将 LLM 生成的特征作为模型输入。  预测威胁级别（低 – 中 – 严重）。通过这种混合方法，将 LLM 强大的上下文理解能力与传统分类算法的稳定结构相结合。 ### 4.1 需求分析 **功能性需求：**  能够读取数据集  能够应用数据预处理  能够执行多类（multi-class）分类  能够衡量模型性能  能够生成混淆矩阵和分类报告 **非功能性需求：**  低延迟  可解释的结果  能在 CPU 上运行  可扩展的架构 ### 4.2 系统设计本项目由以下层组成： **LLM 层（TinyLlama – 1.1B）** • 在自然语言上下文中分析日志数据。 • 生成威胁类型、级别和解决建议。 **Prompt Engineering + Chain-of-Thought** • 强制模型执行思考步骤。 • 提供更一致且可解释的输出。 **GPU + 4-bit Quantization** • 确保在 Google Colab T4 GPU 上高效运行。 • 显著降低内存使用量。 **统计后处理** • 使用简单的逻辑规则对 LLM 输出进行分类。 • 生成用于可视化的数据。 **Gradio Web 界面** • 提供用户友好的实时演示环境。 ### 4.3 使用的方法和算法 **基于 LLM 的方法：** • 使用预训练的大型语言模型（LLM） • 从事件文本中提取上下文和威胁信息 • 通过 Prompt engineering 生成以威胁为重点的输出 **机器学习方法：** • 多类分类（Multi-class Classification） • LLM 输出的数值化 • 使用 Precision, Recall, F1-score 进行性能评估这种结构确保 LLM 不是作为直接决策者，而是作为智能特征提取器（feature extractor）定位。 ### 4.4 硬件选择： Cyber-LLM 项目通过 Google Colab 提供的免费且无需安装的云基础设施，利用 NVIDIA T4 GPU 的高并行性 CUDA 核心和 Tensor Core 支持实现。这种硬件选择在向量和矩阵操作中比 CPU 提供了显著的加速，在优化模型训练和评估过程的同时，也为中型网络安全项目提供了理想的能效平衡。平台提供的独立于硬件的开发能力，允许在学术和专业项目中进行快速原型设计，从而消除了安装的麻烦。此外，该基础设施现已具备将现有系统未来迁移到 LSTM 或 Transformer 等更复杂的深度学习架构所需的可扩展基础。 ### 4.5 实现 **4-bit 量化方法：** **BitsAndBytesConfig：** 此结构应用 4-bit 量化（压缩）方法。  “load_in_4bit=True”：将模型权重从 32-bit 降至 4-bit，从而将 VRAM 使用量减少 75-80%。  “bnb_4bit_quant_type=’nf4’ “： "NormalFloat4" 是一种特殊的数据类型，在网络安全等技术文本中，比标准 4-bit 提供更高的准确度（accuracy）。  “bnb_4bit_compute_dtype=torch.float16” : 在计算过程中使用 16-bit 精度（半精度）以提高速度。 **Tokenization 和模型加载** • **AutoTokenizer：** 将人类语言的日志文本分割成模型可以在数学上理解的数值片段。 • **device_map="auto"：** 在显卡（GPU）和处理器（CPU）之间最高效地分配模型层，从而防止“内存不足”（Out of Memory）错误。 **"Chain of Thought"（思维链）Prompt 工程** 代码中的 Prompt 结构确保模型不仅进行猜测，而且遵循逻辑分析过程： • **方法：** 通过向模型定义一个角色（“分析员模式：激活”），并逐项要求分析步骤（1. 威胁级别，2. 攻击类型，3. 解决方案）。 • **结果：** 此方法确保模型生成符合网络安全标准（Reasoning）的报告，而不是随机文本。 **分析逻辑和参数（model.generate）** • **max_new_tokens=200：** 限制生成响应的长度，从而防止不必要的单词拥挤并提高响应速度。 • **temperature=0.3：** 确定响应有多“创造性”或“确定”。像 0.3 这样的低值可确保生成网络安全所需的严肃且一致的响应。 **统计可视化与数据处理** 模型生成的文本报告由代码在后台进行分析： • **关键词检测：** `if "kritik" in response.lower()` 结构扫描 LLM 生成的文本以确定攻击类型并更新 stats 字典。 • **create_stat_plot：** 使用 Matplotlib 将这些统计信息转换为可视化条形图。由于使用了 `io.BytesIO()`，图表直接通过内存传输到界面，而不占用磁盘空间。 **Gradio Web 界面层** 这是让用户像体验“产品”一样体验项目的层： • **gr.Blocks：** 建立灵活的布局（左侧是输入框，右侧是结果报告和图表）。 • **theme=gr.themes.Soft()：** 赋予界面专业网络安全面板的外观。 • **demo.launch(debug=True)：** 启动应用程序并允许开发者即时查看错误。代码结构设计具有模块化特性，可确保将来能与 REST API、Web 界面或实时系统集成。 ### 4.6 测试与验证模型性能通过以下指标进行评估。 **整体模型性能** • Accuracy（准确度）：%66.67 • Precision（精确率）：%66.67 • Recall（召回率）：%72.22 • F1 Score：%65.56 **详细分类报告** | 类别 | Precision | Recall | F1-Score | Support | | :--- | :--- | :--- | :--- | :--- | | 低 | 0.50 | 1.00 | 0.67 | 1 | | 严重 | 1.00 | 0.67 | 0.80 | 3 | | 中 | 0.50 | 0.50 | 0.50 | 2 | **混淆矩阵** **模型性能摘要：** • **优势：** 模型在所有标记为“严重”的案例中以 %100 的精确度（Precision）工作，证明了它没有产生误报。在网络安全最重要的成功指标——“无误识别最高风险攻击”方面，该模型非常可靠。 • **弱点与混淆：** 模型在“中”级威胁方面最为吃力，有时会将其与“低”或“严重”类别混淆。根据混淆矩阵，3 个严重案例中有 1 个被预测为“中”，这表明系统有时会将攻击强度感知得比实际低。 • **改进需求：** 总共 6 个样本进行的这项测试应在统计上得到更广泛数据集的支持。为了消除中级诊断中的不确定性，通过 Fine-Tuning 对模型进行针对网络安全术语的训练是优先的改进步骤。 ## 5. 项目产出 • 可运行的多类威胁级别分类模型 • 有性能指标支持的分析输出 • 可用于决策支持的结果 • 适用于学术和工业报告的结构 ## 6. 最终评估与未来工作该项目开放用于以 LLM 为中心进行开发。计划的高级功能如下： **硬件扩展：** 通过使用 NVIDIA H100 或 A100 等高容量 GPU 过渡到 Llama 3 (70B) 模型，可以提高准确率。 **Fine-Tuning：** 通过使用专门的网络安全数据集对模型进行“微调”，将提高技术术语的成功率。 **RAG 集成：** 通过将当前的 CVE（漏洞）数据库连接到模型，模型将能够立即了解世界各地的最新攻击。 **Groq API 集成：** 通过实现此集成，可以在 Groq 云中的巨大 GPU 上运行得更快，而不是受限于计算机硬件。 ## 7. 结论这项研究表明，即使在数据有限的条件下，也可以通过机器学习对网络威胁级别进行分类。该模型，特别是在检测严重威胁方面，产生了令人满意的结果。得益于其可扩展的架构，该项目有资格成为高级网络安全决策支持系统的基础。

标签：AI安全, AMSI绕过, Apex, BitsAndBytes, BurpSuite集成, Chat Copilot, DLL 劫持, LLM, LoRA, NLP, PEFT, SOC助手, TCP/IP协议栈, TinyLlama, Unmanaged PE, 人工智能, 低资源计算, 凭据扫描, 大语言模型, 威胁分类, 威胁检测, 安全运营, 异常检测, 扫描框架, 机器学习, 模型量化, 深度学习, 混合架构, 用户模式Hook绕过, 网络安全, 网络安全平台, 逆向工具, 隐私保护