elifeceisci/Cyber-LLM-Tehdit-Analiz-Platformu-Projesi

GitHub: elifeceisci/Cyber-LLM-Tehdit-Analiz-Platformu-Projesi

一个基于量化的轻量级LLM构建的网络安全日志分析平台,用于自动识别威胁等级并提供处置建议。

Stars: 0 | Forks: 0

# Cyber-LLM 威胁分析平台项目 **编制:Elif Ece İŞÇİ** ## 1. 项目摘要 在当今的网络安全生态系统中,每秒都会产生数千条日志数据。安全分析师手动检查这些原始数据(IP 地址、端口信息、错误代码)并将其转化为有意义的攻击报告,在时间和资源上都是低效的。 本项目的目标是:开发一个利用自然语言处理(NLP)技术和大型语言模型(LLM)自动分析原始系统日志、确定威胁级别并在几秒钟内提供行动方案的人工智能助手。 ## 2. 问题描述 如今,网络安全团队面临着大量的日志、事件和警报。手动分析这些数据会导致时间浪费、关键威胁被忽视以及运营成本增加。本项目旨在解决缺乏能够快速且一致地确定网络事件数据威胁级别(低–中–严重)的自动分类系统的问题。 ## 3. 解决方案 该问题通过基于 LLM 的混合架构来解决。 开发的解决方案由两个主要层组成: ## 4. 基于 LLM 的语义分析层  处理网络事件/日志数据的自然语言表示。  解读事件的上下文、严重性和潜在影响。  从 LLM 输出中提取数值和分类特征。 ## 5. 基于机器学习的分类层  将 LLM 生成的特征作为模型输入。  预测威胁级别(低 – 中 – 严重)。 通过这种混合方法,将 LLM 强大的上下文理解能力与传统分类算法的稳定结构相结合。 ### 4.1 需求分析 **功能性需求:**  能够读取数据集  能够应用数据预处理  能够执行多类(multi-class)分类  能够衡量模型性能  能够生成混淆矩阵和分类报告 **非功能性需求:**  低延迟  可解释的结果  能在 CPU 上运行  可扩展的架构 ### 4.2 系统设计 本项目由以下层组成: **LLM 层(TinyLlama – 1.1B)** • 在自然语言上下文中分析日志数据。 • 生成威胁类型、级别和解决建议。 **Prompt Engineering + Chain-of-Thought** • 强制模型执行思考步骤。 • 提供更一致且可解释的输出。 **GPU + 4-bit Quantization** • 确保在 Google Colab T4 GPU 上高效运行。 • 显著降低内存使用量。 **统计后处理** • 使用简单的逻辑规则对 LLM 输出进行分类。 • 生成用于可视化的数据。 **Gradio Web 界面** • 提供用户友好的实时演示环境。 ### 4.3 使用的方法和算法 **基于 LLM 的方法:** • 使用预训练的大型语言模型(LLM) • 从事件文本中提取上下文和威胁信息 • 通过 Prompt engineering 生成以威胁为重点的输出 **机器学习方法:** • 多类分类(Multi-class Classification) • LLM 输出的数值化 • 使用 Precision, Recall, F1-score 进行性能评估 这种结构确保 LLM 不是作为直接决策者,而是作为智能特征提取器(feature extractor)定位。 ### 4.4 硬件选择: Cyber-LLM 项目通过 Google Colab 提供的免费且无需安装的云基础设施,利用 NVIDIA T4 GPU 的高并行性 CUDA 核心和 Tensor Core 支持实现。 这种硬件选择在向量和矩阵操作中比 CPU 提供了显著的加速,在优化模型训练和评估过程的同时,也为中型网络安全项目提供了理想的能效平衡。 平台提供的独立于硬件的开发能力,允许在学术和专业项目中进行快速原型设计,从而消除了安装的麻烦。此外,该基础设施现已具备将现有系统未来迁移到 LSTM 或 Transformer 等更复杂的深度学习架构所需的可扩展基础。 ### 4.5 实现 **4-bit 量化方法:** **BitsAndBytesConfig:** 此结构应用 4-bit 量化(压缩)方法。  “load_in_4bit=True”:将模型权重从 32-bit 降至 4-bit,从而将 VRAM 使用量减少 75-80%。  “bnb_4bit_quant_type=’nf4’ “: "NormalFloat4" 是一种特殊的数据类型,在网络安全等技术文本中,比标准 4-bit 提供更高的准确度(accuracy)。  “bnb_4bit_compute_dtype=torch.float16” : 在计算过程中使用 16-bit 精度(半精度)以提高速度。 **Tokenization 和模型加载** • **AutoTokenizer:** 将人类语言的日志文本分割成模型可以在数学上理解的数值片段。 • **device_map="auto":** 在显卡(GPU)和处理器(CPU)之间最高效地分配模型层,从而防止“内存不足”(Out of Memory)错误。 **"Chain of Thought"(思维链)Prompt 工程** 代码中的 Prompt 结构确保模型不仅进行猜测,而且遵循逻辑分析过程: • **方法:** 通过向模型定义一个角色(“分析员模式:激活”),并逐项要求分析步骤(1. 威胁级别,2. 攻击类型,3. 解决方案)。 • **结果:** 此方法确保模型生成符合网络安全标准(Reasoning)的报告,而不是随机文本。 **分析逻辑和参数(model.generate)** • **max_new_tokens=200:** 限制生成响应的长度,从而防止不必要的单词拥挤并提高响应速度。 • **temperature=0.3:** 确定响应有多“创造性”或“确定”。像 0.3 这样的低值可确保生成网络安全所需的严肃且一致的响应。 **统计可视化与数据处理** 模型生成的文本报告由代码在后台进行分析: • **关键词检测:** `if "kritik" in response.lower()` 结构扫描 LLM 生成的文本以确定攻击类型并更新 stats 字典。 • **create_stat_plot:** 使用 Matplotlib 将这些统计信息转换为可视化条形图。由于使用了 `io.BytesIO()`,图表直接通过内存传输到界面,而不占用磁盘空间。 **Gradio Web 界面层** 这是让用户像体验“产品”一样体验项目的层: • **gr.Blocks:** 建立灵活的布局(左侧是输入框,右侧是结果报告和图表)。 • **theme=gr.themes.Soft():** 赋予界面专业网络安全面板的外观。 • **demo.launch(debug=True):** 启动应用程序并允许开发者即时查看错误。 代码结构设计具有模块化特性,可确保将来能与 REST API、Web 界面或实时系统集成。 ### 4.6 测试与验证 模型性能通过以下指标进行评估。 **整体模型性能** • Accuracy(准确度):%66.67 • Precision(精确率):%66.67 • Recall(召回率):%72.22 • F1 Score:%65.56 **详细分类报告** | 类别 | Precision | Recall | F1-Score | Support | | :--- | :--- | :--- | :--- | :--- | | 低 | 0.50 | 1.00 | 0.67 | 1 | | 严重 | 1.00 | 0.67 | 0.80 | 3 | | 中 | 0.50 | 0.50 | 0.50 | 2 | **混淆矩阵** **模型性能摘要:** • **优势:** 模型在所有标记为“严重”的案例中以 %100 的精确度(Precision)工作,证明了它没有产生误报。在网络安全最重要的成功指标——“无误识别最高风险攻击”方面,该模型非常可靠。 • **弱点与混淆:** 模型在“中”级威胁方面最为吃力,有时会将其与“低”或“严重”类别混淆。根据混淆矩阵,3 个严重案例中有 1 个被预测为“中”,这表明系统有时会将攻击强度感知得比实际低。 • **改进需求:** 总共 6 个样本进行的这项测试应在统计上得到更广泛数据集的支持。为了消除中级诊断中的不确定性,通过 Fine-Tuning 对模型进行针对网络安全术语的训练是优先的改进步骤。 ## 5. 项目产出 • 可运行的多类威胁级别分类模型 • 有性能指标支持的分析输出 • 可用于决策支持的结果 • 适用于学术和工业报告的结构 ## 6. 最终评估与未来工作 该项目开放用于以 LLM 为中心进行开发。计划的高级功能如下: **硬件扩展:** 通过使用 NVIDIA H100 或 A100 等高容量 GPU 过渡到 Llama 3 (70B) 模型,可以提高准确率。 **Fine-Tuning:** 通过使用专门的网络安全数据集对模型进行“微调”,将提高技术术语的成功率。 **RAG 集成:** 通过将当前的 CVE(漏洞)数据库连接到模型,模型将能够立即了解世界各地的最新攻击。 **Groq API 集成:** 通过实现此集成,可以在 Groq 云中的巨大 GPU 上运行得更快,而不是受限于计算机硬件。 ## 7. 结论 这项研究表明,即使在数据有限的条件下,也可以通过机器学习对网络威胁级别进行分类。该模型,特别是在检测严重威胁方面,产生了令人满意的结果。得益于其可扩展的架构,该项目有资格成为高级网络安全决策支持系统的基础。
标签:AI安全, AMSI绕过, Apex, BitsAndBytes, BurpSuite集成, Chat Copilot, DLL 劫持, LLM, LoRA, NLP, PEFT, SOC助手, TCP/IP协议栈, TinyLlama, Unmanaged PE, 人工智能, 低资源计算, 凭据扫描, 大语言模型, 威胁分类, 威胁检测, 安全运营, 异常检测, 扫描框架, 机器学习, 模型量化, 深度学习, 混合架构, 用户模式Hook绕过, 网络安全, 网络安全平台, 逆向工具, 隐私保护