elifeceisci/Cyber-LLM-Tehdit-Analiz-Platformu-Projesi
GitHub: elifeceisci/Cyber-LLM-Tehdit-Analiz-Platformu-Projesi
一个基于量化的轻量级LLM构建的网络安全日志分析平台,用于自动识别威胁等级并提供处置建议。
Stars: 0 | Forks: 0
# Cyber-LLM 威胁分析平台项目
**编制:Elif Ece İŞÇİ**
## 1. 项目摘要
在当今的网络安全生态系统中,每秒都会产生数千条日志数据。安全分析师手动检查这些原始数据(IP 地址、端口信息、错误代码)并将其转化为有意义的攻击报告,在时间和资源上都是低效的。
本项目的目标是:开发一个利用自然语言处理(NLP)技术和大型语言模型(LLM)自动分析原始系统日志、确定威胁级别并在几秒钟内提供行动方案的人工智能助手。
## 2. 问题描述
如今,网络安全团队面临着大量的日志、事件和警报。手动分析这些数据会导致时间浪费、关键威胁被忽视以及运营成本增加。本项目旨在解决缺乏能够快速且一致地确定网络事件数据威胁级别(低–中–严重)的自动分类系统的问题。
## 3. 解决方案
该问题通过基于 LLM 的混合架构来解决。
开发的解决方案由两个主要层组成:
## 4. 基于 LLM 的语义分析层
处理网络事件/日志数据的自然语言表示。
解读事件的上下文、严重性和潜在影响。
从 LLM 输出中提取数值和分类特征。
## 5. 基于机器学习的分类层
将 LLM 生成的特征作为模型输入。
预测威胁级别(低 – 中 – 严重)。
通过这种混合方法,将 LLM 强大的上下文理解能力与传统分类算法的稳定结构相结合。
### 4.1 需求分析
**功能性需求:**
能够读取数据集
能够应用数据预处理
能够执行多类(multi-class)分类
能够衡量模型性能
能够生成混淆矩阵和分类报告
**非功能性需求:**
低延迟
可解释的结果
能在 CPU 上运行
可扩展的架构
### 4.2 系统设计
本项目由以下层组成:
**LLM 层(TinyLlama – 1.1B)**
• 在自然语言上下文中分析日志数据。
• 生成威胁类型、级别和解决建议。
**Prompt Engineering + Chain-of-Thought**
• 强制模型执行思考步骤。
• 提供更一致且可解释的输出。
**GPU + 4-bit Quantization**
• 确保在 Google Colab T4 GPU 上高效运行。
• 显著降低内存使用量。
**统计后处理**
• 使用简单的逻辑规则对 LLM 输出进行分类。
• 生成用于可视化的数据。
**Gradio Web 界面**
• 提供用户友好的实时演示环境。
### 4.3 使用的方法和算法
**基于 LLM 的方法:**
• 使用预训练的大型语言模型(LLM)
• 从事件文本中提取上下文和威胁信息
• 通过 Prompt engineering 生成以威胁为重点的输出
**机器学习方法:**
• 多类分类(Multi-class Classification)
• LLM 输出的数值化
• 使用 Precision, Recall, F1-score 进行性能评估
这种结构确保 LLM 不是作为直接决策者,而是作为智能特征提取器(feature extractor)定位。
### 4.4 硬件选择:
Cyber-LLM 项目通过 Google Colab 提供的免费且无需安装的云基础设施,利用 NVIDIA T4 GPU 的高并行性 CUDA 核心和 Tensor Core 支持实现。
这种硬件选择在向量和矩阵操作中比 CPU 提供了显著的加速,在优化模型训练和评估过程的同时,也为中型网络安全项目提供了理想的能效平衡。
平台提供的独立于硬件的开发能力,允许在学术和专业项目中进行快速原型设计,从而消除了安装的麻烦。此外,该基础设施现已具备将现有系统未来迁移到 LSTM 或 Transformer 等更复杂的深度学习架构所需的可扩展基础。
### 4.5 实现
**4-bit 量化方法:**
**BitsAndBytesConfig:** 此结构应用 4-bit 量化(压缩)方法。
“load_in_4bit=True”:将模型权重从 32-bit 降至 4-bit,从而将 VRAM 使用量减少 75-80%。
“bnb_4bit_quant_type=’nf4’ “: "NormalFloat4" 是一种特殊的数据类型,在网络安全等技术文本中,比标准 4-bit 提供更高的准确度(accuracy)。
“bnb_4bit_compute_dtype=torch.float16” : 在计算过程中使用 16-bit 精度(半精度)以提高速度。
**Tokenization 和模型加载**
• **AutoTokenizer:** 将人类语言的日志文本分割成模型可以在数学上理解的数值片段。
• **device_map="auto":** 在显卡(GPU)和处理器(CPU)之间最高效地分配模型层,从而防止“内存不足”(Out of Memory)错误。
**"Chain of Thought"(思维链)Prompt 工程**
代码中的 Prompt 结构确保模型不仅进行猜测,而且遵循逻辑分析过程:
• **方法:** 通过向模型定义一个角色(“分析员模式:激活”),并逐项要求分析步骤(1. 威胁级别,2. 攻击类型,3. 解决方案)。
• **结果:** 此方法确保模型生成符合网络安全标准(Reasoning)的报告,而不是随机文本。
**分析逻辑和参数(model.generate)**
• **max_new_tokens=200:** 限制生成响应的长度,从而防止不必要的单词拥挤并提高响应速度。
• **temperature=0.3:** 确定响应有多“创造性”或“确定”。像 0.3 这样的低值可确保生成网络安全所需的严肃且一致的响应。
**统计可视化与数据处理**
模型生成的文本报告由代码在后台进行分析:
• **关键词检测:** `if "kritik" in response.lower()` 结构扫描 LLM 生成的文本以确定攻击类型并更新 stats 字典。
• **create_stat_plot:** 使用 Matplotlib 将这些统计信息转换为可视化条形图。由于使用了 `io.BytesIO()`,图表直接通过内存传输到界面,而不占用磁盘空间。
**Gradio Web 界面层**
这是让用户像体验“产品”一样体验项目的层:
• **gr.Blocks:** 建立灵活的布局(左侧是输入框,右侧是结果报告和图表)。
• **theme=gr.themes.Soft():** 赋予界面专业网络安全面板的外观。
• **demo.launch(debug=True):** 启动应用程序并允许开发者即时查看错误。
代码结构设计具有模块化特性,可确保将来能与 REST API、Web 界面或实时系统集成。
### 4.6 测试与验证
模型性能通过以下指标进行评估。
**整体模型性能**
• Accuracy(准确度):%66.67
• Precision(精确率):%66.67
• Recall(召回率):%72.22
• F1 Score:%65.56
**详细分类报告**
| 类别 | Precision | Recall | F1-Score | Support |
| :--- | :--- | :--- | :--- | :--- |
| 低 | 0.50 | 1.00 | 0.67 | 1 |
| 严重 | 1.00 | 0.67 | 0.80 | 3 |
| 中 | 0.50 | 0.50 | 0.50 | 2 |
**混淆矩阵**
**模型性能摘要:**
• **优势:** 模型在所有标记为“严重”的案例中以 %100 的精确度(Precision)工作,证明了它没有产生误报。在网络安全最重要的成功指标——“无误识别最高风险攻击”方面,该模型非常可靠。
• **弱点与混淆:** 模型在“中”级威胁方面最为吃力,有时会将其与“低”或“严重”类别混淆。根据混淆矩阵,3 个严重案例中有 1 个被预测为“中”,这表明系统有时会将攻击强度感知得比实际低。
• **改进需求:** 总共 6 个样本进行的这项测试应在统计上得到更广泛数据集的支持。为了消除中级诊断中的不确定性,通过 Fine-Tuning 对模型进行针对网络安全术语的训练是优先的改进步骤。
## 5. 项目产出
• 可运行的多类威胁级别分类模型
• 有性能指标支持的分析输出
• 可用于决策支持的结果
• 适用于学术和工业报告的结构
## 6. 最终评估与未来工作
该项目开放用于以 LLM 为中心进行开发。计划的高级功能如下:
**硬件扩展:** 通过使用 NVIDIA H100 或 A100 等高容量 GPU 过渡到 Llama 3 (70B) 模型,可以提高准确率。
**Fine-Tuning:** 通过使用专门的网络安全数据集对模型进行“微调”,将提高技术术语的成功率。
**RAG 集成:** 通过将当前的 CVE(漏洞)数据库连接到模型,模型将能够立即了解世界各地的最新攻击。
**Groq API 集成:** 通过实现此集成,可以在 Groq 云中的巨大 GPU 上运行得更快,而不是受限于计算机硬件。
## 7. 结论
这项研究表明,即使在数据有限的条件下,也可以通过机器学习对网络威胁级别进行分类。该模型,特别是在检测严重威胁方面,产生了令人满意的结果。得益于其可扩展的架构,该项目有资格成为高级网络安全决策支持系统的基础。
标签:AI安全, AMSI绕过, Apex, BitsAndBytes, BurpSuite集成, Chat Copilot, DLL 劫持, LLM, LoRA, NLP, PEFT, SOC助手, TCP/IP协议栈, TinyLlama, Unmanaged PE, 人工智能, 低资源计算, 凭据扫描, 大语言模型, 威胁分类, 威胁检测, 安全运营, 异常检测, 扫描框架, 机器学习, 模型量化, 深度学习, 混合架构, 用户模式Hook绕过, 网络安全, 网络安全平台, 逆向工具, 隐私保护