KIRAN-GITHUB123/pyspark_threat_intelligence_engine
GitHub: KIRAN-GITHUB123/pyspark_threat_intelligence_engine
基于Apache Spark的分布式网络安全威胁情报分析引擎。
Stars: 0 | Forks: 0
# 主动威胁情报与行为分析引擎
## 概述
本存储库包含一个可扩展的多阶段数据分析管道,旨在将海量网络流量转换为可操作的网络安全情报。作为主动漏洞发现研究项目的一部分开发,该引擎通过分布式计算自动化识别和描述恶意行为模式。
该系统通过利用 **Apache Spark** 在大规模上分析威胁,解决了分析太字节级互联网扫描数据——这对传统的安全运营中心(SOC)是一个重大挑战。
## 核心方法
该管道实现了一个端到端的工作流程,旨在进行生产级网络数据分析:
* **可扩展的摄取**:使用 HDFS 和 Spark 处理数百万条记录的数据集(在 CIC-Collection 上验证,有 9.1M+ 条记录)。
* **动态特征工程**:采用基于决策树的显著性分析来隔离最具预测性的特征,例如 TCP 窗口大小和包长度统计,针对特定的流量组成进行定制。
* **行为分析**:实现无监督的 **K-Means 聚类**($k=3$,经过超调选择,侧重于提高操作可用性)将流量分割成不同的行为原型,为不同的攻击变体生成“指纹”。
* **缓解建议**:利用 **交替最小二乘法(ALS)** 协同过滤将发现的威胁配置文件映射到已验证的缓解策略,自动化安全响应工作流程。
* **鲁棒性验证**:集成 **蒙特卡洛模拟** 来对集群稳定性进行压力测试,以确保识别的签名是可靠和可重复的。
## 技术架构
* **分布式计算**:Apache Spark(PySpark)、Hadoop 分布式文件系统(HDFS)。
* **机器学习(MLlib)**:K-Means(聚类)、ALS(推荐)、决策树(特征重要性)、StandardScaler、VectorAssembler。
* **自动化与报告**:使用 ReportLab 自动生成可用于发表的 PDF 智能情报报告。
## 部署与使用
### 执行模式
该引擎提供两种执行路径:
1. **演示模式**:执行分层样本以快速验证管道。
2. **完整模式**:处理整个数据集以进行综合生产分析。
```
# 示例命令:全规模生产分析
python threat_profiling_pipeline.py --mode full --file network_traffic.parquet
```
## 战略影响
该管道解决了现代网络安全操作中的关键“最后一英里”挑战:
* **细粒度情报**:表明在特定攻击标签上的分析比广泛的通用标签具有显著更高的稳定性和一致性。
* **自动决策支持**:提供数据驱动的建议,使 SOC 分析师能够对类似的攻击行为应用一致的对策。
* **验证的鲁棒性**:确保安全策略基于稳定的行为配置文件,这些配置文件在噪声下经蒙特卡洛压力测试后仍然有效。
## 研究背景
该工具作为对全球网络流量中威胁配置文件进行分析的正式研究项目的一部分而开发。有关详细方法和性能分析(如 CTU-13 和 CIC-Collection 数据集),请参阅项目文档。
标签:Apache Spark, Apex, BSD, Hadoop, HDFS, K-Means聚类, SOCS, 交替最小二乘法, 分布式计算, 威胁情报, 安全响应, 安全策略, 安全运营中心, 开发者工具, 异常处理, 恶意行为识别, 提示词设计, 数据挖掘, 机器学习, 网络安全, 网络映射, 网络流量分析, 蒙特卡洛模拟, 隐私保护