justinmmcc/LP2-Behavioral-Threat-Intelligence
GitHub: justinmmcc/LP2-Behavioral-Threat-Intelligence
基于认知摩擦与机器学习的 SSH 蜜罐行为分析流水线,通过测量攻击者决策延迟将人类威胁行为者从自动化僵尸网络中精准分离。
Stars: 0 | Forks: 0
# 项目 Lost Piglet 2 (LP2)
### *通过认知摩擦与机器学习调查人类威胁行为者*
**作者:** Justin McCormick
**单位:** Penn State Berks — 网络安全分析与运营理学学士
**角色:** 独立研究员
**传感器部署:** Cowrie SSH 蜜罐 · GCP `us-east4` · 2026年2月11日 – 3月5日
## 🔬 流水线概览
本仓库记录了 **Project Lost Piglet 2 (LP2)** 端到端 ML 流水线的完整过程——这是一项独立的网络情报研究,旨在测试是否可以对来自高交互 SSH 蜜罐的遥测数据进行大规模机器评分,从而将人类威胁行为者与普通的僵尸网络自动化程序区分开来。
**核心假设:** 精心设计的 **认知摩擦**(受密码保护的压缩包、带有心理暗示的文件名、非标准逻辑谜题)会迫使攻击者产生可测量的决策延迟,这种延迟将成为行为分类的锚定特征。
该流水线摄取了为期 23 天部署的原始 Cowrie JSONL 数据(**174,963 个事件**),使用地理和 SSH 客户端元数据对其进行丰富,在 EVT/KS 动态阈值下运行三模型集成(**Isolation Forest + HDBSCAN + Decision Tree**),并最终生成面向不同受众的 **威胁情报报告**。
## 🗺️ 阶段映射
| 阶段 | 模块 | 目的 |
| :--- | :--- | :--- |
| **I** | **数据摄取** | 将 LP 存档合并为统一的会话 DataFrame |
| **II** | **特征丰富** | 地理定位、ASN 解析和元数据规范化 |
| **III** | **ML 集成** | 异常评分 与分类聚类 |
| **IV** | **行为评估** | MITRE 战术映射和恶意软件活动分析 |
| **V** | **击键分析** | 执行速度剖析(人类 vs. 机器人的时间特征) |
| **VI** | **HASSH 指纹识别** | SSH 客户端识别与跨活动归因 |
| **VII** | **TTP 映射** | 两阶段语义分类器 (TF-IDF + 关键词层级) |
| **VIII** | **会话取证** | 针对高价值交互式会话的驻留时间取证 |
| **IX** | **跨会话归因** | 基础设施连续性分析 (LP1 → LP2) |
| **X** | **情报报告** | 最终 SOC 管理层简报 + 战略情报产品 |
## 🎯 核心发现
* **99.96% 噪声缩减:** 174,963 个原始事件被浓缩为 **6 个高价值的人类交互式会话**。
* **捕获 RedTail 活动:** 在源自英国基础设施的 49 个投递周期中,识别出 6 个独特的有效载荷。
* **基础设施连续性:** 证实了在两次独立部署 (LP1 → LP2) 中发现的持续 33 天的僵尸网络基础设施。
* **地理画像:** 确定的主要威胁来源为中国 (56%)、印度 (15.8%) 和马来西亚 (6.6%)。
## 📂 项目导航
```
Project-LP2/
├── .gitignore
├── LICENSE
├── ProjectLostPiglet2_MLPipeline_TIR.html
├── ProjectLostPiglet2_OperationsReport.docx.pdf
├── ProjectLostPiglet2_Poster.pdf
├── README.md
├── index.html
└── requirements.txt
```
## 🛠️ 安装与使用
1. **克隆仓库:**
git clone [https://github.com/justinmmcc/LP2-Behavioral-Threat-Intelligence](https://github.com/justinmmcc/LP2-Behavioral-Threat-Intelligence)
cd Project-LP2
2. **安装依赖项:**
pip install -r requirements.txt
3. **执行流水线:**
在浏览器中打开 `ProjectLostPiglet2_MLPipeline_TIR.html` 或 `index.html`,以查看 10 个阶段的分析和最终的威胁情报报告。
## 🛠️ 技术栈与方法论
* **基础设施:** Google Cloud Platform (GCP),Cowrie 高交互蜜罐
* **集成建模:** Isolation Forest(异常) + HDBSCAN(聚类) + Decision Tree(可解释性)
* **统计严谨性:** 极值理论 (EVT) 与 Kolmogorov-Smirnov (KS) 动态阈值
* **情报标准:** MITRE ATT&CK 框架,HASSH 客户端指纹识别,TF-IDF NLP
标签:Apex, Cloudflare, EDR绕过, EVT极值理论, GCP部署, HASSH指纹, HDBSCAN, IP 地址批量处理, JSONL数据处理, KS检验, MITRE ATT&CK, Python, SSH客户端识别, SSH蜜罐, TF-IDF, TTP映射, 云计算, 人类威胁行为者, 代码示例, 僵尸网络分析, 决策树, 动态阈值, 后端开发, 地理位置解析, 威胁情报, 子域名暴力破解, 孤立森林, 开发者工具, 异常检测, 恶意软件活动, 按键延迟分析, 插件系统, 攻击者归因, 数据丰富化, 数据分析, 无后门, 机器学习, 网络安全, 自动化检测, 蜜罐技术, 行为生物力学, 规则引擎, 认知摩擦, 进程注入, 逆向工具, 隐私保护, 集成学习, 高交互蜜罐