nbtris2903/ML-malware-benign-classifier

GitHub: nbtris2903/ML-malware-benign-classifier

该框架通过解析 CAPEv2 沙箱行为报告提取特征，训练随机森林模型并以 FastAPI 服务形式提供实时恶意软件分类能力。

Stars: 0 | Forks: 0

# 系统工作流与流水线架构 malware-classification-pipeline/ │ ├── 1. 特征提取阶段 (extract.py) │ ├── 输入：由 CAPEv2 Sandbox 生成的原始 JSON 行为报告 │ ├── 处理：解析 JSON 树状结构并提取 5 个关键行为指标 │ └── 输出：通过 Zero-Padding 生成固定维度 (1, 37) 的结构化矩阵 │ ├── 2. 模型训练阶段 (train_model.py) │ ├── 输入：来自阶段 1 的标准化特征数据集 │ ├── 处理：拟合由 Gini Impurity 准则优化的 RandomForestClassifier │ └── 输出：序列化二进制文件 `malware_model_brain_v2.pkl`（已训练的 AI 核心） │ └── 3. 实时部署与扫描阶段 (app.py) ├── 输入：启动时通过 joblib 持久化加载 `.pkl` 模型至内存 ├── 处理：激活 FastAPI 端点 (`POST /scan`) 以接收远程请求 └── 输出：生产级扫描器返回 HTTP 200 实时分类结果与置信度分数

标签：Apex, AV绕过, FastAPI, URL发现, 安全检测, 机器学习, 沙箱分析, 逆向工具, 随机森林