Wizen-Labs/ai-cve-analyzer

GitHub: Wizen-Labs/ai-cve-analyzer

基于 KNN 聚类与决策树及 PyTorch 深度学习的混合 ML 管线，用于在官方 CVSS 评分缺失时自动分类 CVE 漏洞严重性。

Stars: 0 | Forks: 0

# CVE 风险分类 — 帝国理工商学院毕业项目 **网络安全理学硕士 + AI/ML 证书** ## 项目结构 ``` cve_capstone_final/ │ ├── 01_data_prep.ipynb ← Load, merge, clean NVD + KEV + EPSS data ├── 02_eda_and_baseline.ipynb ← EDA + Naive Bayes (explored, rejected) ├── 03_hybrid_knn_decision_tree.ipynb ← CORE MODEL (KNN clusters + Decision Tree) ├── 04_pytorch_neural_network.ipynb ← Deep learning layer (text classification) ├── 05_contrast_layer_stub.ipynb ← Mythos contrast layer (stub + queue) │ ├── data/ │ └── df_clean.csv ← Generated by notebook 01 │ ├── models/ │ ├── knn_clusterer.pkl │ ├── scaler.pkl │ ├── hybrid_tree.pkl │ ├── label_encoder.pkl │ ├── feature_encoders.pkl │ └── pytorch_best.pt │ ├── outputs/ ← All charts and reports (auto-generated) └── queue/ └── pending.jsonl ← Mythos validation queue ``` ## 运行顺序始终按顺序运行 notebook — 每个 notebook 都依赖于前一个 notebook 的输出： ``` 01 → 02 → 03 → 04 → 05 ``` ## 关键方法论决策 ### 数据泄露修复（notebook 03）在早期的探索性 notebook 中，KNN 在进行训练集/测试集划分之前就在完整数据集上进行了拟合 — 从而导致数据泄露。已修复：首先进行数据划分， KNN 仅在训练数据上进行拟合，测试集的 cluster ID 则是通过 `knn.predict()` 在未见过数据上生成的。 ### 为什么拒绝 Naive Bayes（notebook 02） CVE 描述中存在强烈的词汇相互依赖关系，这违反了 NB 的独立性假设。类别不平衡导致 NB 倾向于预测多数类别。这一点已作为方法论证据记录在 notebook 02 中。 ### KNN 作为特征工程工具，而非分类器 KNN 用于发现天然的漏洞聚类，并将 `cluster_id` 特征注入到 Decision Tree 中。这通过为决策树提供语义上更丰富的划分，减少了多数类别偏差。 ### 盲测混合与 Zero-Day 压力测试（notebook 03）模型在不包含 CVSS 分数的情况下进行了测试，以模拟 NVD 富集缺口（NIST 分诊模型，2026 年 4 月）。如果准确率差值为正，则当缺少官方评分时，cluster_id 将作为可靠的备份。 ### Mythos 对比层（notebook 05）实现了用于 Claude Mythos 验证的完整 pipeline 架构。 Mythos 目前在 Project Glasswing 下受到限制。该存根将所有分类排队作为回顾性验证集，一旦获得访问权限，即可立即用于对比分析。 ## 数据源 Kaggle：`francescomanzoni/vulnerability-management-datasets` - `cve_cisa_epss_enriched_dataset.csv` - `cve_corpus.csv` **数据截止日期：** [插入下载日期] **NVD 富集说明：** NIST 分诊模型自 2026 年 4 月 15 日起生效。在此日期之后的 CVE 可能缺少 CVSS/CWE 富集信息 — 参见毕业项目方法论第 3 节。 ## 依赖项 ``` numpy pandas scikit-learn matplotlib seaborn torch joblib xgboost ``` 安装：`pip install numpy pandas scikit-learn matplotlib seaborn torch joblib xgboost`

标签：Apex, GPT, NoSQL, Python, PyTorch, 人工智能, 凭据扫描, 数据科学, 无后门, 机器学习, 漏洞管理, 用户模式Hook绕过, 资源验证, 逆向工具