Huthaifa-Alkrush/domain-threat-intelligence
GitHub: Huthaifa-Alkrush/domain-threat-intelligence
基于基础设施信号(DNS、RDAP、TLS、IP/ASN)的 AI 域名威胁三分类系统,解决钓鱼和恶意域名早期检测问题,并揭示图特征泄露对评估指标的虚高影响。
Stars: 0 | Forks: 0
# 基于 AI 的网络威胁基础设施情报系统
**论文:** “用于早期检测敌对活动的基于 AI 的网络威胁基础设施情报系统”
**作者:** Huthaifa Alkrush — Naif Arab University for Security Sciences (NAUSS)
**状态:** 正在 Journal of Network and Computer Applications (Elsevier) 审稿中
## 概述
本仓库包含一个三类域名威胁分类系统(良性 / 钓鱼 / 恶意软件)的代码,该系统使用边界可观测的基础设施信号:DNS 记录、RDAP 注册元数据、TLS 证书特征、IP/ASN 托管属性以及 GeoIP 数据。
**核心结果:** 在 300,000 个域名上实现了 94.50% 的 macro F1(LightGBM 扁平特征,5 折交叉验证:94.34 ± 0.08%)
**核心贡献:** 图特征泄露分解 —— 量化了存在泄露与无泄露的邻居特征协议之间高达 16.55 的 macro F1 膨胀差距
## 仓库内容
代码将在稿件被录用后完全公开。本仓库将包括:
- `feature_extraction/` — 从原始 JSON 域名记录中提取 37 个扁平特征的 Pipeline
- `models/` — LightGBM、CatBoost、FT-Transformer 和 GAT 的训练脚本
- `graph_features/` — 存在泄露与无泄露的 ASN 共享图特征实现
- `evaluation/` — 5 折交叉验证、混淆矩阵、ROC 和 PR 曲线生成
- `figures/` — 所有图表生成脚本
## 数据集
本研究使用的数据集已在 Zenodo 上公开提供:
**DOI:** [10.5281/zenodo.14332167](https://doi.org/10.5281/zenodo.14332167)
Hranicky 等,“包含大量良性、钓鱼和恶意软件域名词料库的信息(DNS、IP、WHOIS/RDAP、TLS、GeoIP)数据集 2024”
## 在线演示
基于此分类器构建的 AI 威胁情报 Agent 的在线演示已开放。链接将在稿件被录用后在此处添加。
## 引用
引用详情将在发表后添加。
## 联系方式
有关本研究的问题,请通过 NAUSS 联系通讯作者。
标签:Apex, Elastic, IP 地址批量处理, LightGBM, 域名分类, 威胁情报, 开发者工具, 机器学习, 逆向工具, 钓鱼检测