sushmithabungatavula/AI-phishing-url-detector
GitHub: sushmithabungatavula/AI-phishing-url-detector
基于ResMLP深度学习架构的钓鱼URL检测系统,复现IEEE论文并与其他模型进行性能对比分析。
Stars: 0 | Forks: 0
# 基于 AI 的 ResMLP 钓鱼 URL 检测
## 概述
本项目使用自定义的残差多层感知机 (ResMLP) 架构实现了一个基于深度学习的钓鱼 URL 检测系统。该模型利用手工提取的 URL、域名、HTML 和基于 JavaScript 的特征,将 URL 分类为钓鱼 URL 或良性 URL。
本项目复现并评估了以下 IEEE 研究论文:
"An Effective Detection Approach for Phishing URL Using ResMLP"
## 功能特性
- 基于深度学习的钓鱼 URL 检测
- 使用 TensorFlow/Keras 的自定义 ResMLP 架构
- 包含 522K+ URL 的大规模数据集
- 高级预处理和特征工程
- 与 7 种 ML/DL 模型的基准测试对比
- ROC、PR 曲线、混淆矩阵和特征重要性的可视化
- 模型比较和性能分析
## 技术栈
- Python
- TensorFlow / Keras
- Scikit-learn
- XGBoost
- Pandas
- NumPy
- Matplotlib
- Seaborn
## 数据集
该数据集包含:
- 良性 URL
- 钓鱼 URL
特征包括:
- URL 长度
- 特殊字符数量
- HTTPS 标志
- 域名年龄
- DNS 记录
- HTML 和 JavaScript 行为指标
数据集总规模:
- 522,214 个 URL
## 模型架构
ResMLP 架构包括:
- Conv1D 层
- 倒残差块
- Batch Normalization
- ReLU 激活函数
- Dropout 正则化
- Dense MLP 层
## 结果
| 指标 | 分数 |
|---|---|
| Accuracy | 90.07% |
| Precision | 95.83% |
| Recall | 46.93% |
| F1 Score | 63.01% |
| ROC-AUC | 91.06% |
## 模型对比
评估的模型:
- Logistic Regression
- Naive Bayes
- Random Forest
- XGBoost
- Gradient Boosting
- DNN
- LSTM
- ResMLP ( Proposed )
## 文件夹结构
```
.
├── models/
├── plots/
├── results/
├── ML.ipynb
├── README.md
└── requirements.txt
```
## 安装
```
git clone https://github.com/yourusername/ai-phishing-url-detector.git
cd ai-phishing-url-detector
pip install -r requirements.txt
```
## 运行项目
```
jupyter notebook
```
打开:
```
ML.ipynb
```
## 未来改进
- 实时钓鱼检测 API
- Streamlit 前端部署
- 基于 Transformer 的钓鱼检测
- Explainable AI (XAI) 集成
- 由 LLM 驱动的钓鱼解释系统
## 作者
Sushmitha Bungatavula
标签:Apex, DNN, IEEE论文复现, Keras, LSTM, Python, ResMLP, ResMLP实现, Scikit-learn, TensorFlow, URL分类, URL安全检测, XGBoost, 二分类, 人工智能, 多层级感知机, 威胁情报, 开发者工具, 开源安全, 恶意URL, 数据科学, 数据预处理, 无后门, 机器学习, 机器学习模型对比, 模型评估, 深度学习, 混淆矩阵, 特征工程, 用户模式Hook绕过, 算法实现, 网络威胁防御, 网络安全, 网络钓鱼防护, 资源验证, 逆向工具, 钓鱼检测, 随机森林, 隐私保护