sushmithabungatavula/AI-phishing-url-detector

GitHub: sushmithabungatavula/AI-phishing-url-detector

基于ResMLP深度学习架构的钓鱼URL检测系统，复现IEEE论文并与其他模型进行性能对比分析。

Stars: 0 | Forks: 0

# 基于 AI 的 ResMLP 钓鱼 URL 检测 ## 概述本项目使用自定义的残差多层感知机 (ResMLP) 架构实现了一个基于深度学习的钓鱼 URL 检测系统。该模型利用手工提取的 URL、域名、HTML 和基于 JavaScript 的特征，将 URL 分类为钓鱼 URL 或良性 URL。本项目复现并评估了以下 IEEE 研究论文： "An Effective Detection Approach for Phishing URL Using ResMLP" ## 功能特性 - 基于深度学习的钓鱼 URL 检测 - 使用 TensorFlow/Keras 的自定义 ResMLP 架构 - 包含 522K+ URL 的大规模数据集 - 高级预处理和特征工程 - 与 7 种 ML/DL 模型的基准测试对比 - ROC、PR 曲线、混淆矩阵和特征重要性的可视化 - 模型比较和性能分析 ## 技术栈 - Python - TensorFlow / Keras - Scikit-learn - XGBoost - Pandas - NumPy - Matplotlib - Seaborn ## 数据集该数据集包含： - 良性 URL - 钓鱼 URL 特征包括： - URL 长度 - 特殊字符数量 - HTTPS 标志 - 域名年龄 - DNS 记录 - HTML 和 JavaScript 行为指标数据集总规模： - 522,214 个 URL ## 模型架构 ResMLP 架构包括： - Conv1D 层 - 倒残差块 - Batch Normalization - ReLU 激活函数 - Dropout 正则化 - Dense MLP 层 ## 结果 | 指标 | 分数 | |---|---| | Accuracy | 90.07% | | Precision | 95.83% | | Recall | 46.93% | | F1 Score | 63.01% | | ROC-AUC | 91.06% | ## 模型对比评估的模型： - Logistic Regression - Naive Bayes - Random Forest - XGBoost - Gradient Boosting - DNN - LSTM - ResMLP ( Proposed ) ## 文件夹结构 ``` . ├── models/ ├── plots/ ├── results/ ├── ML.ipynb ├── README.md └── requirements.txt ``` ## 安装 ``` git clone https://github.com/yourusername/ai-phishing-url-detector.git cd ai-phishing-url-detector pip install -r requirements.txt ``` ## 运行项目 ``` jupyter notebook ``` 打开： ``` ML.ipynb ``` ## 未来改进 - 实时钓鱼检测 API - Streamlit 前端部署 - 基于 Transformer 的钓鱼检测 - Explainable AI (XAI) 集成 - 由 LLM 驱动的钓鱼解释系统 ## 作者 Sushmitha Bungatavula

标签：Apex, DNN, IEEE论文复现, Keras, LSTM, Python, ResMLP, ResMLP实现, Scikit-learn, TensorFlow, URL分类, URL安全检测, XGBoost, 二分类, 人工智能, 多层级感知机, 威胁情报, 开发者工具, 开源安全, 恶意URL, 数据科学, 数据预处理, 无后门, 机器学习, 机器学习模型对比, 模型评估, 深度学习, 混淆矩阵, 特征工程, 用户模式Hook绕过, 算法实现, 网络威胁防御, 网络安全, 网络钓鱼防护, 资源验证, 逆向工具, 钓鱼检测, 随机森林, 隐私保护