spideyshan/PhishGuard

GitHub: spideyshan/PhishGuard

PhishGuard 是一个融合机器学习与多维度威胁情报的网络钓鱼 URL 检测分析框架。

Stars: 0 | Forks: 0

# PhishGuard 🛡️ **PhishGuard** 是一个综合性的多向量 Threat Intelligence Platform 和 URL Analysis 框架，旨在检测网络钓鱼和恶意网站。作为一个学术项目开发，它集成了各种情报模块和一个嵌入式 Machine Learning 引擎来对风险进行分类。 ![PhishGuard Overview](https://img.shields.io/badge/Status-Active-success) ![Python](https://img.shields.io/badge/Language-Python-blue) ![Machine Learning](https://img.shields.io/badge/ML-Scikit_Learn-orange) ## 功能与威胁情报模块 1. **Dashboard UI**：专业、“Glassmorphism” 风格界面，带有动态威胁仪表、深色主题以及异步结果处理。 2. **Machine Learning Predictor**：使用经过训练的 **Random Forest Classifier** (`scikit-learn`) 根据已知的钓鱼模式评估域名特征。 3. **Internal Heuristics Analyzer**： - 标记原始 IP 域名。 - 检测掩码技术（`@` 符号）。 - 识别注入 payload（`&&`, `="`）。 - 检查凭证收集关键词（`admin`, `passwd`）。 - 识别不常见的 TLD（`.cin` 等）。 4. **WHOIS Domain Validation**：集成了实时 Domain Age 计算，用于发现全新的“一次性”域名（常用于钓鱼），并计算 Registrar 和 Expiry 数据。 5. **SSL Cryptographic Check**：提取底层 SSL Issuers 并动态计算 Certificate Expiry 时间，精确到天。 6. **Live Payload Scraping**：使用 `BeautifulSoup4` 分析活动的 HTML payload，以检测隐藏的凭证收集表单（``）。 7. **Global API Threat Lookups**：主动对接 **URLHaus (Abuse.ch)** Threat Database API，将目标与实时全球恶意软件追踪进行交叉比对。 ## 架构 * **Frontend**：Vanilla JS (ES6+)，CSS3 Variables & Flexbox Grids，HTML5。 * **Backend**：Python 3，Flask 服务器架构。 * **Libraries**：`requests`，`python-whois`，`beautifulsoup4`，`scikit-learn`，`joblib`，`numpy`。 ## 安装与设置 1. **克隆仓库：** git clone https://github.com/spideyshan/Phishing_Detection.git cd Phishing_Detection 2. **设置 Virtual Environment：** python3 -m venv venv source venv/bin/activate 3. **安装依赖：** pip install -r requirements.txt 4. **初始化 Machine Learning Model：** _（在启动应用之前，运行训练脚本以生成 `.pkl` 引擎文件）_ python train_model.py 5. **运行应用程序：** python app.py 6. **访问 Dashboard：** 在 Web 浏览器中打开 `http://127.0.0.1:5001`。 ## 法律与免责声明 * **仅限学术用途：** 本工具专为教育研究和威胁分析而设计。 * **无担保：** PhishGuard 无法保证 100% 检测出高级持续性威胁 (APT)。在在线输入敏感凭证时，请务必进行独立的安全验证。

标签：Apex, API集成, BeautifulSoup, DNS 解析, Flask, heuristic analysis, IP 地址批量处理, Python, Scikit-learn, SSL证书分析, UI设计, URLHaus, URL分析, Web安全, WHOIS查询, 协议探测, 反钓鱼, 可观测性, 后端开发, 域名信誉, 威胁情报, 开发者工具, 搜索语句（dork）, 教育项目, 数据可视化, 无后门, 机器学习, 特征提取, 网络安全, 蓝队分析, 逆向工具, 配置审计, 钓鱼检测, 随机森林, 隐私保护