ChimbuezeDavid/Social-Engineering-Detection

GitHub: ChimbuezeDavid/Social-Engineering-Detection

基于DistilBERT深度学习模型与启发式规则引擎的AI驱动检测系统，专门用于识别钓鱼邮件、商务电子邮件入侵及欺诈邮件，特别优化了对尼日利亚和非洲地区典型诈骗模式的检测能力。

Stars: 0 | Forks: 0

# 社会工程学邮件检测系统 🛡️ 基于 AI 驱动的网络钓鱼、商务电子邮件入侵 (BEC) 和欺诈邮件检测系统，特别专注于识别**尼日利亚及非洲中心的诈骗模式**。 [![Python 版本](https://img.shields.io/badge/python-3.8+-blue.svg)](https://www.python.org/downloads/) [![许可证: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) ## 🌟 核心特性 * **深度学习检测**：采用微调后的 DistilBERT 模型，准确率达到约 99.5%。 * **区域语境**：针对尼日利亚诈骗模式（继承诈骗、预付款诈骗、紧急财务诱饵）进行专门训练。 * **零日防御**：基于规则的启发式引擎，可在模型重新训练之前捕获新型变种。 * **可解释 AI (XAI)**：集成了 SHAP 支持，为邮件被标记的原因提供透明度。 * **生产级 Pipeline**：即插即用的推理脚本，支持实时扫描。 ## 📁 仓库结构 * `sed_full_implementation.ipynb`：完整的研究、EDA 和模型训练工作流。 * `pipeline.py`：核心推理逻辑和特征提取。 * `predict.py`：用于测试单封邮件的 CLI 工具。 * `data/`：（仅限本地）原始和处理后的数据集。 * `models/`：（仅限本地）保存的模型权重（Random Forest、DistilBERT 等）。 ## 🚀 快速开始 ### 1. 安装 ``` # 克隆 repository git clone cd social-engineering-detection # 安装 dependencies pip install -r requirements.txt ``` ### 2. 快速使用你可以直接从终端运行预测系统： ``` python predict.py ``` 或者将其集成到你的代码中： ``` from pipeline import predict_email email_text = "Urgent: Your account is suspended. Click here to verify your identity." result = predict_email(email_text) print(result['verdict']) # 输出：🚨 PHISHING / SOCIAL ENGINEERING ``` ## ⚠️ 关于数据与模型的重要提示由于 GitHub 的文件大小限制 (100MB)，本仓库**未包含**大型数据集文件和训练好的模型二进制文件 (`.pkl`, `.pth`)。要使用本系统： 1. 运行 `sed_full_implementation.ipynb` 笔记本以下载数据集并在本地训练模型。 2. 笔记本将自动创建 `models/` 文件夹并保存所需的资产。 ## 📊 数据集来源模型在由以下 Kaggle 数据集编译而成的统一语料库上进行训练： 1. **[欺诈邮件语料库](https://www.kaggle.com/datasets/rtatman/fraudulent-email-corpus)**：“419”尼日利亚预付款诈骗邮件集合。 2. **[对抗性 BEC 数据集](https://www.kaggle.com/datasets/yoadjei/adversarial-bec-email-dataset)**：针对商务电子邮件入侵 (BEC) 的模式。 3. **[网络钓鱼邮件数据集](https://www.kaggle.com/datasets/naserabdullahalam/phishing-email-dataset)**：广泛的通用网络钓鱼尝试集合。 4. **[钓鱼与合法邮件数据集](https://www.kaggle.com/datasets/kuladeep19/phishing-and-legitimate-emails-dataset)**：平衡的合成与真实世界邮件数据。 ## 🛠️ 后续计划 - [ ] **浏览器扩展**：为网页邮件提供实时网络钓鱼防护。 - [ ] **联邦学习**：跨多个组织的隐私保护训练。 - [ ] **API 端点**：RESTful API，便于企业集成。 **注意：** 强烈建议在 GPU 上训练像 DistilBERT 这样的深度学习模型，以获得最佳性能。

标签：AI安全, AMSI绕过, BEC, Chat Copilot, DistilBERT, NLP, Python, SHAP, XAI, 凭据扫描, 反诈骗, 可解释人工智能, 启发式规则引擎, 商业电子邮件妥协, 威胁检测, 尼日利亚骗局, 文本分类, 无后门, 欺诈邮件识别, 深度学习, 社会工程学防护, 系统调用监控, 网络安全, 逆向工具, 邮件安全网关, 钓鱼邮件检测, 随机森林, 隐私保护, 零日防御, 非洲欺诈模式