ChimbuezeDavid/Social-Engineering-Detection

GitHub: ChimbuezeDavid/Social-Engineering-Detection

基于DistilBERT深度学习模型与启发式规则引擎的AI驱动检测系统,专门用于识别钓鱼邮件、商务电子邮件入侵及欺诈邮件,特别优化了对尼日利亚和非洲地区典型诈骗模式的检测能力。

Stars: 0 | Forks: 0

# 社会工程学邮件检测系统 🛡️ 基于 AI 驱动的网络钓鱼、商务电子邮件入侵 (BEC) 和欺诈邮件检测系统,特别专注于识别**尼日利亚及非洲中心的诈骗模式**。 [![Python 版本](https://img.shields.io/badge/python-3.8+-blue.svg)](https://www.python.org/downloads/) [![许可证: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) ## 🌟 核心特性 * **深度学习检测**:采用微调后的 DistilBERT 模型,准确率达到约 99.5%。 * **区域语境**:针对尼日利亚诈骗模式(继承诈骗、预付款诈骗、紧急财务诱饵)进行专门训练。 * **零日防御**:基于规则的启发式引擎,可在模型重新训练之前捕获新型变种。 * **可解释 AI (XAI)**:集成了 SHAP 支持,为邮件被标记的原因提供透明度。 * **生产级 Pipeline**:即插即用的推理脚本,支持实时扫描。 ## 📁 仓库结构 * `sed_full_implementation.ipynb`:完整的研究、EDA 和模型训练工作流。 * `pipeline.py`:核心推理逻辑和特征提取。 * `predict.py`:用于测试单封邮件的 CLI 工具。 * `data/`:(仅限本地)原始和处理后的数据集。 * `models/`:(仅限本地)保存的模型权重(Random Forest、DistilBERT 等)。 ## 🚀 快速开始 ### 1. 安装 ``` # 克隆 repository git clone cd social-engineering-detection # 安装 dependencies pip install -r requirements.txt ``` ### 2. 快速使用 你可以直接从终端运行预测系统: ``` python predict.py ``` 或者将其集成到你的代码中: ``` from pipeline import predict_email email_text = "Urgent: Your account is suspended. Click here to verify your identity." result = predict_email(email_text) print(result['verdict']) # 输出:🚨 PHISHING / SOCIAL ENGINEERING ``` ## ⚠️ 关于数据与模型的重要提示 由于 GitHub 的文件大小限制 (100MB),本仓库**未包含**大型数据集文件和训练好的模型二进制文件 (`.pkl`, `.pth`)。 要使用本系统: 1. 运行 `sed_full_implementation.ipynb` 笔记本以下载数据集并在本地训练模型。 2. 笔记本将自动创建 `models/` 文件夹并保存所需的资产。 ## 📊 数据集来源 模型在由以下 Kaggle 数据集编译而成的统一语料库上进行训练: 1. **[欺诈邮件语料库](https://www.kaggle.com/datasets/rtatman/fraudulent-email-corpus)**:“419”尼日利亚预付款诈骗邮件集合。 2. **[对抗性 BEC 数据集](https://www.kaggle.com/datasets/yoadjei/adversarial-bec-email-dataset)**:针对商务电子邮件入侵 (BEC) 的模式。 3. **[网络钓鱼邮件数据集](https://www.kaggle.com/datasets/naserabdullahalam/phishing-email-dataset)**:广泛的通用网络钓鱼尝试集合。 4. **[钓鱼与合法邮件数据集](https://www.kaggle.com/datasets/kuladeep19/phishing-and-legitimate-emails-dataset)**:平衡的合成与真实世界邮件数据。 ## 🛠️ 后续计划 - [ ] **浏览器扩展**:为网页邮件提供实时网络钓鱼防护。 - [ ] **联邦学习**:跨多个组织的隐私保护训练。 - [ ] **API 端点**:RESTful API,便于企业集成。 **注意:** 强烈建议在 GPU 上训练像 DistilBERT 这样的深度学习模型,以获得最佳性能。
标签:AI安全, AMSI绕过, BEC, Chat Copilot, DistilBERT, NLP, Python, SHAP, XAI, 凭据扫描, 反诈骗, 可解释人工智能, 启发式规则引擎, 商业电子邮件妥协, 威胁检测, 尼日利亚骗局, 文本分类, 无后门, 欺诈邮件识别, 深度学习, 社会工程学防护, 系统调用监控, 网络安全, 逆向工具, 邮件安全网关, 钓鱼邮件检测, 随机森林, 隐私保护, 零日防御, 非洲欺诈模式