ChimbuezeDavid/Social-Engineering-Detection
GitHub: ChimbuezeDavid/Social-Engineering-Detection
基于DistilBERT深度学习模型与启发式规则引擎的AI驱动检测系统,专门用于识别钓鱼邮件、商务电子邮件入侵及欺诈邮件,特别优化了对尼日利亚和非洲地区典型诈骗模式的检测能力。
Stars: 0 | Forks: 0
# 社会工程学邮件检测系统 🛡️
基于 AI 驱动的网络钓鱼、商务电子邮件入侵 (BEC) 和欺诈邮件检测系统,特别专注于识别**尼日利亚及非洲中心的诈骗模式**。
[](https://www.python.org/downloads/)
[](https://opensource.org/licenses/MIT)
## 🌟 核心特性
* **深度学习检测**:采用微调后的 DistilBERT 模型,准确率达到约 99.5%。
* **区域语境**:针对尼日利亚诈骗模式(继承诈骗、预付款诈骗、紧急财务诱饵)进行专门训练。
* **零日防御**:基于规则的启发式引擎,可在模型重新训练之前捕获新型变种。
* **可解释 AI (XAI)**:集成了 SHAP 支持,为邮件被标记的原因提供透明度。
* **生产级 Pipeline**:即插即用的推理脚本,支持实时扫描。
## 📁 仓库结构
* `sed_full_implementation.ipynb`:完整的研究、EDA 和模型训练工作流。
* `pipeline.py`:核心推理逻辑和特征提取。
* `predict.py`:用于测试单封邮件的 CLI 工具。
* `data/`:(仅限本地)原始和处理后的数据集。
* `models/`:(仅限本地)保存的模型权重(Random Forest、DistilBERT 等)。
## 🚀 快速开始
### 1. 安装
```
# 克隆 repository
git clone
cd social-engineering-detection
# 安装 dependencies
pip install -r requirements.txt
```
### 2. 快速使用
你可以直接从终端运行预测系统:
```
python predict.py
```
或者将其集成到你的代码中:
```
from pipeline import predict_email
email_text = "Urgent: Your account is suspended. Click here to verify your identity."
result = predict_email(email_text)
print(result['verdict'])
# 输出:🚨 PHISHING / SOCIAL ENGINEERING
```
## ⚠️ 关于数据与模型的重要提示
由于 GitHub 的文件大小限制 (100MB),本仓库**未包含**大型数据集文件和训练好的模型二进制文件 (`.pkl`, `.pth`)。
要使用本系统:
1. 运行 `sed_full_implementation.ipynb` 笔记本以下载数据集并在本地训练模型。
2. 笔记本将自动创建 `models/` 文件夹并保存所需的资产。
## 📊 数据集来源
模型在由以下 Kaggle 数据集编译而成的统一语料库上进行训练:
1. **[欺诈邮件语料库](https://www.kaggle.com/datasets/rtatman/fraudulent-email-corpus)**:“419”尼日利亚预付款诈骗邮件集合。
2. **[对抗性 BEC 数据集](https://www.kaggle.com/datasets/yoadjei/adversarial-bec-email-dataset)**:针对商务电子邮件入侵 (BEC) 的模式。
3. **[网络钓鱼邮件数据集](https://www.kaggle.com/datasets/naserabdullahalam/phishing-email-dataset)**:广泛的通用网络钓鱼尝试集合。
4. **[钓鱼与合法邮件数据集](https://www.kaggle.com/datasets/kuladeep19/phishing-and-legitimate-emails-dataset)**:平衡的合成与真实世界邮件数据。
## 🛠️ 后续计划
- [ ] **浏览器扩展**:为网页邮件提供实时网络钓鱼防护。
- [ ] **联邦学习**:跨多个组织的隐私保护训练。
- [ ] **API 端点**:RESTful API,便于企业集成。
**注意:** 强烈建议在 GPU 上训练像 DistilBERT 这样的深度学习模型,以获得最佳性能。
标签:AI安全, AMSI绕过, BEC, Chat Copilot, DistilBERT, NLP, Python, SHAP, XAI, 凭据扫描, 反诈骗, 可解释人工智能, 启发式规则引擎, 商业电子邮件妥协, 威胁检测, 尼日利亚骗局, 文本分类, 无后门, 欺诈邮件识别, 深度学习, 社会工程学防护, 系统调用监控, 网络安全, 逆向工具, 邮件安全网关, 钓鱼邮件检测, 随机森林, 隐私保护, 零日防御, 非洲欺诈模式