msjashonaryoung-svg/finalproject_hybrid_scam_detection-msjashonaryoung-svg
GitHub: msjashonaryoung-svg/finalproject_hybrid_scam_detection-msjashonaryoung-svg
一个混合诈骗检测研究项目,通过对比基于规则的符号系统、BERT上下文模型和混合模型三种方法,探索如何在SMS和电子邮件通信中平衡诈骗检测的性能与可解释性。
Stars: 0 | Forks: 0
# 混合诈骗检测
### 一种比较计算语言学方法
本项目探讨了不同的计算方法如何在 SMS 和电子邮件通信中检测诈骗和网络钓鱼语言。
该系统比较了三个模型:
- 基于规则的符号语言系统
- 基于 BERT 的上下文模型
- 结合两种方法的混合模型
目标是在强调符号语言处理和神经语言处理之间权衡的同时,评估这些方法的性能、可解释性和语言覆盖率。
## 数据集
该数据集由来自多个来源的 16,000 多条已标记消息组成:
- SMS 垃圾短信数据集
- 电子邮件钓鱼数据集
- SMS 钓鱼 / 短信钓鱼数据集
- 手动整理的样本
这种多源数据集能够在不同的通信环境中进行评估。
## 模型
### 基于规则的模型
使用预定义的语言模式,例如紧急性、凭证请求和冒充行为。
优势:高可解释性
局限:对隐蔽诈骗的召回率低
### 基于 BERT 的模型
使用预训练的 transformer 模型分析上下文语义。
优势:能捕捉细微的语言特征
局限:由于缺乏针对特定任务的 fine-tuning,误报率较高
### 混合模型
结合基于规则的分数和上下文分数,以平衡可解释性和性能。
## 结果
| 模型 | 准确率 | 精确率 | 召回率 | F1 分数 |
|-------------|---------|----------|--------|---------|
| 基于规则的 | 0.64 | 1.00 | 0.19 | 0.32 |
| BERT 代理 | 0.72 | 0.63 | 0.85 | 0.73 |
| 混合模型 | 0.72 | 0.64 | 0.84 | 0.72 |
核心发现:
基于规则的模型精确度高,但会漏掉许多诈骗。
BERT 能捕捉到更多的诈骗,但存在过度分类的情况。
混合模型在两者之间取得了平衡,但也继承了它们各自的局限性。
## 局限性
- BERT 模型未针对诈骗检测进行 fine-tuning
- 数据集来源的标注标准不一致
- 基于规则的系统依赖于预定义模式
## 后续工作
- 针对特定诈骗数据集对 BERT 进行 fine-tune
- 使用真实来源的数据扩展数据集
- 使用先进的集成技术改进混合模型
## 项目结构
```
finalproject_hybrid_scam_detection-msjashonaryoung-svg/
├── .devcontainer/
│ └── devcontainer.json
├── .gitignore
├── README.md
├── data/
│ ├── processed/
│ │ └── combined_scam_dataset.csv
│ └── raw/
│ ├── kaggle_email_phishing_normalized.csv
│ ├── manual_seed_examples.csv
│ ├── mendeley_sms_phishing.csv
│ ├── mendeley_sms_phishing_normalized.csv
│ ├── phishing_legit_dataset_KD_10000.csv
│ ├── sample_messages.csv
│ └── uci_sms_spam.csv
├── dockerfile
├── notebooks/
│ └── final_project_demo.ipynb
├── reports/
│ └── rough_final_draft.md
├── requirements.txt
└── src/
├── bert_model.py
├── data_collection.py
├── evaluation.py
├── hybrid_model.py
├── preprocessing.py
└── rule_engine.py
```
## 如何运行
运行数据集准备:
```
python src/data_collection.py
```
然后打开 notebook:
```
notebooks/final_project_demo.ipynb
```
并运行所有单元格。
## 总结
本项目表明,将符号语言规则与上下文机器学习相结合,为检测欺骗性语言提供了一种更稳健的方法,同时也凸显了可解释性与性能之间的权衡。
标签:Apex, BERT, NLP, NoSQL, Smishing, TCP/UDP协议, Transformer, XAI, 上下文分析, 加密货币骗局检测, 可解释AI, 垃圾短信识别, 多源数据, 文本分类, 机器学习, 模型对比, 欺诈检测, 深度学习, 混合模型, 短信安全, 符号规则, 系统调用监控, 网络安全, 计算语言学, 请求拦截, 逆向工具, 邮件安全, 钓鱼检测, 钓鱼邮件识别, 隐私保护, 预训练模型