msjashonaryoung-svg/finalproject_hybrid_scam_detection-msjashonaryoung-svg

GitHub: msjashonaryoung-svg/finalproject_hybrid_scam_detection-msjashonaryoung-svg

一个混合诈骗检测研究项目，通过对比基于规则的符号系统、BERT上下文模型和混合模型三种方法，探索如何在SMS和电子邮件通信中平衡诈骗检测的性能与可解释性。

Stars: 0 | Forks: 0

# 混合诈骗检测 ### 一种比较计算语言学方法本项目探讨了不同的计算方法如何在 SMS 和电子邮件通信中检测诈骗和网络钓鱼语言。该系统比较了三个模型： - 基于规则的符号语言系统 - 基于 BERT 的上下文模型 - 结合两种方法的混合模型目标是在强调符号语言处理和神经语言处理之间权衡的同时，评估这些方法的性能、可解释性和语言覆盖率。 ## 数据集该数据集由来自多个来源的 16,000 多条已标记消息组成： - SMS 垃圾短信数据集 - 电子邮件钓鱼数据集 - SMS 钓鱼 / 短信钓鱼数据集 - 手动整理的样本这种多源数据集能够在不同的通信环境中进行评估。 ## 模型 ### 基于规则的模型使用预定义的语言模式，例如紧急性、凭证请求和冒充行为。优势：高可解释性局限：对隐蔽诈骗的召回率低 ### 基于 BERT 的模型使用预训练的 transformer 模型分析上下文语义。优势：能捕捉细微的语言特征局限：由于缺乏针对特定任务的 fine-tuning，误报率较高 ### 混合模型结合基于规则的分数和上下文分数，以平衡可解释性和性能。 ## 结果 | 模型 | 准确率 | 精确率 | 召回率 | F1 分数 | |-------------|---------|----------|--------|---------| | 基于规则的 | 0.64 | 1.00 | 0.19 | 0.32 | | BERT 代理 | 0.72 | 0.63 | 0.85 | 0.73 | | 混合模型 | 0.72 | 0.64 | 0.84 | 0.72 | 核心发现：基于规则的模型精确度高，但会漏掉许多诈骗。 BERT 能捕捉到更多的诈骗，但存在过度分类的情况。混合模型在两者之间取得了平衡，但也继承了它们各自的局限性。 ## 局限性 - BERT 模型未针对诈骗检测进行 fine-tuning - 数据集来源的标注标准不一致 - 基于规则的系统依赖于预定义模式 ## 后续工作 - 针对特定诈骗数据集对 BERT 进行 fine-tune - 使用真实来源的数据扩展数据集 - 使用先进的集成技术改进混合模型 ## 项目结构 ``` finalproject_hybrid_scam_detection-msjashonaryoung-svg/ ├── .devcontainer/ │ └── devcontainer.json ├── .gitignore ├── README.md ├── data/ │ ├── processed/ │ │ └── combined_scam_dataset.csv │ └── raw/ │ ├── kaggle_email_phishing_normalized.csv │ ├── manual_seed_examples.csv │ ├── mendeley_sms_phishing.csv │ ├── mendeley_sms_phishing_normalized.csv │ ├── phishing_legit_dataset_KD_10000.csv │ ├── sample_messages.csv │ └── uci_sms_spam.csv ├── dockerfile ├── notebooks/ │ └── final_project_demo.ipynb ├── reports/ │ └── rough_final_draft.md ├── requirements.txt └── src/ ├── bert_model.py ├── data_collection.py ├── evaluation.py ├── hybrid_model.py ├── preprocessing.py └── rule_engine.py ``` ## 如何运行运行数据集准备： ``` python src/data_collection.py ``` 然后打开 notebook： ``` notebooks/final_project_demo.ipynb ``` 并运行所有单元格。 ## 总结本项目表明，将符号语言规则与上下文机器学习相结合，为检测欺骗性语言提供了一种更稳健的方法，同时也凸显了可解释性与性能之间的权衡。

标签：Apex, BERT, NLP, NoSQL, Smishing, TCP/UDP协议, Transformer, XAI, 上下文分析, 加密货币骗局检测, 可解释AI, 垃圾短信识别, 多源数据, 文本分类, 机器学习, 模型对比, 欺诈检测, 深度学习, 混合模型, 短信安全, 符号规则, 系统调用监控, 网络安全, 计算语言学, 请求拦截, 逆向工具, 邮件安全, 钓鱼检测, 钓鱼邮件识别, 隐私保护, 预训练模型