msjashonaryoung-svg/finalproject_hybrid_scam_detection-msjashonaryoung-svg

GitHub: msjashonaryoung-svg/finalproject_hybrid_scam_detection-msjashonaryoung-svg

一个混合诈骗检测研究项目,通过对比基于规则的符号系统、BERT上下文模型和混合模型三种方法,探索如何在SMS和电子邮件通信中平衡诈骗检测的性能与可解释性。

Stars: 0 | Forks: 0

# 混合诈骗检测 ### 一种比较计算语言学方法 本项目探讨了不同的计算方法如何在 SMS 和电子邮件通信中检测诈骗和网络钓鱼语言。 该系统比较了三个模型: - 基于规则的符号语言系统 - 基于 BERT 的上下文模型 - 结合两种方法的混合模型 目标是在强调符号语言处理和神经语言处理之间权衡的同时,评估这些方法的性能、可解释性和语言覆盖率。 ## 数据集 该数据集由来自多个来源的 16,000 多条已标记消息组成: - SMS 垃圾短信数据集 - 电子邮件钓鱼数据集 - SMS 钓鱼 / 短信钓鱼数据集 - 手动整理的样本 这种多源数据集能够在不同的通信环境中进行评估。 ## 模型 ### 基于规则的模型 使用预定义的语言模式,例如紧急性、凭证请求和冒充行为。 优势:高可解释性 局限:对隐蔽诈骗的召回率低 ### 基于 BERT 的模型 使用预训练的 transformer 模型分析上下文语义。 优势:能捕捉细微的语言特征 局限:由于缺乏针对特定任务的 fine-tuning,误报率较高 ### 混合模型 结合基于规则的分数和上下文分数,以平衡可解释性和性能。 ## 结果 | 模型 | 准确率 | 精确率 | 召回率 | F1 分数 | |-------------|---------|----------|--------|---------| | 基于规则的 | 0.64 | 1.00 | 0.19 | 0.32 | | BERT 代理 | 0.72 | 0.63 | 0.85 | 0.73 | | 混合模型 | 0.72 | 0.64 | 0.84 | 0.72 | 核心发现: 基于规则的模型精确度高,但会漏掉许多诈骗。 BERT 能捕捉到更多的诈骗,但存在过度分类的情况。 混合模型在两者之间取得了平衡,但也继承了它们各自的局限性。 ## 局限性 - BERT 模型未针对诈骗检测进行 fine-tuning - 数据集来源的标注标准不一致 - 基于规则的系统依赖于预定义模式 ## 后续工作 - 针对特定诈骗数据集对 BERT 进行 fine-tune - 使用真实来源的数据扩展数据集 - 使用先进的集成技术改进混合模型 ## 项目结构 ``` finalproject_hybrid_scam_detection-msjashonaryoung-svg/ ├── .devcontainer/ │ └── devcontainer.json ├── .gitignore ├── README.md ├── data/ │ ├── processed/ │ │ └── combined_scam_dataset.csv │ └── raw/ │ ├── kaggle_email_phishing_normalized.csv │ ├── manual_seed_examples.csv │ ├── mendeley_sms_phishing.csv │ ├── mendeley_sms_phishing_normalized.csv │ ├── phishing_legit_dataset_KD_10000.csv │ ├── sample_messages.csv │ └── uci_sms_spam.csv ├── dockerfile ├── notebooks/ │ └── final_project_demo.ipynb ├── reports/ │ └── rough_final_draft.md ├── requirements.txt └── src/ ├── bert_model.py ├── data_collection.py ├── evaluation.py ├── hybrid_model.py ├── preprocessing.py └── rule_engine.py ``` ## 如何运行 运行数据集准备: ``` python src/data_collection.py ``` 然后打开 notebook: ``` notebooks/final_project_demo.ipynb ``` 并运行所有单元格。 ## 总结 本项目表明,将符号语言规则与上下文机器学习相结合,为检测欺骗性语言提供了一种更稳健的方法,同时也凸显了可解释性与性能之间的权衡。
标签:Apex, BERT, NLP, NoSQL, Smishing, TCP/UDP协议, Transformer, XAI, 上下文分析, 加密货币骗局检测, 可解释AI, 垃圾短信识别, 多源数据, 文本分类, 机器学习, 模型对比, 欺诈检测, 深度学习, 混合模型, 短信安全, 符号规则, 系统调用监控, 网络安全, 计算语言学, 请求拦截, 逆向工具, 邮件安全, 钓鱼检测, 钓鱼邮件识别, 隐私保护, 预训练模型