ibukunog04-hub/portfolio

GitHub: ibukunog04-hub/portfolio

基于四种机器学习算法的医疗保险欺诈检测比较分析研究,通过系统评估验证了随机森林在欺诈索赔识别中的最优表现。

Stars: 0 | Forks: 0

# 📊 医疗保险欺诈检测的机器学习算法比较分析 ## 📌 概述 医疗保险欺诈是全球面临的一项重大挑战,会导致巨额财务损失和医疗成本的上升。本项目应用并比较了四种机器学习算法,利用真实世界的数据集来检测医疗保险中的欺诈性索赔。其目的是为尼日利亚医疗保险背景下的欺诈检测确定最准确、最可靠的模型。 **比较的算法:** - Decision Tree Classifier - Logistic Regression - Random Forest Classifier - AdaBoost Classifier ## 📝 摘要 医疗欺诈涉及提交虚假索赔或歪曲事实以获取未经授权的付款,这不仅浪费资源还会增加成本。本研究使用机器学习技术来检测医疗保险中的欺诈行为。模型在从 Kaggle 获取的数据集上进行了训练和测试,该数据集涵盖了受益人信息、住院和门诊记录。性能评估使用了 **Accuracy、Precision、Recall 和 F1-Score**。 **结果:** - ✅ Random Forest:**95.3% Accuracy** — *表现最佳的模型* - Decision Tree:92% Accuracy - AdaBoost:91.13% Accuracy - Logistic Regression:83% Accuracy 研究表明,机器学习——尤其是 Random Forest——在检测医疗保险欺诈方面非常有效,可以帮助减少财务损失。 ## 🎯 目标与目的 ### 目标 比较不同机器学习算法的性能,并确定用于检测医疗保险索赔欺诈的最佳模型。 ### 目的 1. 获取相关的医疗保险数据集 2. 对数据进行预处理和清洗以进行建模 3. 训练四种监督式机器学习模型 4. 使用标准的性能指标评估模型 5. 比较结果并推荐最优算法 ## 🛠️ 技术栈与工具 | 组件 | 详情 | |---|---| | **语言** | Python 3.x | | **库** | Pandas, NumPy, Scikit-learn, Matplotlib, Seaborn, Imblearn (SMOTE) | | **环境** | Google Colab / Jupyter Notebook | | **数据集来源** | [Kaggle — 医疗保险欺诈数据集](https://www.kaggle.com/) | | **技术** | 数据清洗, 特征工程, SMOTE (用于处理不平衡), 分类, 评估指标 | ## 📂 数据集 - 来源:Kaggle 医疗保险索赔数据集 - 类别: - 受益人详情 - 住院记录 - 门诊记录 - 特征:人口统计学特征、手术代码、诊断代码、账单金额、提供商详情 - 目标变量:`PotentialFraud` (是/否 → 编码为 1/0) ## ⚙️ 方法论 1. **数据收集与整合** 将受益人、住院和门诊数据整合到一个统一的文件中。 2. **数据预处理** - 处理缺失值 - 编码分类特征 - 移除重复项和不一致之处 - 特征生成(例如,住院时长、慢性病标志) 3. **处理类别不平衡** - 应用 **SMOTE (Synthetic Minority Oversampling Technique)** 来平衡欺诈与非欺诈案例。 4. **模型实现** - 训练了 4 种监督式学习算法 - 划分数据:80% 训练,20% 测试 5. **评估指标** - Accuracy - Precision - Recall - F1-Score - 混淆矩阵 (Confusion Matrix) ## 📊 结果与比较 ### 📈 性能摘要 | 模型 | Accuracy | Precision | Recall | F1-Score | |---|---|---|---|---| | **Random Forest** | **95.3%** | **95.0%** | **95.31%** | **95.0%** | | Decision Tree | 92.0% | 91.64% | 91.0% | 91.0% | | AdaBoost | 91.13% | 91.0% | 91.0% | 91.12% | | Logistic Regression | 83.0% | 82.74% | 82.80% | 82.74% | ✅ **结论:** **Random Forest Classifier** 表现优于所有其他模型,建议在医疗欺诈检测系统中部署使用。 ## 📁 项目结构
标签:AdaBoost, Apex, DAST, F1分数, Kaggle数据集, NoSQL, Python, 二分类, 代码示例, 决策树, 分类算法, 医疗保险, 医疗保险欺诈检测, 召回率, 大学项目, 尼日利亚医疗, 恶意软件分析, 数据分析, 数据科学, 数据预处理, 无后门, 机器学习, 模型评估, 欺诈检测, 监督学习, 算法比较, 精准率, 资源验证, 逆向工具, 逻辑回归, 金融风控, 随机森林