ibukunog04-hub/portfolio

GitHub: ibukunog04-hub/portfolio

基于四种机器学习算法的医疗保险欺诈检测比较分析研究，通过系统评估验证了随机森林在欺诈索赔识别中的最优表现。

Stars: 0 | Forks: 0

# 📊 医疗保险欺诈检测的机器学习算法比较分析 ## 📌 概述医疗保险欺诈是全球面临的一项重大挑战，会导致巨额财务损失和医疗成本的上升。本项目应用并比较了四种机器学习算法，利用真实世界的数据集来检测医疗保险中的欺诈性索赔。其目的是为尼日利亚医疗保险背景下的欺诈检测确定最准确、最可靠的模型。 **比较的算法：** - Decision Tree Classifier - Logistic Regression - Random Forest Classifier - AdaBoost Classifier ## 📝 摘要医疗欺诈涉及提交虚假索赔或歪曲事实以获取未经授权的付款，这不仅浪费资源还会增加成本。本研究使用机器学习技术来检测医疗保险中的欺诈行为。模型在从 Kaggle 获取的数据集上进行了训练和测试，该数据集涵盖了受益人信息、住院和门诊记录。性能评估使用了 **Accuracy、Precision、Recall 和 F1-Score**。 **结果：** - ✅ Random Forest：**95.3% Accuracy** — *表现最佳的模型* - Decision Tree：92% Accuracy - AdaBoost：91.13% Accuracy - Logistic Regression：83% Accuracy 研究表明，机器学习——尤其是 Random Forest——在检测医疗保险欺诈方面非常有效，可以帮助减少财务损失。 ## 🎯 目标与目的 ### 目标比较不同机器学习算法的性能，并确定用于检测医疗保险索赔欺诈的最佳模型。 ### 目的 1. 获取相关的医疗保险数据集 2. 对数据进行预处理和清洗以进行建模 3. 训练四种监督式机器学习模型 4. 使用标准的性能指标评估模型 5. 比较结果并推荐最优算法 ## 🛠️ 技术栈与工具 | 组件 | 详情 | |---|---| | **语言** | Python 3.x | | **库** | Pandas, NumPy, Scikit-learn, Matplotlib, Seaborn, Imblearn (SMOTE) | | **环境** | Google Colab / Jupyter Notebook | | **数据集来源** | [Kaggle — 医疗保险欺诈数据集](https://www.kaggle.com/) | | **技术** | 数据清洗, 特征工程, SMOTE (用于处理不平衡), 分类, 评估指标 | ## 📂 数据集 - 来源：Kaggle 医疗保险索赔数据集 - 类别： - 受益人详情 - 住院记录 - 门诊记录 - 特征：人口统计学特征、手术代码、诊断代码、账单金额、提供商详情 - 目标变量：`PotentialFraud` (是/否 → 编码为 1/0) ## ⚙️ 方法论 1. **数据收集与整合** 将受益人、住院和门诊数据整合到一个统一的文件中。 2. **数据预处理** - 处理缺失值 - 编码分类特征 - 移除重复项和不一致之处 - 特征生成（例如，住院时长、慢性病标志） 3. **处理类别不平衡** - 应用 **SMOTE (Synthetic Minority Oversampling Technique)** 来平衡欺诈与非欺诈案例。 4. **模型实现** - 训练了 4 种监督式学习算法 - 划分数据：80% 训练，20% 测试 5. **评估指标** - Accuracy - Precision - Recall - F1-Score - 混淆矩阵 (Confusion Matrix) ## 📊 结果与比较 ### 📈 性能摘要 | 模型 | Accuracy | Precision | Recall | F1-Score | |---|---|---|---|---| | **Random Forest** | **95.3%** | **95.0%** | **95.31%** | **95.0%** | | Decision Tree | 92.0% | 91.64% | 91.0% | 91.0% | | AdaBoost | 91.13% | 91.0% | 91.0% | 91.12% | | Logistic Regression | 83.0% | 82.74% | 82.80% | 82.74% | ✅ **结论：** **Random Forest Classifier** 表现优于所有其他模型，建议在医疗欺诈检测系统中部署使用。 ## 📁 项目结构

标签：AdaBoost, Apex, DAST, F1分数, Kaggle数据集, NoSQL, Python, 二分类, 代码示例, 决策树, 分类算法, 医疗保险, 医疗保险欺诈检测, 召回率, 大学项目, 尼日利亚医疗, 恶意软件分析, 数据分析, 数据科学, 数据预处理, 无后门, 机器学习, 模型评估, 欺诈检测, 监督学习, 算法比较, 精准率, 资源验证, 逆向工具, 逻辑回归, 金融风控, 随机森林