ibukunog04-hub/portfolio
GitHub: ibukunog04-hub/portfolio
基于四种机器学习算法的医疗保险欺诈检测比较分析研究,通过系统评估验证了随机森林在欺诈索赔识别中的最优表现。
Stars: 0 | Forks: 0
# 📊 医疗保险欺诈检测的机器学习算法比较分析
## 📌 概述
医疗保险欺诈是全球面临的一项重大挑战,会导致巨额财务损失和医疗成本的上升。本项目应用并比较了四种机器学习算法,利用真实世界的数据集来检测医疗保险中的欺诈性索赔。其目的是为尼日利亚医疗保险背景下的欺诈检测确定最准确、最可靠的模型。
**比较的算法:**
- Decision Tree Classifier
- Logistic Regression
- Random Forest Classifier
- AdaBoost Classifier
## 📝 摘要
医疗欺诈涉及提交虚假索赔或歪曲事实以获取未经授权的付款,这不仅浪费资源还会增加成本。本研究使用机器学习技术来检测医疗保险中的欺诈行为。模型在从 Kaggle 获取的数据集上进行了训练和测试,该数据集涵盖了受益人信息、住院和门诊记录。性能评估使用了 **Accuracy、Precision、Recall 和 F1-Score**。
**结果:**
- ✅ Random Forest:**95.3% Accuracy** — *表现最佳的模型*
- Decision Tree:92% Accuracy
- AdaBoost:91.13% Accuracy
- Logistic Regression:83% Accuracy
研究表明,机器学习——尤其是 Random Forest——在检测医疗保险欺诈方面非常有效,可以帮助减少财务损失。
## 🎯 目标与目的
### 目标
比较不同机器学习算法的性能,并确定用于检测医疗保险索赔欺诈的最佳模型。
### 目的
1. 获取相关的医疗保险数据集
2. 对数据进行预处理和清洗以进行建模
3. 训练四种监督式机器学习模型
4. 使用标准的性能指标评估模型
5. 比较结果并推荐最优算法
## 🛠️ 技术栈与工具
| 组件 | 详情 |
|---|---|
| **语言** | Python 3.x |
| **库** | Pandas, NumPy, Scikit-learn, Matplotlib, Seaborn, Imblearn (SMOTE) |
| **环境** | Google Colab / Jupyter Notebook |
| **数据集来源** | [Kaggle — 医疗保险欺诈数据集](https://www.kaggle.com/) |
| **技术** | 数据清洗, 特征工程, SMOTE (用于处理不平衡), 分类, 评估指标 |
## 📂 数据集
- 来源:Kaggle 医疗保险索赔数据集
- 类别:
- 受益人详情
- 住院记录
- 门诊记录
- 特征:人口统计学特征、手术代码、诊断代码、账单金额、提供商详情
- 目标变量:`PotentialFraud` (是/否 → 编码为 1/0)
## ⚙️ 方法论
1. **数据收集与整合**
将受益人、住院和门诊数据整合到一个统一的文件中。
2. **数据预处理**
- 处理缺失值
- 编码分类特征
- 移除重复项和不一致之处
- 特征生成(例如,住院时长、慢性病标志)
3. **处理类别不平衡**
- 应用 **SMOTE (Synthetic Minority Oversampling Technique)** 来平衡欺诈与非欺诈案例。
4. **模型实现**
- 训练了 4 种监督式学习算法
- 划分数据:80% 训练,20% 测试
5. **评估指标**
- Accuracy
- Precision
- Recall
- F1-Score
- 混淆矩阵 (Confusion Matrix)
## 📊 结果与比较
### 📈 性能摘要
| 模型 | Accuracy | Precision | Recall | F1-Score |
|---|---|---|---|---|
| **Random Forest** | **95.3%** | **95.0%** | **95.31%** | **95.0%** |
| Decision Tree | 92.0% | 91.64% | 91.0% | 91.0% |
| AdaBoost | 91.13% | 91.0% | 91.0% | 91.12% |
| Logistic Regression | 83.0% | 82.74% | 82.80% | 82.74% |
✅ **结论:**
**Random Forest Classifier** 表现优于所有其他模型,建议在医疗欺诈检测系统中部署使用。
## 📁 项目结构
标签:AdaBoost, Apex, DAST, F1分数, Kaggle数据集, NoSQL, Python, 二分类, 代码示例, 决策树, 分类算法, 医疗保险, 医疗保险欺诈检测, 召回率, 大学项目, 尼日利亚医疗, 恶意软件分析, 数据分析, 数据科学, 数据预处理, 无后门, 机器学习, 模型评估, 欺诈检测, 监督学习, 算法比较, 精准率, 资源验证, 逆向工具, 逻辑回归, 金融风控, 随机森林