ifexxx-dat/Hospital-Readmission-Analysis-ETL-And-Clinical-Risk-Drivers

GitHub: ifexxx-dat/Hospital-Readmission-Analysis-ETL-And-Clinical-Risk-Drivers

一个基于 MySQL 的医疗数据 ETL 与分析项目,识别并揭示了合成数据集对再入院率研究的潜在误导。

Stars: 0 | Forks: 0

# 医院再入院分析:ETL 与临床风险驱动因素 ## 项目概述 本项目分析了一个包含 18,000 条患者记录的医疗数据集,旨在识别 30 天内医院再入院的主要驱动因素。目标是构建一个稳健的 ETL 管道,进行临床特征工程,并发现可降低再入院率的可操作洞察。 在探索性数据分析(EDA)阶段,通过高级查询发现该数据集是**合成生成**的,且为机器学习分类任务进行了平衡处理,而非反映真实的临床差异。 ## 技术栈与工具 - 数据库:MySQL - 使用技术:公用表表达式(CTE)、窗口函数(NTILE、DENSE_RANK)、子查询、特征工程(CASE 语句)、数据类型转换、模式设计。 ## 第一阶段:ETL 与数据清洗 为确保数据完整性,我建立了一个安全的数据暂存环境(`hospital_working_data`)以保护原始源数据。清洗流程包括: - **模式修正**:识别并解决了因 CSV 导入向导导致 `Insurance_Type` 与 `Gender` 列错位的问题。重建表模式并成功重新映射数据。 - **文本标准化**:对所有分类列(如 `Discharge_Disposition`、`Gender`)应用 `UPPER(TRIM())`,以防止聚合时出现错误。 - **重复悖论(高级指纹识别)**:初始聚合检查显示基于年龄、性别、住院时长和依从性的重复行有 296 条。但通过扩展复合键以包含更细粒度的临床标记(如 `HbA1c_Level`),我证明了该数据集**不存在重复项**,验证了高度相似患者档案的完整性。 ## 第二阶段:特征工程与 EDA 我没有分析原始小数值,而是使用 SQL 构建了业务友好的临床指标: - **依从性风险分层**:使用 CASE 语句构建 CTE,将患者的药物依从性评分划分为高风险、中风险和低风险三类。 - **异常检测**:利用窗口函数和子查询,标记住院时长超过其主要诊断组基准平均值 150% 的患者异常。 - **队列分位排名**:应用 NTILE(4) 将患者按住院时长分为四个四分位,以便进行对比再入院分析。 ## 关键发现与“合成数据集”识别 1. **药物依从性影响**:按依从性风险分层切分数据集后,发现各组的再入院率几乎持平(仅在 73.4% 至 75.5% 之间波动),表明依从性**并非再入院的主要驱动因素**。 2. **机器学习平衡 artifact**:进一步按主要诊断分组分析,结果显示每组患者数量几乎完全一致(约 3,600 人),且不同疾病(如心脏病、感染、糖尿病)的再入院率均接近 74%。 3. **结论**:这些均匀分布从数学上证实了该数据集是为预测建模训练而**人工合成、平衡过的数据**。识别出这一 artifact 避免了报告虚假临床洞察,并展示了较强的数据素养。 ## 特色 SQL 查询 欢迎在本仓库中探索完整的 `.sql` 脚本。以下是用于发现住院时长异常值的查询亮点: ```sql WITH Diagnosis_Averages AS ( SELECT Primary_Diagnosis_Group, AVG(Length_of_Stay) AS Avg_LOS FROM hospital_work GROUP BY Primary_Diagnosis_Group ) SELECT h.Patient_id, h.Primary_Diagnosis_Group, h.Length_of_Stay, ROUND(d.Avg_LOS, 1) AS Typical_Stay_For_Diagnosis FROM hospital_work h JOIN Diagnosis_Averages d ON h.Primary_Diagnosis_Group = d.Primary_Diagnosis_Group WHERE h.Length_of_Stay > (d.Avg_LOS * 1.5) ORDER BY h.Length_of_Stay DESC; ``` ## 作者 Okoli Ifechukwu Chinwe 联系我 - LinkedIn:[linkedin.com/in/ife-okoli](http://linkedin.com/in/ife-okoli)
标签:CTE, DENSE_RANK, ETL管道, HbA1c, LOS, NTILE, Schema设计, SQL, Zenmap, 临床风险因子, 保险类型, 健康指标, 医疗数据分析, 医院再入院分析, 去重, 合成数据, 多线程, 异常检测, 性别映射, 数据完整性, 数据清洗, 数据预处理, 特征工程, 用药依从性, 病例记录, 窗口函数, 系统审计, 风险分层