Tech-with-Vidhya/credit-risk-assessment-fintech-framework-using-deep-learning-and-transfer-learning
GitHub: Tech-with-Vidhya/credit-risk-assessment-fintech-framework-using-deep-learning-and-transfer-learning
这是一个基于深度学习和迁移学习的信用风险评估框架,用于预测个人信用评分和违约概率,帮助金融机构优化信贷决策。
Stars: 19 | Forks: 7
信用风险评估:一个使用深度学习和迁移学习的金融科技框架
简介
信用风险分析模型是金融机构进行信贷和贷款决策的工具。信用风险评分是一个三位数的数字,代表个人的信用度;而根据英格兰银行的定义,信用违约风险是当借款个人未能偿还约定贷款时,贷方所面临的风险。信用评分过程是一套通过应用数学计算来评估个人信用特征并得出一个三位数字的程序。这个数字被商业银行和其他贷方用作量化指标,用于评估其现有客户和新贷款申请人的信用可信度,进而做出信贷相关的业务决策,例如贷款审批、信用违约预测以及在发生违约时的预期损失预测。
存在众多信用评分模型;但Fair Isaac Corporation (FICO) 分数是多年来贷方最广泛使用的市场标准之一。贷方主要依赖Experian、Equifax或Transunion这三大消费者信用报告机构中至少一家发布的基于FICO的信用评分报告,作为评估个人信用状况的主要信任和证据来源。FICO分数范围在300到850之间,分数低代表信任度低,分数高代表对贷方的信任度高;该分数基于五个关键信用风险因素及其对应的权重进行计算,分别是:35%的还款历史、30%的欠款金额、15%的信用历史长度、10%的信用组合和10%的新信用。但由于三大信用机构使用不同版本的FICO算法,因此它们的分数范围和实际分数存在差异。然而,这些FICO分数并未考虑所有必要的风险方面,如收入、就业状况和债务收入比,而这些因素可能是贷方在评估个人信誉时希望纳入的。这促使需要在贷方内部基础设施中开发定制化和自动化的信用评分系统(结合违约风险);该系统模拟并反映FICO评分模型的能力,并辅以领域驱动的方法来纳入贷方内部的非FICO风险因素;从而满足其全部评估需求。
本项目代表了一个信用风险评估的双框架,用于预测个人在300(差分数、最低信任)到850(优秀分数、最高信任)范围内的信用评分,并预测个人信用违约风险的概率;该框架可被商业银行和贷款公司等金融机构用来评估其客户和新申请人的信用价值。
其实现方式模拟并仿真了现实世界的FICO评分模型,并通过提出一种新的“领域-技术特征选择方法”以及结合深度学习和迁移学习技术,进行了定制增强以纳入贷方内部的信用风险因素。这种提出的全自动解决方案方法使得信用风险评估模型更加相关和适当,它满足了贷款公司的完整需求,与FICO评分模型不同,无需信贷官员手动干预来评估个人信誉;进而能够进行有效的信贷相关讨论。
这是我在英国伦敦玛丽女王大学(QMUL)攻读大数据科学硕士学位期间(2021年1月至2022年1月)作为课程一部分完成的硕士毕业项目。
附上为实现本项目所使用的所有参考资料副本。
1. 数据集:
本项目参考的Lending Club数据集收集自Kaggle官方网站,如下所示:
Lending Club 数据集
2. 项目生命周期:
如下所示实施了一个数据科学生命周期;在提出的贡献方面,包括了新的领域-技术特征选择方法和基于迁移学习的信用风险建模架构。
3. 提出的迁移学习架构:
以下是本项目提出的迁移学习架构,包含一个源任务和两个目标任务:
4. 迁移学习数据划分方法
本项目实施了一种标准的数据划分方法,以支持迁移学习的源任务和目标任务,如下所示:
5. 提出的领域-技术特征选择方法
作为本项目实施的一部分;提出了一种新的两阶段“领域-技术特征选择方法”,如下图所示:
6. 模型的实际性能结果
以下快照展示了源模型和两个目标模型在未见过的测试/生产数据上的实际性能结果:
7. 项目成果
作为本项目实施的一部分;我们能够从领域和技术的角度实现以下关键点:领域: * 一个与市场领先的FICO评分模型相当的、现实世界可用的信用风险框架;并增加了业务关键的、与领域相关的增强,以纳入被贷方视为关键的非FICO相关信用风险因素;确保对个人信誉评估的完整性。 * 一个为金融机构设计的单一信用风险框架,能够同时实时生成信用评分和信用违约预测概率的双解决方案。 * 一个可部署的最小可行产品(MVP)解决方案;其中领域方面与技术和技术方面获得了同等的重视。 技术: * 一个首创的、结合了深度学习和迁移学习两种领先技术的双解决方案信用风险框架。 * 通过实施迁移学习技术,从二元分类问题(FICO分数状态为“Good-”和“Good+”)中衍生出解决回归问题(预测个人信用评分)的方案。 * 通过实施迁移学习技术,实现了现有学习的可重用性。 * 提出并实施了一种名为“领域-技术特征选择方法”的新特征选择方法。 * 对于此类首创解决方案,其实际性能结果合理且可证明,可供金融机构使用。 * 一个可作为未来进一步增强的基准信用风险模型。
8. 使用双解决方案的真实业务场景
以下快照展示了在现实场景中使用双解决方案的可能业务场景。
9. 双解决方案在Web应用中的实现
该双解决方案框架被嵌入到一个基于Flask的Python Web应用中,以进行实时推理。以下快照展示了在Web UI应用中实现的双解决方案,用于演示目的。

将信用风险评估双框架部署到AWS EC2和无服务器Fargate实例的GitHub项目链接:
信用风险评估双框架部署到AWS实例
标签:Apex, FICO评分, 信用评分模型, 信用风险评估, 大数据, 机器学习, 深度学习, 漏洞利用检测, 特征选择, 目录扫描, 请求拦截, 迁移学习, 违约风险预测, 逆向工具, 金融科技, 金融风控, 银行贷款, 预测模型, 风险评估框架