【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分
2017-06-14 00:00
344 查看
摘要: 如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。
评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估、贷款发放等业务。另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分、芝麻信用分打分等等。在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金融板块组件,搭建出一套评分卡建模方案。
本实验案例可在机器学习PAI平台使用,包含整个实验流程和数据:
![](https://zos.alipayobjects.com/rmsportal/DGUIgQVwMXgAFuwbWLXE.png)
![](https://zos.alipayobjects.com/rmsportal/rshExMjeuOshSHKyosGD.png)
这是一份国外某机构开源的数据集,数据的内容包括每个用户的一些性别、教育、婚姻、年龄等属性,同时也包含用户过去一段时间的信用卡消费情况和账单情况。payment_next_month是目标队列,表示用户是否偿还信用卡账单,1表示偿还,0表示没有偿还。
数据供30000条。
数据集下载地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset
![](https://zos.alipayobjects.com/rmsportal/CMzlMnNGUEpTVDoBgSDP.png)
现在对一些关键节点进行介绍:
(1)拆分
将输入数据集分为两部分,一部分用来训练模型,另一部分用来预测评估。
(2)分箱
分箱组件类似于onehot编码,可以将数据按照分布映射成更高维度的特征。我们以age这个字段为例,分箱组件可以按照数据在不同区间的分布进行分享操作,分箱结果如图:
![](https://zos.alipayobjects.com/rmsportal/vJjWYySWxbgqIrGEbSeB.png)
最终分箱组件的输出如图,每个字段都被分箱到多个区间上:
![](https://zos.alipayobjects.com/rmsportal/FtGiSeLJYyNXaUlHHtqz.png)
(3)样本稳定指数PSI
样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著,在0.1到0.25之间表示有比较显著的变化,大于0.25表示变量变化比较剧烈,需要特殊关注。
本案例中,可以综合比较拆分前后以及分箱结果的样本稳定程度,返回每个特征的PSI数值:
![](https://zos.alipayobjects.com/rmsportal/RtbuQemMBvknvyvIPmOy.png)
(4)评分卡训练
评分卡训练的结果图如下:
![](https://zos.alipayobjects.com/rmsportal/FZqXKavRmNyyNoizXQll.png)
评分卡的精髓是将复杂的比较难理解的一些模型权重用符合业务标准的分数表示。
intercepy表示的是截距
Unscaled是原始的权重值
Scaled是分数更改指标,比如对于pay_0这个特征,如果特征落在(-1,0]之间分数就减29,如果特征落在(0,1]之间分数就加上27.
importance表示每个特征对于结果的影响大小,数值越大表示影响越大
(5)评分卡预测
展示每个预测结果的最终评分,在本案例中表示的是每个用户的信用评分。
![](https://zos.alipayobjects.com/rmsportal/sgXXiWENDIIaJVHiSdcK.png)
原文链接
机器学习算法基于信用卡消费记录做信用评分
背景
如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估、贷款发放等业务。另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分、芝麻信用分打分等等。在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金融板块组件,搭建出一套评分卡建模方案。
本实验案例可在机器学习PAI平台使用,包含整个实验流程和数据:
![](https://zos.alipayobjects.com/rmsportal/DGUIgQVwMXgAFuwbWLXE.png)
数据集介绍
![](https://zos.alipayobjects.com/rmsportal/rshExMjeuOshSHKyosGD.png)
这是一份国外某机构开源的数据集,数据的内容包括每个用户的一些性别、教育、婚姻、年龄等属性,同时也包含用户过去一段时间的信用卡消费情况和账单情况。payment_next_month是目标队列,表示用户是否偿还信用卡账单,1表示偿还,0表示没有偿还。
数据供30000条。
数据集下载地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset
实验流程
先来看下实验图:![](https://zos.alipayobjects.com/rmsportal/CMzlMnNGUEpTVDoBgSDP.png)
现在对一些关键节点进行介绍:
(1)拆分
将输入数据集分为两部分,一部分用来训练模型,另一部分用来预测评估。
(2)分箱
分箱组件类似于onehot编码,可以将数据按照分布映射成更高维度的特征。我们以age这个字段为例,分箱组件可以按照数据在不同区间的分布进行分享操作,分箱结果如图:
![](https://zos.alipayobjects.com/rmsportal/vJjWYySWxbgqIrGEbSeB.png)
最终分箱组件的输出如图,每个字段都被分箱到多个区间上:
![](https://zos.alipayobjects.com/rmsportal/FtGiSeLJYyNXaUlHHtqz.png)
(3)样本稳定指数PSI
样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著,在0.1到0.25之间表示有比较显著的变化,大于0.25表示变量变化比较剧烈,需要特殊关注。
本案例中,可以综合比较拆分前后以及分箱结果的样本稳定程度,返回每个特征的PSI数值:
![](https://zos.alipayobjects.com/rmsportal/RtbuQemMBvknvyvIPmOy.png)
(4)评分卡训练
评分卡训练的结果图如下:
![](https://zos.alipayobjects.com/rmsportal/FZqXKavRmNyyNoizXQll.png)
评分卡的精髓是将复杂的比较难理解的一些模型权重用符合业务标准的分数表示。
intercepy表示的是截距
Unscaled是原始的权重值
Scaled是分数更改指标,比如对于pay_0这个特征,如果特征落在(-1,0]之间分数就减29,如果特征落在(0,1]之间分数就加上27.
importance表示每个特征对于结果的影响大小,数值越大表示影响越大
(5)评分卡预测
展示每个预测结果的最终评分,在本案例中表示的是每个用户的信用评分。
![](https://zos.alipayobjects.com/rmsportal/sgXXiWENDIIaJVHiSdcK.png)
结论
基于用户的信用卡消费记录,最终通过评分卡模型的训练,我们在评分卡预测中可以拿到每个用户的最终信用评分,这个评分可以应用到其它的各种贷款或者金融相关的征信领域中去。评分卡相对于其他的模型的预测的优势是将计算结果权重直接沉淀成直观的分数,通过这样的评分看模型,可以快速的了解每个用户的信用分,每个客服人员的服务评分,每个手机的测评分数等等。原文链接
相关文章推荐
- 【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分
- 【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分
- 【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分
- Oracle Golden Gate 系列十二 -- GG 数据初始化装载二 基于SCN 的初始化 说明 与 示例
- SQL Servr 2008空间数据应用系列八:基于Bing Maps(Silverlight)的空间数据存储 推荐
- BlogEngine.Net架构与源代码分析系列part3:数据存储——基于Provider模式的实现
- 网游服务器系列之三:定制Linux内核实现基于QoS高效数据广播
- 6 关于数据仓库维度数据处理的方法探究系列——缓慢变化维处理——记录最新记录及上一次历史
- 转:C#数据结构和算法学习系列十三----链表
- BlogEngine.Net架构与源代码分析系列part3:数据存储——基于Provider模式的实现
- BlogEngine.Net架构与源代码分析系列part3:数据存储——基于Provider模式的实现
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
- 基于TCP的网络游戏黑白棋系列(二):数据传输
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
- 基于TCP的网络游戏黑白棋系列(二):数据传输
- 5 关于数据仓库维度数据处理的方法探究系列——缓慢变化维处理——全历史记录
- 5 关于数据仓库维度数据处理的方法探究系列——缓慢变化维处理——全历史记录
- SQL Server 2008空间数据应用系列六:基于SQLCRL的空间数据可编程性
- 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法