您的位置:首页 > 其它

【Paper Note】基于决策树算法的电信运营商客户流失预测

2017-06-24 10:43 363 查看

1.引言

随着互联网业务的速发展,移动业务市场的客户流失预警成为每一个电信运营商重点关注的内容,在商务智能与机器学习快速发展的当下,运用数据挖掘的方法,实现对电信客户的挽留、转化、精准营销越来越彰显其商业价值。如何最大程度地挽留在网用户、吸取新客户,是电信企业最关注的问题之一。竞争对手的促销、公司资费软着陆措施的出台和政策法规的不断变化,影响了客户消费心理和消费行为,导致客户的流失特征不断发生变化。对于电信运营商而言,客户的流失会给电信企业带来市场占有率下降、营销成本增加、利润下降等一系列问题。在发展用户每月增加的同时,如何挽留和争取更多的用户,是一项非常重要的工作。

2.运营商客户流失因素分析

2.1 缺失值及数据冗余处理

电信客户信息中,部分属性如:VIP等级、本地主叫时长等存在数据缺失,对于这部分数据的预处理,时间上稳定的用户信息,如果数据缺失,以最近一个月的套餐信息代替;对于无法补充的用户信息,以NA替换;对于连续性信息的丢失,将该值前后时间上相邻的两个值的平均值。处理重复数据时,根据数据完整性及数据录入时间进行判断,选取完整性最高的数据或同等条件下最新的数据,剔除重复数据。

2.2 因素分析

部分属性的探索性分析过程如下:
(1)性别与用户流失
探索性数据分析作为数据挖掘前的数据处理方式,有助于分析人员摆脱条件假设的束缚,通过对原始数据的探索,寻求数据间的内在联系,从而帮助分析人员找出数据间的规律,选择适当的模型进行数据建模。对于性别的缺失值,我们可以观察到性别中的3种标签呈现出不同的流失程度,男性流失率为0.034,女性为0.030,NA为0.021,转换为3个哑变量。其他离散性变量处理方式相同。
(2)合约时间与用户流失
用户合约到期时时间与用户流失关系如图4所示,横坐标0为NA,可以看出,合约在短期内到期或呈缺失值的用户流失程度最高,其次到合约到期时间在中等长度的用户,2019年以后合约才到期的用户流失率最低,流失率基本为0%,因此分为三个类型。

3. 客户流失预测模型

3.1 C5.0算法

C5.0算法是决策树C4.5的改进算法,在精度上采用boosting方法,以信息增益率(GainsRatio)作为样本分枝属性,增强C4.5算法多属性的分枝的健壮性,在决策树建立之前,每个输出变量属性是完全随机的,以信息熵来表示信息的不确定性为:

(1)
在决策树建立过程中,随着信宿接收到信息,考察输入变量 ,则条件熵为:


(2)
于是,信息增益为:

(3)
信息增益的物理意义在于:属性 的发生对于特征U的不确定性减少量。C4.5和C5.0算法中,将信息增益与信息熵的比值,即信息增益率来选择属性,信息增益率为:


(4)
信息增益率作为一种提升算法,更能反映出属性的信息混乱趋势,因此选择信息增益率最大的输入变量作为最佳分组变量,这主要是因为它消除信宿对信源的平均不确定性的能力最强。由此进行的样本分组,输出变量在两个组内部取值的趋同程度自高,即各组内部的 差别大。

3.2 误差分析

针对每个节点,以其中的众树类别作为预测类别。设第i个节点中包含n个样本,有 个预测错误的样本。于是,可利用观测到的错误率 ,在近似正态分布假设的基础上,对该节点的真实误差 进行估计。由于估计是在训练样本上的,因此应给出一个置信度 。于是,真实错误率的置信区间为:


(5)
    其中, 为临界值。可得第i个节点真实误差的估计上限,即悲观估计为:


(6)

4.客户流失预测实例分析

4.1 多因素分析

数据属性过多造成决策树模型复杂,但通过探索性数据分析可知,一些属性对于决策树的生成并无影响,因此,在建立决策树模型前,需要对数据的各个属性进行多因素分析,从而找出重要因素,这样可以简化决策树模型,降低时间复杂度,提升模型效率。其属性权重分布如下:



通过对原始数据的多因素分析,可以得出以下结论:入网时间(INNET_MONTH)、有通话天数(CALL_DAYS)、有主叫天数(CALLING_DAYS)、短信发送条数(P2P_SMS_CNT_UP)、主叫呼叫圈(CALL_RING)和年龄(CERT_AGE)与流失呈负相关,本月费用(ACCT_FEE)和有被叫天数(CALLED_DAYS)与流失程度呈正相关。这些特征与现实生活情况相近,变量筛选力度大,因此,在建立决策树模型时,可以通过考虑这些重要客观因素来简化决策树分枝,从而高效输出决策树模型。预测变量的重要性如图所示。



4.2 分类树C5.0算法预测运营商客户流失

建立决策树模型,模型规则输出如图所示。



通过决策树模型的输出,可以得到各个属性对用户流失特征的决定作用,决策树模型的特点之一就是可视化效果好,通过决策树输出规则图可以清楚确定每一个决策分枝的分类规则,从而确定用户流失特征。

4.3结果分析

在数据建模过程中,样本数据十万余条,其中60%作为训练样本集,30%作为测试样本集,10%作为验证样本集,通过建立的决策树模型,得到的预测精度高达92.72%,其详细情况见表2。
          训练  准确性  测试   准确性    验证  
准确性
正确16659992.46%8138190.33%27845
92.72%
错误135867.54%87129.67%21867.28%
总计1801859009330031 1
由此,我们根据建立的决策树模型,输出其重要属性的置信度值,通过每个属性的置信度值,可以清晰反映数据属性的重要性,在用户流失的决策树模型中可以很好的发挥其作用。数据下载链接:https://pan.baidu.com/s/10cGtAHvoCBOPKDdSr6vgOw
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息