您的位置:首页 > 其它

宽带离网用户分析(2) 数据预处理和特征抽取

2015-08-03 11:34 316 查看

宽带离网用户分析之数据预处理和特征抽取

  在讨论数据预处理的方式之前,我们还是需要把具体的数据项列出来以便观察。

电信后台多源数据项

  这里“多源”的意思就是这些数据来自后台不同的部门,有负责硬件网络的,也有维护用户使用记录的部门。

  


预处理

  由于预测任务注重的是Precision值,为了保证预测性能,很多数据不全的用户我们直接筛掉。

这里需要作出说明的是,端口速率和线路稳定的信息,虽然端口速率和线路稳定程度每天都有一条记录,但是这两个指标基本没有变化,因为他们和硬件线路的性能密切相关,硬件线路通常不会有很大的变迁。所以这两个指标我们直接取他们的值作为特征。终端机型号也不会变化,我们直接将N种型号作为离散值特征。

  这里我们简要介绍一下离散值特征的处理,假设终端机型号有“华为”、“中兴”、“TP-link”三种类型,我们对于这种取3个值的离散特征怎么处理呢?是不是让这个特征取0、1、2三种离散值对应三种情况呢?一般来说我们不这样做,再举个栗子:假设有另外一个指标,叫“每天上线次数”,约定每个人每天的上线次数取值区间在0-2,那么也就是可能取0、1、2三个值。

  这两种0、1、2完全不同,对于终端信号特征,0、1、2完全平等,只不过代表不同的型号而已,但是在数值特性上并不是这样,不难发现0-2的距离大于0-1的距离,也就是说“华为和tp-link”的距离大于“华为和中兴”的距离,这是不合理的。但是对于上线次数,我们发现0-2的取值是更加合理的,因为0次上线和1次上线的距离的确小于0次上线和2次上线的距离。

  所以,对于这种情况,我们将终端类型作为3个特征,如果终端是华为feature1、feature2、feature3。

特征feature1feature2feature3
华为100
中兴010
普联001
  通过将一个无差别离散特征(各种离散取值之间平等)的N中取值转化成为N个特征,这样可以保证每种情况之间都是对称的。

特征抽取

  特征抽取的一个重要属性叫“粒度”,凡是特征抽取都会遇到粒度的问题,粒度是否恰当直接关系到模型的性能,我们这边抽取的粒度是天,但是如果涉及到衡量指标的变化趋势的特征,我们的粒度是月份。

  对于上线次数(可以比较大小的数值特征,那么各个离散值当然不平等,各自之间的距离意义不同),也是离散值特征,就取上线次数就行,其实本质上它跟接近于连续值的特征。

  对于掉线次数,用户上线次数,我们不但把“次数”值作为特征,还把每天不同的次数的差值作为特征,然后把增长和减少的次数统计值作为特征。

  打个比方,假设用户在一个星期内的上线次数是3、7、5、5、3、14、16,那么我们的差值特征就是-4、-2、0、-2、11、2,差值特征反映的是变化趋势,统计增长和减少的天数分别为2和4(0作为减少)。

  最后,我们来看看用户每天上下线的信息,不难看出对于每个用户,上下线信息是一个时间序列的问题,如下图:

  


  图中每个红色矩形方框代表一次在线行为,综合一个月某个用户的上网行为,我们完全可以得出其上完时间分布图,比如下图:

  


  这个用户可能每天早上和晚上会上完,周末全天会上网,所以导致这样的时间分布,其实用这个分布可以做很多事情,但是这里我们要预测离网用户,和离网行为更加相关的可能是每天的上网总时间。

  


  图中是50个用户在一个月中每天上网时间的折线图,我们怎么提取有效特征来找出存在离网倾向的用户呢?

  我们借鉴了“Yang Cong, Junsong Yuan, and Ji Liu. “Sparse reconstruction cost for abnormal event detection.” Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011.”这位仁兄的工作,从变化的指标中提取某种反映变化的高层特征。

  我们为什么要把这叫做高层特征呢,对于时间序列的处理,很多时候我们用的是信号处理的方法,比如小波变换,傅里叶变换,这些变化可以从不同尺度反映信号的变化特征,但是缺少统计性的概括能力,所以我们提取的特征被叫做高层特征。

  下图是某个用户在两个星期之内每天上网时间的折线图:

  


  首先算出该差值序列的绝对值均值,然后用该值作为阈值,将时间差值细分为上网时间增加或减少“显著”和“不显著”以及上网时间不变的分组。这里“不变”的分组是为了应对每天都不上网的情况。图中红色为显著增长、黄色为不显著的增长,同样黑色和灰色分别为显著和不显著的下降,蓝色代表不变。接下俩就是统计直方图:

  


  这个五维的直方图特征反映了这15天内该用户上网时间变化的统计信息,但是实际上我们说过,我们统计的粒度是月,也就是30天。

  下一篇我们来讲讲训练集,测试集的划分以及建模的过程。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息