宽带离网用户分析(2) 数据预处理和特征抽取
2015-08-03 11:34
316 查看
宽带离网用户分析之数据预处理和特征抽取
在讨论数据预处理的方式之前,我们还是需要把具体的数据项列出来以便观察。电信后台多源数据项
这里“多源”的意思就是这些数据来自后台不同的部门,有负责硬件网络的,也有维护用户使用记录的部门。预处理
由于预测任务注重的是Precision值,为了保证预测性能,很多数据不全的用户我们直接筛掉。这里需要作出说明的是,端口速率和线路稳定的信息,虽然端口速率和线路稳定程度每天都有一条记录,但是这两个指标基本没有变化,因为他们和硬件线路的性能密切相关,硬件线路通常不会有很大的变迁。所以这两个指标我们直接取他们的值作为特征。终端机型号也不会变化,我们直接将N种型号作为离散值特征。
这里我们简要介绍一下离散值特征的处理,假设终端机型号有“华为”、“中兴”、“TP-link”三种类型,我们对于这种取3个值的离散特征怎么处理呢?是不是让这个特征取0、1、2三种离散值对应三种情况呢?一般来说我们不这样做,再举个栗子:假设有另外一个指标,叫“每天上线次数”,约定每个人每天的上线次数取值区间在0-2,那么也就是可能取0、1、2三个值。
这两种0、1、2完全不同,对于终端信号特征,0、1、2完全平等,只不过代表不同的型号而已,但是在数值特性上并不是这样,不难发现0-2的距离大于0-1的距离,也就是说“华为和tp-link”的距离大于“华为和中兴”的距离,这是不合理的。但是对于上线次数,我们发现0-2的取值是更加合理的,因为0次上线和1次上线的距离的确小于0次上线和2次上线的距离。
所以,对于这种情况,我们将终端类型作为3个特征,如果终端是华为feature1、feature2、feature3。
特征 | feature1 | feature2 | feature3 |
---|---|---|---|
华为 | 1 | 0 | 0 |
中兴 | 0 | 1 | 0 |
普联 | 0 | 0 | 1 |
特征抽取
特征抽取的一个重要属性叫“粒度”,凡是特征抽取都会遇到粒度的问题,粒度是否恰当直接关系到模型的性能,我们这边抽取的粒度是天,但是如果涉及到衡量指标的变化趋势的特征,我们的粒度是月份。对于上线次数(可以比较大小的数值特征,那么各个离散值当然不平等,各自之间的距离意义不同),也是离散值特征,就取上线次数就行,其实本质上它跟接近于连续值的特征。
对于掉线次数,用户上线次数,我们不但把“次数”值作为特征,还把每天不同的次数的差值作为特征,然后把增长和减少的次数统计值作为特征。
打个比方,假设用户在一个星期内的上线次数是3、7、5、5、3、14、16,那么我们的差值特征就是-4、-2、0、-2、11、2,差值特征反映的是变化趋势,统计增长和减少的天数分别为2和4(0作为减少)。
最后,我们来看看用户每天上下线的信息,不难看出对于每个用户,上下线信息是一个时间序列的问题,如下图:
图中每个红色矩形方框代表一次在线行为,综合一个月某个用户的上网行为,我们完全可以得出其上完时间分布图,比如下图:
这个用户可能每天早上和晚上会上完,周末全天会上网,所以导致这样的时间分布,其实用这个分布可以做很多事情,但是这里我们要预测离网用户,和离网行为更加相关的可能是每天的上网总时间。
图中是50个用户在一个月中每天上网时间的折线图,我们怎么提取有效特征来找出存在离网倾向的用户呢?
我们借鉴了“Yang Cong, Junsong Yuan, and Ji Liu. “Sparse reconstruction cost for abnormal event detection.” Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011.”这位仁兄的工作,从变化的指标中提取某种反映变化的高层特征。
我们为什么要把这叫做高层特征呢,对于时间序列的处理,很多时候我们用的是信号处理的方法,比如小波变换,傅里叶变换,这些变化可以从不同尺度反映信号的变化特征,但是缺少统计性的概括能力,所以我们提取的特征被叫做高层特征。
下图是某个用户在两个星期之内每天上网时间的折线图:
首先算出该差值序列的绝对值均值,然后用该值作为阈值,将时间差值细分为上网时间增加或减少“显著”和“不显著”以及上网时间不变的分组。这里“不变”的分组是为了应对每天都不上网的情况。图中红色为显著增长、黄色为不显著的增长,同样黑色和灰色分别为显著和不显著的下降,蓝色代表不变。接下俩就是统计直方图:
这个五维的直方图特征反映了这15天内该用户上网时间变化的统计信息,但是实际上我们说过,我们统计的粒度是月,也就是30天。
下一篇我们来讲讲训练集,测试集的划分以及建模的过程。
相关文章推荐
- js电信网通双线自动选择技巧
- 电信+网通双线接入策略路由+自动切换图文教程
- 接入网:无线接入方式再造有线方式
- 不断发展中的电信自动化测试
- 浅析基于杭州电信灾备平台的灾备系统
- WSDOM电信行业应用流量管理解决方案
- WSDOM教育行业应用流量管理解决方案
- 中国电信抛出CN2计划 13亿打造全新IP骨干网
- 出招应对运营商封堵ADSL“一拖N”
- VB电信人事管理系统设计(论文+源码+开题报告+ppt)
- 信产部考虑推进电信单项收费新套餐
- 3个千兆WAN口和24个千兆交换LAN口,电信级高稳定性安全路由
- 电信增值业务许可证(IDC)申请方法
- modle(猫)+路由器拨账号密码上网问题!
- 路由器 交换机 摩登Modem的区别!
- Ros强开指定首页,类似电信的ADSL强开指定首页,即push功能
- 智能DNS服务器配置详解
- 电信基础设施共建共享
- 全国移动联通电信话费快充1-3分钟到帐
- 我国互联网8大节点城市(中国电信)