宽带离网用户分析(3) 建模框架
2015-08-03 11:54
246 查看
宽带离网用户分析之建模框架
在介绍了任务和数据的预处理方法以后,我们可以从宏观来看看我们的建模过程了。建模框架
首先,我们得明确我们面对的是一个什么问题,稍微有一点数据挖掘知识的应该知道这是一个典型的二分类问题——给你一个用户,和他的数据,问你他会不会离网?当然我们之前说过我们有一年的数据。
我们怎样判断该用户是否会离网呢?算命总不行吧,我们有的是之前很多个月的用户数据,这些用户里面就有离网和非离网的用户,我们可以从以往的数据学习到一些经验,然后用这些经验来判断现在的用户是否会离网。
这里的“经验”也就是机器学习里面的“分类模型”,而现在让我判断的用户的指标数据就是模型的输入,模型根据这输入得出研判结果,即模型的输出。
我们先列出我们的建模框架:
这里面特征选择可以先不问,先看其他的部分。要强调的是“训练数据”就是我已经知道他是否离网的历史数据,而测试数据,是我假装我不知道,根据模型进行预测,然后我跟实际结果进行对比,看看我的准确率如何,这个准确率在一定程度上就说明了我的特征和模型的好坏。
训练集和测试集的划分
我们再用一张图来解释一下训练集和测试集的划分:我们在去年5-9月份的数据上提取特征(训练数据),这里我们提取5个月的特征,就是把5个30天的特征进行拼接,然后用这些用户在10月份11月份、以及12月份是否离网作为标签。
接下来,我们在去年7-12月份的数据上(测试数据)提取特征,用模型预测这些用户在去年的12月份和今年的1月份2月份是否会离网。
然后我们就可以用预测值和真实值进行对比,看看Precision和Recall了,还记得我们之前说的Precision和Recall吗?
接下俩我们来看看特征选择~
相关文章推荐
- 电网调度仿真
- 电力两票B/S图形系统的开发
- 时间序列数据挖掘综述
- 使用MATLAB和UML进行嵌入式开发---四轴飞行器室内定位及导航系统 开篇(一)
- 【P000-006】 指标数据模块——抽象
- 【P000-009】分析模块——四大类
- 数据整合和获取
- Petrel 2014 图形工作站应用方案
- 宽带离网用户分析(2) 数据预处理和特征抽取
- 宽带离网用户分析(1) 任务介绍
- UML建模相关文章收集
- 基于UML和ASP.NET实现三层B/S结构系统开发
- 基于知识的图文档建模(Knowledge-based Graph Document Modeling)
- visio用法小结
- UML类图于类之间的关系详解
- uml活动图
- EDEM软件简单介绍
- SolidWorks转3DMAX再到Unity3D的转换模型及单位设置
- SOLIDWORKS高效建模实例(七)
- SOLIDWORKS高效建模实例(六)