您的位置：首页 > 其它

宽带离网用户分析（3）建模框架

2015-08-03 11:54 246 查看

宽带离网用户分析之建模框架

　　在介绍了任务和数据的预处理方法以后，我们可以从宏观来看看我们的建模过程了。

建模框架

　　首先，我们得明确我们面对的是一个什么问题，稍微有一点数据挖掘知识的应该知道这是一个典型的二分类问题——给你一个用户，和他的数据，问你他会不会离网？

　　当然我们之前说过我们有一年的数据。

　　我们怎样判断该用户是否会离网呢？算命总不行吧，我们有的是之前很多个月的用户数据，这些用户里面就有离网和非离网的用户，我们可以从以往的数据学习到一些经验，然后用这些经验来判断现在的用户是否会离网。

　　这里的“经验”也就是机器学习里面的“分类模型”，而现在让我判断的用户的指标数据就是模型的输入，模型根据这输入得出研判结果，即模型的输出。

　　我们先列出我们的建模框架：

　　

　　这里面特征选择可以先不问，先看其他的部分。要强调的是“训练数据”就是我已经知道他是否离网的历史数据，而测试数据，是我假装我不知道，根据模型进行预测，然后我跟实际结果进行对比，看看我的准确率如何，这个准确率在一定程度上就说明了我的特征和模型的好坏。

训练集和测试集的划分

　　我们再用一张图来解释一下训练集和测试集的划分：

　　

　　我们在去年5-9月份的数据上提取特征（训练数据），这里我们提取5个月的特征，就是把5个30天的特征进行拼接，然后用这些用户在10月份11月份、以及12月份是否离网作为标签。

　　接下来，我们在去年7-12月份的数据上（测试数据）提取特征，用模型预测这些用户在去年的12月份和今年的1月份2月份是否会离网。

　　然后我们就可以用预测值和真实值进行对比，看看Precision和Recall了，还记得我们之前说的Precision和Recall吗？

　　接下俩我们来看看特征选择~

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 离网用户分析建模训练集测试集

相关文章推荐

新的分享

章节导航

宽带离网用户分析（3） 建模框架

宽带离网用户分析之建模框架

建模框架

训练集和测试集的划分

宽带离网用户分析（3）建模框架