大白话讲解ROC曲线
2015-06-29 14:07
274 查看
前言:本文用大白话和最简单的案例来解释ROC曲线及部分应用,如有任何问题或错误欢迎各位留言~~
一、随机选取用户营销的解释(随机线)
![](http://img.blog.csdn.net/20150629140521779?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbDE4OTMwNzM4ODg3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
横轴:营销用户数(假设有1000万用户数手机号)
纵轴:有响应的用户数(假设如果1000万全部发短信营销,最高会有100万人响应)
即总体响应的用户数占营销用户数的10%。
如果我们随机抽取营销用户数做短信营销时,得到结果应该接近于总体概率。即:
计算机根据相应的点形成随即抽取曲线,即为未做模型的情况下随机生成的用户营销数据输入输出的对应折线。
![](http://img.blog.csdn.net/20150629140553101?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbDE4OTMwNzM4ODg3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
二、模型线解释
通常计算机通过用户的信息(如地理位置,收入情况,访问网站产品的行为),进而判断哪些人更可能对短信进行响应,依次排序,把可能性高的用户排在最前面先进行营销。然后得到以下数据:
计算机根据相应的点形成模型响应曲线
![](http://img.blog.csdn.net/20150629140614791?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbDE4OTMwNzM4ODg3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
如果我们要向1000万人全部发送短信营销时,模型与随机线没有区别.
如果我们只有营销500万人次的短信成本时,采用模型线即可让我们的效率比随机抽样大幅度提高。随机响应50万人,模型响应80万人。
这也就是为什么我们要用模型去做营销。
总结ROC曲线的用处:
用来判断模型的好坏,ROC是一个非常重要的指标。曲线越是靠向左上角,那么模型对于业务也就更有用处。
接下来的问题是:
我们怎么去把这个模型曲线做得好呢?答案就是用准确的字段及算法.
对于计算机我们给予它相关的字段信息及算法时,它就能做出相应的预测。关于字段选取及算法选取请看其他相关文章~~
一、随机选取用户营销的解释(随机线)
横轴:营销用户数(假设有1000万用户数手机号)
纵轴:有响应的用户数(假设如果1000万全部发短信营销,最高会有100万人响应)
即总体响应的用户数占营销用户数的10%。
如果我们随机抽取营销用户数做短信营销时,得到结果应该接近于总体概率。即:
营销人数(万) | 随机响应人数(万) |
0 | 0 |
200 | 20 |
400 | 40 |
600 | 60 |
800 | 80 |
1000 | 100 |
计算机根据相应的点形成随即抽取曲线,即为未做模型的情况下随机生成的用户营销数据输入输出的对应折线。
二、模型线解释
通常计算机通过用户的信息(如地理位置,收入情况,访问网站产品的行为),进而判断哪些人更可能对短信进行响应,依次排序,把可能性高的用户排在最前面先进行营销。然后得到以下数据:
营销人数(万) | 随机响应人数(万) | 模型响应人数(万) |
0 | 0 | 0 |
200 | 20 | 30 |
400 | 40 | 55 |
600 | 60 | 70 |
800 | 80 | 90 |
1000 | 100 | 100 |
如果我们要向1000万人全部发送短信营销时,模型与随机线没有区别.
如果我们只有营销500万人次的短信成本时,采用模型线即可让我们的效率比随机抽样大幅度提高。随机响应50万人,模型响应80万人。
这也就是为什么我们要用模型去做营销。
总结ROC曲线的用处:
用来判断模型的好坏,ROC是一个非常重要的指标。曲线越是靠向左上角,那么模型对于业务也就更有用处。
接下来的问题是:
我们怎么去把这个模型曲线做得好呢?答案就是用准确的字段及算法.
对于计算机我们给予它相关的字段信息及算法时,它就能做出相应的预测。关于字段选取及算法选取请看其他相关文章~~