正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
2014-09-04 18:58
387 查看
数据整体服从正态分布,那样本均值和方差则相互独立。正太分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。
ML中很多model都假设数据或参数服从正态分布,但是如果数据不服从正态分布怎么办?搜罗到这篇文章:http://udel.edu/~mcdonald/stattransform.html,是关于处理生物领域数据的handbook,很不错,里面用data transformations 方式来解决数据分布的这个问题。这里列举两种,有兴趣的可以看链接文章或继续搜索文章来研究。(希望哪个网友搜罗到好文章也给俺分享下)
data transformations步骤如下,
(1)首先根据数据样本画出均值和方差曲线
(2)如果均值和方差不相关,则不需要转换
(3)如果方差正比于均值,则进行square root transformation转换
(4)如果标准差正比于均值,则进行logarithmic transformation转换
检验数据正态性的方法有几大类,其中最为直观计算量也最小的就是图示法,里面有QQ图(分位数图)(@敲代码的张洋
说这个是最屌丝的方法,哈哈)、PP图(百分位数图)、SP图(稳定化概率图)。先不深入研究了,用到了再好好研究下吧。
ML中很多model都假设数据或参数服从正态分布,但是如果数据不服从正态分布怎么办?搜罗到这篇文章:http://udel.edu/~mcdonald/stattransform.html,是关于处理生物领域数据的handbook,很不错,里面用data transformations 方式来解决数据分布的这个问题。这里列举两种,有兴趣的可以看链接文章或继续搜索文章来研究。(希望哪个网友搜罗到好文章也给俺分享下)
data transformations步骤如下,
(1)首先根据数据样本画出均值和方差曲线
(2)如果均值和方差不相关,则不需要转换
(3)如果方差正比于均值,则进行square root transformation转换
(4)如果标准差正比于均值,则进行logarithmic transformation转换
检验数据正态性的方法有几大类,其中最为直观计算量也最小的就是图示法,里面有QQ图(分位数图)(@敲代码的张洋
说这个是最屌丝的方法,哈哈)、PP图(百分位数图)、SP图(稳定化概率图)。先不深入研究了,用到了再好好研究下吧。
相关文章推荐
- 正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
- 正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?
- 如果数据表或字段名是SQL关键字怎么办
- 如果你喜欢的女孩有了男朋友,但她男朋友比你差很多,怎么办?
- 执行数据库查询时,如果要查询的数据有很多,假设有1000万条,用什么办法可以提高查询速率?在数据库方面或java代码方面有什么优化的方法
- 如果两个对象具有相同的哈希码,但是不相等的,它们可以在HashMap中同时存在吗?
- [调查问卷]如果对一个男性/女性 比较有好感,希望和他/她做好朋友,但是他/她 似乎不怎么肯理你,该怎么办?
- 如果你参与到一个项目中,发现他们使用 Tab 来缩进代码,但是你喜欢空格,你会怎么做?
- mvc3 怎么传递非 模型 数据 给post方法
- 在项目中用到datatables比较多,但是当datatables加载超过1000多的时候就会出现有点缓慢的的样子,这个时候如果继续增加数据量让datatables去处理,那会是一个让人抓狂的事情,幸
- 如果你参与到一个项目中,发现他们使用 Tab 来缩进代码,但是你喜欢空格,你会怎么做?
- 我想在windows下移植一个tcp/ip协议栈,所以我要直接操作网卡来发送数据,但是怎么操作呢?
- 一点不同的地方,但是同时有个疑问,如果需要空格怎么办
- 接收一组数据 形式%d%s%d ,其中%s可以由1个或2个字符组成,如果同时接受,怎么做?
- 如果两个对象具有相同的哈希码,但是不相等的,它们可以在HashMap中同时存在吗?
- 我删除了很多数据但是数据库文件并没有减小,是不是 Bug
- datable添加列实现了.但是怎么把数据绑定到这个列中?????
- 在RB-INSERT的第16行中,假设新插入的结点z是红色的。注意如果将z着为黑色,则在红黑树的性质4)就不会被破坏。那么我们为什么没有选择将z着为黑色呢?
- 这个当单片机程序怎么会不停的通过串口发数据,设置波特率为9600,但是串口软件接受数据不对(初学者,请高手指教)
- 浅谈C++中指针和引用的区别 指针和引用在C++中很常用,但是对于它们之间的区别很多初学者都不是太熟悉,下面来谈谈他们2者之间的区别和用法。 1.指针和引用的定义和性质区别: (1)指针:指针是一