您的位置:首页 > 其它

机器学习中要用到的数学知识之统计学(二)

2018-03-24 15:39 274 查看
1.计算总体方差的更快计算公式:推导如下(Word里编写数学式实在是费力,我只好在纸上操作了)



2.随机变量-->区别于数学意义上的变量
用大写字母X,用于量化一个随机过程eg:
 a.明天是否会下雨
 X只有两种取值情况,为0,下雨;为1  不下雨 b.抛硬币
 同上 ,0  正面; 1 方面 c.掷骰子
 这里的X取值情况就有六种 从0 到5(六面)
上面三种情况都是属于离散的随机变量,所以可以得出,离散随机变量是可以枚举出的
反之,连续随机变量是不可以枚举出的如下雨的雨量大小。3.概率分布
eg:掷骰子,抛到每个面的概率大小都是六分之一
所以这种模型就是一种等可能的概率分布(当然从物理学的角度来看,其实抛到每个面的概率并不是等可能的,这里我就不过多解释,以免产生干扰)4.概率密度函数它的本质是一个定积分函数,数学中的定积分就是求面积的,某一确定事件的概率就是对定积分函数的某点进行求值。它与概率分布函数不是同一个东西,一定要理解清楚。

5.二项分布(概率分布)
eg:同时抛5枚硬币
X  为1 正面; 为0 反面
它的二项分布如下:
 P(X=0)=(1/2)^5     全反面
 P(X=1)=5*(1/2)^5  一个正面  (为啥乘以5不用我解释了吧,不懂就移步排列组合)
 P(X=2)=10*(1/2)^5  两个正面
 P(X=3)=10*(1/2)^5  三个正面
 P(X=4)=5*(1/2)^5   四个正面
 P(X=5)=(1/2)^5     全正面这个二项分布的条形图如下



那条红色的线是我自己添加的(自行脑补成一条平滑的抛物线吧),可以看到二项分布是趋于针型曲线的,这里是离散的情况
当另一个模型数据集的概率分布如红线那般这就是个就是一个正态分布(后面应该会介绍正态分布)综上:离散概率分布就是二项分布,连续概率分布就是正态分布
6.期望值-->当样本总体趋于无穷大时(比如抛硬币,理论上我可以抛无数次),这个趋于无穷总体的均值就是期望值


语言功底有限,希望能理解
7.二项分布的期望值
公式:E(x)=n*P
eg:x表示投篮进框的事件,假设投中概率为0.4,一共投10次,则根据二项分布公式E=10*0.4=4,则说明投进的次数期望值为4公式推导如下图:


PS:希望能看懂吧,我已经很努力了,都不想写关于数学这部分的内容了,在Word上输个计算式真是要命,结果拷贝还拷贝不出来,o(╥﹏╥)o
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: