机器学习基础(四)LMS,代价函数的求解和概率意义
2015-01-26 14:52
246 查看
专门看一下代价函数的求解
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/0185fe07431dfa9b09604b75099a08d8)
参数求解:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/c2635400a2ff75c30ce2dbae4b0fbcb8)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/621e0f134d3f7c615d4c0761001823e9)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/eb7d91b631b035f3263723b6afabcc71)
上式这个更新公式就叫做LMS(least mean square)更新规则,也叫Widrow-Hoff学习规则。
这是一维的情况,我们可以拓展到多维的情况,由此得到两种不同的学习(迭代方法),即批处理梯度下降法和随机梯度下降法。
1.批处理梯度下降法(每次迭代都遍历所有样本,所欲样本遍历一遍再走第一步)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/adbae822a580d139eea9965d57306e91)
2.随机梯度下降法(走一步再走一步)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/38ffc4989f2ce70348ca3bf0d4723b80)
除了这种迭代法求解代价函数的最小值,还有一种normal equation的方法,现在来看一下数学推导:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/daa123124d8e8c4888dee6366b5f2d48)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/38fe893edab619637b02b060eb327057)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/65bb8ce22573b138f2368341d15b90fc)
但是为什么对于线性回归模型,最小平方代价函数是合理的呢?这是因为可以从概率的角度上解释(涉及到最大似然估计)
首先引入两个假设
1.目标值和输入值满足如下关系(线性关系),
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/b24367b28fc4047510912f98c4f73c3d)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/6839795a9f14d0fb27f49230d7ea054e)
可以理解为误差项或者噪声,也就是我们建模时没有考虑到的变量
2.
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/6839795a9f14d0fb27f49230d7ea054e)
是独立同分布,服从高斯分布,也就是说
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/1174736a48e33d8ef47d1285c8b4fc13)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/bc90fcc905fce41d5726b4342da32997)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/d148885a057f676e29a8e090a691d2a2)
p的意思是给定x和theta,我们可以知道y的分布,其中theta是参数,x,y都是随机变量。
那么这个条件概率是怎么和代价函数搭上关系的呢?
由独立同分布的假设,我们引入似然函数:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/6d2843a9cc649915df95e4cebc201e08)
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/0c21d6153a88fe5978eae3a63a7591ad)
我们可以理解为给定多组x,y,我们得到其分布函数,这个分布函数与theta的值有关。那么怎么样theta最合理呢呢?答案theta使得概率最大最合理。所以问题就等价于求似然函数的最大值.
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/baee17eee86e476d84709304767c1c0a)
等价于求以下函数的最小值:
![](https://oscdn.geek-share.com/Uploads/Images/Content/201501/126256e242b4403226a6af7f6235c51f)
参考资料:http://cs229.stanford.edu/notes/cs229-notes1.pdf
参数求解:
上式这个更新公式就叫做LMS(least mean square)更新规则,也叫Widrow-Hoff学习规则。
这是一维的情况,我们可以拓展到多维的情况,由此得到两种不同的学习(迭代方法),即批处理梯度下降法和随机梯度下降法。
1.批处理梯度下降法(每次迭代都遍历所有样本,所欲样本遍历一遍再走第一步)
2.随机梯度下降法(走一步再走一步)
除了这种迭代法求解代价函数的最小值,还有一种normal equation的方法,现在来看一下数学推导:
但是为什么对于线性回归模型,最小平方代价函数是合理的呢?这是因为可以从概率的角度上解释(涉及到最大似然估计)
首先引入两个假设
1.目标值和输入值满足如下关系(线性关系),
可以理解为误差项或者噪声,也就是我们建模时没有考虑到的变量
2.
是独立同分布,服从高斯分布,也就是说
p的意思是给定x和theta,我们可以知道y的分布,其中theta是参数,x,y都是随机变量。
那么这个条件概率是怎么和代价函数搭上关系的呢?
由独立同分布的假设,我们引入似然函数:
我们可以理解为给定多组x,y,我们得到其分布函数,这个分布函数与theta的值有关。那么怎么样theta最合理呢呢?答案theta使得概率最大最合理。所以问题就等价于求似然函数的最大值.
等价于求以下函数的最小值:
参考资料:http://cs229.stanford.edu/notes/cs229-notes1.pdf
相关文章推荐
- 机器学习基础(四)LMS,代价函数的求解和概率意义 分类: 机器学习 2015-01-26 14:52 114人阅读 评论(0) 收藏
- 【机器学习数学基础之概率论02】随机变量的分布函数及单值
- Andrew NG 机器学习听课笔记(2)——过学习与欠学习,最小二乘的概率意义、logistic回归
- 机器学习必备概率基础知识
- 机器学习数学基础(二)概率
- 机器学习中的代价函数
- 【机器学习】代价函数(cost function)
- Andrew NG 机器学习听课笔记(2)——过学习与欠学习,最小二乘的概率意义、logistic回归
- Machine Learning(Stanford)| 斯坦福大学机器学习笔记--第一周(3.代价函数直观理解)
- 机器学习:代价函数cost function
- 第一周-机器学习-代价函数_intuition
- 机器学习(一)- 数学基础之统计概率
- zoj 2539 Energy Minimization 【构建最小割模型求解 函数最值】【基础题】
- PRML Ch2: Probability Distributions 机器学习的概率基础
- 机器学习基础(四十八)—— 概率
- Python3基础 用 函数递归求解 一个数字的阶乘
- 机器学习基础(七)——sigmoid 函数的性质
- Machine Learning(Stanford)| 斯坦福大学机器学习笔记--第一周(3.代价函数直观理解)
- 机器学习-斯坦福课程系列2【代价函数】
- 机器学习知识总结:代价函数与经验风险、结构风险最小化