《机器学习》(Machine Learning)——Andrew Ng 斯坦福大学公开课学习笔记(一)
2015-08-05 16:24
477 查看
看到蘑菇街招聘的一个加分项是学过Andrew Ng的机器学习课程,于是找来看了下目录,大多数内容之前在PRML中有接触过,研究生课程智能信息处理中也有接触,但觉得不够系统,于是按斯坦福的公开课课表过一遍,有个完整的框架。
————————————————————————————
第1集 机器学习的动机与应用
Arthur Samuel(1959)
Machine Learning:Field of study that gives computers the ability to learn without being explicitly programmed.
什么是机器学习?
不是显式地编程,而是给机器学习的能力。
Tom Mitchell(1998)
Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance onT ,as measured by P,improves with eaperience E.
给出任务T,让机器去做,给出一个评价P,从经验E进行学习
简要讲了:
监督学习:给出训练集,输入x_i,对应有标签y_i,求x和y之间的关系 (回归是对连续变量,分类是对离散变量)
无监督学习:给出数据集,根据数据间的关系,分类
强化学习:给出数据集,去做任务,做的好会奖励,做的不好会惩罚,会逐渐学习出其中的经验,进行改进
(例子比较生动,易理解)
————————————————————————————————
第2集 监督学习应用梯度下降
监督学习的公式化表达
如何求解最优或近似最优的参数?转化为求解最小代价函数
(1)梯度下降方法
梯度下降:从起始点开始,选择移动一小步使得数值减小,所以是沿着梯度下降的方向移动, 接近最小时,梯度越来越小,步子越来越小。在最小值时,梯度为0。该方法依赖于选取的初始值,易陷入局部最小值。
不过对于凸函数,之存在一个最小值(极小值),所以使用梯度下降可以实现。
如何知道到达最小了或者说收敛了?两次迭代不再变化,或者变化量小于一定值
LMS(Least mean squares) update rule:
batch gradient descent:每次遍历所有训练数据 不适合大数据集
![](http://img.blog.csdn.net/20150805210403882?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
stochastic gradient descent(also incremental gradient descent):每次使用第j数据,更新参数,一直更新;可能是在徘最小值周围徘徊,但是达不到最小,也可能达到最小
![](http://img.blog.csdn.net/20150805210418577?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
(2)使用矩阵计算(The normal equations)
![](http://img.blog.csdn.net/20150805205757166?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
推理的结果是:
使代价函数达到最小的参数值
(note1 page11)
![](http://img.blog.csdn.net/20150805205951146?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
————————————————————————————————
第1-2集 对应 note1 page1-11(在网易公开课上下载)
网易公开课(http://open.163.com/special/opencourse/machinelearning.html)
————————————————————————————
第1集 机器学习的动机与应用
Arthur Samuel(1959)
Machine Learning:Field of study that gives computers the ability to learn without being explicitly programmed.
什么是机器学习?
不是显式地编程,而是给机器学习的能力。
Tom Mitchell(1998)
Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance onT ,as measured by P,improves with eaperience E.
给出任务T,让机器去做,给出一个评价P,从经验E进行学习
简要讲了:
监督学习:给出训练集,输入x_i,对应有标签y_i,求x和y之间的关系 (回归是对连续变量,分类是对离散变量)
无监督学习:给出数据集,根据数据间的关系,分类
强化学习:给出数据集,去做任务,做的好会奖励,做的不好会惩罚,会逐渐学习出其中的经验,进行改进
(例子比较生动,易理解)
————————————————————————————————
第2集 监督学习应用梯度下降
监督学习的公式化表达
如何求解最优或近似最优的参数?转化为求解最小代价函数
(1)梯度下降方法
梯度下降:从起始点开始,选择移动一小步使得数值减小,所以是沿着梯度下降的方向移动, 接近最小时,梯度越来越小,步子越来越小。在最小值时,梯度为0。该方法依赖于选取的初始值,易陷入局部最小值。
不过对于凸函数,之存在一个最小值(极小值),所以使用梯度下降可以实现。
如何知道到达最小了或者说收敛了?两次迭代不再变化,或者变化量小于一定值
LMS(Least mean squares) update rule:
batch gradient descent:每次遍历所有训练数据 不适合大数据集
stochastic gradient descent(also incremental gradient descent):每次使用第j数据,更新参数,一直更新;可能是在徘最小值周围徘徊,但是达不到最小,也可能达到最小
(2)使用矩阵计算(The normal equations)
推理的结果是:
使代价函数达到最小的参数值
(note1 page11)
————————————————————————————————
第1-2集 对应 note1 page1-11(在网易公开课上下载)
网易公开课(http://open.163.com/special/opencourse/machinelearning.html)
相关文章推荐
- 苹果
- 如何配置多个ssh key
- Selenium中的几种等待方式,需特别注意implicitlyWait的用法
- php mysql注入攻击解决方案
- Volume serial number could associate file existence on certain volume
- HDOJ1171(多重背包)
- Hardwood Species 分类: POJ 树 2015-08-05 16:24 2人阅读 评论(0) 收藏
- 所给数的N次方的阶乘的和
- 【HNOI2008】玩具装箱(toy)-斜率优化入门
- POJ--1321棋盘问题
- 反射机制
- Android垃圾回收机制
- Java枚举测试
- epoll机制:epoll_create、epoll_ctl、epoll_wait、close
- UVA 10098 Generating Fast
- 华为OJ刷题(字符排序)
- Android--SparseArray<E>详细介绍
- ubuntu 14.04配置jdk1.7以及tomcat7
- 在android输入框中判断是否有Emoji表情
- Leetcode40 Combination Sum II