您的位置:首页 > 其它

《机器学习》(Machine Learning)——Andrew Ng 斯坦福大学公开课学习笔记(一)

2015-08-05 16:24 477 查看
看到蘑菇街招聘的一个加分项是学过Andrew Ng的机器学习课程,于是找来看了下目录,大多数内容之前在PRML中有接触过,研究生课程智能信息处理中也有接触,但觉得不够系统,于是按斯坦福的公开课课表过一遍,有个完整的框架。

————————————————————————————

第1集 机器学习的动机与应用

Arthur Samuel(1959)

Machine Learning:Field of study that gives computers the ability to learn without being explicitly programmed.

什么是机器学习?

不是显式地编程,而是给机器学习的能力。

Tom Mitchell(1998)

Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance onT ,as measured by P,improves with eaperience E.

给出任务T,让机器去做,给出一个评价P,从经验E进行学习

简要讲了:

监督学习:给出训练集,输入x_i,对应有标签y_i,求x和y之间的关系 (回归是对连续变量,分类是对离散变量)

无监督学习:给出数据集,根据数据间的关系,分类

强化学习:给出数据集,去做任务,做的好会奖励,做的不好会惩罚,会逐渐学习出其中的经验,进行改进

(例子比较生动,易理解)

————————————————————————————————

第2集 监督学习应用梯度下降

监督学习的公式化表达

如何求解最优或近似最优的参数?转化为求解最小代价函数

(1)梯度下降方法

梯度下降:从起始点开始,选择移动一小步使得数值减小,所以是沿着梯度下降的方向移动, 接近最小时,梯度越来越小,步子越来越小。在最小值时,梯度为0。该方法依赖于选取的初始值,易陷入局部最小值。

不过对于凸函数,之存在一个最小值(极小值),所以使用梯度下降可以实现。

如何知道到达最小了或者说收敛了?两次迭代不再变化,或者变化量小于一定值

LMS(Least mean squares) update rule:

batch gradient descent:每次遍历所有训练数据 不适合大数据集



stochastic gradient descent(also incremental gradient descent):每次使用第j数据,更新参数,一直更新;可能是在徘最小值周围徘徊,但是达不到最小,也可能达到最小



(2)使用矩阵计算(The normal equations)



推理的结果是:

使代价函数达到最小的参数值

(note1 page11)



————————————————————————————————

第1-2集 对应 note1 page1-11(在网易公开课上下载)

网易公开课(http://open.163.com/special/opencourse/machinelearning.html)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: