您的位置:首页 > 其它

机器学习基础知识

2017-07-06 19:26 267 查看
深度学习是机器学习的一个分支。要想理解深度学习,必须对机器学习的基本原理有深刻的理解。





有监督学习(Supervised Learning):数据本身包含标签

无监督学习(Unsupervised Learning):数据无标签,但内部潜在结构可能不同



模型是什么

监督学习是要根据已知的数据集X和Y(标记)寻找出映射关系 f 。



样本(example):一个 feature 和对应的 label 数据构成一条样本(x,y)

数据集(dataset):所有样本一起构成一个数据集

如求下面一道填空题:



模型的能力:

①拟合:可以比较好的描述已有数据的映射关系(拟合fit).

②预测:对未知数据有预测能力(泛华generalization).

机器学习是什么

机器学习

从数据中产生模型

关键概念

假设函数(hypothesis function)

损失函数(cost function)

优化算法(梯度下降 gradient descent)

假设函数(hypothesis function)

用数学的方法描述自变量 x 和因变量 y 之间的关系





损失函数(cost function)

用数学的方法衡量假设函数预测结果与真实值之间的“误差”

MSE(mean square error)均方差损失函数

所有标记数据的 模型预测结果和真实值的差值的平方 的均值:





如果损失函数只有一个未知数 θ ,它是一个二次函数,有极小值,我们的目标就是找到θ使损失函数 J(θ) 达到最小

如果 J(θ0,θ1) 有两个未知参数,同样有极值点



实际情况 损失函数 有多个极值点



梯度下降算法(gradient descent)

问题:给定训练数据集和损失函数,希望找到对应的 θ 使得损失函数 J(θ) 最小。

分析:函数的极值点就是它的导数为0的那个点。

方法:人可以通过解方程算出极值点对应的 θ 。计算机不会解方程,但可以凭借强大的计算能力,一步一步迭代算出极值点。

随机找一个 θ ,不停迭代

如果起始点在右侧,偏导部分是整数,θ 会变小

如果起始点在左侧,偏导部分是负数,θ 会变大

最后逼近最佳 θ



α 为整数,是一个超参数(认为确定),设定有讲究



三种梯度下降优化框架



BGD vs SGD

SGD方向不确定,最终会在最优点附近跳动



总结:



机器学习:需要从模型理解,从数据理解,到算法设计,需要非常强的专业知识。

深度学习:将模型和算法解耦,算法标准化,模型可以改变和搭建,极大释放了生产力,可以让更多人参与进来,尝试跟多复杂模型。模型本身的组件化。

深度学习的网络结构和数据特性和问题特性是非常匹配的。如,CNN卷积神经网络,其实是一个局部的卷积窗,卷积窗在移动的时候参数共享,其实代表了图像的平移不变性。物体识别是局部的,这是邻域性。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: