机器学习基础知识
2017-07-06 19:26
267 查看
深度学习是机器学习的一个分支。要想理解深度学习,必须对机器学习的基本原理有深刻的理解。
有监督学习(Supervised Learning):数据本身包含标签
无监督学习(Unsupervised Learning):数据无标签,但内部潜在结构可能不同
模型是什么
监督学习是要根据已知的数据集X和Y(标记)寻找出映射关系 f 。
样本(example):一个 feature 和对应的 label 数据构成一条样本(x,y)
数据集(dataset):所有样本一起构成一个数据集
如求下面一道填空题:
模型的能力:
①拟合:可以比较好的描述已有数据的映射关系(拟合fit).
②预测:对未知数据有预测能力(泛华generalization).
机器学习是什么
机器学习
从数据中产生模型
关键概念
假设函数(hypothesis function)
损失函数(cost function)
优化算法(梯度下降 gradient descent)
假设函数(hypothesis function)
用数学的方法描述自变量 x 和因变量 y 之间的关系
如
损失函数(cost function)
用数学的方法衡量假设函数预测结果与真实值之间的“误差”
MSE(mean square error)均方差损失函数
所有标记数据的 模型预测结果和真实值的差值的平方 的均值:
如果损失函数只有一个未知数 θ ,它是一个二次函数,有极小值,我们的目标就是找到θ使损失函数 J(θ) 达到最小
如果 J(θ0,θ1) 有两个未知参数,同样有极值点
实际情况 损失函数 有多个极值点
梯度下降算法(gradient descent)
问题:给定训练数据集和损失函数,希望找到对应的 θ 使得损失函数 J(θ) 最小。
分析:函数的极值点就是它的导数为0的那个点。
方法:人可以通过解方程算出极值点对应的 θ 。计算机不会解方程,但可以凭借强大的计算能力,一步一步迭代算出极值点。
随机找一个 θ ,不停迭代
如果起始点在右侧,偏导部分是整数,θ 会变小
如果起始点在左侧,偏导部分是负数,θ 会变大
最后逼近最佳 θ
α 为整数,是一个超参数(认为确定),设定有讲究
三种梯度下降优化框架
BGD vs SGD
SGD方向不确定,最终会在最优点附近跳动
总结:
机器学习:需要从模型理解,从数据理解,到算法设计,需要非常强的专业知识。
深度学习:将模型和算法解耦,算法标准化,模型可以改变和搭建,极大释放了生产力,可以让更多人参与进来,尝试跟多复杂模型。模型本身的组件化。
深度学习的网络结构和数据特性和问题特性是非常匹配的。如,CNN卷积神经网络,其实是一个局部的卷积窗,卷积窗在移动的时候参数共享,其实代表了图像的平移不变性。物体识别是局部的,这是邻域性。
有监督学习(Supervised Learning):数据本身包含标签
无监督学习(Unsupervised Learning):数据无标签,但内部潜在结构可能不同
模型是什么
监督学习是要根据已知的数据集X和Y(标记)寻找出映射关系 f 。
样本(example):一个 feature 和对应的 label 数据构成一条样本(x,y)
数据集(dataset):所有样本一起构成一个数据集
如求下面一道填空题:
模型的能力:
①拟合:可以比较好的描述已有数据的映射关系(拟合fit).
②预测:对未知数据有预测能力(泛华generalization).
机器学习是什么
机器学习
从数据中产生模型
关键概念
假设函数(hypothesis function)
损失函数(cost function)
优化算法(梯度下降 gradient descent)
假设函数(hypothesis function)
用数学的方法描述自变量 x 和因变量 y 之间的关系
如
损失函数(cost function)
用数学的方法衡量假设函数预测结果与真实值之间的“误差”
MSE(mean square error)均方差损失函数
所有标记数据的 模型预测结果和真实值的差值的平方 的均值:
如果损失函数只有一个未知数 θ ,它是一个二次函数,有极小值,我们的目标就是找到θ使损失函数 J(θ) 达到最小
如果 J(θ0,θ1) 有两个未知参数,同样有极值点
实际情况 损失函数 有多个极值点
梯度下降算法(gradient descent)
问题:给定训练数据集和损失函数,希望找到对应的 θ 使得损失函数 J(θ) 最小。
分析:函数的极值点就是它的导数为0的那个点。
方法:人可以通过解方程算出极值点对应的 θ 。计算机不会解方程,但可以凭借强大的计算能力,一步一步迭代算出极值点。
随机找一个 θ ,不停迭代
如果起始点在右侧,偏导部分是整数,θ 会变小
如果起始点在左侧,偏导部分是负数,θ 会变大
最后逼近最佳 θ
α 为整数,是一个超参数(认为确定),设定有讲究
三种梯度下降优化框架
BGD vs SGD
SGD方向不确定,最终会在最优点附近跳动
总结:
机器学习:需要从模型理解,从数据理解,到算法设计,需要非常强的专业知识。
深度学习:将模型和算法解耦,算法标准化,模型可以改变和搭建,极大释放了生产力,可以让更多人参与进来,尝试跟多复杂模型。模型本身的组件化。
深度学习的网络结构和数据特性和问题特性是非常匹配的。如,CNN卷积神经网络,其实是一个局部的卷积窗,卷积窗在移动的时候参数共享,其实代表了图像的平移不变性。物体识别是局部的,这是邻域性。
相关文章推荐
- 机器学习---基础知识
- 机器学习基础知识
- 机器学习基础知识(一)
- 机器学习的基础知识
- 机器学习基础---概率论基础知识
- 看懂论文的机器学习基础知识(一)
- 机器学习(K-近邻算法)Python的基础知识
- 机器学习知识点(十九)矩阵特征值分解基础知识及Java实现
- 机器学习之由wavenet涉及到的基础知识(补充下学习ing)
- 机器学习知识点(二十二)高斯分布(正态分布)基础知识
- 机器学习基础知识
- 机器学习--基础知识复习(模式识别,成本函数)
- 【机器学习】个人基础知识梳理
- 机器学习知识体系 - 神经网络(基础)
- 机器学习基础知识之矩阵
- 【Numpy】python机器学习包Numpy基础知识学习
- 机器学习---第七讲---聚类的基础知识
- 机器学习之基础知识
- 机器学习知识点(二十)矩阵奇异值分解基础知识及Java实现
- 一 、机器学习基础知识(转载)