Statistical learning Week 1 什么是统计学习?
2016-12-07 22:30
281 查看
2016-10-14
with Applications in R》,老师上课的PPT也是从上面下载的。刚开始老师还加了很多自己的东西,后来可能觉得我们太笨了,所以就按部就班讲了 :happy
一开始还要求上课前尽可能预习,从第二周开始没人预习后,老师就再也不提了。
书中R语言部分并没有讲,自己也没有学习。
为什么要估计f?
怎样估计f?
预测正确率与模型复杂度之间的衡量
监督性学习与非监督性学习
回归与分类问题
下面的blog刚开始看,讲的啥玩意,我只想看看矩阵最基本的定义,看完觉得啊~~原来如此~~~~~(作为扩展了解)
http://blog.csdn.net/myan/article/details/647511
http://blog.csdn.net/myan/article/details/649018
2016-10-15
作者:andrew shen
链接:https://www.zhihu.com/question/20695804/answer/43265860
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
感兴趣的话可以仔细看看这个知乎问答,也就是说一阶张量是向量,二阶张量是矩阵等等(我可能只理解到了这。。。)
n 表示不同数据点或样本中观测点(observation)的个数
p 表示用于预测的变量(variable)个数
xij 代表第i个观测值的第j个变量值
X 代表矩阵
An observation x
An example (x,y)
A sample (x1,y1),...(xn,yn)
Yi=f(Xi)+ϵi
其中f是一个未知的函数,ϵ是一个随机误差,与X独立且均值为0.
实际上,统计学习时关于 估计f 的一系列方法。
函数f的不同与标准差 ϵ 有关。
2016/10/17
数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。
也就是说, 期望 就是在多次实验之后,你预期的结果。而不是你下一次,或者某次实验的结果。
Q:数学期望与经验?
分布函数与概率密度函数
从数学上看,分布函数F(x)=P(X<x),表示随机变量X的值小于x的概率。
概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域△x,那么,随机变量X落在(x,x+△x)内的概率约为f(x)△x,即P(x<X<x+△x)≈f(x)△x。
换句话说,概率密度f(x)是X落在x处“单位宽度”内的概率。“密度”一词可以由此理解。
以下来自https://www.zhihu.com/question/36853661
假设有一元随机变量X。
如果是连续型随机变量,那么可以定义它的 概率密度函数 (probability density function, PDF),有时简称为密度函数。
我们用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即。
Pr(a≤X≤b)=∫bafX(x)dx
如果X是离散型随机变量,那么可以定义它的 概率质量函数(probability mass function, PMF)fX(x)。
与连续型随机变量不同,这里的PMF其实就是高中所学的离散型随机变量的分布律,即fX(x)=Pr(X−x)。
比如对于掷一枚均匀硬币,如果正面令X=1,如果反面令X=0,那么它的PMF就是。
fX(x)={1/2,0,if n ∈ {0,1}if n ∉ {0,1}
不管X是什么类型(连续/离散/其他)的随机变量,都可以定义它的 累积分布函数(cumulative distribution function ,CDF),有时简称为 分布函数 。
CDF的定义是:FX(x)=Pr(X≤x)。
对于连续型随机变量,显然有FX(x)=Pr(X≤x)=∫x−∞fX(t)dt,那么CDF就是PDF的积分,PDF就是CDF的导数。
对于离散型随机变量,其CDF是阶梯状的分段函数,比如举例中的掷硬币随机变量,它的CDF如下
。
FX(x)=Pr(X≤x)=⎧⎩⎨0,1/2,1.if x < 0if 0 ≤ x < 1if x ≥ 1
另外CDF的单调递增(不减)性质可以由它的定义和概率的性质推出,因为对任意x1<x2,总有Pr(X≤x1)≤Pr(X≤x2),所以FX(x1)≤FX(x2)。
2016/10/18
期望与标准差
对于一个随机变量X,它的 期望 (Espectation)
E(X)=μ
此时,它的 标准差(Standart Deviation)为
σ=E[(X−μ)2]−−−−−−−−−−√
为什么要估计f ?
两个原因:
预测是指结果预测,推断是指推断输入与结果之间的关系。
简单模型可解释性更高
对于预测来说,简单模型相比复杂模型更可能得到高的正确率(这是指过拟合吧)
无监督学习 就是指没有标签的,即只有Xi。常见的方法是聚类。
变量可以被归类为定量(quantitative)和定性(qualitative)。定量变量呈现数值性。定性变量就是指分类问题。一般将变量为定性的问题称为 回归问题 ,而定量的称为 分类问题 。
回归问题是指结果Y是连续的(continuous),分类问题的结果是不连续的(categorical)。
关于这门课
这门课使用的教材主要是《An Introduction to Statistical Learningwith Applications in R》,老师上课的PPT也是从上面下载的。刚开始老师还加了很多自己的东西,后来可能觉得我们太笨了,所以就按部就班讲了 :happy
一开始还要求上课前尽可能预习,从第二周开始没人预习后,老师就再也不提了。
书中R语言部分并没有讲,自己也没有学习。
Week1 什么是统计学习?
宽泛的讲,统计学习(Statistical Learning)是指为了理解数据而创造的一系列工具集。Outline
什么是统计学习?为什么要估计f?
怎样估计f?
预测正确率与模型复杂度之间的衡量
监督性学习与非监督性学习
回归与分类问题
什么叫矩阵(Matrix)?
在网上搜,五花八门,但是一般意义理解的 矩阵就是由方程组的系数及常数所构成的方阵。 在数学名词中,矩阵用来表示统计数据等方面的各种有关联的数据。 矩阵的意义是线性变换 , 相似矩阵是同一个线性变换在不同的基下的表示.下面的blog刚开始看,讲的啥玩意,我只想看看矩阵最基本的定义,看完觉得啊~~原来如此~~~~~(作为扩展了解)
http://blog.csdn.net/myan/article/details/647511
http://blog.csdn.net/myan/article/details/649018
2016-10-15
什么叫张量(Tensor)?
张量的概念是 G.Ricci 在19世纪末提出的. G.Ricci 研究张量的目的是为几何性质和物理规律的表达寻求一种在坐标变换下不变的形式. 他所考虑的张量是如同向量的分量那样的数组, 要求它们在坐标变换下服从某种线性变换的规律. 近代的理论已经把张量叙述成向量空间及其对偶空间上的多重线性函数, 但是用分量表示张量仍有它的重要性, 尤其是涉及张量的计算时更是如此.作者:andrew shen
链接:https://www.zhihu.com/question/20695804/answer/43265860
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
感兴趣的话可以仔细看看这个知乎问答,也就是说一阶张量是向量,二阶张量是矩阵等等(我可能只理解到了这。。。)
记号Notation
此处的记号表示,即为书中的表示方式。大概了解下就好。n 表示不同数据点或样本中观测点(observation)的个数
p 表示用于预测的变量(variable)个数
xij 代表第i个观测值的第j个变量值
X 代表矩阵
An observation x
An example (x,y)
A sample (x1,y1),...(xn,yn)
什么是统计学习?
假设有观测点 Yi 和 Xi=(Xij,...,Xip) ,其中 i=1,...,n 。我们相信Y 和至少一个X 中存在着一种关系(relationship)。建模如下:Yi=f(Xi)+ϵi
其中f是一个未知的函数,ϵ是一个随机误差,与X独立且均值为0.
实际上,统计学习时关于 估计f 的一系列方法。
函数f的不同与标准差 ϵ 有关。
2016/10/17
为什么要估计f?
什么是期望?数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。
也就是说, 期望 就是在多次实验之后,你预期的结果。而不是你下一次,或者某次实验的结果。
Q:数学期望与经验?
分布函数与概率密度函数
从数学上看,分布函数F(x)=P(X<x),表示随机变量X的值小于x的概率。
概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域△x,那么,随机变量X落在(x,x+△x)内的概率约为f(x)△x,即P(x<X<x+△x)≈f(x)△x。
换句话说,概率密度f(x)是X落在x处“单位宽度”内的概率。“密度”一词可以由此理解。
以下来自https://www.zhihu.com/question/36853661
假设有一元随机变量X。
如果是连续型随机变量,那么可以定义它的 概率密度函数 (probability density function, PDF),有时简称为密度函数。
我们用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即。
Pr(a≤X≤b)=∫bafX(x)dx
如果X是离散型随机变量,那么可以定义它的 概率质量函数(probability mass function, PMF)fX(x)。
与连续型随机变量不同,这里的PMF其实就是高中所学的离散型随机变量的分布律,即fX(x)=Pr(X−x)。
比如对于掷一枚均匀硬币,如果正面令X=1,如果反面令X=0,那么它的PMF就是。
fX(x)={1/2,0,if n ∈ {0,1}if n ∉ {0,1}
不管X是什么类型(连续/离散/其他)的随机变量,都可以定义它的 累积分布函数(cumulative distribution function ,CDF),有时简称为 分布函数 。
CDF的定义是:FX(x)=Pr(X≤x)。
对于连续型随机变量,显然有FX(x)=Pr(X≤x)=∫x−∞fX(t)dt,那么CDF就是PDF的积分,PDF就是CDF的导数。
对于离散型随机变量,其CDF是阶梯状的分段函数,比如举例中的掷硬币随机变量,它的CDF如下
。
FX(x)=Pr(X≤x)=⎧⎩⎨0,1/2,1.if x < 0if 0 ≤ x < 1if x ≥ 1
另外CDF的单调递增(不减)性质可以由它的定义和概率的性质推出,因为对任意x1<x2,总有Pr(X≤x1)≤Pr(X≤x2),所以FX(x1)≤FX(x2)。
2016/10/18
期望与标准差
对于一个随机变量X,它的 期望 (Espectation)
E(X)=μ
此时,它的 标准差(Standart Deviation)为
σ=E[(X−μ)2]−−−−−−−−−−√
为什么要估计f ?
两个原因:
- 预测Predicition - 推断inference
预测是指结果预测,推断是指推断输入与结果之间的关系。
怎样估计f?
统计学习中估计f的方法有两种:- 参数方法 参数方法将估计函数$f$的问题转化为估计一系列参数。基于一些模型估计。分为两步: 1. 假设模型 2. 学习参数 - 非参数方法 非参数方法从数据出发,用数据来接近函数$f$
预测正确率与模型解释性之间的衡量
为什么不使用复杂模型来估计简单模型可解释性更高
对于预测来说,简单模型相比复杂模型更可能得到高的正确率(这是指过拟合吧)
监督性学习与非监督性学习
监督性学习 就是指含有标签的,即每个Xi都有一个对应的Yi。无监督学习 就是指没有标签的,即只有Xi。常见的方法是聚类。
回归与分类问题
监督性学习问题又可以进一步的分为回归和分类问题。变量可以被归类为定量(quantitative)和定性(qualitative)。定量变量呈现数值性。定性变量就是指分类问题。一般将变量为定性的问题称为 回归问题 ,而定量的称为 分类问题 。
回归问题是指结果Y是连续的(continuous),分类问题的结果是不连续的(categorical)。
相关文章推荐
- 为什么统计学家应该关注数据挖掘
- 最小二乘法
- 统计学习(一)--统计学习的定义及常识
- 统计学原理----走出平均数理解上的误区
- SAS软件的使用和统计学分析的初步介绍
- 基于个人选择的一点想法
- 美国纽约留学的日子
- 读 统计学习方法 摘要
- mysql统计用户七日留存存储过程
- 初学MCMC(Markov Chain Monte Carlo)
- 初学MCMC(Markov Chain Monte Carlo)
- 生物&统计学词汇解释
- 统计学习-4
- 统计学习-3
- 统计学习-2
- 协方差矩阵
- 聚类算法总结
- R在开放数据的应用
- scikit-learn Generalized Linear Models 自主学习笔记(一)
- 数据统计入门之一