机器学习概述
2016-01-04 18:35
246 查看
机器学习概述
标签(空格分隔): 机器学习,台大,笔记机器学习概述
引言
基本概念
机器学习问题的形式化
References Resources
引言
本笔记主要介绍机器学习的基本概念,将机器学习问题的形式化。从抽象层面对机器学习的各要素进行介绍。由于一些概念过于抽象,因此我结合一个具体案例来配合解释。假设有一个信用卡用户可靠性评估需求。我们需要根据用户的记录(如下表),让机器自动输出判别结果,判断该个客户是否可靠。为了完成这个任务,我们用logistics分类算法来实现。
某个用户特征
用户特征字段 | 特征值 |
---|---|
age | 23 |
gender | female |
annual salary | 1,000,000 |
year in residence | 1 year |
year in job | 0.5 year |
current debt | 200,000 |
基本概念
Input : x∈Xx \in XXX指样本的特征空间,在案例中是指age,gender这些字段构成的一个空间。xx就是这个特征空间的具体取值,也称为特征向量。如上表,该客户的特征向量为[ 23, female, 1,000,000 ···200,000]
Output: y∈Yy \in Y
YY是输出空间,是输出结果的集合。在本例中 Y={yes,no}Y = \{yes,no\}
DD : training examples
D={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)}D=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \}
ff : 目标函数
unknow parttern to be learned ⇔ \Leftrightarrow target function
ff就是我们需要挖掘的规律,称为目标函数,这个函数反映输入和输出之间的映射规律。机器学习的目标就是从训练数据中把这个规律总结出来。ff是理想的,我们并不能直接得到,也不知道它的具体形式。
ff与训练数据集DD的关系如下
D={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)} from fD=\{ (x_1,y_1),(x_2,y_2 ),···,(x_n,y_n ) \} from f
从上面公式我们可以知道,我们虽然不直接获取ff,但是数据集DD是服从ff的,因此我们可以通过DD来学习出ff
hypothesis set HH 和 hypothesis gg
正如之前所说,ff是我们学习的目标,但是我们不知道他长什么样。那么我们就假设ff可以用某种模型gg来表示,这个模型的所有可能的集合称为假设空间(hypothesis set) HH,机器学习的目标就是从假设空间HH寻找出最好的那个一个模型gg,使得g≈fg\approx f。gg形式可以是某种决策函数或者条件概率分布的形式。即H∈{g|y=gθ(x),θ∈Rn}H \in \{g | y=g_\theta(x),\theta \in R^n\}或者H∈{g|g=Pθ(y|x),θ∈Rn}H \in \{g | g=P_\theta(y|x),\theta \in R^n\},这里θ\theta称为参数空间。
在本文案例中,我们的模型为logistics模型:gθ(x)=11+e−θTxg_\theta(x)=\frac{1}{1+e^{-\theta^T x} } 。在训练前θ\theta是未知的,我们的最终目标通过训练数据集是确定出最优的参数θ\theta
AA : 算法
算法的工作就是从假设空间(hypothesis set)寻找出最优的模型gg。换句话说,算法的任务就是根据某种优化策略,估计出最优的参数θ\theta,使得g≈fg\approx f。
在本文案例中,我们采用的算法是logistics回归算法。本文不对该算法进行展开,有关logistics回归的详细介绍请参考[2]
机器学习问题的形式化
下面我们对机器学习过程进行梳理一下,将上面的概念串起来。
整个有监督的机器过程如上图所示,我们的目标是总结出X↦YX\mapsto Y的规律,也就是目标函数ff。
首先收集训练数据DD作为。
由于ff是不知道的,因此我们用某种模型gg进行替代,这个模型有一组参数θ\theta待确定。
最后我们通过训练数据集DD和算法AA,通过某种最优化策略,确定出最优的gg,也就是确定参数θ\theta。
现在我们套一下先前假设的需求,把整个流程再梳理一遍:
首先客户的背景特征(age、gender、annual salary、year in residence、annual salary、year in residence、year in job、current debt )和用户是否可靠有很强的联系,这种规律联系就是目标函数ff。我们从历史记录中收集到数据集DD。
然后我们假设X↦YX\mapsto Y服从logistics模型。也就是确定假设空间hypothesis set H∈{g|y=gθ(x)=11+e−θTx,θ∈Rn}H \in \{g | y=g_\theta(x)=\frac{1}{1+e^{-\theta^T x} } ,\theta \in R^n\}。
最后我们通过训练数据集DD和logistics回归算法AA,通过最大似然方法构造的损失函数,求解出最优的参数θ\theta
References & Resources
机器学习基石:L,ecture 1: The Learning Problemtodo
相关文章推荐
- 底部虚拟按键挡住PopupWindow显示
- 《VR入门系列教程》之4---运行平台
- PhantomJS是一个基于WebKit的服务器端JavaScript API
- Android屏幕适配常识
- redis主从同步及切换主从配置示例
- IOS 分享你最喜欢的技巧和提示
- AngularJs基础——自定义服务的三种方法以及provider供应商
- Android的切图标准
- ContentProvider详解
- swift学习 运算符 之 for循环
- Python OS模块
- Shell 在工作中的应用
- Ubuntu 14.04 + xRDP + Xfce 实现Windows远程桌面连接
- 开启OpenStack Api跨域请求(CORS)功能
- 《VR入门系列教程》之3---运动追踪与输入设备
- 在路上---一个平凡人的2015年总结及2016年展望
- 底层数据库交互用ibatis,当把程序部署到iis上,报oracle.Microsoft provider V1.0.5000.0 时,解决方案。
- CentOS安装MySql
- Unknown system variable 'lower_case_table_names'”
- 第五章.简单的数据查询.总结