机器学习之——逻辑回归
2016-04-23 16:47
246 查看
在讨论逻辑回归问题(Logistic Regression)之前,我们先讨论一些实际生活中的情况:判断一封电子邮件是否是垃圾邮件?判断一次交易是否是欺诈交易?判断一份文件是否是有效文件?这类问题,我们称之为分类问题(Classication
Problem)。在分类问题中,我们往往尝试去预测的结果是否属于某一个类(正确活错误)。
我们从二元的分类问题开始讨论,即问题是正确或错误的。
我们将因变量(Dependent Variable)可能属于的两个类分别称为负向类(Negative Class) 和正向类(Positive
Class),则因变量:
其中,0表示负向类,1表示正向类
我们假设预测一个肿瘤是否为恶性肿瘤的分类问题(Malignant or Benign),我们假设肿瘤的恶性或良性与肿瘤大小的关系,可以用线性回归的方法求出适合数据的一条直线:
根据线性回归模型,我们只能预测到连续的值,然后对于分类问题,我们只需要输出0或1即可,我们可以预测:
对于上图所示的数据,这样的一个线性模型似乎能很好地完成分类任务。假设我们又观察到一个尺寸非常大的恶性肿瘤,将其加入到我们的训练集中作为一个新的实例,那么将对我们的线性模型有一定影响,获得一条新的直线。
这时候,再使用0.5作为阈值来预测肿瘤是良性还是恶性,就显得不那么合适了。可以看出来,线性回归模型,因为其预测的值可以超越[0,1]的范围,所以并不适合解决这样的问题。
我们引入一个新的模型,逻辑回归,该模型的输出变量范围适中在0和1之间。
逻辑回归模型的假设是:
其中,解释一些标识:
该函数的图像为:
将逻辑函数和假设函数合起来,便得到了逻辑回归模型的假设:
对于模型,可以有以下的理解:
hø(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性(Estimated Probablity),即:
举个例子,如果对于给定的x,通过已经确定的参数计算得出hø(x)=0.7,则表示有百分之七十的概率y为正向类,相应的,y为负向类的概率为百分之三十(1-0.7=0.3)。
如上,便是逻辑回归模型。下一次我们讨论判定边界(Decision Boundary)和代价函数(Cost Function)。
Problem)。在分类问题中,我们往往尝试去预测的结果是否属于某一个类(正确活错误)。
我们从二元的分类问题开始讨论,即问题是正确或错误的。
我们将因变量(Dependent Variable)可能属于的两个类分别称为负向类(Negative Class) 和正向类(Positive
Class),则因变量:
其中,0表示负向类,1表示正向类
我们假设预测一个肿瘤是否为恶性肿瘤的分类问题(Malignant or Benign),我们假设肿瘤的恶性或良性与肿瘤大小的关系,可以用线性回归的方法求出适合数据的一条直线:
根据线性回归模型,我们只能预测到连续的值,然后对于分类问题,我们只需要输出0或1即可,我们可以预测:
对于上图所示的数据,这样的一个线性模型似乎能很好地完成分类任务。假设我们又观察到一个尺寸非常大的恶性肿瘤,将其加入到我们的训练集中作为一个新的实例,那么将对我们的线性模型有一定影响,获得一条新的直线。
这时候,再使用0.5作为阈值来预测肿瘤是良性还是恶性,就显得不那么合适了。可以看出来,线性回归模型,因为其预测的值可以超越[0,1]的范围,所以并不适合解决这样的问题。
我们引入一个新的模型,逻辑回归,该模型的输出变量范围适中在0和1之间。
逻辑回归模型的假设是:
其中,解释一些标识:
该函数的图像为:
将逻辑函数和假设函数合起来,便得到了逻辑回归模型的假设:
对于模型,可以有以下的理解:
hø(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性(Estimated Probablity),即:
举个例子,如果对于给定的x,通过已经确定的参数计算得出hø(x)=0.7,则表示有百分之七十的概率y为正向类,相应的,y为负向类的概率为百分之三十(1-0.7=0.3)。
如上,便是逻辑回归模型。下一次我们讨论判定边界(Decision Boundary)和代价函数(Cost Function)。
相关文章推荐
- 简易版支付系统部署(单节点)
- cocos2d-x-3.0 的改变,由于变得太多,一点点累积吧!
- 2015國際初中科學奧林匹克 – 香港選拔賽 (比賽結果)
- Log4j
- Codeforces 389A (最大公约数)
- 4.23 GDOI赛前模拟 总结
- LeetCode(69)-Reverse String
- LeetCode(69)-Reverse String
- LeetCode(69)-Reverse String
- (2)在VMware虚拟机上装CentOS6_Linux系统
- Java 注解全面解析
- 儒家
- JavaScript中的Date类型详解与moment简介
- 深入浅出java虚拟机系列:(二)GC&垃圾收集算法
- salt-api安装、配置、使用
- Android面试题相关
- android 5.0 自动接听电话
- 60款顶级大数据开源工具
- Java当中产生随机数
- [改善Java代码]提防包装类型的null值