Opencv中的SVM参数优化
2015-12-04 14:40
561 查看
refer from http://www.tuicool.com/articles/ZvUbiu
原文 http://blog.csdn.net/computerme/article/details/38677599 主题
支持向量机 OpenCV
向量
SVM(支持向量机)是机器学习算法里用得最多的算法。SVM最常用的是用于分类,不过SVM也可以用于回归,我的实验中就是用SVM来实现SVR(支持向量回归)。对于功能这么强的算法,opencv中自然也是有集成好了,我们可以直接调用。
网上讲opencv中SVM使用的文章有很多,但讲SVM参数优化的文章却很少。所以在这里不重点讲怎么使用SVM,而是谈谈怎样通过opencv中自带的库优化SVM中的各参数。
相信用SVM做过实验的人都知道,SVM的各参数对实验结果有很大的影响,比如C,gama,P,coef等等。下面就是CvSVMParams类的原型。
C++: CvSVMParams:: CvSVMParams ()
C++: CvSVMParams:: CvSVMParams (int svm_type ,
int kernel_type ,
double degree ,
double gamma ,
double coef0 ,
double Cvalue ,
double nu ,
double p ,
CvMat* class_weights ,
CvTermCriteria term_crit
)
<1> svm_type: 指定SVM的类型(5种):
CvSVM::C_SVC : C类支持向量分类机。 n类分组 (n≥2),允许用异常值惩罚因子C进行不完全分类。
CvSVM::NU_SVC :
类支持向量分类机。n类似然不完全分类的分类器。参数为
取代C(其值在区间【0,1】中,nu越大,决策边界越平滑)。
CvSVM::ONE_CLASS : 单分类器,所有的训练数据提取自同一个类里,然后SVM建立了一个分界线以分割该类在特征空间中所占区域和其它类在特征空间中所占区域。
CvSVM::EPS_SVR :
类支持向量回归机。训练集中的特征向量和拟合出来的超平面的距离需要小于p。异常值惩罚因子C被采用。
CvSVM::NU_SVR : [b]
[/b]类支持向量回归机。
代替了 p。
<2> kernel_type: SVM的内核类型(4种):
CvSVM::LINEAR : 线性内核,没有任何向映射至高维空间,线性区分(或回归)在原始特征空间中被完成,这是最快的选择。
.
CvSVM::POLY : 多项式内核:
.
CvSVM::RBF : 基于径向的函数,对于大多数情况都是一个较好的选择:
.
CvSVM::SIGMOID : Sigmoid函数内核:
.
<3> degree: 内核函数(POLY)的参数degree。
<4> gamma: 内核函数(POLY/ RBF/ SIGMOID)的参数
。
<5> coef0: 内核函数(POLY/ SIGMOID)的参数coef0。
<6> Cvalue: SVM类型(C_SVC/ EPS_SVR/ NU_SVR)的参数C。
<7> nu: SVM类型(NU_SVC/ ONE_CLASS/ NU_SVR)的参数
。
<8> p: SVM类型(EPS_SVR)的参数
。
<9> class_weights: C_SVC中的可选权重,赋给指定的类,乘以C以后变成
。所以这些权重影响不同类别的错误分类惩罚项。权重越大,某一类别的误分类数据的惩罚项就越大。
<10> term_crit: SVM的迭代训练过程的中止条件,解决部分受约束二次最优问题。您可以指定的公差和/或最大迭代次数。
当然对于一个特定的SVM训练器,里面的所有参数不一定全用。比如我用的svm_type为 EPS_SVR,那么我要用到的参数主要就是p,c,gama这三个参数。下面是设置参数的代码
设置参数后就可以用CvSVM.train()进行训练了,下面是train的原型
C++: bool CvSVM:: train (const Mat& trainData ,
const Mat& responses ,
const Mat& varIdx=Mat() ,
const Mat& sampleIdx=Mat() ,
CvSVMParams params=CvSVMParams()
)
我在用 train完成 训练预测时出现了过拟合的情况,即对于训练集的数据有很好的预测结果,但对不在训练集的测试集预测值都一样(我在网上看到很多网友也遇到这个问题)。于是我开始调整参数,调了半天也没个好结果。
后面我发现其实opencv中SVM类是提供了优化参数值功能的,瞬间感觉世界美好了。下面讲讲具体的做法。
要让svm自动优化参数,那么训练时就不能再用train函数了,而应该用train_auto函数。下面是train_auto的函数原型
C++: bool CvSVM:: train_auto (const Mat & trainData ,
const Mat & responses ,
const Mat & varIdx ,
const Mat & sampleIdx ,
CvSVMParams params ,
int k_fold=10 ,
CvParamGrid Cgrid=CvSVM::get_default_grid(CvSVM::C) ,
CvParamGrid gammaGrid=CvSVM::get_default_grid(CvSVM::GAMMA) ,
CvParamGrid pGrid=CvSVM::get_default_grid(CvSVM::P) ,
CvParamGrid nuGrid=CvSVM::get_default_grid(CvSVM::NU) ,
CvParamGrid coeffGrid=CvSVM::get_default_grid(CvSVM::COEF) ,
CvParamGrid degreeGrid=CvSVM::get_default_grid(CvSVM::DEGREE) ,
bool balanced=false
)
自动训练函数的参数注释(13个)
前5个参数参考构造函数的参数注释。
k_fold: 交叉验证参数。训练集被分成k_fold的自子集。其中一个子集是用来测试模型,其他子集则成为训练集。所以,SVM算法复杂度是执行k_fold的次数。
*Grid: (6个)对应的SVM迭代网格参数。
balanced: 如果是true则这是一个2类分类问题。这将会创建更多的平衡交叉验证子集。
自动训练函数的使用说明
这个方法根据CvSVMParams中的最佳参数C, gamma, p, nu, coef0, degree自动训练SVM模型。
参数被认为是最佳的交叉验证,其测试集预估错误最小。
如果没有需要优化的参数,相应的网格步骤应该被设置为小于或等于1的值。例如,为了避免gamma的优化,设置gamma_grid.step = 0,gamma_grid.min_val, gamma_grid.max_val 为任意数值。所以params.gamma 由gamma得出。
最后,如果参数优化是必需的,但是相应的网格却不确定,你可能需要调用函数CvSVM::get_default_grid(),创建一个网格。例如,对于gamma,调用CvSVM::get_default_grid(CvSVM::GAMMA)。
该函数为分类运行 (params.svm_type=CvSVM::C_SVC 或者 params.svm_type=CvSVM::NU_SVC) 和为回归运行 (params.svm_type=CvSVM::EPS_SVR 或者 params.svm_type=CvSVM::NU_SVR)效果一样好。如果params.svm_type=CvSVM::ONE_CLASS,没有优化,并指定执行一般的SVM。
这里需要注意的是,对于需要的优化的参数虽然train_auto可以自动选择最优值,但在代码中也要先赋初始值,要不然编译能通过,但运行时会报错。 下面是示例代码
用上面的代码的就可以自动训练优化出参数了,最后想查看优化后的参数值可以使用CvSVMParams params_re = regressor.get_params()函数来获得各优化后的参数值。
本文系原创,转载请注明转载自 http://blog.csdn.net/computerme/article/details/38677599
原文 http://blog.csdn.net/computerme/article/details/38677599 主题
支持向量机 OpenCV
向量
SVM(支持向量机)是机器学习算法里用得最多的算法。SVM最常用的是用于分类,不过SVM也可以用于回归,我的实验中就是用SVM来实现SVR(支持向量回归)。对于功能这么强的算法,opencv中自然也是有集成好了,我们可以直接调用。
网上讲opencv中SVM使用的文章有很多,但讲SVM参数优化的文章却很少。所以在这里不重点讲怎么使用SVM,而是谈谈怎样通过opencv中自带的库优化SVM中的各参数。
相信用SVM做过实验的人都知道,SVM的各参数对实验结果有很大的影响,比如C,gama,P,coef等等。下面就是CvSVMParams类的原型。
C++: CvSVMParams:: CvSVMParams ()
C++: CvSVMParams:: CvSVMParams (int svm_type ,
int kernel_type ,
double degree ,
double gamma ,
double coef0 ,
double Cvalue ,
double nu ,
double p ,
CvMat* class_weights ,
CvTermCriteria term_crit
)
<1> svm_type: 指定SVM的类型(5种):
CvSVM::C_SVC : C类支持向量分类机。 n类分组 (n≥2),允许用异常值惩罚因子C进行不完全分类。
CvSVM::NU_SVC :
类支持向量分类机。n类似然不完全分类的分类器。参数为
取代C(其值在区间【0,1】中,nu越大,决策边界越平滑)。
CvSVM::ONE_CLASS : 单分类器,所有的训练数据提取自同一个类里,然后SVM建立了一个分界线以分割该类在特征空间中所占区域和其它类在特征空间中所占区域。
CvSVM::EPS_SVR :
类支持向量回归机。训练集中的特征向量和拟合出来的超平面的距离需要小于p。异常值惩罚因子C被采用。
CvSVM::NU_SVR : [b]
[/b]类支持向量回归机。
代替了 p。
<2> kernel_type: SVM的内核类型(4种):
CvSVM::LINEAR : 线性内核,没有任何向映射至高维空间,线性区分(或回归)在原始特征空间中被完成,这是最快的选择。
.
CvSVM::POLY : 多项式内核:
.
CvSVM::RBF : 基于径向的函数,对于大多数情况都是一个较好的选择:
.
CvSVM::SIGMOID : Sigmoid函数内核:
.
<3> degree: 内核函数(POLY)的参数degree。
<4> gamma: 内核函数(POLY/ RBF/ SIGMOID)的参数
。
<5> coef0: 内核函数(POLY/ SIGMOID)的参数coef0。
<6> Cvalue: SVM类型(C_SVC/ EPS_SVR/ NU_SVR)的参数C。
<7> nu: SVM类型(NU_SVC/ ONE_CLASS/ NU_SVR)的参数
。
<8> p: SVM类型(EPS_SVR)的参数
。
<9> class_weights: C_SVC中的可选权重,赋给指定的类,乘以C以后变成
。所以这些权重影响不同类别的错误分类惩罚项。权重越大,某一类别的误分类数据的惩罚项就越大。
<10> term_crit: SVM的迭代训练过程的中止条件,解决部分受约束二次最优问题。您可以指定的公差和/或最大迭代次数。
当然对于一个特定的SVM训练器,里面的所有参数不一定全用。比如我用的svm_type为 EPS_SVR,那么我要用到的参数主要就是p,c,gama这三个参数。下面是设置参数的代码
CvSVMParams param; param.svm_type = CvSVM::EPS_SVR; //我的实验是用SVR作回归分析,可能大部分人的实验是用SVM来分类,方法都一样 param.kernel_type = CvSVM::RBF; param.C = 1; param.p = 5e-3; param.gamma = 0.01; param.term_crit = cvTermCriteria(CV_TERMCRIT_EPS, 100, 5e-3);
设置参数后就可以用CvSVM.train()进行训练了,下面是train的原型
C++: bool CvSVM:: train (const Mat& trainData ,
const Mat& responses ,
const Mat& varIdx=Mat() ,
const Mat& sampleIdx=Mat() ,
CvSVMParams params=CvSVMParams()
)
我在用 train完成 训练预测时出现了过拟合的情况,即对于训练集的数据有很好的预测结果,但对不在训练集的测试集预测值都一样(我在网上看到很多网友也遇到这个问题)。于是我开始调整参数,调了半天也没个好结果。
后面我发现其实opencv中SVM类是提供了优化参数值功能的,瞬间感觉世界美好了。下面讲讲具体的做法。
要让svm自动优化参数,那么训练时就不能再用train函数了,而应该用train_auto函数。下面是train_auto的函数原型
C++: bool CvSVM:: train_auto (const Mat & trainData ,
const Mat & responses ,
const Mat & varIdx ,
const Mat & sampleIdx ,
CvSVMParams params ,
int k_fold=10 ,
CvParamGrid Cgrid=CvSVM::get_default_grid(CvSVM::C) ,
CvParamGrid gammaGrid=CvSVM::get_default_grid(CvSVM::GAMMA) ,
CvParamGrid pGrid=CvSVM::get_default_grid(CvSVM::P) ,
CvParamGrid nuGrid=CvSVM::get_default_grid(CvSVM::NU) ,
CvParamGrid coeffGrid=CvSVM::get_default_grid(CvSVM::COEF) ,
CvParamGrid degreeGrid=CvSVM::get_default_grid(CvSVM::DEGREE) ,
bool balanced=false
)
自动训练函数的参数注释(13个)
前5个参数参考构造函数的参数注释。
k_fold: 交叉验证参数。训练集被分成k_fold的自子集。其中一个子集是用来测试模型,其他子集则成为训练集。所以,SVM算法复杂度是执行k_fold的次数。
*Grid: (6个)对应的SVM迭代网格参数。
balanced: 如果是true则这是一个2类分类问题。这将会创建更多的平衡交叉验证子集。
自动训练函数的使用说明
这个方法根据CvSVMParams中的最佳参数C, gamma, p, nu, coef0, degree自动训练SVM模型。
参数被认为是最佳的交叉验证,其测试集预估错误最小。
如果没有需要优化的参数,相应的网格步骤应该被设置为小于或等于1的值。例如,为了避免gamma的优化,设置gamma_grid.step = 0,gamma_grid.min_val, gamma_grid.max_val 为任意数值。所以params.gamma 由gamma得出。
最后,如果参数优化是必需的,但是相应的网格却不确定,你可能需要调用函数CvSVM::get_default_grid(),创建一个网格。例如,对于gamma,调用CvSVM::get_default_grid(CvSVM::GAMMA)。
该函数为分类运行 (params.svm_type=CvSVM::C_SVC 或者 params.svm_type=CvSVM::NU_SVC) 和为回归运行 (params.svm_type=CvSVM::EPS_SVR 或者 params.svm_type=CvSVM::NU_SVR)效果一样好。如果params.svm_type=CvSVM::ONE_CLASS,没有优化,并指定执行一般的SVM。
这里需要注意的是,对于需要的优化的参数虽然train_auto可以自动选择最优值,但在代码中也要先赋初始值,要不然编译能通过,但运行时会报错。 下面是示例代码
CvSVMParams param; param.svm_type = CvSVM::EPS_SVR; param.kernel_type = CvSVM::RBF; param.C = 1; //给参数赋初始值 param.p = 5e-3; //给参数赋初始值 param.gamma = 0.01; //给参数赋初始值 param.term_crit = cvTermCriteria(CV_TERMCRIT_EPS, 100, 5e-3); //对不用的参数step设为0 CvParamGrid nuGrid = CvParamGrid(1,1,0.0); CvParamGrid coeffGrid = CvParamGrid(1,1,0.0); CvParamGrid degreeGrid = CvParamGrid(1,1,0.0); CvSVM regressor; regressor.train_auto(PCA_training,tr_label,NULL,NULL,param, 10, regressor.get_default_grid(CvSVM::C), regressor.get_default_grid(CvSVM::GAMMA), regressor.get_default_grid(CvSVM::P), nuGrid, coeffGrid, degreeGrid);
用上面的代码的就可以自动训练优化出参数了,最后想查看优化后的参数值可以使用CvSVMParams params_re = regressor.get_params()函数来获得各优化后的参数值。
CvSVMParams params_re = regressor.get_params(); regressor.save("training_srv.xml"); float C = params_re.C; float P = params_re.p; float gamma = params_re.gamma; printf("\nParms: C = %f, P = %f,gamma = %f \n",C,P,gamma);
本文系原创,转载请注明转载自 http://blog.csdn.net/computerme/article/details/38677599
相关文章推荐
- Shell正则表达式学习笔记
- 解决点击空白关闭popupWindow方法过时问题
- OpenCV的machine learning模块使用
- 在opencv3中实现机器学习之:利用svm(支持向量机)分类
- Linux服务器监控命令
- 揭秘 | 百万并发直播网站龙珠的性能秘籍
- epoll + 线程池 回应服务器(Linux) ---可以支持上万个连接
- opencv源码解析之(6):hog源码分析
- 揭秘 | 百万并发直播网站龙珠的性能秘籍
- Linux crontab定时服务
- @property中的@synthesize/@dynamic 区别
- shell 删除文件下的* (copy).jpg备份文件
- Hadoop RPC协议之 ProtobufRpcEngine
- Ubuntu下修改环境变量的三种方法
- Linux下source命令
- 制作可用grub引导Linux系统的磁盘映像文件 二
- 使用epoll 在 linux 上开发高性能应用服务器
- Centos7 Friewalld 防火墙配置
- Redhat linux DNS配置指南(SCANIP配置手册)
- linux 下多线程epoll编程 -socket