您的位置:首页 > 其它

XGBoost模型

2016-04-28 20:33 302 查看
1.模型

(1)整体模型函数如下:



其中 k 表示树的数量,f 表示每棵树的预测函数;

(2)截取到第 t 棵树的模型函数表示如下:



2.训练

(1)每次训练一棵树,目标函数如下:





其中第一项是损失函数,第二项是防止过拟合;N表示样本数,T表示所有树的叶子数目,t 表示训练第 t 棵树,w 表示叶子的输出值;

(2)泰勒展开(二阶展开):



其中:



由于L为常数项,所以:



因此,该优化问题就是找出一颗树满足上述目标函数最小;

3.优化

(1)树的预测可以理解如下:1)将哪些样本分配到哪个叶子上;2)每个叶子的预测值;

(2)目标函数的改进:



其中:



表示第 i 个样本分配到第 j 个叶子上;

(3)为了优化上述式子,可以先求出w(二次求解):



因此目标函数可以化为:



PS:xgboost与gbdt的改进:由一阶展开改为二阶,加入过拟合控制;

参考:XGBOOST – A MACROSCOPIC ANATOMY
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: