摘要

本文在写完GBDT的三篇文章后本来就想写的，但一直没有时间，终于刚好碰上需要，有空来写这篇关于xgboost原理以及一些实践的东西（这里实践不是指给出代码然后跑结果，而是我们来手动算一算整个xgboost流程）

由于网上已经许多优秀的文章对xgboost原理进行了详细的介绍，特别是xgboost作者陈天奇的论文以及slide已经非常完整阐述了整个xgboost的来龙去脉，现有的文章基本也是参考了这两个资料。
但是却少涉及把原理对应到实际实现过程的文章，许多人看完原理之后可能对整个过程还是抱有好奇心，所以本文从另一个角度，原理到实际运行的角度来分析xgboost，相当于结合原理，仔细看看xgboost每一步到底计算了什么。

原理

当然，我们还是需要简要的回顾一下xgboost的整个推导过程，以及做一些铺垫，方便后面叙述。

我们知道，任何机器学习的问题都可以从目标函数(objective function)出发，目标函数的主要由两部分组成损失函数+正则项。

Obj(Θ)=L(Θ)+Ω(Θ) O b j ( Θ ) = L ( Θ ) + Ω ( Θ )
$\Large Obj(\Theta)=L(\Theta)+\Omega(\Theta)$

损失函数用于描述模型拟合数据的程度。
正则项用于控制模型的复杂度。

对于正则项，我们常用的L2正则和L1正则。

L1正则：

Ω(w)=λ||w||1 Ω ( w ) = λ | | w | | 1
$\Large \Omega(w)=\lambda||w||_1$

L2正则：

Ω(w)=λ||w||2 Ω ( w ) = λ | | w | | 2
$\Large \Omega(w)=\lambda||w||_2$

在这里，当我选择树模型为基学习器时，我们需要正则的对象，或者说需要控制复杂度的对象就是这 $K$ 颗树,通常树的参数有树的深度，叶子节点的个数，叶子节点值的取值（xgboost里称为权重weight)。

所以，我们的目标函数形式如下：

L (y_{i}, {\hat{y}}_{i}) + \sum_{k = 1}^{K} Ω (f_{k} (x_{i}))

ID	x1	x2	y
1	1	-5	0
2	2	5	0
3	3	-2	1
4	1	2	1
5	2	0	1
6	6	-5	1
7	7	5	1
8	6	-2	0
9	7	2	0
10	6	0	1
11	8	-5	1
12	9	5	1
13	10	-2	0
14	8	2	0
15	9	0	1

ID	$y_{i,pred}$
1	0.490001
2	0.494445
3	0.522712
4	0.494445
5	0.522712
6	0.522712
7	0.494445
8	0.522712
9	0.494445
10	0.522712
11	0.522712
12	0.509999
13	0.490001
14	0.494445
15	0.522712

ID	$g_i$	$h_i$
1	0.490001320839	0.249900026415
2	0.494444668293	0.24996913829
3	-0.477288365364	0.249484181652
4	-0.505555331707	0.24996913829
5	-0.477288365364	0.249484181652
6	-0.477288365364	0.249484181652
7	-0.505555331707	0.24996913829
8	0.522711634636	0.249484181652
9	0.494444668293	0.24996913829
10	-0.477288365364	0.249484181652
11	-0.477288365364	0.249484181652
12	-0.490001320839	0.249900026415
13	0.490001320839	0.249900026415
14	0.494444668293	0.24996913829
15	-0.477288365364	0.249484181652