Adaboost 算法的原理与推导[通俗易懂]

Adaboost 算法的原理与推导[通俗易懂]Adaboost算法的原理与推导0引言一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午,在我组织的机器学习班第8次课上讲决策树与Adaboost,其中,Adaboost讲得酣畅淋漓,讲完后,我知道,可以写本篇博客了。无心啰嗦,本…

大家好,又见面了,我是你们的朋友全栈君。

    Adaboost 算法的原理与推导

0 引言

    一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午,在我组织的机器学习班 第8次课上讲决策树与Adaboost,其中,Adaboost讲得酣畅淋漓,讲完后,我知道,可以写本篇博客了。

    无心啰嗦,本文结合机器学习班决策树与Adaboost 的PPT,跟邹讲Adaboost指数损失函数推导的PPT(第85~第98页)、以及李航的《统计学习方法》等参考资料写就,可以定义为一篇课程笔记、读书笔记或学习心得,有何问题或意见,欢迎于本文评论下随时不吝指出,thanks。

1 Adaboost的原理

1.1 Adaboost是什么    

    AdaBoost,是英文”Adaptive Boosting”(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

    具体说来,整个Adaboost 迭代算法就3步:

  1. 初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N。
  2. 训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权值就被降低;相反,如果某个样本点没有被准确地分类,那么它的权值就得到提高。然后,权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。
  3. 将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。

1.2 Adaboost算法流程

    给定一个训练数据集T={(x1,y1), (x2,y2)…(xN,yN)},其中实例x \in \mathcal{X},而实例空间\mathcal{X} \subset \mathbb{R}^n,yi属于标记集合{-1,+1},Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器。

    Adaboost的算法流程如下:

  • 步骤1. 首先,初始化训练数据的权值分布。每一个训练样本最开始时都被赋予相同的权值:1/N。

Adaboost 算法的原理与推导[通俗易懂]

  • 步骤2. 进行多轮迭代,用m = 1,2, …, M表示迭代的第多少轮

a. 使用具有权值分布Dm的训练数据集学习,得到基本分类器(选取让误差率最低的阈值来设计基本分类器):

Adaboost 算法的原理与推导[通俗易懂]

b. 计算Gm(x)在训练数据集上的分类误差率

Adaboost 算法的原理与推导[通俗易懂]

由上述式子可知,Gm(x)在训练数据集上的
误差率em就是被Gm(x)误分类样本的权值之和。

c. 计算Gm(x)的系数,am表示Gm(x)在最终分类器中的重要程度(目的:得到基本分类器在最终分类器中所占的权重。注:这个公式写成am=1/2ln((1-em)/em) 更准确,因为底数是自然对数e,故用In,写成log容易让人误以为底数是2或别的底数,下同):

Adaboost 算法的原理与推导[通俗易懂]

由上述式子可知,em <= 1/2时,am >= 0,且am随着em的减小而增大,意味着分类误差率越小的基本分类器在最终分类器中的作用越大。

d. 更新训练数据集的权值分布(目的:得到样本的新的权值分布),用于下一轮迭代

Adaboost 算法的原理与推导[通俗易懂]

使得被基本分类器Gm(x)误分类样本的权值增大,而被正确分类样本的权值减小。就这样,通过这样的方式,AdaBoost方法能“重点关注”或“聚焦于”那些较难分的样本上。

    其中,Zm是规范化因子,使得Dm+1成为一个概率分布:

Adaboost 算法的原理与推导[通俗易懂]

  • 步骤3. 组合各个弱分类器

Adaboost 算法的原理与推导[通俗易懂]

从而得到最终分类器,如下:

Adaboost 算法的原理与推导[通俗易懂]

1.3 Adaboost的一个例子

    下面,给定下列训练样本,请用AdaBoost算法学习一个强分类器。

    Adaboost 算法的原理与推导[通俗易懂]

    求解过程:初始化训练数据的权值分布,令每个权值W1i = 1/N = 0.1,其中,N = 10,i = 1,2, …, 10,然后分别对于m = 1,2,3, …等值进行迭代。

    拿到这10个数据的训练样本后,根据 X 和 Y 的对应关系,要把这10个数据分为两类,一类是“1”,一类是“-1”,根据数据的特点发现:“0 1 2”这3个数据对应的类是“1”,“3 4 5”这3个数据对应的类是“-1”,“6 7 8”这3个数据对应的类是“1”,9是比较孤独的,对应类“-1”。抛开孤独的9不讲,“0 1 2”、“3 4 5”、“6 7 8”这是3类不同的数据,分别对应的类是1、-1、1,直观上推测可知,可以找到对应的数据分界点,比如2.5、5.5、8.5 将那几类数据分成两类。当然,这只是主观臆测,下面实际计算下这个具体过程。

迭代过程1

对于m=1,在权值分布为D1(10个数据,每个数据的权值皆初始化为0.1)的训练数据上,经过计算可得:

    1. 阈值v取2.5时误差率为0.3(x < 2.5时取1,x > 2.5时取-1,则6 7 8分错,误差率为0.3),
    2. 阈值v取5.5时误差率最低为0.4(x < 5.5时取1,x > 5.5时取-1,则3 4 5 6 7 8皆分错,误差率0.6大于0.5,不可取。故令x > 5.5时取1,x < 5.5时取-1,则0 1 2 9分错,误差率为0.4),
    3. 阈值v取8.5时误差率为0.3(x < 8.5时取1,x > 8.5时取-1,则3 4 5分错,误差率为0.3)。

可以看到,无论阈值v取2.5,还是8.5,总得分错3个样本,故可任取其中任意一个如2.5,弄成第一个基本分类器为:

Adaboost 算法的原理与推导[通俗易懂]

上面说阈值v取2.5时则6 7 8分错,所以误差率为0.3,更加详细的解释是:因为样本集中

    1. 0 1 2对应的类(Y)是1,因它们本身都小于2.5,所以被G1(x)分在了相应的类“1”中,分对了。
    2. 3 4 5本身对应的类(Y)是-1,因它们本身都大于2.5,所以被G1(x)分在了相应的类“-1”中,分对了。
    3. 但6 7 8本身对应类(Y)是1,却因它们本身大于2.5而被G1(x)分在了类”-1″中,所以这3个样本被分错了。
    4. 9本身对应的类(Y)是-1,因它本身大于2.5,所以被G1(x)分在了相应的类“-1”中,分对了。

从而得到G1(x)在训练数据集上的误差率(被G1(x)误分类样本“6 7 8”的权值之和)e1=P(G1(xi)≠yi) = 3*0.1 = 0.3

然后根据误差率e1计算G1的系数:

Adaboost 算法的原理与推导[通俗易懂]

这个a1代表G1(x)在最终的分类函数中所占的权重,为0.4236。
接着更新训练数据的权值分布,用于下一轮迭代:

Adaboost 算法的原理与推导[通俗易懂]

值得一提的是,由权值更新的公式可知,每个样本的新权值是变大还是变小,取决于它是被分错还是被分正确。

即如果某个样本被分错了,则yi * Gm(xi)为负,负负得正,结果使得整个式子变大(样本权值变大),否则变小。

第一轮迭代后,最后得到各个数据的权值分布D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715,  0.0715, 0.1666, 0.1666, 0.1666, 0.0715)。由此可以看出,因为样本中是数据“6 7 8”被G1(x)分错了,所以它们的权值由之前的0.1增大到0.1666,反之,其它数据皆被分正确,所以它们的权值皆由之前的0.1减小到0.0715。

分类函数f1(x)= a1*G1(x) = 0.4236G1(x)。

此时,得到的第一个基本分类器sign(f1(x))在训练数据集上有3个误分类点(即6 7 8)。

    从上述第一轮的整个迭代过程可以看出:被误分类样本的权值之和影响误差率,误差率影响基本分类器在最终分类器中所占的权重

  迭代过程2

对于m=2,在权值分布为D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715,  0.0715, 0.1666, 0.1666, 0.1666, 0.0715)的训练数据上,经过计算可得:

    1. 阈值v取2.5时误差率为0.1666*3(x < 2.5时取1,x > 2.5时取-1,则6 7 8分错,误差率为0.1666*3),
    2. 阈值v取5.5时误差率最低为0.0715*4(x > 5.5时取1,x < 5.5时取-1,则0 1 2 9分错,误差率为0.0715*3 + 0.0715),
    3. 阈值v取8.5时误差率为0.0715*3(x < 8.5时取1,x > 8.5时取-1,则3 4 5分错,误差率为0.0715*3)。

所以,阈值v取8.5时误差率最低,故第二个基本分类器为:

Adaboost 算法的原理与推导[通俗易懂]

面对的还是下述样本:

Adaboost 算法的原理与推导[通俗易懂]

很明显,G2(x)把样本“3 4 5”分错了,根据D2可知它们的权值为0.0715, 0.0715,  0.0715,所以G2(x)在训练数据集上的误差率e2=P(G2(xi)≠yi) = 0.0715 * 3 = 0.2143。

计算G2的系数:

Adaboost 算法的原理与推导[通俗易懂]

更新训练数据的权值分布:

Adaboost 算法的原理与推导[通俗易懂]

D3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667,  0.01667, 0.1060, 0.1060, 0.1060, 0.0455)。被分错的样本“3 4 5”的权值变大,其它被分对的样本的权值变小。
f2(x)=0.4236G1(x) + 0.6496G2(x)

此时,得到的第二个基本分类器sign(f2(x))在训练数据集上有3个误分类点(即3 4 5)。

  迭代过程3

对于m=3,在权值分布为D3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667,  0.01667, 0.1060, 0.1060, 0.1060, 0.0455)的训练数据上,经过计算可得:

    1. 阈值v取2.5时误差率为0.1060*3(x < 2.5时取1,x > 2.5时取-1,则6 7 8分错,误差率为0.1060*3),
    2. 阈值v取5.5时误差率最低为0.0455*4(x > 5.5时取1,x < 5.5时取-1,则0 1 2 9分错,误差率为0.0455*3 + 0.0715),
    3. 阈值v取8.5时误差率为0.1667*3(x < 8.5时取1,x > 8.5时取-1,则3 4 5分错,误差率为0.1667*3)。

所以阈值v取5.5时误差率最低,故第三个基本分类器为:

Adaboost 算法的原理与推导[通俗易懂]

依然还是原样本:

Adaboost 算法的原理与推导[通俗易懂]

此时,被误分类的样本是:0 1 2 9,这4个样本所对应的权值皆为0.0455,

所以G3(x)在训练数据集上的误差率e3 = P(G3(xi)≠yi) = 0.0455*4 = 0.1820。

计算G3的系数:

Adaboost 算法的原理与推导[通俗易懂]

更新训练数据的权值分布:

Adaboost 算法的原理与推导[通俗易懂]

D4 = (0.125, 0.125, 0.125, 0.102, 0.102,  0.102, 0.065, 0.065, 0.065, 0.125)。被分错的样本“0 1 2 9”的权值变大,其它被分对的样本的权值变小。

f3(x)=0.4236G1(x) + 0.6496G2(x)+0.7514G3(x)

此时,得到的第三个基本分类器sign(f3(x))在训练数据集上有0个误分类点。至此,整个训练过程结束。

    现在,咱们来总结下3轮迭代下来,各个样本权值和误差率的变化,如下所示(其中,样本权值D中加了下划线的表示在上一轮中被分错的样本的新权值):

  1. 训练之前,各个样本的权值被初始化为D1 = (0.1, 0.1,0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1);
  2. 第一轮迭代中,样本“6 7 8”被分错,对应的误差率为e1=P(G1(xi)≠yi) = 3*0.1 = 0.3,此第一个基本分类器在最终的分类器中所占的权重为a1 = 0.4236。第一轮迭代过后,样本新的权值为D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715,  0.0715, 0.1666, 0.1666, 0.1666, 0.0715);
  3. 第二轮迭代中,样本“3 4 5”被分错,对应的误差率为e2=P(G2(xi)≠yi) = 0.0715 * 3 = 0.2143,此第二个基本分类器在最终的分类器中所占的权重为a2 = 0.6496。第二轮迭代过后,样本新的权值为D3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667,  0.01667, 0.1060, 0.1060, 0.1060, 0.0455);
  4. 第三轮迭代中,样本“0 1 2 9”被分错,对应的误差率为e3 = P(G3(xi)≠yi) = 0.0455*4 = 0.1820,此第三个基本分类器在最终的分类器中所占的权重为a3 = 0.7514。第三轮迭代过后,样本新的权值为D4 = (0.125, 0.125, 0.125, 0.102, 0.102,  0.102, 0.065, 0.065, 0.065, 0.125)。

    从上述过程中可以发现,如果某些个样本被分错,它们在下一轮迭代中的权值将被增大,同时,其它被分对的样本在下一轮迭代中的权值将被减小。就这样,分错样本权值增大,分对样本权值变小,而在下一轮迭代中,总是选取让误差率最低的阈值来设计基本分类器,所以误差率e(所有被Gm(x)误分类样本的权值之和)不断降低。

    综上,将上面计算得到的a1、a2、a3各值代入G(x)中,G(x) = sign[f3(x)] = sign[ a1 * G1(x) + a2 * G2(x) + a3 * G3(x) ],得到最终的分类器为:

G(x) = sign[f3(x)] = sign[ 0.4236G1(x) + 0.6496G2(x)+0.7514G3(x) ]。

2 Adaboost的误差界

  通过上面的例子可知,Adaboost在学习的过程中不断减少训练误差e,直到各个弱分类器组合成最终分类器,那这个最终分类器的误差界到底是多少呢?

事实上,Adaboost 最终分类器的训练误差的上界为:

Adaboost 算法的原理与推导[通俗易懂]

下面,咱们来通过推导来证明下上述式子。

当G(xi)≠yi时,yi*f(xi)<0,因而exp(-yi*f(xi))≥1,因此前半部分得证。

关于后半部分,别忘了:

Adaboost 算法的原理与推导[通俗易懂]

整个的推导过程如下:

Adaboost 算法的原理与推导[通俗易懂]

    这个结果说明,可以在每一轮选取适当的Gm使得Zm最小,从而使训练误差下降最快。接着,咱们来继续求上述结果的上界。

    对于二分类而言,有如下结果:

Adaboost 算法的原理与推导[通俗易懂]

    其中,Adaboost 算法的原理与推导[通俗易懂]

    继续证明下这个结论。

    由之前Zm的定义式跟本节最开始得到的结论可知:

Adaboost 算法的原理与推导[通俗易懂]

    而这个不等式Adaboost 算法的原理与推导[通俗易懂]可先由e^x和1-x的开根号,在点x的泰勒展开式推出。

    值得一提的是,如果取γ1, γ2… 的最小值,记做γ(显然,γ≥γi>0,i=1,2,…m),则对于所有m,有:

Adaboost 算法的原理与推导[通俗易懂]

    这个结论表明,AdaBoost的训练误差是以指数速率下降的。另外,AdaBoost算法不需要事先知道下界γ,AdaBoost具有自适应性,它能适应弱分类器各自的训练误差率 。

    最后,Adaboost 还有另外一种理解,即可以认为其模型是加法模型、损失函数为指数函数、学习算法为前向分步算法的二类分类学习方法,下个月即12月份会再推导下,然后更新此文。而在此之前,有兴趣的可以参看《统计学习方法》第8.3节或其它相关资料。

3 Adaboost 指数损失函数推导

    事实上,在上文1.2节Adaboost的算法流程的步骤3中,我们构造的各个基本分类器的线性组合

Adaboost 算法的原理与推导[通俗易懂]

    是一个加法模型,而Adaboost算法其实是前向分步算法的特例。那么问题来了,什么是加法模型,什么又是前向分步算法呢?

3.1 加法模型和前向分步算法

    如下图所示的便是一个加法模型

Adaboost 算法的原理与推导[通俗易懂]

    其中,Adaboost 算法的原理与推导[通俗易懂]称为基函数,Adaboost 算法的原理与推导[通俗易懂]称为基函数的参数,Adaboost 算法的原理与推导[通俗易懂]称为基函数的系数。

    在给定训练数据及损失函数Adaboost 算法的原理与推导[通俗易懂]的条件下,学习加法模型Adaboost 算法的原理与推导[通俗易懂]成为经验风险极小化问题,即损失函数极小化问题:

Adaboost 算法的原理与推导[通俗易懂]

    随后,该问题可以作如此简化:从前向后,每一步只学习一个基函数及其系数,逐步逼近上式,即:每步只优化如下损失函数:

Adaboost 算法的原理与推导[通俗易懂]

    这个优化方法便就是所谓的前向分步算法。

    下面,咱们来具体看下前向分步算法的算法流程:

  • 输入:训练数据集Adaboost 算法的原理与推导[通俗易懂]
  • 损失函数:Adaboost 算法的原理与推导[通俗易懂]
  • 基函数集:Adaboost 算法的原理与推导[通俗易懂]
  • 输出:加法模型Adaboost 算法的原理与推导[通俗易懂]
  • 算法步骤:
    • 1. 初始化Adaboost 算法的原理与推导[通俗易懂]
    • 2. 对于m=1,2,..M
  • a)极小化损失函数

Adaboost 算法的原理与推导[通俗易懂]

得到参数Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]

  • b)更新

Adaboost 算法的原理与推导[通俗易懂]

    • 3. 最终得到加法模型

Adaboost 算法的原理与推导[通俗易懂]

    就这样,前向分步算法将同时求解从m=1到M的所有参数(Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂])的优化问题简化为逐次求解各个Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂](1≤m≤M)的优化问题。

3.2 前向分步算法与Adaboost的关系

    在上文第2节最后,我们说Adaboost 还有另外一种理解,即可以认为其模型是加法模型、损失函数为指数函数、学习算法为前向分步算法的二类分类学习方法。其实,Adaboost算法就是前向分步算法的一个特例,Adaboost 中,各个基本分类器就相当于加法模型中的基函数,且其损失函数为指数函数。

    换句话说,当前向分步算法中的基函数为Adaboost中的基本分类器时,加法模型等价于Adaboost的最终分类器

Adaboost 算法的原理与推导[通俗易懂]

    你甚至可以说,这个最终分类器其实就是一个加法模型。只是这个加法模型由基本分类器Adaboost 算法的原理与推导[通俗易懂]及其系数Adaboost 算法的原理与推导[通俗易懂]组成,m = 1, 2, …, M。前向分步算法逐一学习基函数的过程,与Adaboost算法逐一学习各个基本分类器的过程一致。

    下面,咱们便来证明:当前向分步算法的损失函数是指数损失函数

Adaboost 算法的原理与推导[通俗易懂]

    时,其学习的具体操作等价于Adaboost算法的学习过程

     假设经过m-1轮迭代,前向分步算法已经得到Adaboost 算法的原理与推导[通俗易懂]

Adaboost 算法的原理与推导[通俗易懂]

    而后在第m轮迭代得到Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]。其中,Adaboost 算法的原理与推导[通俗易懂]为:

Adaboost 算法的原理与推导[通俗易懂]

    而Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]未知。所以,现在咱们的目标便是根据前向分步算法训练Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂],使得最终Adaboost 算法的原理与推导[通俗易懂]在训练数据集T上的指数损失最小,即

Adaboost 算法的原理与推导[通俗易懂]

    针对这种需要求解多个参数的情况,可以先固定其它参数,求解其中一两个参数,然后逐一求解剩下的参数。例如我们可以固定Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂],只针对Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]做优化。

    换言之,在面对Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂] 这2m个参数都未知的情况下,可以:

  1. 先假定Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]已知,求解出Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]
  2. 然后再逐一求解其它未知参数。

    且考虑到上式中的Adaboost 算法的原理与推导[通俗易懂]既不依赖Adaboost 算法的原理与推导[通俗易懂]也不依赖G,所以是个与最小化无关的固定值,记为Adaboost 算法的原理与推导[通俗易懂],即Adaboost 算法的原理与推导[通俗易懂],则上式可以表示为(后面要多次用到这个式子,简记为Adaboost 算法的原理与推导[通俗易懂]):

Adaboost 算法的原理与推导[通俗易懂]

    值得一提的是,Adaboost 算法的原理与推导[通俗易懂]虽然与最小化无关,但Adaboost 算法的原理与推导[通俗易懂]依赖于Adaboost 算法的原理与推导[通俗易懂],随着每一轮迭代而发生变化。

    接下来,便是要证使得上式达到最小的Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]就是Adaboost算法所求解得到的Adaboost 算法的原理与推导[通俗易懂]Adaboost 算法的原理与推导[通俗易懂]

    为求解上式,咱们先求Adaboost 算法的原理与推导[通俗易懂]再求Adaboost 算法的原理与推导[通俗易懂]

    首先求Adaboost 算法的原理与推导[通俗易懂]。对于任意Adaboost 算法的原理与推导[通俗易懂],使上式Adaboost 算法的原理与推导[通俗易懂]最小的G(x)由下式得到:

Adaboost 算法的原理与推导[通俗易懂]

    别忘了,Adaboost 算法的原理与推导[通俗易懂]

    跟1.2节所述的误差率的计算公式对比下:

Adaboost 算法的原理与推导[通俗易懂]

    可知,上面得到的Adaboost 算法的原理与推导[通俗易懂]便是Adaboost算法的基本分类器Adaboost 算法的原理与推导[通俗易懂],因为它是在第m轮加权训练数据时,使分类误差率最小的基本分类器。换言之,这个Adaboost 算法的原理与推导[通俗易懂]便是Adaboost算法所要求的Adaboost 算法的原理与推导[通俗易懂],别忘了,在Adaboost算法的每一轮迭代中,都是选取让误差率最低的阈值来设计基本分类器

    然后求Adaboost 算法的原理与推导[通俗易懂]。还是回到之前的这个式子Adaboost 算法的原理与推导[通俗易懂]上:

Adaboost 算法的原理与推导[通俗易懂]

    这个式子的后半部分可以进一步化简,得:

Adaboost 算法的原理与推导[通俗易懂]

    接着将上面求得的Adaboost 算法的原理与推导[通俗易懂]

Adaboost 算法的原理与推导[通俗易懂]

    代入上式中,且对Adaboost 算法的原理与推导[通俗易懂]求导,令其求导结果为0,即得到使得Adaboost 算法的原理与推导[通俗易懂]一式最小的Adaboost 算法的原理与推导[通俗易懂],即为:

Adaboost 算法的原理与推导[通俗易懂]

    这里的Adaboost 算法的原理与推导[通俗易懂]跟上文1.2节中Adaboost 算法的原理与推导[通俗易懂]的计算公式完全一致。

    此外,毫无疑问,上式中的Adaboost 算法的原理与推导[通俗易懂]便是误差率:

Adaboost 算法的原理与推导[通俗易懂]

    即Adaboost 算法的原理与推导[通俗易懂]就是被Gm(x)误分类样本的权值之和。

   就这样,结合模型Adaboost 算法的原理与推导[通俗易懂],跟Adaboost 算法的原理与推导[通俗易懂],可以推出

Adaboost 算法的原理与推导[通俗易懂]

   从而有:

Adaboost 算法的原理与推导[通俗易懂]

    与上文1.2节介绍的权值更新公式

Adaboost 算法的原理与推导[通俗易懂]

    相比,只相差一个规范化因子,即后者多了一个

Adaboost 算法的原理与推导[通俗易懂]

    所以,整个过程下来,我们可以看到,前向分步算法逐一学习基函数的过程,确实是与Adaboost算法逐一学习各个基本分类器的过程一致,两者完全等价。

    综上,本节不但提供了Adaboost的另一种理解:加法模型,损失函数为指数函数,学习算法为前向分步算法,而且也解释了最开始1.2节中基本分类器Adaboost 算法的原理与推导[通俗易懂]及其系数Adaboost 算法的原理与推导[通俗易懂]的由来,以及对权值更新公式的解释,你甚至可以认为本节就是对上文整个1.2节的解释。

4 参考文献与推荐阅读

  1. wikipedia上关于Adaboost的介绍:http://zh.wikipedia.org/zh-cn/AdaBoost
  2. 邹之决策树与Adaboost PPT:http://pan.baidu.com/s/1hqePkdY
  3. 邹讲Adaboost指数损失函数推导的PPT:http://pan.baidu.com/s/1kTkkepD(第85页~第98页);
  4. 《统计学习方法 李航著》第8章;
  5. 关于adaboost的一些浅见:http://blog.sina.com.cn/s/blog_6ae183910101chcg.html
  6. A Short Introduction to Boosting:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.5148&rep=rep1&type=pdf
  7. 南大周志华教授做的关于boosting 25年的报告PPT:http://vdisk.weibo.com/s/FcILTUAi9m111
  8. 《数据挖掘十大算法》第7章 Adaboost;
  9. http://summerbell.iteye.com/blog/532376
  10. 统计学习那些事:http://cos.name/2011/12/stories-about-statistical-learning/
  11. 统计学习基础学习笔记:http://www.loyhome.com/%E2%89%AA%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B9%A0%E7%B2%BE%E8%A6%81the-elements-of-statistical-learning%E2%89%AB%E8%AF%BE%E5%A0%82%E7%AC%94%E8%AE%B0%EF%BC%88%E5%8D%81%E5%9B%9B%EF%BC%89/
  12. PRML第十四章组合模型读书笔记:http://vdisk.weibo.com/s/DmxNcM5_IaUD
  13. 顺便推荐一个非常实用的在线编辑LaTeX 公式的网页:http://private.codecogs.com/latex/eqneditor.php?lang=zh-cn
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/135412.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • autossh

    autosshautossh用来帮助ssh程序在中断后自动重连,在建立隧道的场合相当好用使用autossh可以进行内网穿透

    2022年10月22日
  • 手机号验证最新正则表达式「建议收藏」

    一般表单页面都需要填写手机号,校验用户输入的手机号码是否正确,就要用到正则表达式,用正则表达式来匹配手机号段,如在运营商号段内,则号码正确。因此,需要知道运营商最新的号段,如下所示:各大运营商手机号码段(新)中国电信号段133、153、173、177、180、181、189、190、191、193、199中国联通号段130、131、132、145、155、156、166、167、171、175、176、185、186、196中国移动号段134(0-8)、135、136、137、138

  • pytest fixtures_jig和fixture的区别

    pytest fixtures_jig和fixture的区别fixture的优势Pytest的fixture相对于传统的xUnit的setup/teardown函数做了显著的改进:命名方式灵活,不局限于setup和teardown这几个命名conf

  • docker 上传本地镜像_不同docker仓库镜像同步

    docker 上传本地镜像_不同docker仓库镜像同步前言之前通过docker搭建过jenkins+python3环境,如果想要在不同的机器上搭建一样的环境,就可以将之前搭建的镜像上传到镜像仓库,这样方便在不同的机器上快速搭建同一套环境。如果公开的话

  • DNS递归和迭代过程详解

    DNS递归和迭代过程详解目录DNS原理解析DNS进化史DNS结构DNS查询流程DNS服务搭建DNS相关软件的安装服务器搭建规划手把手教你搭建基本DNS服务器搭建主DNS服务器搭建从DNS服务器参考文献DNS原理解析DNS进化史etc/hosts–&gt;NIS–&gt;DNS起初域名和ip地址之间的解析都是完全存放在一个名为hosts的文件当中…

  • Matlab自定义颜色图

    Matlab自定义颜色图介绍Matlab自带颜色图比较单调,很多时候无法达到其它绘图工具,如:NCL、Pythonmatplotlib、GMT等绘图软件颜色图效果。下面就介绍如何将NCL等颜色图为己所用。颜色图下载NCL官网提供了上述绘图工具的颜色图合集,因此只需要将需要的颜色图下载后进行使用即可。选择颜色图WhiteBlueGreenYellowRed下载。Matlab读取下载的颜色表clc;clearall;closeallfiguremesh(peaks)colorbarcolor=n

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号