AdaBoost (Adaptive Boosting)

1. 提升方法简介
- 1.1. 提升方法的基本思路
2. AdaBoost
3. 加法模型及 AdaBoost 算法解释

1. 提升方法简介

提升(Boosting)方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

提升方法是多种学习方法的集成，属于“集成学习(Ensemble learning)”。

参考：
本文主要摘自：《统计学习方法，李航著》第 8 章提升方法
The Elements of Statistical Learning(2nd), Chapter 10 Boosting and Additive Trees

1.1. 提升方法的基本思路

提升算法基于这样一种思路：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。

历史上，Kearns 和 Valiant 首先提出了“强可学习(strongly learnable)”和“弱可学习(weakly learnable)”的概念。指出：在概率近似正确(probably approximately correct，PAC)学习框架中，一个概念(一个类)，如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的；一个概念，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的。非常有趣的是 Schapire 后来证明 强可学习与弱可学习是等价的 ，也就是说，在 PAC 学习的框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习的。
这样一来，问题便成为，在学习中，如果已经发现了“弱学习算法”，那么能否将它提升(boost)为“强学习算法”。大家知道， 发现弱学习算法通常要比发现强学习算法容易得多。那么如何具体实施提升，便成为开发提升方法时所要解决的问题。 关于提升方法的研究很多，有很多算法被提出。最具代表性的是 AdaBoost 算法(AdaBoost algorithm)。

2. AdaBoost

对于分类问题而言，提升方法通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。这样，有两个问题需要回答：一是在每一轮如何改变训练数据的权值分布；二是如何将弱分类器组合成为一个强分类器。

关于第 1 个问题，AdaBoost 算法的做法是，提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后轮的弱分类器的更大关注。于是，分类问题被一系列的弱分类器“分而治之”。至于第 2 个问题，即弱分类器的组合，AdaBoost 采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

AdaBoost 是如何实践上面的思路，请看下文分解。

2.1. AdaBoost 算法

AdaBoost 算法描述如下：
输入：训练数据集 $T = (x_{1}, y_{1}), (x_{2}, y_{2}), \dots (x_{N}, y_{N})$ ，其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y = {- 1, + 1}, i = 1, 2, \dots, N$ ，其中 $y_{i}$ 是 $x_{i}$ 的类标记；弱学习算法。
输出：最终分类器 $G (x)$ 。
第 1 步，初始化训练数据的权值分布：
$D_{1} = {w_{1, 1}, w_{1, 2}, \dots, w_{1, i}, \dots, w_{1, N}}, w_{1, i} = \frac{1}{N}, i = 1, 2, \dots, N$
第 2 步，对 $m = 1, 2, \dots, M$ （ $M$ 表示迭代的次数，即基本分类器个数）依次执行下面过程：
(a) 使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基本分类器：
$G_{m} : X \mapsto {- 1, + 1}$
(b) 计算 $G_{m} (x)$ 在训练数据集上的分类误差率：
$e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{i = 1}^{N} w_{m, i} I (G_{m} (x_{i}) \neq y_{i})$
注：上式中 $I (G_{m} (x_{i}) \neq y_{i})$ 是指示函数，当参数为真（即不等号成立）时其值为 1，否则为 0。
(c) 计算基本分类器 $G_{m} (x)$ 的系数：
$α_{m} = \frac{1}{2} \ln \frac{1 - e_{m}}{e_{m}}$
(d) 更新训练数据集的权值分布：
$D_{m + 1} = {w_{m + 1, 1}, w_{m + 1, 2}, \dots, w_{m + 1, i}, \dots, w_{m + 1, N}}$
其中：
$w_{m + 1, i} = {\begin{cases} \frac{w_{m, i}}{Z_{m}} e^{- α_{m}}, & G_{m} (x_{i}) = y_{i} 注：即当该样本被正确分类时 \\ \frac{w_{m, i}}{Z_{m}} e^{α_{m}}, & G_{m} (x_{i}) \neq y_{i} 注：即当该样本被错误分类时 \end{cases}$
利用 $y_{i} \in {- 1, + 1}$ ，上式还可以写为：
$w_{m + 1, i} = \frac{w_{m, i}}{Z_{m}} e^{- α_{m} y_{i} G_{m} (x_{i})}, i = 1, 2, \dots, N$
这里， $Z_{m}$ 是规范化因子，为：
$Z_{m} = \sum_{i = 1}^{N} w_{w, i} e^{- α_{m} y_{i} G_{m} (x_{i})}$
它使 $D_{m + 1}$ 成为一个概率分布。
第 3 步，构建基本分类器的线性组合：
$f (x) = \sum_{m = 1}^{M} α_{m} G_{m} (x)$
得到最终分类器：
$G (x) = s i g n (f (x)) = s i g n (\sum_{m = 1}^{M} α_{m} G_{m} (x))$
算法完。

说明 1：上面算法中， $w_{m + 1, i} = {\begin{cases} \frac{w_{m, i}}{Z_{m}} e^{- α_{m}}, & G_{m} (x_{i}) = y_{i} \\ \frac{w_{m, i}}{Z_{m}} e^{α_{m}}, & G_{m} (x_{i}) \neq y_{i} \end{cases}$ 使得被基本分类器 $G_{m} (x)$ 误分类样本的权值得以扩大，而被正确分类样本的权值却得以缩小。两相比较， 误分类样本的权值被放大 $e^{2 α_{m}} = \frac{e_{m}}{1 - e_{m}}$ 倍 。因此，误分类样本在下一轮学习中起更大的作用。不改变所给的样本数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同的作用，这是 AdaBoost 的一个特点。
说明 2：线性组合 $f (x)$ 实现 $M$ 个基本分类器的 加权表决 。系数 $α_{m}$ 表示了基本分类器 $G_{m} (x)$ 的重要性，这里，所有 $α_{m}$ 之和并不为 1。 $f (x)$ 的符号决定实例 $x$ 的类别， $f (x)$ 的绝对值表示分类的确信度。利用基本分类器的线性组合构建最终分类器是 AdaBoost 的另一特点。

AdaBoost 算法的实践过程可以形象地用图 1 （图片摘自“The Elements of Statistical Learning(2nd), Chapter 10 Boosting and Additive Trees”）展示。

Figure 1: AdaBoost 算法图示

2.2. AdaBoost 应用实例

给定如表 1 所示训练数据。假设弱分类器由 $x < v$ 或 $x > v$ 产生，其阈值 $v$ 使该分类器在训练数据集上分类误差率最低。试用 AdaBoost 算法学习一个强分类器。

Table 1: 训练数据
序号	1	2	3	4	5	6	7	8	9	10
$x$	0	1	2	3	4	5	6	7	8	9
$y$	1	1	1	-1	-1	-1	1	1	1	-1

解：初始化数据权值分布：
$D_{1} = (w_{1, 1}, w_{1, 2}, \dots, w_{1, 10})$
其中， $w_{1, i} = 0.1, i = 1, 2, \dots, 10$
迭代过程 1，对 $m = 1$ ，有
(a) 在权值分布为 $D_{1}$ 的训练数据上，容易求得阈值 $v$ 取 2.5 时的分类误差率最低（这时误差点为 $x = 6, 7, 8$ ），故第 1 个基本分类器为：
$G_{1} (x) = {\begin{cases} 1, & x < 2.5 \\ - 1, & x > 2.5 \end{cases}$
(b) $G_{1} (x)$ 在训练数据集上的误差率： $e_{1} = P (G_{1} (x_{i}) \neq y_{i}) = 0.3$
(c) 计算 $G_{1} (x)$ 的系数：
$α_{1} = \frac{1}{2} \ln \frac{1 - e_{1}}{e_{1}} = 0.4236$
(d) 更新训练数据的权值分布：
$\begin{aligned} w_{2, i} & = \frac{w_{1, i}}{Z_{1}} e^{- α_{1} y_{i} G_{1} (x)}, i = 1, 2, \dots, 10 \\ D_{2} & = (w_{2, 1}, w_{2, 2}, \dots, w_{2, 10}) \\ = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715) \\ f_{1} (x) & = 0.4236 G_{1} (x) \end{aligned}$
分类器 $s i g n [f_{1} (x)]$ 在训练数据集上有 3 个误分类点。
迭代过程 2，对 $m = 2$ ，有
(a) 在权值分布为 $D_{2}$ 的训练数据上，容易求得阈值 $v$ 取 8.5 时的分类误差率最低，故第 2 个基本分类器为：
$G_{2} (x) = {\begin{cases} 1, & x < 8.5 \\ - 1, & x > 8.5 \end{cases}$
(b) $G_{2} (x)$ 在训练数据集上的误差率： $e_{2} = P (G_{2} (x_{i}) \neq y_{i}) = 0.2143$
(c) 计算 $G_{2} (x)$ 的系数：
$α_{2} = \frac{1}{2} \ln \frac{1 - e_{2}}{e_{2}} = 0.6496$
(d) 更新训练数据的权值分布：
$\begin{aligned} D_{3} & = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.01667, 0.1060, 0.1060, 0.1060, 0.0455) \\ f_{2} (x) & = 0.4236 G_{1} (x) + 0.6496 G_{2} (x) \end{aligned}$
分类器 $s i g n [f_{2} (x)]$ 在训练数据集上有 3 个误分类点。
迭代过程 3，对 $m = 3$ ，有
(a) 在权值分布为 $D_{3}$ 的训练数据上，容易求得阈值 $v$ 取 5.5 时的分类误差率最低，故第 2 个基本分类器为：
$G_{3} (x) = {\begin{cases} 1, & x < 5.5 \\ - 1, & x > 5.5 \end{cases}$
(b) $G_{3} (x)$ 在训练数据集上的误差率： $e_{3} = 0.1820$
(c) 计算 $G_{3} (x)$ 的系数：
$α_{3} = 0.7514$
(d) 更新训练数据的权值分布：
$\begin{aligned} D_{4} & = (0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.065, 0.125) \\ f_{3} (x) & = 0.4236 G_{1} (x) + 0.6496 G_{2} (x) + 0.7514 G_{3} (x) \end{aligned}$
分类器 $s i g n [f_{3} (x)]$ 在训练数据集上误分类点个数为 0。
于是，最终分类器为：
$G (x) = s i g n [f_{3} (x)] = s i g n [0.4236 G_{1} (x) + 0.6496 G_{2} (x) + 0.7514 G_{3} (x)]$

2.3. AdaBoost 算法缺点

AdaBoost 算法缺点：对异常点非常敏感。 它不断增加误分类样本的权重（指数上升），但如果数据样本是异常点(outlier)，则可能极大的干扰后面基本分类器的学习。

3. 加法模型及 AdaBoost 算法解释

AdaBoost 算法可以看作是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。

3.1. 加法模型和前向分布算法

考虑加法模型(additive model)：
$f (x) = \sum_{m = 1}^{M} β_{m} b (x; γ_{m})$
其中， $b (x; γ_{m})$ 为基函数， $γ_{m}$ 为基函数的参数， $β_{m}$ 为基函数的系数。显然， AdaBoost 算法最终分类器是一个加法模型。

在给定训练数据及损失函数 $L (y, f (x))$ 的条件下，学习加法模型 $f (x)$ 就是损失函数极小化问题：
$min_{β_{m}, γ_{m}} \sum_{i = 1}^{N} L (y_{i}, \sum_{m = 1}^{M} β_{m} b (x_{i}; γ_{m}))$
通常这是一个复杂的优化问题。前向分布算法(forward stagewise algorithm)求解这一优化问题的想法是：因为学习的是加法模型，那如果能够从前向后，每一步只学习一个基函数及其系数，然后逐步逼近上面的优化目标式，那么就可以简化优化的复杂度。具体的，每步只需优化如下损失函数：
$min_{β, γ} \sum_{i = 1}^{N} L (y_{i}, β b (x_{i}; γ))$
这样， 前向分布算法将同时求解从 $m = 1$ 到 $M$ 的所有参数 $β_{m}, γ_{m}$ 的优化问题简化为逐次求解各个 $β_{m}, γ_{m}$ 的优化问题。

3.1.1. 前向分布算法

给定训练数据集 $T = (x_{1}, y_{1}), (x_{2}, y_{2}), \dots (x_{N}, y_{N})$ ，其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y = {- 1, + 1}, i = 1, 2, \dots, N$ 。损失函数 $L (y, f (x))$ 和基函数的集合 ${b (x; γ)}$ 。学习加法模型 $f (x)$ 的前向分步算法描述如下。

前向分布算法：
输入：训练数据集 $T = (x_{1}, y_{1}), (x_{2}, y_{2}), \dots (x_{N}, y_{N})$ ；损失函数 $L (y, f (x))$ 和基函数的集合 ${b (x; γ)}$ 。
输出：加法模型 $f (x)$ 。
第 1 步，初始化 $f_{0} (x) = 0$
第 2 步，迭代执行下面步骤，对 $m = 1, 2, \dots, M$
(a) 极小化损失函数：
$(β_{m}, γ_{m}) = \arg min_{β, γ} \sum_{i = 1}^{N} L (y_{i}, f_{m - 1} (x_{i}) + β b (x_{i}; γ))$
得到参数 $β_{m}, γ_{m}$
(b) 利用上步求得的 $β_{m}, γ_{m}$ 更新下面式子：
$f_{m} (x) = f_{m - 1} (x) + β_{m} b (x; γ_{m})$
第 3 步，得到加法模型：
$f (x) = f_{M} (x) = \sum_{m = 1}^{M} β_{m} b (x; γ)$

3.2. AdaBoost 算法的推导

AdaBoost 算法可以看作是损失函数为指数损失时的前向分布算法。关于它的推导可参考：
(1) 《统计学习方法，李航著》 8.3.2 前向分步算法与 AdaBoost
(2) The Elements of Statistical Learning(2nd), 10.4 Exponential Loss and AdaBoost

3.3. 不同损失函数及相应的 Boost 方法

按照损失函数的不同，表 2 给出了 4 种不同的 Boost 方法。

Table 2: 几种不同 Boost 方法（假设 $y_{i} \in {0, + 1}, {\tilde{y}}_{i} \in {- 1, + 1}$ ）
Name	Loss	Algorithm
平方损失	$\frac{1}{2} (y_{i} - f (x_{i}))^{2}$	L2Boosting (Least Squares Boosting)
绝对损失	$∣ y_{i} - f (x_{i}) ∣$	Gradient boosting
指数损失	$e^{(- {\tilde{y}}_{i} f (x_{i}))}$	AdaBoost
对数损失	$\log (1 + e^{- {\tilde{y}}_{i} f (x_{i})})$	LogitBoost

参考：Machine Learning - A Probabilistic Perspective, 16.4 Boosting