Introduction Boosting (提升方法)
Definition: The term boosting refers to a family of algorithms that are able to convert weak learners to strong learners。
提升方法旨在通过线性组合多个弱分类器,从而构建强分类器以提高分类性能。弱分类器的构建中,每一个训练弱分类器的数据集的训练样本的权重将有所改变。
Example:
训练样本集 $X = \{X_1, X_2, X_3\}$, 其中X中的每一个数据都是i.i.d.且从分布 D 中抽取得到。假设我们现在只有一个弱分类器 $h_1$, 且$h_1$只能分对数据 $X_1$ 和$X_2$, 完全分不对 $X_3$ ,则该分类器的正确率只有 1/3。
那么此时我们可以尝试得到一个新的分布D’,在此分布中,$X_3$类数据的比重有所增大。则可以从此分布抽样得到的训练集中训练出 $h_2$。$h_2$也是一个弱分类器,只对于$X_1$和$X_3$类数据可以分对,而对于$X_2$,将会完全分错。那么依次可知,$h_2$ 和$h_1$对于分类数据类型$X_1$是完全没有问题的,所以$h_1$和$h_2$分类器的组合将会对分类$X_2$ 和$X_3$存在部分误差。则创建一个新的数据集D’’。在这个数据集中增加$X_2$ 和$X_3$的权重。采样训练出新的分类器$h_3$。$h_3$只对于分类$X_1$有问题。那么如果我们对于$h_1$,$h_2$ 和$h_3$ 以某种方式组合起来,我们就会得到一个perfect classifier。