AdaBoost的多樣性分析及改進(jìn)

2018-05-21 01:01:28王玲娣

計(jì)算機(jī)應(yīng)用 2018年3期

王玲娣，徐華

(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院，江蘇無(wú)錫 214122)

0 引言

集成學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)的熱點(diǎn)研究方向之一，和傳統(tǒng)單個(gè)分類器的構(gòu)造目的不同，它并非力求得到單一最優(yōu)分類器，而是按照一定策略集成一組個(gè)體分類器。在兩種經(jīng)典的集成算法：Boosting[1]和Bagging[2]被提出之后，研究者又陸續(xù)提出了大量的集成學(xué)習(xí)算法。其中Boosting算法可將粗糙的、不太正確的、簡(jiǎn)單的初級(jí)預(yù)測(cè)方法，按照一定的規(guī)則構(gòu)造出一個(gè)復(fù)雜的，精確度很高的預(yù)測(cè)方法，但是很難運(yùn)用于實(shí)際中；AdaBoost[3]的出現(xiàn)有效地解決了這一問(wèn)題，因此AdaBoost成為了Boosting家族的代表算法，受到極大的關(guān)注，成功應(yīng)用于聲音文件檢索[4]、人臉識(shí)別[5]、癌癥診斷[6]及目標(biāo)檢測(cè)[7-8]等實(shí)際問(wèn)題中。

集成學(xué)習(xí)主要有兩個(gè)階段：一是基分類器的生成;二是組合策略的選擇。將相同的基分類器進(jìn)行集成是無(wú)意義的，因?yàn)榻M合而成的分類器與基分類器的分類結(jié)果必然相同。所以基分類器之間要存在差異，即分類器多樣性。Krogh等[9]證明，集成的泛化誤差是由個(gè)體分類器的平均泛化誤差和平均差異度決定的。雖然目前已存在多種多樣性度量方式，但是關(guān)于它的嚴(yán)格定義并不統(tǒng)一[10-11]，只是可以從大量研究資料中獲知，多樣性有益于集成方法的設(shè)計(jì)，如：2012年，文獻(xiàn)[12]使用遺傳算法組合不同的多樣性用于選擇性集成；而文獻(xiàn)[13]于2014年通過(guò)向量空間模型形象地論證了多樣性的有效性；2015年文獻(xiàn)[14]明確提到多樣性是集成學(xué)習(xí)成功的重要條件；文獻(xiàn)[15]在2016年研究了很可能接近正確的(Probably Approximately Correct, PAC)學(xué)習(xí)框架下多樣性對(duì)基于投票組合策略的集成方法泛化能力的影響。多樣性對(duì)于AdaBoost來(lái)說(shuō)同樣重要，文獻(xiàn)[16]提出一種基于隨機(jī)子空間和AdaBoost自適應(yīng)集成方法，將隨機(jī)子空間融合到AdaBoost的訓(xùn)練過(guò)程中，目的就是增加AdaBoost的多樣性。文獻(xiàn)[17]詳細(xì)總結(jié)了AdaBoost的發(fā)展，并指出它的進(jìn)一步研究方向之一是其弱分類器的多樣性研究，因?yàn)橛嘘P(guān)分類器多樣性的研究，有效結(jié)論太少，有待深入與完善。也有文獻(xiàn)[18]研究了多樣性度量在AdaBoost.M2算法下的變化，得到一些規(guī)律，但如何使用這些規(guī)律以及最終能否提高集成性能，并沒(méi)給出答案。

針對(duì)上述問(wèn)題，本文研究了4種成對(duì)型多樣性度量在AdaBoost算法下的變化；并利用皮爾遜相關(guān)系數(shù)定量分析多樣性度量和分類性能之間的關(guān)系，發(fā)現(xiàn)雙誤度量(Double Fault, DF)變化模式固定——先增加后平緩；進(jìn)一步，提出了一種基于DF改進(jìn)的AdaBoost算法。結(jié)果表明改進(jìn)后的算法可以抑制AdaBoost的過(guò)適應(yīng)現(xiàn)象，降低錯(cuò)誤率。

1 成對(duì)型多樣性度量

關(guān)于成對(duì)多樣性的研究主要集中在以下3個(gè)方面：1)多樣性的度量方法；2)多樣性度量與集成學(xué)習(xí)精度的關(guān)系；3)如何利用多樣性度量更好地選擇分類器來(lái)構(gòu)建集成系統(tǒng)，以提高集成學(xué)習(xí)的性能。本文按照上述思路，先介紹4個(gè)成對(duì)型多樣性度量方法，然后研究這四種多樣性度量與AdaBoost產(chǎn)生的分類器精度有怎樣的關(guān)系，最后利用DF改進(jìn)AdaBoost算法。

成對(duì)型多樣性度量是定義在兩個(gè)分類器上的，假設(shè)分類器集合H={h1,h2,…,hm}，hi和hj(i≠j)為兩個(gè)不同的分類器，它們對(duì)同一組樣本分類情況組合如表1所示，其中樣本總數(shù)為n。表1中，n11(n00) 代表被hi和hj共同正確(錯(cuò)誤)分類的樣本數(shù)，n10代表被hi正確分類、hj錯(cuò)誤分類的樣本數(shù)，n01代表被hi錯(cuò)誤分類、hj正確分類的樣本數(shù)，并且它們滿足式(1):

n11+n00+n10+n01=n

(1)

表1 兩個(gè)分類器的分類結(jié)果組合Tab. 1 Result combination of two classifiers

下面將分別介紹4種成對(duì)型多樣性度量。

1)Q統(tǒng)計(jì)。

Q統(tǒng)計(jì)(Q-statistics, Q)[19]源于統(tǒng)計(jì)學(xué)，它的計(jì)算公式如下：

(2)

由式(2)可知Q的取值范圍是[-1,1]。當(dāng)兩個(gè)分類器的分類結(jié)果趨于一致時(shí)，Q值為正，否則為負(fù)，完全相同時(shí)為1，完全不同時(shí)為-1。

2)相關(guān)系數(shù)。

相關(guān)系數(shù)(Correlation coefficient,ρ)[20]源于統(tǒng)計(jì)學(xué)，ρ的取值范圍為[-1,1]，計(jì)算公式如下：

(3)

3)不一致度量。

不一致度量(Disagreement Measure, DM)[21]衡量的是兩個(gè)分類器分類結(jié)果不一致的程度，它的值越大，表明兩個(gè)分類器的多樣性越大，取值范圍為[0,1]，計(jì)算公式如下所示：

DMi, j=(n10+n01)/n

(4)

4)雙誤度量。

雙誤度量(DF)[22]關(guān)注的是兩個(gè)分類器在相同樣本上出錯(cuò)的情況，取值范圍[0,1]，最差的情況是兩個(gè)分類器錯(cuò)誤率都是100%，此時(shí)DF的值為1，分類器的正確性與多樣性同時(shí)降到最低。計(jì)算公式如下：

DFi, j=n00/n

(5)

(6)

2 AdaBoost算法

2.1 算法描述

能否使用多個(gè)弱分類器來(lái)構(gòu)建一個(gè)強(qiáng)分類器？這是一個(gè)有趣的理論問(wèn)題?！叭酢币馕吨诸惼鞯男阅軆H僅比隨機(jī)猜測(cè)略好，而“強(qiáng)”則表明分類器表現(xiàn)不錯(cuò)。AdaBoost即脫胎于上述理論問(wèn)題。AdaBoost算法是一個(gè)迭代過(guò)程，原理是：算法運(yùn)行過(guò)程中會(huì)給訓(xùn)練樣本賦予權(quán)重，一開(kāi)始，初始化成相等值，然后根據(jù)弱分類器學(xué)習(xí)算法訓(xùn)練第一個(gè)弱分類器，接著根據(jù)該分類器的加權(quán)誤差更新樣本權(quán)重，降低被正確分類的樣本權(quán)重，提高被錯(cuò)誤分類的樣本權(quán)重?；谛碌臉颖緳?quán)重分布，繼續(xù)訓(xùn)練弱分類器。如此往復(fù)，便可得到一組弱分類器，每個(gè)弱分類器也有一個(gè)權(quán)重，代表它在最后集成中的重要性。

下面將具體介紹樣本權(quán)重的更新過(guò)程。

對(duì)于二分類問(wèn)題，令S={(xi,yi)|i=1,2，…,n}表示訓(xùn)練樣本集，其中yi∈{-1,1}代表樣本標(biāo)簽。Dt表示第t輪迭代的樣本分布矢量，初始化時(shí)，D1={1/n,1/n,…,1/n}。在AdaBoost算法中，基分類器ht的重要性和它在樣本權(quán)重分布上的錯(cuò)誤率εt相關(guān)，也被稱為加權(quán)誤差，定義如下：

(7)

(8)

接下來(lái)，根據(jù)αt來(lái)更新樣本(xi,yi)權(quán)重，見(jiàn)式(9)：

Dt+1(i)=(Dt(i)exp(-yiht(xi)αt))/Zt

(9)

(10)

2.2 算法問(wèn)題分析

由上述可知，在AdaBoost的訓(xùn)練過(guò)程中，分類器的重心將被轉(zhuǎn)移到比較難分類的樣本上，這也是AdaBoost可以將“弱”變“強(qiáng)”的原因，但是如果訓(xùn)練樣本中存在大量的噪聲或者樣本數(shù)據(jù)錯(cuò)誤，就會(huì)出現(xiàn)過(guò)適應(yīng)現(xiàn)象。因?yàn)檫@些噪聲或錯(cuò)誤點(diǎn)是難分類點(diǎn)，隨著迭代的進(jìn)行，它們的權(quán)值會(huì)呈指數(shù)增長(zhǎng)，在這樣的樣本權(quán)重分布下，訓(xùn)練產(chǎn)生的弱分類器的錯(cuò)誤率相對(duì)增大，從而它們?cè)谧詈蟮募訖?quán)組合中作用變得非常小。而且由于歸一化，已經(jīng)被正確分類的樣本在過(guò)適應(yīng)的情況下，權(quán)重變得非常小，可能會(huì)出現(xiàn)被忽視的情況，那些被迭代前期產(chǎn)生的弱分類器正確分類的樣本，很有可能在最后組合分類器判斷下的結(jié)果是錯(cuò)誤的，最終導(dǎo)致退化，影響集成性能。所以，在迭代后期，要控制弱分類器對(duì)困難樣本的關(guān)注，避免樣本分布扭曲。

3 改進(jìn)算法

針對(duì)上述問(wèn)題，本文提出基于DF改進(jìn)的AdaBoost算法，通過(guò)改進(jìn)弱分類器選擇策略，控制弱分類器之間的DF值，來(lái)避免對(duì)困難樣本的過(guò)分關(guān)注。

3.1 改進(jìn)弱分類器的選擇策略

AdaBoost算法使用單層決策樹(shù)訓(xùn)練弱分類器，它的一個(gè)最基本理論上的性質(zhì)是可以降低訓(xùn)練誤差，Schapire等[3]給出了AdaBoost訓(xùn)練誤差的上界，見(jiàn)式(11):

(11)

(12)

但是AdaBoost算法并沒(méi)有考慮這種情況：候選的弱分類器集合中有兩個(gè)或者多個(gè)弱分類器的加權(quán)誤差相同(或者是相差很小)，但是這些弱分類器與已經(jīng)加入集成的弱分類器間的差異性有所不同，而最終選擇的弱分類器的多樣性不是最好的，這樣就會(huì)影響集成泛化能力；而且AdaBoost會(huì)出現(xiàn)過(guò)適應(yīng)就是因?yàn)閷?duì)于某些樣本過(guò)于集中關(guān)注，當(dāng)增加了分類器間的多樣性，就可以適度分散這種集中關(guān)注度。因此，需要在選擇弱分類器的時(shí)候，加入多樣性的判斷。首先分析相關(guān)系數(shù)ρ，由式(3)可知，當(dāng)兩個(gè)基分類器的分類結(jié)果趨向不同時(shí)，ρ值為負(fù)，即n10n01>n11n00，當(dāng)增大n10n01時(shí)，n11n00相應(yīng)地降低，但無(wú)法保證降低的是n00，從而無(wú)法保證平均分類精度，這意味著ρ與集成的分類性能關(guān)聯(lián)并不緊密，同時(shí)它的計(jì)算公式相對(duì)于其他三個(gè)多樣性度量公式最為復(fù)雜。Q統(tǒng)計(jì)與ρ計(jì)算公式的分子相同，可以把Q統(tǒng)計(jì)看作是ρ的一種簡(jiǎn)化運(yùn)算，因此Q存在著與ρ相同的問(wèn)題。接下來(lái)分析不一致度量DM，由式(4)可知，DM越大，基分類器間的多樣性越大，但同時(shí)平均精度也越低。增加多樣性的目的是為了進(jìn)一步提高集成算法的分類精度，所以這三種多樣性度量從理論上分析都是不適合AdaBoost的。本文提出一種基于DF改進(jìn)的弱分類器選擇策略，如下所示：

(13)

其中：w1+w2=1，分別代表加權(quán)誤差與DF值在選擇策略中的比重；DFt-1,t表示候選弱分類器與上一輪迭代中已被選中弱分類器之間的DF度量值。由式(5)可知，DF變小，表示n00減少了，相對(duì)的n11+n01+n10就會(huì)增加。若增加的是n11，那么表明集成分類器的正確率提高了，若增加的是n10+n01，則表明基分類器間的差異性增大，集成多樣性提高了。對(duì)AdaBoost來(lái)說(shuō)，DF變小意味著兩個(gè)弱分類器共同錯(cuò)分的樣本數(shù)少了，它們各自有自己關(guān)注的困難樣本，就不會(huì)對(duì)某些樣本過(guò)于集中關(guān)注，避免某些樣本的權(quán)值過(guò)大，進(jìn)而抑制過(guò)適應(yīng)。

關(guān)于w1、w2的取值，在AdaBoost過(guò)程中不是固定不變的，而是根據(jù)AdaBoost的訓(xùn)練情況動(dòng)態(tài)調(diào)整。w2為已經(jīng)加入集成的前t-1個(gè)弱分類器間的平均DF值，根據(jù)式(6)可得：

(14)

w1=1-w2

(15)

根據(jù)式(13)和(14)可知，若是迭代中的整體平均DF值有增大的趨勢(shì)，就會(huì)相應(yīng)地增加DFt-1,t在選擇標(biāo)準(zhǔn)中比重，控制對(duì)共同錯(cuò)分樣本過(guò)分關(guān)注，從而達(dá)到抑制過(guò)適應(yīng)的目的，否則，加權(quán)誤差依然是選擇標(biāo)準(zhǔn)中的重要因素。這樣就能在弱分類器增加多樣性的同時(shí)保證其準(zhǔn)確性。式(11)已經(jīng)說(shuō)明了AdaBoost最終模型的訓(xùn)練集誤差是有上界的，這表明該算法理論上可以收斂到誤差邊界；而修改后算法并沒(méi)有破壞AdaBoost算法框架，依然按照原來(lái)貪心策略進(jìn)行迭代，這一點(diǎn)保證了算法的可收斂性。

3.2 基于DF的弱分類器算法

根據(jù)單層決策樹(shù)算法訓(xùn)練出的弱分類器的函數(shù)表達(dá)式如下：

(16)

其中：b∈{-1,1}是一個(gè)指示不等號(hào)方向的參數(shù)，θ是特征閾值。假設(shè)訓(xùn)練樣本按照第j維特征值升序排列，使得x1, j≤x2, j≤…≤xm, j，則θ的取值范圍如下：

Θj={x1, j-1,xm, j+1}∪

(17)

則基于DF的弱分類器算法(Weak Learning algorithm based on Double Fault, WLDF)如下：

WLDF算法。

輸入：訓(xùn)練集S，樣本分布Dt。

初始化：EDFmin=+∞，h*=null

根據(jù)式(14)和(15)計(jì)算出w1和w2

for 樣本的每一特征j：

由式(17)計(jì)算θ取值范圍Θj

for 每一個(gè)閾值θ∈Θj:

for 不等號(hào)b∈{-1,1}:

訓(xùn)練出一個(gè)弱分類器ht

計(jì)算EDF=w1εt+w2DFt-1,t

ifEDF

EDFmin=EDF

10)

h*=ht

11)

end for

12)

end for

13)

end for

輸出：h*。

4 實(shí)驗(yàn)

實(shí)驗(yàn)分為實(shí)驗(yàn)一和實(shí)驗(yàn)二。實(shí)驗(yàn)一研究Q、ρ、DM、DF四種多樣性度量在AdaBoost算法迭代過(guò)程中的變化規(guī)律及其與集成泛化能力的相關(guān)性，實(shí)驗(yàn)二驗(yàn)證WLDF算法的有效性。實(shí)驗(yàn)機(jī)器配置為：Windows 10，內(nèi)存4 GB，CPU 3.2 GHz，算法基于Python 2.7實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)來(lái)自UCI(University of CaliforniaIrvine Irvine)數(shù)據(jù)庫(kù)(http://archive.ics.uci.edu/ml/datas-ets.html)，具體信息見(jiàn)表2。

表2 實(shí)驗(yàn)數(shù)據(jù)集信息Tab. 2 Information of data sets

4.1 實(shí)驗(yàn)一的結(jié)果及分析

為充分使用數(shù)據(jù)，實(shí)驗(yàn)一采用10折交叉驗(yàn)證，實(shí)驗(yàn)結(jié)果如圖1所示。圖1分別呈現(xiàn)了6個(gè)數(shù)據(jù)集的多樣性度量變化與測(cè)試誤差變化。圖1(a)～(d)4個(gè)子圖分別呈現(xiàn)了ρ、Q、DM、DF的變化情況，其中縱坐標(biāo)是多樣性度量值，橫坐標(biāo)是迭代次數(shù)(也是基分類器數(shù)目)，10次實(shí)驗(yàn)的每一次結(jié)果畫(huà)一條實(shí)線表示，以此觀察10次結(jié)果的變化規(guī)律是否相同。子圖(e)中縱坐標(biāo)是10次實(shí)驗(yàn)結(jié)果的平均測(cè)試誤差。

首先，整體觀察圖1，可以看到四種多樣性度量都在弱分類器數(shù)目增加到一定程度時(shí)，趨近一個(gè)值。觀察圖1中German、Heart、Pima以及Sonar數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果，子圖(a)～(d)中前階段的線條很亂，這表明10次實(shí)驗(yàn)結(jié)果差別大，這時(shí)觀察相應(yīng)的子圖(e)，測(cè)試誤差的變化很激烈，雖然總體方向是下降，但是曲線波動(dòng)很大。而當(dāng)多樣性度量平穩(wěn)變化時(shí)，見(jiàn)圖1中Balance和Chess數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果，四種多樣性度量的10次結(jié)果幾乎在一條線上，而再看測(cè)試誤差變化，幾乎沒(méi)有波動(dòng)，持續(xù)下降。這樣定性看來(lái)，多樣性與組合分類器精度之間有一定的關(guān)聯(lián)。

圖1 6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 Fig. 1 Experimental results on six data sets

然后，單獨(dú)看圖1的子圖(d)，這是DF的變化曲線，每條曲線的變化都是相同的模式，先單調(diào)遞增后不變，而ρ、Q、DM在不同的數(shù)據(jù)集上變化有所區(qū)別。根據(jù)DF的計(jì)算公式，可以知道，它統(tǒng)計(jì)的是共同錯(cuò)分的樣本占總數(shù)的比例，而AdaBoost算法特點(diǎn)是關(guān)注難分的樣本，隨著迭代的進(jìn)行，可以看到DF的值基本保持不變，說(shuō)明AdaBoost算法的關(guān)注點(diǎn)確實(shí)集中到了這些共同錯(cuò)分的樣本上。DF也能對(duì)組合分類器的精確度有所反映，它最后趨近的值越大，組合分類器的精度就相對(duì)越差。

通過(guò)觀察圖1，已經(jīng)對(duì)多樣性與分類精度之間的關(guān)系有了初步的直觀認(rèn)識(shí)，為了進(jìn)行更客觀地比較，采用定量分析的方法，利用皮爾遜相關(guān)系數(shù)公式如(18)所示，計(jì)算多樣性度量與測(cè)試誤差的相關(guān)性，結(jié)果見(jiàn)表3。式(18)中，x、y表示兩個(gè)變量，E(x)表示x的數(shù)學(xué)期望。

(18) 表3 多樣性度量與測(cè)試誤差之間的皮爾遜相關(guān)系數(shù)值Tab. 3 Pearson correlation coefficient between diversity measurement and test error

分析表3可知，在Balance、Chess、German、Sonar、Pima數(shù)據(jù)集上，DF與測(cè)試誤差之間的相關(guān)性均高于其他三種多樣性度量；在Heart 上四種多樣性度量與測(cè)試誤差之間都是極弱相關(guān)?？偟膩?lái)說(shuō)，DF與測(cè)試誤差之間的相關(guān)性最高。

4.2 實(shí)驗(yàn)二的結(jié)果及分析

實(shí)驗(yàn)二中，使用WLDF作為AdaBoost的弱學(xué)習(xí)算法記為WLDF_Ada。為驗(yàn)證WLDF_Ada的有效性，實(shí)驗(yàn)采用10折交叉驗(yàn)證法，比較WLDF_Ada與AdaBoost、Bagging、隨機(jī)森林(Random Forest, RF)以及文獻(xiàn)[16]提出的R_Ada方法的10次平均測(cè)試誤差，基分類器數(shù)目均為50。其中，Ada.、Bag、RF來(lái)自python機(jī)器學(xué)習(xí)工具箱sicikt-learn(http://scikit-learn.org/stable/index.html)。

表4 四種算法測(cè)試誤差對(duì)比Tab. 4 Comparison of test errors of four algorithms

分析表4可知：在Balance數(shù)據(jù)集上，R_Ada取得最小測(cè)試誤差，WLDF_Ada與AdaBoost次之，三者表現(xiàn)優(yōu)于Bagging、RF；在Chess數(shù)據(jù)集上Bagging和RF優(yōu)于其他三種AdaBoost算法。分析發(fā)現(xiàn)這是因?yàn)镃hess數(shù)據(jù)屬性之間存在強(qiáng)烈的相互影響，需要增加決策樹(shù)的深度來(lái)改善分類性能，而本文實(shí)驗(yàn)中AdaBoost算法是以單層決策樹(shù)作為弱分類器，Bagging和RF則對(duì)基分類器決策樹(shù)的深度沒(méi)有限制。在German數(shù)據(jù)集上，WLDF_Ada的測(cè)試誤差比Bagging、RF、AdaBoost、R_Ada分別低1.05%、0.44%、2.55%，0.05%。類似地在Heart、Pima以及Sonar數(shù)據(jù)集上WLDF_Ada的測(cè)試誤差比Bagging、RF、AdaBoost、R_Ada分別低了0.3%、0.74%、4.81%、3.14%；1.51%、1.14%、1.44%、1.08%以及2.57%、0.92%、2.22%、0.29%。除了在Chess和Balance數(shù)據(jù)集上，WLDF_Ada算法的表現(xiàn)均優(yōu)于其他四種算法。單獨(dú)比較WLDF_Ada與AdaBoost，除了在Balance數(shù)據(jù)集上，WLDF_Ada均比AdaBoost有不同程度上的性能提升。

5 結(jié)語(yǔ)

多樣性是影響集成學(xué)習(xí)的重要因素，合適的多樣性度量可以指導(dǎo)基分類器的選擇以及組合。本文研究了4種成對(duì)型多樣性度量與AdaBoost算法表現(xiàn)之間的關(guān)系，實(shí)驗(yàn)一的結(jié)果表明隨著迭代的進(jìn)行，4種多樣性度量值都趨于一個(gè)穩(wěn)定的值，其中DF的變化模式固定。另外針對(duì)AdaBoost的過(guò)適應(yīng)問(wèn)題，本文改進(jìn)了傳統(tǒng)AdaBoost弱分類器的選擇策略，提出了弱分類器學(xué)習(xí)算法WLDF，實(shí)驗(yàn)二結(jié)果表明WLDF算法可以抑制對(duì)困難樣本的過(guò)分關(guān)注，增加分類器間的多樣性，改善AdaBoost的分類性能。DF與AdaBoost算法的分類精度在一些數(shù)據(jù)集上關(guān)聯(lián)并不緊密，下一步可以嘗試根據(jù)樣本權(quán)值以及弱分類器的權(quán)重，設(shè)計(jì)一個(gè)更合適AdaBoost算法的多樣性度量方法。

參考文獻(xiàn)(References)

[1] SCHAPIRE R E. The strength of weak learnability [J]. Machine Learning, 1990, 5(2): 197-227.

[2] BREIMAN L. Bagging predictors [J]. Machine Learning, 1996, 24(2): 123-140.

[3] SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning, 1999, 37(3): 297-336.

[4] MORENO P J, LOGAN B, RAJ B. A boosting approach for confidence scoring [EB/OL]. [2017- 03- 06]. http://www.mirrorservice.org/sites/www.bitsavers.org/pdf/dec/tech_reports/CRL-2001-8.pdf.

[5] 廖廣軍,李致富,劉嶼,等.基于深度信息的弱光條件下人臉檢測(cè)[J].控制與決策,2014,29(10):1866-1870.(LIAO G J, LI Z F, LIU Y, et al. Human face detection under weak light based on depth information [J]. Control and Decision, 2014, 29(10): 1866-1870.)

[6] PIAO Y, PIAO M, RYU K H. Multiclass cancer classification using a feature subset-based ensemble from microRNA expression profiles [J]. Computers in Biology & Medicine, 2017, 80: 39-44.

[7] KIM B, YU S C. Imaging sonar based real-time underwater object detection utilizing AdaBoost method [C]// UT 2017: Proceedings of the 2017 IEEE Underwater Technology. Piscataway, NJ: IEEE, 2017: 1-5.

[8] 李文輝,倪洪印.一種改進(jìn)的AdaBoost訓(xùn)練算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2011,49(3):498-504.(LI W H, NI H Y. An improved AdaBoost training algorithm [J]. Journal of Jilin University (Science Edition), 2011, 49(3): 498-504.)

[9] KROGH B A, VEDELSBY J. Neural network ensembles, cross validation, and active learning [J]. Advances in Neural Information Processing Systems, 1994, 7(10): 231-238.

[10] KUNCHEVA L I. That elusive diversity in classifier ensembles [C]// Proceedings of the 1st Iberian Conference on Pattern Recognition and Image Analysis, LNCS 2652. Berlin: Springer, 2003: 1126-1138.

[11] 孫博,王建東,陳海燕,等.集成學(xué)習(xí)中的多樣性度量[J].控制與決策,2014,29(3):385-395.(SUN B, WANG J D, CHEN H Y, et al. Diversity measures in ensemble learning [J]. Control and Decision, 2014, 29(3): 385-395.)

[12] CAVALCANTI G D C, OLIVEIRA L S, MOURA T J M, et al. Combining diversity measures for ensemble pruning [J]. Pattern Recognition Letters, 2016, 74(C):38-45.

[13] 楊春,殷緒成, 郝紅衛(wèi),等.基于差異性的分類器集成:有效性分析及優(yōu)化集成[J].自動(dòng)化學(xué)報(bào),2014, 40(4):660-674.(YANG C, YIN X C, HAO H W, et al. Classifier ensemble with diversity: effectiveness analysis and ensemble optimization [J]. Acta Automatica Sinica, 2014, 40(4): 660-674.)

[14] PARVIN H, MIRNABIBABOLI M, ALINEJAD-ROKNY H. Proposing a classifier ensemble framework based on classifier selection and decision tree [J]. Engineering Applications of Artificial Intelligence, 2015, 37: 34-42.

[15] LI N, YU Y, ZHOU Z H. Diversity regularized ensemble pruning [C]// Proceedings of the 2012 Joint European Conference on Machine Learning and Knowledge Discovery in Databases, LNCS 7523. Berlin: Springer, 2012: 330-345.

[16] 姚旭,王曉丹,張玉璽,等.基于隨機(jī)子空間和AdaBoost的自適應(yīng)集成方法[J].電子學(xué)報(bào),2013,41(4):810-814.(YAO X, WANG X D, ZHANG Y X, et al. A self-adaption ensemble algorithm based on random subspace and AdaBoost [J]. Acta Electronica Sinica, 2013, 41(4):810-814.)

[17] 曹瑩,苗啟廣，劉家辰,等.AdaBoost算法研究進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2013,39(6): 745-758.(CAO Y, MIAO Q G, LIU J C, et al. Advance and prospects of AdaBoost algorithm [J]. Acta Automatica Sinica, 2013, 39(6): 745-758.)

[18] MEDDOURI N, KHOUFI H, MADDOURI M S. Diversity analysis on boosting nominal concepts [C]// Proceedings of the 2012 Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNCS 7301. Berlin: Springer, 2012: 306-317.

[19] YULE G U. On the association of attributes in statistics: with illustrations from the material of the childhood society, &c [J]. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character, 1900, 194(252/253/254/255/256/257/258/259/260/261): 257-319.

[20] KUNCHEVA L I, WHITAKER C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy [J]. Machine Learning, 2003, 51(2): 181-207.

[21] SKALAK D B. The sources of increased accuracy for two proposed boosting algorithms [C]// AAAI ’96: Proceedings of the Workshop on Integrating Multiple Learned Models for Improving and Scaling Machine Learning Algorithms. Menlo Park, CA: AAAI Press, 1996: 120-125.

[22] GIACINTO G, ROLI F. Design of effective neural network ensembles for image classification purposes [J]. Image and Vision Computing, 2001, 19(9/10): 699-707.

This work is partially supported by the National Natural Science Foundation of Jiangsu Province (BK20140165).

WANGLingdi, born in 1991, M.S.candidate. Her research interests include machine learning, data mining.

XUHua, born in 1978, Ph.D., associate professor. Her research interests include computer intelligence, workshop scheduling, large data.