AdaBoost的樣本權重與組合系數的分析及改進

2022-07-29 08:49:20朱亮徐華成金海朱深

計算機應用 2022年7期

關鍵詞：分類

朱亮，徐華，成金海，朱深

朱亮，徐華*，成金海，朱深

（江南大學人工智能與計算機學院，江蘇無錫 214122）（ ? 通信作者電子郵箱joanxh2003@163.com）

針對自適應增強（AdaBoost）算法的基分類器線性組合效率低以及過度關注難分樣本的問題，提出了基于間隔理論的兩種改進算法WPIAda與WPIAda.M。首先，WPIAda與WPIAda.M算法都將樣本權值的更新分為四種情形，從而增加間隔從正到負變化的樣本權值來抑制間隔的負向移動，并減少間隔處于零點的樣本數量；其次，WPIAda.M算法根據基分類器的錯誤率與樣本權重的分布狀態，給出新的基分類器系數求解方法，從而提高基分類器的組合效率。在10個UCI數據集上，與dfAda、skAda、swaAda等算法相比，WPIAda和WPIAda.M算法的測試誤差分別平均降低了7.46個百分點和7.64個百分點；AUC分別提高了11.65個百分點和11.92個百分點。實驗結果表明，WPIAda和WPIAda.M算法可以有效降低對難分樣本的關注，并且WPIAda.M算法能夠更高效地集成基分類器，因此兩種算法均可進一步提高分類性能。

自適應增強；間隔理論；樣本權重；基分類器；組合效率

0 引言

集成學習是機器學習中的一個重要研究領域，它不力求得到單一最優分類器，而是通過已有數據訓練出一組弱分類器，然后按照一定策略將弱分類器組合成一個強分類器。Boosting［1］是集成學習的代表算法，它可將簡單的、正確率不高的粗糙預測方法，通過特定規則構造出一個復雜且準確度高的預測方法［2］。其中自適應增強（Adjusts Adaptive Boosting， AdaBoost）［3］是Boosting家族中最具代表性的算法，隨著不斷的研究衍生出多種AdaBoost算法［4-5］。有學者從統計學的方向對AdaBoost的成功進行了解釋［6］，認為AdaBoost是邏輯模型上以最大伯努利似然為準則的加性建模的近似方法，并在此基礎上對AdaBoost進行了小的修改，減少計算量，以適應大規模的數據挖掘；但實踐表明，在多數情況下AdaBoost在收斂后繼續迭代，仍然能降低測試集上的錯誤率，對于這種現象統計學不能給出很好的解釋。文獻［7］從間隔理論的方向解釋了這個問題，并證明了訓練樣本的間隔分布與集成時的策略相關［8］。由于AdaBoost算法的優秀表現，它被廣泛應用于圖像采集［9］、語音識別［10］、電力需求預測［11］、醫療診斷［12］、室內定位［13］、人臉識別［14］等現實問題中。

集成學習主要有兩個方面：一是樣本權重的更新策略，二是基分類器的組合策略。為提高樣本權重的更新效率，文獻［15］對樣本特征進行排序，而特征排序方法的表現基本上取決于數據集的分布，使用最高排序特征的子集構造基分類器，可減少訓練時間。文獻［16］在樣本權重更新上不再依賴基分類器，而是依賴每次迭代的強分類器，通過并行訓練基分類器同樣可以縮短訓練時間。為削減AdaBoost算法對難分樣本的過度關注，導致算法退化，文獻［17］首先對不同類別的樣本給出不同權重的損失函數，然后構造相應的基分類器，同時用標準Logistic函數估計其條件概率，最后引入極大似然估計更新樣本的權重。文獻［18］提出了基于樣本抽樣和權重調整的SWA-AdaBoost（簡記為swaAda）算法，通過降低錯分樣本權值的增長速度，使得樣本權重的分布更加均勻，從而分類能力得到進一步提高。文獻［19］先對樣本進行聚類，將不同類別盡可能地聚合起來，對于邊界重疊的樣本再使用AdaBoost算法進行劃分，提高了算法的收斂速度。

為高效集成基分類器，文獻［20］提出了一種新的集成策略，內循環將基分類器通過核支持向量機超平面幾何線性集成為一個中等分類器，外循環使用AdaBoost組合方法將中等分類器進行集成。文獻［21］不需要交叉驗證或單獨的驗證集來確定AdaBoost使用的基分類器數量，這種方法可以找出算法最佳的基分類器的數量。文獻［22］中提出了基于AdaBoost的Linux病毒檢測算法（簡記為adAda），使用了新的基分類器參數求解方法，基分類器的權重不再僅受錯誤率的影響，而是同時考慮錯誤率和對正樣本的識別率，這種做法提高了集成效率。文獻［23］中的基學習器在問題數據集上的誤差統計可用于自動選擇最佳臨界閾值，將訓練出的每個基分類器單獨使用回歸模型，并結合單層神經網絡進一步調整模型結構和增強適應能力。

為同時解決樣本權重更新和基分類器組合上的問題，文獻［24］提出了一種改進的帶參數AdaBoost（Improved Parameterized AdaBoost， IPAB）算法，樣本權值的更新粒度更小，基分類器的組合方式也被優化。文獻［25］為解決間隔在零點附近頻繁移動的問題，提出了PAB （Parameterized AdaBoost）算法分情況處理樣本權值的更新，并在樣本權值的更新中引入參數，使更新步長處于一個合理區間，進而抑制間隔從正到負的移動，使間隔不斷正向移動，使損失函數得到了優化。文獻［26］提出的損失函數定義為修正指數損失函數和平方損失函數的加權組合，重新設計基分類器權值和訓練樣本概率分布的更新公式。文獻［27］則從多樣性的方向對算法進行改進，研究表明雙誤度量（Double Fault）對組合分類器的影響最大，進而基于雙誤度量提出了WLDF_Ada（簡記為dfAda）算法，改進后的算法分類效果更好。

以上算法與AdaBoost相比，分類性能得到了一定程度的提高，但整體上還是稍顯不足。為進一步提高AdaBoost算法的分類性能，本文首先通過強分類器連續兩輪對樣本的分類結果給出改進的樣本權重更新策略，并提出WPIAda（sample Weight and Parameterization of Improved AdaBoost）算法；其次，通過基分類器連續兩輪對樣本分類結果給出粒度更小的樣本權重更新策略，并給出新的基分類器權重表達式，通過在樣本權重的更新策略和基分類器的組合策略上的改進，提出WPIAda.M（sample Weight and Parameterization of Improved AdaBoost-Multitude）算法。本文所提的兩種算法有更低的錯誤率和更高的AUC（Area Under Curve）值。

1 AdaBoost算法

1.1　AdaBoost算法流程

AdaBoost算法具體步驟如下。

步驟1 給定訓練集：

4）更新樣本權重，見式（4）：

步驟4 得到強分類器：

1.2　AdaBoost間隔理論

間隔理論在文獻［7］中被首次提出，并給出了基于間隔分布、訓練集數目以及假設集復雜性的泛化誤差上界。在文獻［28］中，推導出在分類樣本的間隔近似滿足高斯分布的假設下，AdaBoost算法的損失函數可近似化為最大化且非標準化的間隔均值和最小化且非標準化間隔分布的方差相關的函數，形式化的表達式如下所示：

相較于樣本間隔，平均間隔能夠從統計學角度反映整體間隔分布。個樣本的平均間隔可以定義為：

2 兩種新的集成學習權重優化算法

2.1　WPIAda算法的分析與設計

WPIAda算法的樣本權重更新策略分為以下4種情形：

1）被前一輪強分類器正確分類，且被本輪強分類器錯誤分類的樣本。

2）被前一輪強分類器正確分類，且被本輪強分類器正確分類的樣本。

3）被前一輪強分類器錯誤分類，且被本輪強分類器錯誤分類的樣本。

4）被前一輪強分類器錯誤分類，且被本輪強分類器正確分類的樣本。

對情形1）和情形3）進行分析，情形1）的間隔大于情形3）的間隔，但情形1）的間隔處于負向移動狀態。為了抑制間隔發生負向移動，樣本權值在情形1）下應比在情形3）下增加的幅度大。

對情形2）和情形4）進行分析，情形2）的間隔大于情形4）的間隔，為保證間隔繼續正向移動狀態，情形4）的樣本權值應比情形2）的樣本權值增加的幅度大。下面將給出WPIAda算法的樣本權重更新策略。

WPIAda算法流程如下：

步驟1與步驟2 與1.1節AdaBoost算法流程相同，給定訓練集，并且初始化樣本權重。

1）～3）與1.1節AdaBoost算法流程相同，首先訓練出基分類器，并且計算出此時的錯誤率，最后通過錯誤率給出基分類器的權重。

4）樣本權值更新策略如下：

步驟4 得到強分類器：

2.2　WPIAda算法有效性證明

證明權值調整是否達到抑制間隔負向移動和控制間隔正向移動目的，即證明樣本權重更新策略是否滿足2.1節的分析。

綜上所述，在前后兩次迭代時，WPIAda算法更加關注間隔處在0附近的樣本。也就是說，通過WPIAda算法的樣本更新策略，可以使下一輪基分類器更加關注跨越0點的樣本、間隔從負到正變化的樣本，以降低它們在下一輪被錯分的概率。

2.3　WPIAda.M算法

在集成算法的研究中，基分類器組合策略一直是研究的熱點，典型的組合系數有最大法、簡單多數投票法、加權平均法等，以上方法的一個共同缺陷是基分類器權重僅由錯誤率給出。在樣本權值的更新策略上，WPIAda.M算法將考慮更小的粒度，保證間隔從負到正的變化，也就是考慮前后兩輪基分類器的分類結果，不再考慮強分類器的分類結果，基分類器組合系數僅由錯誤率給出，對于WPIAda.M算法來說不再適用。

在WPIAda.M算法中對樣本權重分布狀態的定義如式（17）所示：

而對基分類器系數重新定義為式（18），為大于零的常數。

2.4　WPIAda.M算法的分析與設計

基于WPIAda算法思路，通過調節權值來抑制間隔增量從正到負的減小，更加合理地調整樣本的權重分布狀態。

WPIAda.M算法樣本權值調整策略分為如下4種情形：

1）被前一輪基分類器正確分類，且被本輪基分類器錯誤分類的樣本。

2）被前一輪基分類器正確分類，且被本輪基分類器正確分類的樣本。

3）被前一輪基分類器錯誤分類，且被本輪基分類器錯誤分類的樣本。

4）被前一輪基分類器錯誤分類，且被本輪基分類器正確分類的樣本。

WPIAda.M算法的樣本權重更新策略需滿足以下兩個條件：

條件1：情形1）比情形3）樣本權重增加的數值大。

條件2：情形4）比情形2）樣本權重增加的數值大。

WPIAda.M算法流程如下：

步驟1和步驟2 與1.1節AdaBoost算法流程相同，給定訓練集，并且初始化樣本權重。

1）～3）與1.1節AdaBoost算法流程相同，先訓練出基分類器，并且計算出此時的錯誤率，然后通過錯誤率給出基分類器的權重。

4）樣本權值更新策略如下：

其他條件：

步驟4 得到強分類器：

2.5　對于的分析

2.6　WPIAda.M算法的有效性證明

證明權值的調整是否達到間隔從負到正變化的目的，即證明權值調整策略是否滿足2.4節提出的兩個條件。

3 實驗與結果分析

3.1　實驗設定

表1　實驗數據集信息

3.2　以分類誤差作為評價指標

WPIAda和WPIAda.M算法與其他集成算法的分類誤差結果如表2和圖1所示。

表2　8種算法在10個數據集上的分類誤差對比單位：%

圖1　不同算法測試誤差的Friedman檢驗圖

如表2所示，在10個數據集上，WPIAda相較于dfAda、IPAB、skAda、adAda、swaAda、PAB在australian數據集上誤差分別低了0.15、54.06、0.87、1.02、13.63、20.15個百分點；類似地在breast、chess、german、sonar數據集上，WPIAda算法的表現均優于dfAda、IPAB、skAda、adAda、swaAda、PAB；單獨比較WPIAda與skAda，除了在balance、heart、pimax數據集上，WPIAda比skAda分類誤差最大降低2.95個百分點，最小降低了0.29個百分點。WPIAda.M相較于dfAda、IPAB、skAda、adAda、swaAda、PAB在balance、breast、chess、german、messidor、pima、sonar數據集上分類誤差均是最小，其中在balance數據集上WPIAda.M的分類誤差為0；在heart數據上與dfAda的誤差相同，與其他幾種算法相比誤差是最小的；單獨比較WPIAda.M與skAda，除了在australian數據集上誤差相同，在其余數據集上均有不同程度上的性能提升。在多個數據集上比較不同算法的性能時，可使用基于算法排序的Friedman檢驗，實驗采用顯著水平為0.05的Friedman檢驗，各圓點對應各算法顯示平均序值，以圓點為中心的線段表示臨界閾值的大小，若兩個算法的橫線段沒有交疊區域，則說明兩個算法的分類效果有明顯差異，反過來不一定成立，即使兩個橫線存在交疊的區域，二者也可能存在顯著的差異。圖1中的縱軸顯示各個集成算法，橫軸是平均序值。由圖1可知，WPIAda和WPIAda.M算法在分類誤差上表現的性能顯著優于swaAda、adAda、PAB、IPAB。

3.3　以AUC作為評價指標

AUC為受試者工作特征曲線下的面積［30］，AUC越大代表分類的效果越好，AUC為1表示達到了最理想的分類效果；AUC為0.5則表示是隨機猜測。AUC的計算由真正率（Ture Positive Rate，）和假正率（False Positive Rate，）給出，計算式如下：

表示被正確分類的比率，取值范圍為［0，1］，計算式如下：

表示錯誤分類的比率，取值范圍為［0，1］，計算式如下：

（True Positive）表示真正類數，（False Positive）表示假正類數，（True Negative）表示真反類數，（False Negative）表示假反類數。

表3　8種算法在10個數據集上的AUC對比單位：%

分析表3可得，WPIAda算法相較于dfAda、IPAB、skAda、adAda、swaAda、PAB算法在balance、german、heart、messidor、pima數據集上AUC均有不同程度上的提升，分別至少提高了0.02、1.79、0.8、3.21、0.63個百分點。WPIAda單獨與skAda比較，AUC在10個數據集上都有提升，最高提升了12.57個百分點，最低提升了0.17個百分點。WPIAda.M算法與dfAda、IPAB、skAda、adAda、swaAda、PAB算法相比在balance、breast、chess、german、heart、messidor、pima、sonar數據集上AUC同樣有不同程度的提升，單獨比較WPIAda.M與skAda，在10個數據集上分別提高6.9、0.17、4.17、4.57、11.84、8.42、13.28、9.82、11.72、12.18個百分點。

為進一步比較WPIAda和WPIAda.M算法在AUC性能上的差異，本文在顯著水平為0.05時進行了Friedman檢驗，檢驗結果如圖2所示。分析圖2可知，WPIAda和WPIAda.M算法在AUC上表現的性能顯著優于IPAB、skAda、adAda、swaAda、PAB算法。綜上分析可知，本文所提WPIAda和WPIAda.M算法在AUC上表現的性能優于其他集成算法。

圖2　不同算法的AUC Friedman檢驗圖

3.4　平均間隔的分析

本文實驗將驗證間隔的提高是否可以提高算法的性能，因此只需比較WPIAda和WPIAda.M算法與skAda算法的平均間隔，若間隔大且算法的AUC較大，則能表明從間隔理論方向研究AdaBoost是可行的。各算法的平均間隔結果如圖3所示，在圖3（a）、（c）、（d）、（f）、（h）、（i）上，三種算法分別迭代45次、35次、55次、30次、43次、35次后平均間隔值趨于平穩；在圖3（e）、（g）、（j）上WPIAda算法、WPIAda.M算法與skAda算法的平均間隔值的變化基本相同；在圖3（b）、（f）上WPIAda算法的間隔大于skAda算法，同時WPIAda算法的AUC也大于skAda算法，在圖3（c）上skAda、WPIAda.M算法的間隔大于WPIAda算法，同時AUC也大于WPIAda算法，在圖3（h）上也是同樣的情況；在圖3（a）、（d）、（e）、（g）上WPIAda、WPIAda.M、skAda算法的間隔幾乎相等，但WPIAda和WPIAda.M算法的AUC大于skAda算法，這說明本文所提的算法在理論和實驗方面是可行的。實驗結果表明，從間隔理論的方向可以為改進AdaBoost算法提供新的思路，本文所提算法與其他算法相比都有不同程度上的性能提升。

圖3　3種算法的平均間隔變化

4 結語

針對傳統AdaBoost算法在樣本權重更新時，將錯分樣本分配較大權值，進而隨著迭代的進行，算法會過度關注錯分樣本，可能使得已經正確分類的樣本被再次錯分，以及對噪聲樣本敏感等問題，本文提出了WPIAda算法和WPIAda.M算法，將樣本更新過程分為四種情形，針對每種不同的情形，使用不同的更新的策略，克服了樣本過度關注難分樣本的缺點，降低了噪聲對算法的影響。其中WPIAda.M算法對基分類器系數求解方法進行了改進，新的基分類器系數由錯誤率和樣本權重的分布狀態共同給出，使得算法集成基分類器更高效。同時，本文兩種算法沒有考慮基分類器間的差異性，增加基分類器間的差異性有助于提高集成算法的泛化能力及分類精度，因此尋找適合本文算法的多樣性度量方法是今后研究的重點。

[1] SCHAPIRE R E. The strength of weak learnability［J］. Machine Learning， 1990， 5（2）：197-227.

[2] REYZIN L， SCHAPIRE R E. How boosting the margin can also boost classifier complexity［C］// Proceedings of the 23rd International Conference on Machine Learning. New York： ACM， 2006：753-760.

[3] FREUND Y， SCHAPIRE R E. A decision-the retic generation of online learning and an application to boosting［J］. Journal of Computer and System Science， 1997， 55（1）：119-139.

[4] BIAU G， CADRE B， ROUVIèRE L. Accelerated gradient boosting［J］. Machine Learning， 2019， 108（6）：971-992.

[5] ZHANG C S， BI J J， XU S X， et al. Multi-Imbalance： an open-source software for multi-class imbalance learning ［J］. Knowledge-Based Systems， 2019， 174：137-143.

[6] FRIEDMAN J， HASTIE T， TIBSHIRANI R. Additive logistic regression： a statistical view of boosting［J］. The Annals of Statistics， 2000， 28（2）：337-407.

[7] SCHAPIRE R E， FREUND Y， BARTLETT P， et al. Boosting the margin： a new explanation for the effectiveness of voting methods［J］. The Annals of Statistics， 1998， 26（5）：1651-1686.

[8] SHEN C H， LI H X. On the dual formulation of boosting algorithms［J］. IEEE Transaction on Pattern Analysis and Machine Intelligence， 2010， 32（12）：2216-2231.

[9] AL-SHEMARRY M S， LI Y， ABDULLA S. Ensemble of AdaBoost cascades of 3L-LBPs classifiers for license plates detection with low quality images［J］. Expert Systems with Applications， 2018， 92：216-235.

[10] GOSZTOLYA G， BUSA-FEKETE R. Calibrating AdaBoost for phoneme classification［J］. Soft Computing， 2019， 23（1）：115-128.

[11] PINTO T， PRA?A I， VALE Z， et al. Ensemble learning for electricity consumption forecasting in office buildings［J］. Neurocomputing， 2021， 423：747-755.

[12] GUTIéRREZ-TOBAL G C， áLVAREZ D， DEL CAMPO F， et al. Utility of AdaBoost to detect sleep apnea-hypopnea syndrome from single-channel airflow［J］. IEEE Transactions on Biomedical Engineering， 2016， 63（3）：636-646.

[13] ZHANG Y， LI D P， WANG Y J. An indoor passive positioning method using CSI fingerprint based on AdaBoost［J］. IEEE Sensors Journal， 2019， 19（14）：5792-5800.

[14] MA Z， LIU Y， LIU X M， et al. Lightweight privacy preserving ensemble classification for face recognition［J］. IEEE Internet of Things Journal， 2019， 6（3）： 5778-5790.

[15] AL-SALEMI B， AYOB M， NOAH S A M. Feature ranking for enhancing boosting-based multi-label text categorization［J］. Expert Systems with Applications， 2018， 113：531-543.

[16] VALLE C， ?ANCULEF R， ALLENDE H， et al. LocalBoost： a parallelizable approach to boosting classifiers［J］. Neural Processing Letters， 2019， 50（1）：19-41.

[17] QI Z Q， MENG F， TIAN Y J， et al. AdaBoost-LLP： a boosting method for learning with label proportions［J］. IEEE Transactions on Neural Networks and Learning Systems， 2018， 29（8）：3548-3559.

[18] 高敬陽，趙彥. 基于樣本抽樣和權重調整的SWA-Adaboost算法［J］. 計算機工程， 2014， 40（9）：248-251， 256.（GAO J Y， ZHAO Y. SWA-Adaboost algorithm based on sampling and weight adjustment［J］. Computer Engineering， 2014， 40（9）：248-251， 256.）

[19] YANG Y， JIANG J M. Hybrid sampling-based clustering ensemble with global and local constitutions［J］. IEEE Transactions on Neural Networks and Learning Systems， 2016， 27（5）：952-965.

[20] FILISBINO T A， GIRALDI G A， THOMAZ C E. Nested AdaBoost procedure for classification and multi-class nonlinear discriminant analysis［J］. Soft Computing， 2020， 24（23）：17969-17990.

[21] HTIKE K K. Efficient determination of the number of weak learners in AdaBoost［J］. Journal of Experimental and Theoretical Artificial Intelligence， 2017， 29（5）：967-982.

[22] 吳戀，馬敏耀，黃一峰，等. 基于AdaBoost算法的Linux病毒檢測研究［J］. 計算機工程， 2018， 44（8）：161-166.（WU L， MA M Y， HUANG Y F， et al. Linux virus detection study based on AdaBoost algorithm［J］. Computer Engineering， 2018， 44（8）：161-166.）

[23] ZHANG P B， YANG Z X. A novel AdaBoost framework with robust threshold and structural optimization［J］. IEEE Transactions on Cybernetics， 2018， 48（1）：64-76.

[24] 邱仁博，婁震. 一種改進的帶參數AdaBoost算法［J］. 計算機工程， 2016， 42（7）：199-202， 208.（QIU R B， LOU Z. An improved parameterized AdaBoost algorithm［J］. Computer Engineering， 2016， 42（7）：199-202， 208.）

[25] WU S Q， NAGAHASHI H. Parameterized AdaBoost： introducing a parameter to speed up the training of real AdaBoost［J］. IEEE Signal Processing Letters， 2014， 21（6）：687-691.

[26] XING H J， LIU W T. Robust AdaBoost based ensemble of one-class support vector machines［J］. Information Fusion， 2020， 55：45-58.

[27] 王玲娣，徐華. AdaBoost的多樣性分析及改進［J］. 計算機應用， 2018， 38（3）：650-654， 660.（WANG L D， XU H. Diversity analysis and improvement of AdaBoost［J］. Journal of Computer Applications， 2018， 38（3）： 650-654， 660.）

[28] SHEN C H， LI H X. Boosting through optimization of margin distributions［J］. IEEE Transactions on Neural Networks， 2010， 21（4）： 659-666.

[29] 朱亮，徐華，崔鑫. 基于基分類器系數和多樣性的改進AdaBoost算法［J］. 計算機應用， 2021， 41（8）：2225-2231.（ZHU L， XU H， CUI X. Improved AdaBoost algorithm based on classifier coefficient and diversity［J］. Journal of Computer Applications， 2021， 41（8）：2225-2231.）

[30] FAWCETT T. An introduction to ROC analysis［J］. Pattern Recognition Letters， 2006， 27（8）：861-874.

ZHU Liang， born in 1994， M. S. candidate. His research interests include machine learning， data mining.

XU Hua， born in 1978， Ph. D.， associate professor. Her research interests include computing intelligence， workshop scheduling， big data.

CHENG Jinhai， born in 1997， M. S. candidate. His research interests include data mining， machine learning， embedded software.

ZHU Shen， born in 1997， M. S. candidate. His research interests include data mining， machine learning.

Analysis and improvement of AdaBoost’s sample weight and combination coefficient

ZHU Liang， XU Hua*， CHENG Jinhai， ZHU Shen

（，，214122，）

Aiming at the problems of low linear combination efficiency and too much attention to hard examples of the base classifiers of Adjusts Adaptive Boosting （AdaBoost） algorithm， two improved algorithms based on margin theory， named sample Weight and Parameterization of Improved AdaBoost （WPIAda） and sample Weight and Parameterization of Improved AdaBoost-Multitude （WPIAda.M）， were proposed. Firstly， the updates of sample weights were divided into four situations by both WPIAda and WPIAda.M algorithms， which increased the sample weights with the margin changing from positive to negative to suppress the negative movement of the margin and reduce the number of samples with the margin at zero. Secondly， according to the error rates of the base classifiers and the distribution of the sample weights， a new method to solve the coefficients of base classifiers was given by WPIAda.M algorithm， thereby improving the combination efficiency of base classifiers. On 10 UCI datasets， compared with algorithms such as WLDF_Ada （dfAda）， skAda， SWA-Adaboost （swaAda）， WPIAda and WPIAda.M algorithms had the test error reduced by 7.46 percentage points and 7.64 percentage points on average respectively， and the Area Under Curve （AUC） increased by 11.65 percentage points and 11.92 percentage points respectively. Experimental results show that WPIAda and WPIAda.M algorithms can effectively reduce the attention to hard examples， and WPIAda.M algorithm can integrate base classifiers more efficiently， so that the two algorithms can both further improve the classification performance.

Adjusts Adaptive Boosting (AdaBoost); margin theory; sample weight; base classifier; combination efficiency

1001-9081（2022）07-2022-08

10.11772/j.issn.1001-9081.2021050726

2021?05?08；

2022?02?10；

2022?02?18。

TP181

朱亮（1994—），男，安徽阜陽人，碩士研究生，CCF會員，主要研究方向：機器學習、數據挖掘；徐華（1978—），女，江蘇無錫人，副教授，博士，主要研究方向：計算智能、車間調度、大數據；成金海（1997—），男，江蘇南通人，碩士研究生，主要研究方向：數據挖掘、機器學習、嵌入式軟件；朱深（1997—），男，河南周口人，碩士研究生，主要研究方向：數據挖掘、機器學習。

AdaBoost的樣本權重與組合系數的分析及改進

0 引言

1 AdaBoost算法

1.1 AdaBoost算法流程

1.2 AdaBoost間隔理論

2 兩種新的集成學習權重優化算法

2.1 WPIAda算法的分析與設計

2.2 WPIAda算法有效性證明

2.3 WPIAda.M算法

2.4 WPIAda.M算法的分析與設計

2.5 對于的分析

2.6 WPIAda.M算法的有效性證明

3 實驗與結果分析

3.1 實驗設定

3.2 以分類誤差作為評價指標

3.3 以AUC作為評價指標

3.4 平均間隔的分析

4 結語

1.1　AdaBoost算法流程

1.2　AdaBoost間隔理論

2.1　WPIAda算法的分析與設計

2.2　WPIAda算法有效性證明

2.3　WPIAda.M算法

2.4　WPIAda.M算法的分析與設計

2.5　對于的分析

2.6　WPIAda.M算法的有效性證明

3.1　實驗設定

3.2　以分類誤差作為評價指標

3.3　以AUC作為評價指標

3.4　平均間隔的分析