MetaCost 與重采樣結(jié)合的不平衡分類算法
——RS-MetaCost

2022-03-25 04:44:52鄒春安王嘉寶付光輝

軟件導刊 2022年3期

鄒春安，王嘉寶，付光輝

（昆明理工大學理學院，云南昆明 650500）

0 引言

在互聯(lián)網(wǎng)技術(shù)與人工智能技術(shù)快速發(fā)展的時代背景下，數(shù)據(jù)分類是機器學習、數(shù)據(jù)挖掘等領(lǐng)域的重要任務之一。傳統(tǒng)的分類算法例如神經(jīng)網(wǎng)絡、邏輯回歸、支持向量機、決策樹等［1］，旨在對樣本進行精確分類，達到最高的整體分類精度。傳統(tǒng)分類算法要取得好的分類效果，其中一個重要前提是數(shù)據(jù)集是平衡的，即分類器對數(shù)據(jù)集中所有類別都是公平的，任一樣本被誤分為其他類別時損失相同。然而，生活中大量數(shù)據(jù)往往是不平衡的，數(shù)據(jù)不平衡是指數(shù)據(jù)集中不同類別的樣本數(shù)量差距很大。為達到最高精度，傳統(tǒng)分類算法往往在處理不平衡數(shù)據(jù)集上會偏向多數(shù)類樣本，導致少數(shù)類樣本被錯誤分類的概率更高。對于不平衡數(shù)據(jù)研究而言，少數(shù)類樣本往往攜帶更重要的信息，因此成為研究的重點對象。例如，在疾病診斷中，人們更關(guān)注如何盡可能精準識別出每一位病人，避免病人被誤診斷為健康人，使病人不會因錯過最佳治療時期而導致病情惡化甚至死亡［2］。故而對于不平衡數(shù)據(jù)分類，總體正確分類率與少數(shù)類樣本的正確分類率都很重要。

近年來，國內(nèi)外眾多專家學者對上述數(shù)據(jù)不平衡現(xiàn)象進行探索，提出很多解決不平衡問題的分類策略，主要從數(shù)據(jù)重采樣與分類算法改進兩方面展開研究。數(shù)據(jù)重采樣是指通過改變原始數(shù)據(jù)集樣本分布，降低或消除數(shù)據(jù)的不平衡程度，主要包括欠采樣［3-6］、過采樣［7-9］和混合采樣［10-13］；分類算法改進是指將原有分類算法在解決不平衡任務時存在的問題與不平衡數(shù)據(jù)的特點相結(jié)合，適當?shù)馗倪M算法或提出新算法以提高分類模型對少數(shù)類樣本的分類性能，主要包括代價敏感學習［14］、單類別分類［15］和集成學習［16］。基于代價敏感的學習算法主要思想是對不同類別的樣本設定不同誤分代價，通常多數(shù)類誤分代價較低，少數(shù)類誤分代價較高。通過設置不同誤分代價以盡可能降低分類器對多數(shù)類的偏好，提高少數(shù)類的分類精準率，從而降低誤分類的總體代價。現(xiàn)有的代價敏感方法可分為數(shù)據(jù)前處理方法、直接的代價敏感學習方法與結(jié)果后處理方法3 類［17］。

數(shù)據(jù)前處理方法通過修改原始數(shù)據(jù)集分布，使得在新數(shù)據(jù)集上的分類結(jié)果等價于原始數(shù)據(jù)集采用代價敏感分類決策得到的結(jié)果。根據(jù)修改數(shù)據(jù)的不同策略，數(shù)據(jù)前處理方法可分為采樣法和加權(quán)法。Elkan［18］提出Rebalanceing 方法，通過對正負類樣本采樣，實現(xiàn)對不平衡數(shù)據(jù)分布的修改；Zhou 等［19］提出Rescaling 方法，對訓練集的不同樣本賦予正比于其誤分代價的比重，之后用樣本訓練分類器進行模型預測。代價敏感學習方法將代價信息直接嵌入經(jīng)典算法的目標函數(shù)，以期望損失最小化，并建立相應的代價敏感模型，如代價敏感的神經(jīng)網(wǎng)絡、決策樹和支持向量機等；結(jié)果后處理方法通過調(diào)整分類器決策閾值以解決代價敏感學習問題；經(jīng)驗閾值調(diào)整法采用交叉驗證方法尋找分類器的最優(yōu)決策閾值［20］。

MetaCost 算法是由Domingos［21］提出的一種典型的結(jié)果后處理方法。MetaCost 算法的核心思想是利用最小期望損失準則對訓練樣本進行重標記，然后在重標記的數(shù)據(jù)集上訓練新的分類模型，使其代價敏感。但是，MetaCost 在劃分子集過程中存在很強的隨機性，當原始數(shù)據(jù)集中少數(shù)類樣本很少時，可能導致訓練子集中少數(shù)類樣本很少甚至沒有，因此預測的分類結(jié)果可能不是最優(yōu)。目前國內(nèi)外有很多學者將MetaCost 算法應用于不平衡分類問題，取得了很好的效果。例如，Michael 等［22］將基本分類模型與MetaCost算法相結(jié)合對點擊付費廣告的盈利情況進行預測；邊婧等［23］將LDSP（Large Scale Dataset Stratified Pretreatment）算法與MetaCost 算法相結(jié)合以處理大規(guī)模不平衡數(shù)據(jù)集。

本文從代價敏感層面出發(fā)，將數(shù)據(jù)預處理的重采樣技術(shù)引入其中，提出一種重采樣與MetaCost 相結(jié)合的不平衡數(shù)據(jù)分類算法——Resampling MetaCost（RS-MetaCost）。該算法旨在先對原始不平衡數(shù)據(jù)集進行重采樣，再利用Meta-Cost 算法修正樣本類標簽，通過m-estimation 修正少數(shù)類樣本概率估計使其更平滑，并利用修改類標簽的樣本訓練分類器得到最終分類模型。采用模擬數(shù)據(jù)集與實例數(shù)據(jù)集對RS-MetaCost 算法進行實驗分析，結(jié)果表明，RS-Meta-Cost 相比于原始數(shù)據(jù)集、Adaboost 與MetaCost，在相關(guān)評價指標及平均代價上均有顯著提高。

1 相關(guān)理論

1.1 MetaCost

MetaCost 方法采用Bagging 算法思想，以樸素貝葉斯風險理論為基礎對訓練樣本進行重標記，之后在重標記的數(shù)據(jù)集上訓練新的分類模型，使其代價敏感。設某分類問題包含J類，基本分類過程如下：

（1）在原數(shù)據(jù)集中多次進行隨機重抽樣獲得N個新的訓練子集（訓練子集樣本數(shù)小于原數(shù)據(jù)集），訓練N個子分類器ft。

（2）使用N個子分類器分別對訓練集樣本進行分類，通過集成得到各樣本實例x被分為第j類的概率P(j|x)，定義如下：

（3）計算每個樣本實例x的誤分代價R(i|x)，然后依照最低代價對樣本進行重標記，誤分代價定義如下：

其中，i是樣本的預測類標簽，j是樣本的實際類標簽，R(i|x)是把第j類樣本預測為第i類的損失。

（4）采用重新標記的訓練集訓練最終的預測模型，得到分類結(jié)果。

1.2 重采樣

過采樣是對少數(shù)類樣本進行擴充以減少數(shù)據(jù)不平衡程度的一種重采樣技術(shù)。如果原始數(shù)據(jù)集不平衡比率過高，少數(shù)類重復過多實例，會導致分類效果失真，模型過度擬合，從而使分類器學習的信息不夠泛化。常見的過采樣算法包括隨機過采樣、SMOTE［7］、Borderline-SMOTE［8］、ADASYN［9］等。

Chawla 等［7］提出合成少數(shù)類過采樣技術(shù)（Synthetic Minority Over-sampling Technique，SMOTE），其基本思想是對少數(shù)類樣本進行分析，并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。本文選取SMOTE 作為樣本過采樣方法，其算法流程如下：

（1）對于少數(shù)類中的每一個樣本x，以歐氏距離計算該樣本到少數(shù)類中k個近鄰樣本的距離。

（2）根據(jù)數(shù)據(jù)集的不平衡比例設定過采樣比率n，從k近鄰樣本點隨機選取n個樣本xi(i=1,2,…,n)。

（3）代入少數(shù)類樣本x與xi，得到新的少數(shù)類樣本點xnew。

其中，RAND（0，1）表示在區(qū)間（0，1）內(nèi)任取一個隨機數(shù)。

與過采樣方法相反，欠采樣針對多數(shù)類，通過刪除部分多數(shù)類樣本達到平衡數(shù)據(jù)集的目的。最基礎的欠采樣方法為隨機欠采樣，該方法隨機從多數(shù)類中取出部分樣本進行欠采樣。隨機欠采樣操作簡單，但很可能造成重要的樣本信息丟失，從而影響分類性能。因此，在隨機欠采樣基礎上，又提出許多改進的欠采樣方法，如ENN［4］、Tomek Links［5］、OSS［6］等。

xp與xq是屬于不同類別的兩個樣本，定義d(xp,xq)為兩個樣本之間距離。如果沒有其他樣本xl使得d(xp,xl)＜d(xq,xl)或d(xq,xl)＜d(xp,xl)，則d(xp,xq)被稱為Tomek Links。如果兩個樣本點為Tomek Link 對，則其中某個樣本為噪聲（偏離正常分布太多），或者兩個樣本都在兩類的邊界上。如圖1 所示，虛線圈出的即為Tomek Link 對。本文選取Tomek Links 作為欠采樣方法，將Tomek Link 對中屬于多數(shù)類的樣本剔除。

Fig.1 Schematic of Tomek Links圖1 Tomek Links 示意圖

2 RS-MetaCost

根據(jù)MetaCost 原理對原始數(shù)據(jù)集多次隨機抽樣獲得訓練子集的過程中，如果原始數(shù)據(jù)集中少數(shù)類樣本個數(shù)很少，可能導致訓練子集中不包含任何少數(shù)類樣本。在這種情況下，子分類器對訓練子集訓練得到的分類模型預測分類效果可能會很差，最后集成得到的學習模型也不是最佳。為此，本文提出在劃分訓練子集前，先對原始不平衡數(shù)據(jù)集進行抽樣，即過采樣少數(shù)類樣本或欠采樣多數(shù)類樣本，以降低或消除數(shù)據(jù)集的不平衡程度。

通過重采樣可有效解決訓練子集不包含任何少數(shù)類樣本的問題，但當數(shù)據(jù)集不平衡比率過高時，認為增加過多少數(shù)類樣本或減少過多多數(shù)類樣本都可能導致模型失真，分類器學習到的信息不夠泛化。因此，本文提出利用m-estimation 修正少數(shù)類樣本的預測概率。

MetaCost 給出了概率估計的常用方法，即P(j|x)=為減少概率估計的極端性，本文通過m-estimation 對其進行修正，使這些估計更加平滑［24］。此時修正后的概率估計為：

其中，b是少數(shù)類樣本在數(shù)據(jù)集中所占比率，即b=P(j=1)；m是控制分數(shù)向b移動距離的參數(shù)。之前的相關(guān)研究表明，m的選取并不是很重要，這里根據(jù)少數(shù)類基本比率b，使m的取值大約符合bm=10的要求。

本文通過m-estimation 進一步增大樣本預測為少數(shù)類的概率，即P(j=1|x)，當代價矩陣不變時證明這種方法的可行性。

以過采樣少數(shù)類為例，首先假定M1為少數(shù)類樣本個數(shù)，M2為多數(shù)類樣本個數(shù)，則少數(shù)類的基本概率b=M1(M1+M2)。當過采樣s個少數(shù)類樣本時，此時少數(shù)類的基本概率為，因此可得到少數(shù)類的預測概率：

在二分類情況下，當且僅當預測少數(shù)類的預期代價小于或等于預測多數(shù)類的預期代價時，最優(yōu)預測為少數(shù)類［18］。根據(jù)代價矩陣可得到下列不等式：

其中，c10為將多數(shù)類誤分為少數(shù)類的代價，c01為將少數(shù)類誤分為多數(shù)類的代價，此時正確分類的代價為0，即c00=c11=0。

求解得到b′的范圍為：

可看出該決策自由度為1，最優(yōu)決策為：

當k=0時，s*取最大值這是s的一個下界。從理論上來講，也即當出現(xiàn)這種極端情況時，所有樣本都會被標為少數(shù)類。這本質(zhì)上是一種通過過采樣少數(shù)類和m-estimation 修正少數(shù)類概率估計以提高少數(shù)類預測概率，從而使分類器更容易將樣本分為少數(shù)類的方法。本文通過該方法提升分類器對少數(shù)類樣本的識別能力，并將其應用于不平衡學習中。

Fig.2 Flow of RS-MetaCost algorithm圖2 RS-MetaCost 算法流程

RS-MetaCost 算法偽代碼描述如下：

輸入：多數(shù)類樣本M2，少數(shù)類樣本M1，重采樣子集個數(shù)N，代價矩陣C，分類算法f

輸出：修改標簽后的數(shù)據(jù)集

3 實驗設計與分析

3.1 實驗設計

為驗證本文算法的優(yōu)越性與可行性，實驗分為模擬實驗與實例實驗。其中，模擬實驗數(shù)據(jù)集如表1 所示，實例實驗數(shù)據(jù)集均來自于UCI 與KEEL 庫，具體數(shù)據(jù)集描述如表2所示。

Table 1 Description of simulated datasets表1 模擬數(shù)據(jù)集描述

Table 2 Description of real datasets表2 實例數(shù)據(jù)集描述

實驗對本文提出的RS-MetaCost 算法和Origin（原始數(shù)據(jù)集直接分類）、Adaboost 算法、MetaCost 算法在分類評價指標及平均誤分代價方面的性能進行比較。為保證實驗結(jié)果的可靠性，采用80%的數(shù)據(jù)作為訓練集，剩下20%的數(shù)據(jù)作為測試集，實驗結(jié)果為50 次分類評價結(jié)果的平均值。本文選用SMOTE 作為過采樣方法，Tomek Links 作為欠采樣方法。本文的代價矩陣設定為：少數(shù)類誤判為多數(shù)類的代價為不平衡率，多數(shù)類誤判為少數(shù)類的代價為1，正確分類的代價為0。

表1 為6 組模擬數(shù)據(jù)集，樣本總數(shù)設定為300，變量數(shù)分為5 和30 兩種情況，不平衡率分別設為3、5 和9。通過控制不同變量數(shù)及不同不平衡率的模擬數(shù)據(jù)集，以確保本文方法在處理不平衡問題上具有廣泛的適用性。

3.2 模型評價準則

在不平衡數(shù)據(jù)分類問題中，少數(shù)類的分類精度比多數(shù)類的分類精度重要得多，因此在評價指標上，少數(shù)類的分類表現(xiàn)至關(guān)重要。下面引入混淆矩陣的概念，如表3 所示。其中，正類代表少數(shù)類，負類代表多數(shù)類。

Table 3 Confusion matrix表3 混淆矩陣

查準率（Precision）表示在類別預測結(jié)果為正類的樣本中，樣本預測結(jié)果正確的比率。計算公式如下：

召回率（Recall）表示在所有正類樣本中被正確預測的樣本所占比例，用來度量算法識別正類樣本的能力。計算公式如下：

查準率與召回率是相互影響的。一般來說，查準率高時，召回率往往偏低；而召回率高時，查準率往往偏低。Fmeasure綜合了兩項評價指標，表示兩者的加權(quán)調(diào)和平均值。F-measure值越大，意味著分類器性能越好。

本文β的取值為1。

G-mean值也常用來衡量不平衡數(shù)據(jù)集的整體分類性能，計算公式如下：

其中，TP/(TP+FN)反映分類器對少數(shù)類的識別能力，TN/(TN+FP)反映分類器對多數(shù)類的識別能力，G-mean會隨著這兩項數(shù)值的增大而提升。

全局的平均誤分代價（AMC）是衡量代價敏感學習中的一個重要指標，該值越小，說明平均誤分代價越小。計算公式如下：

AUC 是接受者操作特征曲線（ROC）與坐標軸圍成的面積，AUC 值越接近1，解決不平衡數(shù)據(jù)的模型越好。本文選取Precision、F1、G-mean、AUC 和AMC 作為評價指標。

3.3 實驗結(jié)果與分析

3.3.1 模擬分析

表4 給出了模擬數(shù)據(jù)集在不同算法下的分類效果比較，其中OS-MetaCost 代表過采樣下的RS-MetaCost，USMetaCost 代表欠采樣下的RS-MetaCost。為便于觀察與對比，用粗體標識各算法的最優(yōu)結(jié)果。

Table 4 Comparison of classification effect of simulated data sets with different algorithms表4 模擬數(shù)據(jù)集在不同算法下的分類效果比較

對于每個模擬數(shù)據(jù)集在不同評價指標上的表現(xiàn)，可看出OS-MetaCost 在大多情況下優(yōu)于其他算法，證實了OSMetaCost 在解決不平衡分類問題上有所改進。OS-Meta-Cost的G-mean 值與AUC 值提升明顯，說明本文方法通過對少數(shù)類進行過采樣及修正少數(shù)類預測概率，提升了分類器對少數(shù)類的識別能力，進而提升了G-mean 值。同時，控制模型錯誤分類的概率很低，使得AUC 值提升顯著。可看出在Sim1、Sim2 和Sim4 3 個模擬數(shù)據(jù)集中，MetaCost的F1值相較于OS-MetaCost 略勝一籌，說明重采樣后可能存在少數(shù)類樣本被誤分為多數(shù)類的情況，導致假陰性率增大，進而導致F1值減小。MetaCost 和RS-MetaCost 都能有效降低全局的平均誤分代價，當不平衡率較高時，效果更為顯著，且OS-MetaCost 一直占據(jù)更大優(yōu)勢。

當不平衡率相同，變量數(shù)更大時，分類效果往往不盡如人意。可以看出，本文方法在各項評價指標上表現(xiàn)更好，能顯著提高分類效果。同樣地，若變量數(shù)相同，相較于不平衡比率較低時，當不平衡比率較高時，RS-MetaCost 能顯著提升分類效果，其中OS-MetaCost 表現(xiàn)更好。綜上所述，從模擬數(shù)據(jù)集實驗分析結(jié)果來看，RS-MetaCost 有效提高了不平衡數(shù)據(jù)的分類性能，且OS-MetaCost 相較于USMetaCost 更具優(yōu)越性。

3.3.2 實例分析

表5、表6 分別為各算法在10 組實例不平衡數(shù)據(jù)集上得出的Precision 與F1、G-mean、AUC的結(jié)果對比。針對每個數(shù)據(jù)集在不同算法下得到的評價指標結(jié)果，為便于觀察與對比，用粗體標識各個算法下的最優(yōu)結(jié)果。

從表5 可以看出，在多數(shù)數(shù)據(jù)集中，RS-MetaCost 算法在各項評價指標上均表現(xiàn)更好。針對原始數(shù)據(jù)集，采用Adaboost 算法和MetaCost 算法在Precision 值及F1值上雖然有一定提升，但RS-MetaCost 算法的提升效果更為顯著，而且OS-MetaCost 比US-MetaCost的效果更好。實際上，對少數(shù)類樣本進行過采樣后，少數(shù)類樣本數(shù)目增多，有利于調(diào)整原始數(shù)據(jù)集分布，擴大了少數(shù)類樣本在分類時的決策空間，使得少數(shù)類樣本被正確預測的數(shù)目增多，因此OSMetaCost的Precision 值優(yōu)于其他算法的Precision 值，進而使得其F1值也優(yōu)于其他算法。

G-mean 值代表正類準確率與負類準確率的幾何平均數(shù)，該值越大，模型分類性能越好。從表6 可以看出，大多數(shù)數(shù)據(jù)集下RS-MetaCost 算法的G-mean 值大于其他分類算法，且在Speech Features、Musk2、Glass06vs5 等數(shù)據(jù)集上G-mean 值提高更多，因此認為RS-MetaCost 算法在保證負類準確率較高的情況下，提高了正類準確率。

RS-MetaCost 算法在AUC 值上仍具有優(yōu)勢，說明RSMetaCost 算法的分類效果很好，假陽性率和假陰率性很低。當不平衡率較低時，OS-MetaCost 與US-MetaCost的Gmean 值及AUC 值相差不大；當不平衡率較高時，OS-Meta-Cost的G-mean值與AUC值明顯優(yōu)于US-MetaCost。說明過采樣下的RS-MetaCost 算法在處理高度不平衡數(shù)據(jù)問題時效果顯著，具有一定優(yōu)越性與可行性。同時，當不平衡率較低時，相較于Origin、Adaboost 算法和MetaCost 算法，RS-MetaCost 算法的G-mean 值和AUC 值具有一定提升，但提升效果并不顯著。然而，當不平衡率較高時，Adaboost 算法與MetaCost 算法的G-mean 值與AUC 值普遍較低，說明存在少數(shù)類樣本很少導致訓練子集的少數(shù)類實例很少，因而最后分類模型效果不好的情況，而RS-MetaCost 算法的G-mean 值與AUC 值提升顯著，說明本文算法確實能有效解決上述問題。

Table 5 Comparison of Precision and F1 of different algorithms表5 Precision 與F1 在不同算法下比較

Table 6 Comparison of G-mean and AUC of different algorithms表6 G-mean與AUC 在不同算法下比較

為直觀對比不同算法下的AMC 值，圖3 展示了AMC 值在10 個數(shù)據(jù)集上的實驗結(jié)果。可以看出，RS-MetaCost 算法在降低平均誤分代價上具有很大優(yōu)勢。在多數(shù)數(shù)據(jù)集上，OS-MetaCost 取得了更小的AMC 值，主要因為對少數(shù)類進行過采樣后，明顯降低了假陽性率和假陰性率，使得平均誤分代價更低，模型分類性能顯著提高。此外，當不平衡率較低時，US-MetaCost 在多數(shù)數(shù)據(jù)集上取得更小的AMC 值，但當不平衡率較高時，OS-MetaCost的AMC 值相較于US-MetaCost 更小。因此，為降低全局誤分代價，當不平衡率較低時，RS-MetaCost 算法可采用欠采樣作為重采樣方法；當不平衡率較高時，RS-MetaCost 算法可采用過采樣作為重采樣方法。

Fig.3 Comparison of AMC of different algorithms圖3 不同算法下的AMC 值比較

為更直觀地對比本文提出的RS-MetaCost 算法與其他算法在各項評價指標上的優(yōu)劣，將10 個數(shù)據(jù)集的Adaboost、MetaCost 和RS-MetaCost 評價指標平均值減去原始數(shù)據(jù)集的評價指標平均值，得到不同算法下的平均評價指標提升值，如圖4 所示。可進一步觀察到，過采樣下RS-Meta-Cost 算法的各項評價指標都有所提升，尤其是AMC 值和G-mean 值，說明過采樣下RS-MetaCost 算法能夠有效減少模型的平均誤分代價，并提升了分類器對多數(shù)類與少數(shù)類的識別能力。欠采樣下RS-MetaCost 算法的AMC 值與AUC 值僅次于OS-MetaCost，但G-mean 值、F1值和Precision值相較于Adaboost 算法與MetaCost 算法略遜一籌。

Fig.4 Mean measure improvement of different algorithms圖4 不同算法下的平均評價指標提升值

采用Friedman 檢驗分別對各數(shù)據(jù)集的算法進行排序，以判斷這些算法是否性能相同。最優(yōu)算法的排序值為1，次優(yōu)算法的排序值為2。當評價指標值相同時，指定平均排序。表7（左）為10 個數(shù)據(jù)集在5 個算法下評價指標的平均序值比較。可以看出，OS-MetaCost 相較于其他算法，在評價指標上具有明顯優(yōu)勢，針對AUC、G-mean 與AMC，USMetaCost的平均序值僅次于OS-MetaCost，但針對F1與Precision，US-MetaCost的平均序值比較靠后。

通過Friedman 檢驗，說明實驗中5 個算法的性能具有顯著不同。此時利用Nemenyi 檢驗作為后續(xù)檢驗以進一步區(qū)分算法。利用Nemenyi 檢驗計算出平均序值差別的臨界值域，計算公式如下：

其中，k、N分別代表本文采用的算法與數(shù)據(jù)集個數(shù)。其中，k=5,N=10。當α=0.05 時，對應的qα=2.728，此時臨界值域CD=1.928 9。

表7（右）展示了5 種評價指標的Nemenyi 檢驗值，可以看出，OS-MetaCost 與原始數(shù)據(jù)集、Adaboost 在各項評價指標的提升效果上存在顯著差異，其差距值均大于臨界值域。針對AUC、G-mean 和AMC 3 項評價指標，其相比于MetaCost 存在顯著差異，但相比US-MetaCost 差異不顯著，正好驗證了US-MetaCost 在這3 項評價指標上具有一定提升，僅次于OS-MetaCost。同樣地，針對F1和Precision，其相比MetaCost 差異不顯著，但相比US-MetaCost 存在顯著差異，也說明了其在這兩項評價指標上的提升，MetaCost 僅次于OS-MetaCost，且優(yōu)于其他算法。

Table 7 Mean ranks of performance measures and the test value of Nemenyi of different algorithms表7 不同算法下的評價指標平均序值及Nemenyi 檢驗值

4 結(jié)論與展望

本文對MetaCost 算法進行研究，在劃分子集之前進行重采樣，可避免出現(xiàn)訓練子集中少數(shù)類樣本實例很少的情況，并通過m-estimation 修正少數(shù)類的概率估計，使其更加平滑，以提高少數(shù)類樣本的預測概率。實驗結(jié)果表明，在大多數(shù)情況下，該算法相較于Adaboost 與MetaCost 算法，在評價指標（如Precision、F1等）及全局平均誤分類代價上表現(xiàn)更好，且不平衡比率越高，分類性能提升越明顯。過采樣下的RS-MetaCost 算法在大多情況下，相較于欠采樣下的RS-MetaCost 算法能取得更好的分類效果。

對于重采樣方法，之后可采用混合采樣作為重采樣手段。通過對代價敏感的研究發(fā)現(xiàn)，分類代價類型還有很多，如屬性檢測代價、測試代價、干預代價等，因此在未來研究中還可以考慮其他代價。

MetaCost 與重采樣結(jié)合的不平衡分類算法——RS-MetaCost