分類器評價指標MCC、CEN 和ACC 的比較研究

2020-06-10 02:13:54王淑琴田秀偉

天津師范大學學報(自然科學版) 2020年3期

張冰，劉林，王淑琴，田秀偉

（天津師范大學計算機與信息工程學院，天津300387）

數據樣本分類是機器學習的主要任務之一，當分類器的評價結果達到一定的設定條件時，該分類器才會被采用，因此，如何評價分類器的優劣是機器學習和模式識別領域的一個關鍵問題[1].目前，已出現了很多分類器評價指標，主要包括ACC（accuracy）[2]、FMeasure[3]、MAP（mean average precision）[4]、MCC（Matthews correlation coefficient）[5-6]、AUC（area under curve）[7-9]、ROC（receiver operating characteristic）曲線[10-11]、MPR（mean probability ratio）[12]、RCI（relative classification information）[13]和CEN（confusion entropy）[14-15]等，那么，如何在眾多分類器評價指標中選擇一個合適的指標考察分類器的性能就顯得格外重要[16].

大多數分類器評價指標都是針對二類問題定義的，只有很少的幾種是直接面向多類問題定義的，關于分類器對類別區分能力的評價，多類問題比二類問題要復雜很多.ACC、MCC 和CEN 這3 種分類器評價指標在多類問題上具有廣泛應用，而且CEN 和MCC的關系是全局單調，局部幾乎線性的[6]，因此本文通過實驗對MCC、CEN 和ACC 這3 種指標對分類器性能的評價能力進行比較分析.對機器學習數據庫UCI 中的8個多類問題數據集和4個二類問題數據集分別使用4 種和2 種常見的分類器進行處理，在進行第2 到10重交叉驗證時，詳細分析了3 種指標值變化趨勢的關系，另外，從一致性和判別性角度對3 種指標進行了比較，結果表明CEN 的評價能力優于ACC 和MCC.

1 相關概念

給定測試集S，S 中樣本個數為M，類別個數為N，s 為S 中任意一個樣本.Ci表示第i 類，屬于Ci而被分到Cj的樣本個數記為NCi，j.測試集被分類模型分類完成的混淆矩陣記為MN×N，混淆矩陣的第i 行第j 列元素記為Mij.記F（i，j）為真實屬于Ci的樣本屬于Cj的概率，顯然，當i=j 時，F（i，j）=1，當i≠j 時，F（i，j）=0. 記P（i，j）為本來屬于Ci的樣本被分到Cj的概率，設置一個閾值r，若P（i，j）＞r，則認為屬于Ci的樣本被分到Cj，此時定義PC（i，j）=1，否則令PC（i，j）=0.

1.1 ACC 評價指標

ACC 由于具有公式簡單、易于擴展的特點而廣泛應用于二類和多類問題的分類評價上.但在一些不平衡數據集上，ACC 沒有考慮錯誤分類的代價，因此作為評價指標存在弊端[17-18]. ACC 根據分類器預測類別的準確程度來定義，即被分類器分類正確的樣本數與總樣本數的比例[2]，其計算公式為

ACC 的取值范圍是[0，1]，其值越大，表明分類器的性能越好.

1.2 MCC 評價指標

MCC 廣泛應用于生物信息領域[19-22].MCC 是基于混淆矩陣設計的分類器性能評價的測量指標[5]，它將混淆矩陣歸為單一的值.定義2個M×N 維矩陣X 和Y，其元素分別為Xsi和Ysi，s=1，…，M，i=1，…，N.如果樣本s 被預測到Ci，則令Xsi=1，否則令Xsi=0；如果樣本s 屬于Ci，則令Ysi=1，否則令Ysi=0.定義

當k≠l 時，定義

Ckl=|{s∈S│Xsk=1 且Ysl=1}|

則樣本總數M 可以表示為

X、Y 的協方差函數為

MCC 可改寫為

MCC 的取值范圍是[-1，1]，其值越大，表明分類器的性能越好.MCC=1 表明分類器分類的結果完全正確，MCC=-1 表明分類結果達到了一個極端的情況，此時混淆矩陣中除了關于對角線對稱的2 項元素外，其他元素均為0.當MCC=0 時，有2 種情況：一種是混淆矩陣中除了一列元素外，其他元素全部為0，即所有樣本均被分到了一個類；另一種是混淆矩陣中所有元素均相等.

1.3 CEN 評價指標

CEN 是近年提出的直接定義于多類問題的分類器評價指標，它是基于熵函數的評價指標.CEN 也是利用混淆矩陣設計的測量指標，它直接定義于N +1類問題上.與其他評價指標相比，CEN 充分考慮了樣本的錯誤分類信息[14]，對分類結果的細微差異也能做出反映.

若屬于Ci的樣本被分到了Cj，則相對于Cj的錯誤分類概率Pji，j為

相對于Ci的錯誤分類概率Pii，j為

進而，Cj的混淆熵定義為

對于一個給定的混淆矩陣，其總的混淆熵為

其中Pj為Cj的混淆概率，

評價多類問題時，CEN 的取值范圍是[0，1]，評價二類問題時，CEN 的值可能大于1.CEN 計算的是錯誤分類樣本所包含錯誤信息的熵的加權和，因此，CEN 的值越大表明分類器的性能越差. 在混淆矩陣中，當錯誤分類的樣本均勻分布于各類別時，CEN=1，當分類器分類的結果完全正確時，CEN=0.

2 實驗

2.1 實驗結果分析

實驗所用數據集均下載自機器學習數據庫UCI，包括8個多類問題數據集和4個二類問題數據集，數據集具體描述見表1.

表1 實驗數據集Tab.1 Experiment datasets

對8個多類問題數據集使用4 種分類器，包括K 近鄰（K-nearest neighbor，KNN）、決策樹（decision tree，DT）、樸素貝葉斯（naive Bayes，NB）和隨機森林（random forest，RF）；對4個二類問題數據集使用2 種分類器，為支持向量機（support vector machine，SVM）和邏輯回歸（logistic regression，LR）. 采用10 重交叉驗證.

給定數據集和分類器，在第2，3，…，10 重交叉驗證時，得到相應的ACC、MCC 和CEN 的值.為比較3 種指標值隨交叉驗證重數的變化趨勢，在同一圖中繪制3 種指標值的折線圖，圖中橫坐標為交叉驗證重數，左側縱坐標為ACC 和MCC 值，右側縱坐標為CEN值.當數據集和分類器不同時，共得到8×4+4×2=40個折線圖，通過分析比較，關于3 種指標值的變化趨勢，可分為以下5 種類型.

類型1當CEN 值呈下降趨勢的時候，MCC 和ACC 值總是對應著呈上升的趨勢.以RF 分類器處理Hayes 數據集（圖1）、NB 處理Wifi_localization（圖2）、SVM 處理Z-Alizideh（圖3）和RF 處理Wifi_localization（圖4）為例，由圖1～圖4 可見，當CEN 值下降時，對應的MCC 和ACC 值上升.由于ACC 和MCC 值越大（小）表明分類效果越好（差），而CEN 值越小（大）表明分類效果越好（差），因此這種類型說明3 種指標在評價分類結果時得到了基本相同的結論.

圖1 Hayes 上使用RF 分類器的3 種指標值Fig.13 indexes of RF on Hayes

圖2 Wifi_localization 上使用NB 分類器的3 種指標值Fig.23 indexes of NB on Wifi_localization

圖3 Z-Alizideh 上使用SVM 分類器的3 種指標值Fig.33 indexes of SVM on Z-Alizideh

圖4 Wifi_localization 上使用RF 分類器的3 種指標值Fig.43 indexes of RF on Wifi_localization

類型2MCC 或ACC 值變化平緩，甚至幾乎不變，而CEN 值發生明顯變化. 以NB 處理Shuttle（圖5）、DT 處理Vehicle（圖6）和SVM 處理Transfusion（圖7）為例.由圖5 可見，進行第2 到4 重交叉驗證時，ACC值變化平緩，而CEN 值變化明顯.由圖6 可見，進行第4 到6 重交叉驗證時，MCC 值變化平緩，而CEN值變化明顯.這種情況表明在評價分類結果時，CEN比MCC 和ACC 更具辨別力.對于圖7 的二類不平衡數據集Transfusion，進行第5 到8 重交叉驗證時，MCC 值為負數，反映出較差的分類結果，同時CEN值也在變化，而ACC 值幾乎不變，這說明ACC 在不平衡數據集上評價分類器性能是存在缺陷的.

圖5 Shuttle 上使用NB 分類器的3 種指標值Fig.53 indexes of NB on Shuttle

圖6 Vehicle 上使用DT 分類器的3 種指標值Fig.63 indexes of DT on Vehicle

圖7 Transfusion 上使用SVM 分類器的3 種指標值Fig.73 indexes of SVM on Transfusion

類型3CEN 值變化平緩，甚至幾乎不變，而MCC 或ACC 值發生明顯變化. 以DT 處理Wiki4HE（圖8）和RF 處理Seeds（圖9）為例，圖8 的第2 到4重交叉驗證和圖9 的第4 到6 重交叉驗證對應的3種指標值即是這種類型.這表明在某些情況下，MCC和ACC 比CEN 更具辨別力，因此CEN 有時候也存在問題.

圖8 Wiki4HE 上使用DT 分類器的3 種指標值Fig.83 indexes of DT on Wiki4HE

圖9 Seeds 上使用RF 分類器的3 種指標值Fig.93 indexes of RF on Seeds

類型4MCC、ACC 和CEN 值都不發生變化. 以DT 處理Forest（圖10）為例，由圖10 可見，進行第7到10 重交叉驗證時，3 種指標值均沒有變化.這種情況表明在評價分類結果時，MCC、ACC 和CEN 結論完全一致.

圖10 Forest 上使用DT 分類器的3 種指標值Fig.103 indexes of DT on Forest

類型5MCC 和CEN 值同時上升（下降），或ACC和CEN 值同時上升（下降）.以KNN 處理Wiki4HE（圖11）為例，由圖11 可見，進行第2 到3 重和第5 到6重交叉驗證時，3 種指標值均下降. 這種情況表明MCC 和CEN（或ACC 和CEN）結論相反.

圖11 Wiki4HE 上使用KNN 分類器的3 種指標值Fig.113 indexes of KNN on Wiki4HE

2.2 一致性和判別性檢驗

為了更好地比較3 種評價指標，本文嘗試從一致性和判別性[23]角度對CEN、MCC 和ACC 進行兩兩統計比較.對于2個測試方法f 和g，其定義域為φ，令

根據一致性和判別性的定義，將以上分析中類型1、類型2、類型3 和類型5 出現的次數分別記為R、P、Q 和S.在8個多類數據集上采用4 種分類器，在4個二類數據集上采用2 種分類器，重數取值為2 到10，比較CEN 和ACC，共得到640個結果，其中R=242，P=6，Q=1，S=52，則C=242/（242+52）＞0.5，D=6/1 ＞1，表明作為分類器評價指標，CEN 優于ACC.同理，比較CEN 和MCC，也得到640個結果，其中R=233，P=14，Q=2，S=52，則C=233/（233+52）＞0.5，D=14/2 ＞1，這表明CEN 也優于MCC.因此，從一致性和判別性的角度，分類器評價指標CEN 優于ACC 和MCC.

另外，以Breast-Cancer 數據集上使用LR 分類器為例，進行第4 到5 重交叉驗證時，ACC 和CEN 值都呈上升趨勢，說明ACC 認為此分類結果更好，而CEN 認為此分類結果更壞.事實上，將更多的惡性樣本判定為良性樣本，雖然ACC 值在增加，但惡性樣本沒有被分離出來，對于醫療診斷而言，此分類器沒有起到作用，顯然這種情況下使用ACC 評價并不合理，使用CEN 評價更合理.

3 結語

利用實驗對分類器評價指標ACC、MCC 和CEN進行比較，結果表明CEN 性能更優.CEN 主要從樣本錯誤分布程度的方面進行考慮而設計，因此能辨別出不同類別的樣本是如何彼此分離的，更能分辨出分類器分類結果的差異.