不均衡數(shù)據(jù)分類器分類性能AUC與Accuracy的比較

2020-01-19 06:09:56趙存秀

唐山師范學(xué)院學(xué)報(bào) 2019年6期

趙存秀

趙存秀

（山西工商學(xué)院計(jì)算機(jī)信息工程學(xué)院，山西太原 030006）

針對(duì)不均衡數(shù)據(jù)，借助已有的評(píng)價(jià)指標(biāo)一致性（consistent）和區(qū)分度（discriminating），比較Logistic和LDA學(xué)習(xí)算法的評(píng)價(jià)方法AUC和精確率，結(jié)果表明，AUC用于學(xué)習(xí)算法的估計(jì)比精度率好。

Logistic；LDA學(xué)習(xí)算法；不均衡；AUC；精確率

傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)在自然語言處理、圖像識(shí)別、人機(jī)交互、商業(yè)預(yù)測、自動(dòng)化物流等應(yīng)用領(lǐng)域已經(jīng)被廣泛應(yīng)用。其中很多自然語言處理中的問題如分詞、信息檢索、文檔分類、語義角色標(biāo)注、文字識(shí)別，問答系統(tǒng)等都可以看成分類問題[1]，所以分類學(xué)習(xí)算法是處理這類問題的關(guān)鍵。近幾年，隨著大數(shù)據(jù)時(shí)代的到來，數(shù)據(jù)具有維數(shù)比較大且類別分布不均衡的性質(zhì)，因此對(duì)于傳統(tǒng)的分類學(xué)習(xí)算法的性能評(píng)價(jià)指標(biāo)[2]如查準(zhǔn)率（精確率）、查全率（召回率）、正確率（準(zhǔn)確率）、平衡點(diǎn)[3]、11點(diǎn)平均正確率[4]等不能很好地評(píng)價(jià)分類器的分類性能。AUC是ROC(ReceiverOperatingCharacteristics)曲線下的面積，可以將分類器輸出概率估計(jì)充分利用起來，被廣泛地應(yīng)用于評(píng)價(jià)模型的性能[2]。

本文針對(duì)不平衡數(shù)據(jù)，研究分類器分類性能評(píng)價(jià)指標(biāo)AUC與accuracy的優(yōu)劣。

1 AUC精確率評(píng)價(jià)指標(biāo)

Marina Sokolova和Guy Lapalme[5]針對(duì)分類模型中給出了很多評(píng)價(jià)指標(biāo)。他們通過建立混淆矩陣，在混淆矩陣的基礎(chǔ)上提出很多評(píng)價(jià)指標(biāo)。表1給出了混淆矩陣度量的兩類分類模型的性能，其中TP（True Positive）表示真正例，F(xiàn)P（False Positive）表示假正例，F(xiàn)N（False Negative）表示假反例，TN（True Negative）為真反例。

在此基礎(chǔ)上，本文主要使用精確率（Accu- racy）和AUC（Area Under roc Curve）來考查分類模型的性能。AUC的計(jì)算使用R中程序包pROC。

表1 混淆矩陣

精確率（Accuracy）是指該分類器正確預(yù)測對(duì)的所有類別數(shù)與總的樣本個(gè)數(shù)的比值。

2 一致性與區(qū)分度的度量[6]

則有

或者

3 實(shí)驗(yàn)

在模擬的不均衡的數(shù)據(jù)上，利用交叉驗(yàn)證的方法對(duì)LOGISTIC回歸[7]和線性判別分析（Linear Discriminant Analysis-LDA）分類算法[8]進(jìn)行比較。

該實(shí)驗(yàn)的數(shù)據(jù)產(chǎn)生方式為模擬數(shù)據(jù)樣本

取

情況下模擬實(shí)驗(yàn)[10]。在樣本=256中，使用正則化的3×2交叉驗(yàn)證的模型選擇方法，與傳統(tǒng)的2折交叉驗(yàn)證略有不同，對(duì)于3組2折交叉驗(yàn)證，將樣本數(shù)據(jù)集隨機(jī)分成4份，用其中任意2份作為訓(xùn)練集，其余2份作為測試集。

4 實(shí)驗(yàn)結(jié)果和分析

從表2可以看出在=1數(shù)據(jù)生成的均值為0.5和0的數(shù)據(jù)上，不滿足大于0.5。從表3區(qū)分度比較結(jié)果可見，只有個(gè)別的不是0。

表2 一致性比較

注：表中R1代表著LDA的auc比LOG大且LDA的ACC比LOG的也大的數(shù)據(jù)量。R2是相反的。S1代表LDA的auc小于LOG[z]且LDA的ACC大于LOG的數(shù)據(jù)量，S2相反。

表3 區(qū)分度比較

注：表中P1代表著LDA的auc比LOG大且LDA的ACC等于LOG的數(shù)據(jù)量。Q1代表LDA的auc等于LOG的且LDA的ACC小于LOG的數(shù)據(jù)量。P2是LDA的AUC小于LOG的且LDA的ACC等于LOG的數(shù)據(jù)量。Q2代表LDA的ACC大于LOG的且LDA的AUC等于LOG的數(shù)據(jù)量。

5 結(jié)論

作為不均衡數(shù)據(jù)分類器分類性能評(píng)價(jià)指標(biāo)，AUC優(yōu)于精確率。

[1] 趙存秀.交叉驗(yàn)證中數(shù)據(jù)分布對(duì)分類性能的影響分析[D].太原:山西大學(xué),2013:4-9.

[2] 趙存秀,王瑞波,李濟(jì)洪.交叉驗(yàn)證中類別切分不均衡對(duì)分類性能的影響分析[J].太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,12(1):53-58.

[3] 屠彩鳳.一致穩(wěn)定合作系統(tǒng)的全局穩(wěn)定性[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2007,45(6):923-926.

[4] 張存杰,董安祥.對(duì)T63L16所作月延伸預(yù)報(bào)準(zhǔn)確率的評(píng)估[J].氣象,1998,24(10):38-42.

[5] Marina Sokolova, Guy Lapalme, A systematic analysis of performance measures for classification tasks[J]. Information Processing and Management, 2009, 45(4): 427-437.

[6] Loosvelt L, Peters J, Skriver H, et al. Impact of Reducing Polarimetric SAR Input on the Uncertainty of Crop Classifications Based on the Random Forests Algorithm[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(10): 4185-4200.

[7] Oommen T, Baise L G, Vogel R M. Sampling Bias and Class Imbalance in Maximum-likelihood Logistic Reg- ression[J]. Mathl Geosci, 2011, 43(1): 99-120.

[8] Nadeau C, Bengio Y. Inference for the Generalization Error[J]. Machine Learning, 2003, 52(3): 239-281.

[9] 家會(huì)臣,靳竹萱,李濟(jì)洪.Logistic模型選擇中三種交叉驗(yàn)證策略的比較[J].太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版), 2012,11(1):87-90.

[10] Chawla N V, Japkowicz N, Kotcz A. Editorial: special issue on learning from imbalanced data sets[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 1-6.

Comparison of the Classification Performance AUC and Accuracy of Classifiers Based on Unbalanced Data

ZHAO Cun-xiu

(Department of Computing, Technology and Business College, Taiyuan 030006, China)

To solve the binary classification problem, accuracy is generally used to evaluate the classification performance of classifiers. In recent years, the area under the ROC (Receiver Operating Characteristics) curve, or simply AUC, has been used to evaluate the classifier classification performance. It avoids the supposed subjectivity in the threshold selection process and provides a single-number “summary” for the performance of the learning algorithms. It has been proved AUC a better measure than accuracy in balance data. In the paper, using consistent and discriminating proposed to comparing the AUC and accuracy of Logistic and LDA. Then we present the empirical estimation, and we get that the estimation of AUC for learning algorithm is better than the precision rate from the experiment.

Logistic; LDA; unbalanced; AUC; accuracy rate.

TP399

1009-9115(2019)06-0075-03

10.3969/j.issn.1009-9115.2019.06.019

2019-04-10

2019-08-27

趙存秀（1987-），女，山西壽陽人，碩士，講師，研究方向?yàn)榻y(tǒng)計(jì)機(jī)器學(xué)習(xí)。

（責(zé)任編輯、校對(duì)：田敬軍）