張開(kāi)放,蘇華友,竇 勇
(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院, 湖南 長(zhǎng)沙 410073)
在機(jī)器學(xué)習(xí)領(lǐng)域,多分類任務(wù)[1 - 3]是指將樣本實(shí)例分為3個(gè)及以上類別之一的問(wèn)題(將樣本實(shí)例分類為2個(gè)類別之一稱為二分類)。由于分類算法和模型的局限性,對(duì)分類器的分類結(jié)果進(jìn)行準(zhǔn)確性評(píng)估是一個(gè)必須面對(duì)的問(wèn)題[4,5]。另一方面,由于分類器過(guò)擬合現(xiàn)象的存在,恰當(dāng)?shù)剡x擇準(zhǔn)確率評(píng)價(jià)指標(biāo)顯得十分重要。現(xiàn)有的一些評(píng)價(jià)指標(biāo),諸如準(zhǔn)確率[3]、Kappa系數(shù)[6]和F1值[3]等,都是基于混淆矩陣對(duì)總體分類效果進(jìn)行的評(píng)估。它們很難給出單個(gè)類別的分類效果,這在某些實(shí)際應(yīng)用中是不足以滿足用戶需求的(例如在MNIST(Mixed National Institute of Standards and Technology database)手寫(xiě)字符體識(shí)別任務(wù)中,數(shù)字0出現(xiàn)的概率和重要性往往會(huì)比其他數(shù)字大和高)。
本文將該方法引入多分類任務(wù)模型評(píng)估場(chǎng)景。該方法最初運(yùn)用于地震預(yù)測(cè)領(lǐng)域[7],后被引入遙感圖像目標(biāo)識(shí)別效果評(píng)估領(lǐng)域[8,9],用于評(píng)估識(shí)別的效率。本文針對(duì)機(jī)器學(xué)習(xí)領(lǐng)域的多分類任務(wù),對(duì)該方法進(jìn)行拓展和遷移應(yīng)用,并給出了理論推導(dǎo)過(guò)程。基于MNIST手寫(xiě)字符體識(shí)別和CIFAR-10(Canadian Institute For Advanced Research, 10 classes)數(shù)據(jù)集的多分類任務(wù)實(shí)驗(yàn)結(jié)果表明,與已有模型準(zhǔn)確率評(píng)估方法相比,上述方法可以較好地評(píng)估模型分類準(zhǔn)確率。值得一提的是,同樣是基于混淆矩陣進(jìn)行推理,該方法計(jì)算簡(jiǎn)單,并且可以同時(shí)給出分類器整體以及每一個(gè)類別的分類效果,對(duì)于評(píng)估和改進(jìn)訓(xùn)練過(guò)程具有一定的指導(dǎo)意義,同時(shí)在特定的任務(wù)背景下應(yīng)用前景廣闊。
本文的主要工作如下所示:
(1)提出了一種新的多類別分類效果評(píng)價(jià)指標(biāo),該指標(biāo)考慮真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽之間的數(shù)值差異,可以更好地反映分類模型的分類效果。
(2)從數(shù)學(xué)上給出了所提指標(biāo)的理論推導(dǎo)及其性質(zhì)證明。
(3)通過(guò)該指標(biāo)可同時(shí)獲得總體和單個(gè)類別分類效果,以改進(jìn)分類模型訓(xùn)練過(guò)程。
(4)在不同的應(yīng)用中評(píng)估了各指標(biāo)在MNIST和CIFAR-10數(shù)據(jù)集上的分類效果,以驗(yàn)證其有效性和魯棒性。
本節(jié)主要介紹幾種常見(jiàn)的模型準(zhǔn)確率評(píng)價(jià)指標(biāo)及其不足。不失一般性,考慮表1所示的三分類問(wèn)題的混淆矩陣。表1中,l、m、n分別代表類別1、類別2、類別3的真實(shí)樣本數(shù),r、s、t分別代表結(jié)果中預(yù)測(cè)為3個(gè)類別的樣本數(shù);w是所有樣本的總數(shù);a、b、c代表被正確分類的樣本數(shù),d、f、g、e、i*、h代表被錯(cuò)誤分類的樣本數(shù)。

Table 1 Confusion matrix of the three-category task表1 三分類問(wèn)題混淆矩陣
準(zhǔn)確率作為分類問(wèn)題最原始的評(píng)價(jià)指標(biāo),定義為正確預(yù)測(cè)的樣本占總樣本的百分比。對(duì)于表1所示的混淆矩陣,有:
(1)
顯然,這一指標(biāo)沒(méi)有考慮非對(duì)角線因素,也就是忽略了諸多的邊界樣本信息,尤其是在各個(gè)類別樣本數(shù)量不均衡的情況下,它不能很好地評(píng)估分類效果的好壞。
PR曲線是描述精準(zhǔn)率、召回率變化關(guān)系的曲線。其中P代表精準(zhǔn)率(Precision),又叫查準(zhǔn)率,是針對(duì)分類結(jié)果而言的,定義為所有被預(yù)測(cè)為正的樣本中真實(shí)標(biāo)簽為正的樣本的概率;R代表召回率(Recall),又叫查全率,是針對(duì)真實(shí)標(biāo)簽而言的,定義為所有實(shí)際為正的樣本中被分類為正的樣本的概率。曲線最初是針對(duì)二分類任務(wù)場(chǎng)景提出的,混淆矩陣如表2所示。其中,m、n分別代表類別1和類別2的真實(shí)樣本數(shù),s、t分別代表分類結(jié)果中預(yù)測(cè)為2個(gè)類別的樣本數(shù);w是所有樣本的總數(shù);a、b代表被正確分類的樣本數(shù),c、d代表被錯(cuò)誤分類的樣本數(shù)。表1和表2的a、b、c和d僅有局部意義,分別適用于三分類場(chǎng)景和二分類場(chǎng)景。

Table 2 Confusion matrix of the two-category task表2 二分類問(wèn)題混淆矩陣
其PR值的計(jì)算如式(2)所示:
(2)
對(duì)于多分類問(wèn)題,實(shí)際上會(huì)獲得多組混淆矩陣,也就會(huì)得到多組PR值,此時(shí)有2種處理方法:宏平均(macro-average)和微平均(micro-average)。宏平均是先計(jì)算每個(gè)混淆矩陣的PR值,然后再分別取平均;微平均則是計(jì)算出全局混淆矩陣的平均正負(fù)樣本數(shù),然后再計(jì)算整體的值。
這樣,對(duì)于上述三分類問(wèn)題,采用宏平均方式計(jì)算如式(3)所示:
(3)
其中,Pi和Ri分別代表類別i的精準(zhǔn)率和召回率,具體計(jì)算方法為:P1=a/r,P2=b/s,P3=c/t;R1=a/l,R2=b/m,R3=c/n。
采用微平均方式(對(duì)于沒(méi)有漏檢的多分類任務(wù)而言,實(shí)際就是2.1節(jié)中的準(zhǔn)確率)計(jì)算如式(4)所示:
(4)
可以看出,宏平均雖然加入了更多的非對(duì)角線元素,但是仍然只能給出所有類別整體的分類效果,而微平均則和2.1節(jié)的準(zhǔn)確率等價(jià)。同時(shí),PR值是一對(duì)此消彼長(zhǎng)的統(tǒng)計(jì)量,在實(shí)際應(yīng)用中要做好兩者的兼顧和取舍。
為了解決PR值的上述問(wèn)題,調(diào)和PR值,研究人員提出了F-measure(或F-score)方法,即:
(5)
特別地,當(dāng)β=1時(shí),認(rèn)為PR值同等重要,稱F1值;有些情況下,如果認(rèn)為P值更重要,就調(diào)整β值小于1;反之,若認(rèn)為R值比較重要,則調(diào)整β值大于1。
雖然F-score給了更大的調(diào)節(jié)空間,一方面很難根據(jù)實(shí)際場(chǎng)景量化β值,另一方面仍然無(wú)法給出單個(gè)類別的分類評(píng)估結(jié)果。
Kappa系數(shù)是統(tǒng)計(jì)學(xué)中的概念,一般用于一致性檢驗(yàn),也可以用來(lái)作為衡量分類精度的指標(biāo)。其計(jì)算方法如式(6)所示:
(6)
其中,Po代表總體分類精度(即2.1節(jié)中的準(zhǔn)確率),Pe計(jì)算方法如式(7)所示:
(7)
其中,rowi和coli分別代表第i個(gè)類別的真實(shí)樣本個(gè)數(shù)和分類預(yù)測(cè)的樣本個(gè)數(shù),具體為:row1=l,row2=m,row3=n;col1=r,col2=s,col3=t。一般情況下,根據(jù)Kappa系數(shù)大小進(jìn)行如表3所示的一致性等級(jí)劃分。

Table 3 Consistency level of Kappa coefficient表3 Kappa 系數(shù)一致性等級(jí)劃分
同樣,無(wú)法避免的是上述Kappa系數(shù)仍然不能給出單個(gè)類別分類結(jié)果的準(zhǔn)確率評(píng)估。同時(shí),這種等級(jí)劃分的適用范圍有限,等級(jí)劃分缺乏一定的合理性,不能適應(yīng)應(yīng)用場(chǎng)景的變化遷移和滿足用戶特定的具體需求。
據(jù)作者所知,這方面的工作很少。然而,在一些特定的應(yīng)用場(chǎng)景中,文獻(xiàn)[10-13]進(jìn)行了一些相關(guān)的工作。文獻(xiàn)[14,15]研究了評(píng)估檢索系統(tǒng)的問(wèn)題,并定義了一些類似于AP(Average Precision)的指標(biāo)。文獻(xiàn)[16-18]通過(guò)數(shù)學(xué)分析和一些特定實(shí)驗(yàn)比較了AP和其他一些指標(biāo)。文獻(xiàn)[19,20]提出了一些改進(jìn)措施,以克服平均精度(mAP)的缺陷。文獻(xiàn)[21-23]探究了在其他一些領(lǐng)域改變?cè)u(píng)價(jià)指標(biāo)的可能性。但是,上述所有工作都只是試圖調(diào)整或采用AP指數(shù)以在某些特定的應(yīng)用場(chǎng)景中獲得更好的性能[24 - 28]。他們很少關(guān)注怎樣去克服AP及類似指標(biāo)的固有缺點(diǎn),且應(yīng)用場(chǎng)景受限[29 - 32]。
R方法是由許紹燮院士在1973年提出的,最初運(yùn)用于地震預(yù)測(cè)的準(zhǔn)確率評(píng)估,后來(lái)(1989年)給出了更嚴(yán)格的理論推導(dǎo)和證明,并由王曉青研究員等人(1999年,2002年)進(jìn)行了進(jìn)一步的改進(jìn)和推廣[7]。Dou等人[9](2004年)將其引入遙感圖像分類效果評(píng)估,給出了理論推導(dǎo),并進(jìn)行了適當(dāng)改進(jìn),稱之為R′方法。基于上述原理,這里給出應(yīng)用于多分類任務(wù)場(chǎng)景的評(píng)估方法,并仍稱之為R′方法。
不失一般性,仍以表2中的二分類問(wèn)題為例,先給出R′方法的一般原理,然后進(jìn)行多分類任務(wù)的拓展和推廣。
以類別1為例,該類別的分類效率R(1)定義如下:對(duì)該類別進(jìn)行正確分類的概率與樣本被預(yù)測(cè)為這個(gè)類別的概率之差,如式(8)所示:
R(m|s)=P(s|m)-P(s)
(8)
其中,P(s|m)代表該類別被正確分類的概率,計(jì)算方法如下:正確分類的樣本數(shù)與該類別樣本總數(shù)之比,如式(9)所示:
(9)
P(s)代表樣本被預(yù)測(cè)為該類別的概率,如式(10)所示:
(10)
同樣,P(m)代表這一類別在總樣本中的出現(xiàn)概率,如式(11)所示:
(11)
綜上,可得:
(12)
進(jìn)而有:
R(m|s)+P(m)=P(s|m)-P(s)+P(m)=
(13)
根據(jù)實(shí)際的分類結(jié)果,考慮以下3種可能出現(xiàn)的情況:
(1)該類別預(yù)測(cè)樣本數(shù)小于該類別實(shí)際的樣本數(shù),即a≤s (14) (2)該類別預(yù)測(cè)樣本數(shù)大于該類別實(shí)際的樣本數(shù),即a≤m (15) (3)分類結(jié)果完全正確,即a=m=s時(shí): R(m|s)+P(m)=1 (16) 根據(jù)R(1)值的定義,可得R(m|s)+P(s)=P(s|m)≥0,即R(m|s)≥-P(s)。所以有: -P(s)≤R(m|s)≤1-P(m) (17) 也就是說(shuō),R(1)∈[-P(s),1-P(m)]。它越接近于1-P(m),表明分類效果越好。為方便評(píng)估,本文進(jìn)行以下改進(jìn),并定義為R′(1): R′(m|s)=R(m|s)+P(m)= P(s|m)-P(s)+P(m)= P(s|m)-[P(s)-P(m)] (18) 這樣,R′(1)∈[P(m)-P(s),1]。R′(1)值越接近于1,分類效果越好。 對(duì)于多分類(假設(shè)類別數(shù)為n)問(wèn)題,顯然不止一個(gè)類別需要預(yù)測(cè)。為此,對(duì)上述推理進(jìn)行以下推廣。 設(shè)x表示總樣本中所有類別真實(shí)樣本的總數(shù),y代表最終的分類預(yù)測(cè)結(jié)果,xi代表第i個(gè)類別的真實(shí)樣本數(shù)量,yi代表第i個(gè)類別的預(yù)測(cè)樣本數(shù)量,對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域的多分類任務(wù)而言,每一個(gè)樣本都會(huì)有一個(gè)預(yù)測(cè)標(biāo)簽,所以有: (19) 基于此,第i個(gè)類別分類正確的概率計(jì)算如式(20)所示: P(yi)=P(yi|y)P(y) (20) 其中,P(yi|y)代表樣本被分為第i個(gè)類別的條件概率,P(y)代表樣本參與分類的概率(對(duì)于本文中的多分類任務(wù)場(chǎng)景,該概率實(shí)際為1)。 進(jìn)而,對(duì)所有類別而言,分類結(jié)果和真實(shí)標(biāo)簽一致的概率如式(21)所示: (21) 其中,P(yi|xi)代表第i個(gè)類別被正確分類的條件概率。 根據(jù)3.1節(jié)的結(jié)論,對(duì)于第i個(gè)類別有: R′(xi|yi)=P(yi|xi)-[P(yi)-P(xi)] (22) 進(jìn)而對(duì)所有類別而言,有: R′(x|y)=P(y|x)-[P(y)-P(x)]= (23) 其中,ai代表第i個(gè)類別的樣本中被正確預(yù)測(cè)的樣本數(shù)量。該值越接近1,表明總體的分類效果越好。 這樣,就可以通過(guò)這種方法同時(shí)獲得分類器整體的分類效果評(píng)估值R′(x|y)和單個(gè)樣本分類效果的評(píng)估值R′(xi|yi)。在某些應(yīng)用場(chǎng)景下,用戶如果特別關(guān)注某一類別的分類效果,可以在保證總體分類效果的前提下,通過(guò)調(diào)節(jié)R′(xi|yi)來(lái)滿足特殊分類需要。 上文給出了在多分類任務(wù)場(chǎng)景下的R′方法。值得注意的是,該方法與Dou等人[9]的R′方法有2點(diǎn)不同:(1)應(yīng)用場(chǎng)景不同。如式(8)描述的那樣,多分類任務(wù)場(chǎng)景下,該指標(biāo)評(píng)估每個(gè)類別被正確分類的概率,并以樣本數(shù)作為統(tǒng)計(jì)標(biāo)準(zhǔn)。與之不同的是,Dou等人的方法以遙感圖像像元的多少表征目標(biāo)識(shí)別概率的高低。(2)適用條件不同。遙感圖像識(shí)別往往包含像元的錯(cuò)漏現(xiàn)象,也就是某些像元不屬于任何一個(gè)目標(biāo)。而在一般的多分類任務(wù)場(chǎng)景下,正如式(20)中描述的那樣,樣本參與分類的概率P(y)=1,也就是不存在樣本不被歸類的情況。 本文的實(shí)驗(yàn)基于MNIST手寫(xiě)字符體識(shí)別任務(wù)。這是一個(gè)n=10的多分類問(wèn)題。采用一種典型人工神經(jīng)網(wǎng)絡(luò)(LeNet-5)進(jìn)行訓(xùn)練和測(cè)試,得到在測(cè)試樣本精度最高的參數(shù)設(shè)置下的測(cè)試樣本混淆矩陣,并計(jì)算出第2節(jié)描述的各評(píng)價(jià)指標(biāo),將在4.1節(jié)給出,以觀察R′方法的評(píng)價(jià)效果;同時(shí),基于不同超參數(shù)設(shè)置,給出不同模型下R′值對(duì)分類器的評(píng)估結(jié)果,將在4.2節(jié)給出,以評(píng)估R′方法的魯棒性;4.3節(jié)通過(guò)改變某些樣本的容量或者標(biāo)簽,對(duì)比在不改變上述容量或者標(biāo)簽的情況下,這些類別的值的變化,以此來(lái)進(jìn)一步驗(yàn)證此方法對(duì)于單個(gè)類別的評(píng)估效果;4.4節(jié)則將上述實(shí)驗(yàn)遷移到CIFAR-10數(shù)據(jù)集(對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)模型采用VGG)并試圖從另一個(gè)角度說(shuō)明R′方法的有效性。 實(shí)驗(yàn)中,測(cè)試樣本最終在模型(最終測(cè)試準(zhǔn)確率為98.06%)下得出如表4所示的混淆矩陣(表中行表示實(shí)際標(biāo)簽,列表示預(yù)測(cè)標(biāo)簽;表中同時(shí)給出了每個(gè)類別的R′值)。基于混淆矩陣,計(jì)算得出表5所示的各個(gè)評(píng)價(jià)指標(biāo)取值(PR值項(xiàng)分別給出P值和R值,用P/R表示)。 Table 4 Confusion matrix of the test samples表4 測(cè)試樣本分類結(jié)果混淆矩陣 Table 5 Evaluation indices of test samples classification result表5 測(cè)試樣本分類結(jié)果評(píng)價(jià)指標(biāo) 可以看出,在給定的參數(shù)設(shè)置下,R′值給出了與現(xiàn)有的評(píng)價(jià)指標(biāo)相近的分類器評(píng)估取值。值得一提的是,表4說(shuō)明了R′值可以同時(shí)給出整體預(yù)測(cè)結(jié)果的評(píng)估指標(biāo)以及單個(gè)類別的評(píng)估指標(biāo),這是其他指標(biāo)無(wú)法做到的。為進(jìn)一步說(shuō)明R′值的上述特性,圖1給出了10個(gè)類別在不同指標(biāo)體系下評(píng)估結(jié)果的雷達(dá)圖(對(duì)于R′值以外的評(píng)估指標(biāo),由于它們只給出了整體的分類效果評(píng)估值,這里對(duì)所有類別賦予同樣的該評(píng)估值)。 Figure 1 Appraised values for different categories of classification results under each indicator圖1 各個(gè)指標(biāo)下不同類別分類結(jié)果的評(píng)估值 同樣可以看出,除了R′值以外,其他的評(píng)估指標(biāo)雷達(dá)圖均為正十邊形(每個(gè)類別具有相同的全局評(píng)估值)。而對(duì)R′值而言,可以清楚地看出,實(shí)驗(yàn)結(jié)果對(duì)數(shù)字0,1,2,7識(shí)別率較高,對(duì)數(shù)字4識(shí)別率最差(數(shù)字3,5,6,8,9則介于兩者之間)。這給某些場(chǎng)景下的特殊應(yīng)用需求提供了直觀、便利的評(píng)估結(jié)果和模型選擇方法。 為進(jìn)一步驗(yàn)證R′值的魯棒性(在不同參數(shù)設(shè)置下,R′值對(duì)不同模型的評(píng)價(jià)結(jié)果有無(wú)差異),本節(jié)進(jìn)行了不同超參數(shù)設(shè)置(實(shí)際是不同學(xué)習(xí)率)下的10組實(shí)驗(yàn),并對(duì)比其分類結(jié)果的評(píng)估值,如表6(作為參考,同時(shí)給出了其他指標(biāo)的評(píng)估R′值;或者更直觀地將值繪制為圖2的形式)所示。 可以看出,對(duì)于不同超參數(shù)設(shè)置下的分類結(jié)果,R′值給出了不同的評(píng)估結(jié)果。R′值根據(jù)不同模型的好壞,給出了其實(shí)際效果的評(píng)估結(jié)果,這說(shuō)明了R′方法的魯棒性。 本節(jié)的實(shí)驗(yàn)采取改變訓(xùn)練樣本標(biāo)簽的方法,以此來(lái)控制樣本容量變化。具體而言,又分為以下2個(gè)步驟:首先分別去除類別0和類別6的某些樣本,減少類別0和類別6樣本的容量,并通過(guò)R′方法來(lái)評(píng)估分類效果,稱之為改變前;然后恢復(fù)這些訓(xùn)練樣本的原始標(biāo)簽,同樣通過(guò)R′方法來(lái)評(píng)估分類效果,稱之為改變后。 Figure 2 Classifier values under different hyper-parameter settings圖2 不同超參數(shù)設(shè)置下分類器值 改變前后保持模型的其他參數(shù)不變。 表7給出了樣本標(biāo)簽改變前后各個(gè)類別以及整體的R′值。 Table 6 Evaluation values of the classifier under different hyper-parameter settings表6 不同超參數(shù)設(shè)置下分類器評(píng)估值 Table 7 R′ value of each category before and after changing the sample label表7 改變樣本標(biāo)簽前后各個(gè)類別的R′值 可以看出,在恢復(fù)類別0和類別6的樣本容量之前(也就是改變前),他們的R′值很小(分別為0.117 6和0.388 1,如表7中加粗部分所示),對(duì)應(yīng)的類別4和類別8的R′值也得到一定的影響(分別為0.873 9和0.886 6,如表7中加粗部分所示)。恢復(fù)樣本原始容量之后(也就是改變后),類別0和類別6對(duì)應(yīng)的R′值得到顯著提升(分別為0.989 2和0.972 3,如表7中加粗部分所示),對(duì)應(yīng)的類別4和類別8的R′值也得到一定的提升(分別為0.974 4和0.978 7,如表中加粗部分所示)。值得說(shuō)明的是,這對(duì)于優(yōu)化和改進(jìn)訓(xùn)練過(guò)程具有顯著的指導(dǎo)意義,即可以通過(guò)觀察單一類別或者某一些類別R′值的變化,采取必要的手段(如樣本均衡)來(lái)改進(jìn)訓(xùn)練過(guò)程。 回到3.2節(jié)的關(guān)于R′值方法推廣。3.2節(jié)中給出了某一單個(gè)類別的R′值計(jì)算方法,如式(22)所示。 考察式(22),R′值方法在評(píng)估分類效果的時(shí)候,除了考慮在真實(shí)標(biāo)簽中樣本被正確預(yù)測(cè)的概率P(si|mi)之外,還進(jìn)一步結(jié)合了樣本被正確預(yù)測(cè)和錯(cuò)誤預(yù)測(cè)的差異,即P(si)-P(mi)。對(duì)于實(shí)驗(yàn)中因改變樣本標(biāo)簽而導(dǎo)致樣本不均衡的情形,這一差異被R′方法很好地提取了出來(lái)。 具體而言,考察表8和表9所示的訓(xùn)練樣本容量改變前后的測(cè)試樣本的混淆矩陣。表格中的行表示測(cè)試樣本真實(shí)標(biāo)簽在2次實(shí)驗(yàn)中未發(fā)生變化,而表示預(yù)測(cè)標(biāo)簽的每一列則發(fā)生了一定的變化(尤其對(duì)類別0、類別4、類別6和類別8而言,如表7中加粗部分所示)。這解釋了上述實(shí)驗(yàn)中這些類別值變化的原因。進(jìn)一步說(shuō),R′方法可以很好地發(fā)現(xiàn)和指導(dǎo)解決訓(xùn)練過(guò)程中因樣本不均衡等原因?qū)е碌姆诸愋Чu(píng)估的差異問(wèn)題,進(jìn)而指導(dǎo)和改進(jìn)訓(xùn)練過(guò)程。 為進(jìn)一步說(shuō)明R′方法的有效性和適用性,本節(jié)實(shí)驗(yàn)采用另一個(gè)多分類任務(wù)場(chǎng)景的經(jīng)典數(shù)據(jù)集CIFAR-10進(jìn)行驗(yàn)證。 CIFAR-10數(shù)據(jù)集是一個(gè)更接近普適物體的彩色圖像數(shù)據(jù)集,一共包含10個(gè)類別的RGB彩色圖像:飛機(jī)(airplane)、汽車(automobile)、鳥(niǎo)類(bird)、貓(cat)、鹿(deer)、狗(dog)、蛙類(frog)、馬(horse)、船(ship)和卡車(truck)。數(shù)據(jù)集中每幅圖像的尺寸為32 × 32,每個(gè)類別有6 000幅圖像,數(shù)據(jù)集中一共有50 000幅訓(xùn)練圖像和10 000幅測(cè)試圖像。與MNIST的灰度圖像不同,CIFAR-10數(shù)據(jù)集由3通道RGB彩色圖像組成,圖像尺寸也比MNIST的28 × 28更大。此外,數(shù)據(jù)集是現(xiàn)實(shí)世界的真實(shí)物體,圖像噪聲更大,物體的比例、特征也都不盡相同,識(shí)別難度更大。但是,值得注意的是,CIFAR-10數(shù)據(jù)集樣本更加均衡,每個(gè)類別的樣本數(shù)量都是6 000,這對(duì)于進(jìn)一步驗(yàn)證4.3節(jié)實(shí)驗(yàn)的設(shè)計(jì)思路更加方便和有效。 Table 8 Confusion matrix 1 before sample label changes表8 改變樣本標(biāo)簽前的混淆矩陣1 Table 9 Confusion matrix 1 after sample label changes表9 改變樣本標(biāo)簽后的混淆矩陣1 同樣采用4.3節(jié)的實(shí)驗(yàn)設(shè)計(jì)方法,通過(guò)改變測(cè)試樣本的標(biāo)簽來(lái)模擬樣本不均衡的現(xiàn)象(這里將cat類別部分樣本去除,將deer類別部分樣本去除)。表10和表11分別給出了對(duì)應(yīng)的混淆矩陣(表中同時(shí)給出了各個(gè)類別和整體上分類效果的評(píng)估R′值,表中最后一列的all代表整體分類效果的R′值)。 從表10和表11中可以看出,在恢復(fù)類別cat和類別deer的樣本容量之前(也就是改變前),它們的R′值很低(分別為0.1和0.1,如表10中加粗部分所示),對(duì)應(yīng)的類別dog和類別horse的值也受到一定的影響(分別為0.808 3和0.811 7,如表11中加粗部分所示)。恢復(fù)原始標(biāo)簽之后(也就是改變后),類別cat和類別deer對(duì)應(yīng)的R′值得到顯著提升(分別為0.761 4和0.884 1,如表11中加粗部分所示),對(duì)應(yīng)的類別dog和類別horse的R′值也得到一定的提升(分別為0.821 3和0.896 9,如表11中加粗部分所示),整體的分類效果評(píng)估指標(biāo)也從0.718 9提高到0.873 0。 Table 10 Confusion matrix 2 before sample label changes表10 改變樣本標(biāo)簽前的混淆矩陣2 Table 11 Confusion matrix 2 after sample label changes表11 改變樣本標(biāo)簽后的混淆矩陣2 上述實(shí)驗(yàn)說(shuō)明了R′方法對(duì)于CIFAR-10數(shù)據(jù)集的適用性和有效性,進(jìn)一步說(shuō)明了R′方法的可拓展性及其應(yīng)用場(chǎng)景。 此外,結(jié)合4.3節(jié)和4.4節(jié)的實(shí)驗(yàn)結(jié)果,也就是樣本容量發(fā)生變化前后評(píng)估指標(biāo)的對(duì)比,可以看出該方法對(duì)不平衡數(shù)據(jù)集同樣適用。也就是說(shuō),它不會(huì)因?yàn)闃颖緮?shù)量的不均衡而影響對(duì)分類結(jié)果的評(píng)價(jià),因?yàn)檎?.2節(jié)所強(qiáng)調(diào)的那樣,該方法可以單獨(dú)對(duì)每一個(gè)類別進(jìn)行評(píng)估而不僅僅是對(duì)整體分類效果進(jìn)行評(píng)估。在不平衡數(shù)據(jù)集上,即使整體的分類效果較好,對(duì)于樣本數(shù)較少的類別而言,無(wú)論它的分類效果如何,它的評(píng)價(jià)指標(biāo)都會(huì)被單獨(dú)地呈現(xiàn)出來(lái)。這一點(diǎn)正是該方法的一個(gè)突出特點(diǎn)。 多分類任務(wù)模型準(zhǔn)確率評(píng)估一直是一個(gè)值得討論的問(wèn)題,這不僅要涉及到模型選擇問(wèn)題,也對(duì)模型訓(xùn)練過(guò)程具有很好的指導(dǎo)意義。本文針對(duì)多分類任務(wù)場(chǎng)景下,尤其是用戶關(guān)心特定類別分類效果的實(shí)際情況,現(xiàn)有的多分類任務(wù)準(zhǔn)確率評(píng)價(jià)指標(biāo)的不足,介紹和引入了用于評(píng)估模型分類準(zhǔn)確率的R′方法。該方法具有嚴(yán)格的數(shù)學(xué)理論推導(dǎo)過(guò)程,不僅可以評(píng)估分類器整體的分類效果,而且還可以給出每一個(gè)類別的分類效果,不僅可以用于模型選擇,而且對(duì)于更好地指導(dǎo)訓(xùn)練過(guò)程具有一定的意義。通過(guò)與已有評(píng)價(jià)方法的對(duì)比,基于MNIST的手寫(xiě)字符體識(shí)別任務(wù)和CIFAR-10數(shù)據(jù)集的多分類任務(wù)的實(shí)驗(yàn)驗(yàn)證,表明該方法具有很好的魯棒性和有效性,可以用于多分類任務(wù)的分類準(zhǔn)確率評(píng)估場(chǎng)景。同時(shí)值得一提的是,不僅對(duì)文中實(shí)驗(yàn)驗(yàn)證采用的MNIST手寫(xiě)字符體識(shí)別和CIFAR-10數(shù)據(jù)集分類這2個(gè)多分類任務(wù),該方法還可以擴(kuò)展到任意場(chǎng)景下的多分類任務(wù)問(wèn)題,具有廣泛的應(yīng)用前景。3.2 R′方法在多分類任務(wù)下的推廣
4 實(shí)驗(yàn)及結(jié)果分析
4.1 不同評(píng)價(jià)指標(biāo)的對(duì)比



4.2 不同分類結(jié)果下R′值的對(duì)比
4.3 R′值對(duì)單個(gè)類別的評(píng)估效果



4.4 CIFAR-10數(shù)據(jù)集實(shí)驗(yàn)結(jié)果




5 結(jié)束語(yǔ)