


摘 ?要:現階段深度學習作為一種實現機器學習的技術,在分析模型問題和評估模型的方法上基本一致。文章從評估模型的角度,以混淆矩陣為基礎,通過常用的Accuracy,Precision以及Recall等衡量模型的預測能力。研究結合深度學習近幾年的競賽任務分析樣本均衡與非均衡下幾種評估模型方法的差異,從幾種評估指標之間的聯系討論P-R曲線評估模型之間的相關性,以及P-R曲線在目標檢測任務中作為評估模型方法的合理性。
關鍵詞:評估標準;Accuracy;P-R曲線;mAP
中圖分類號:TP181;TP311.1 ? ? 文獻標識碼:A 文章編號:2096-4706(2020)04-0023-03
Abstract:At present,deep learning,as a technology to realize machine learning,is basically consistent in analyzing model problems and evaluating model methods. From the perspective of the evaluation model,based on the confusion matrix,this paper measures the prediction ability of the model from the commonly used Accuracy,Precision and Recall. This paper analyzes the differences of several evaluation models under the condition of sample equilibrium and non-equilibrium,discusses the correlation between the evaluation models of P-R curve from the relationship between several evaluation indexes,and discusses the rationality of P-R curve as the evaluation model method in the target detection task.
Keywords:model performance evaluation;Accuracy;P-R curve;mAP
0 ?引 ?言
在機器學習領域,模型評估的主流標準都以統計混淆矩陣下的TP(true positive)、FP(false negative)、TN(true negative)、FN(false positive)去評價模型的優劣,例如圖像分類競賽的ImageNet[1]中使用的Top-1、Top-5的Accuracy評估標準。筆者在建模研究中,發現在使用以上幾種評估指標評估模型時,單性能指標不能準確地評估模型,如何更優地評估模型以及如何迭代地對模型進行優化成為了研究熱點之一。本文針對各種數據集樣本分布不均衡問題進一步分析,在針對多種深度學習技術應用中的目標檢測、圖像分割以及圖像分類的模型評估方法的研究中,我們從模型評估的最優化的角度,研究模型判定標準以及怎樣的標準才能最優評估模型,以混淆矩陣為基礎,探究評估模型最優方法。
本文從多類問題分析時可以理解為對主類和從類(其他)兩種角度,研究以兩類問題下的P-R曲線,并結合競賽任務中的應用分析P-R曲線在實際場景中的評估方法的最優性。
1 ?混淆矩陣與幾種評估指標的關系
我們以汽車分類問題為例,假設汽車類型有A和B兩類,我們在均衡比例A=5,B=5的測試集去測試車型分類對兩類樣本的識別能力。假設分類器對在測試集中識別A類汽車共預測7張,預測B類汽車3張,其中識別成A類中包含A類5個,B類2個,識別成B類中,實際包含2個B類和一個A類。根據以上模型預測輸出能夠得到對應的混淆矩陣如圖1所示,本文從混淆矩陣進行分析幾種評價指標之間的相互關系。
在圖1汽車分類中,如果我們先以Accuracy評估模型為例,能夠計算出Accuracy=0.60,Precision=0.71,Recall= 0.71。以上三種評估指標的計算是在樣本均衡情形下得出的,假設樣本中如果測試樣本類是以9:1的方式呈現,預測結果A=7(預測A集合中A=6,B=1),在這種在數據不均衡的情況下,我們能夠通過混淆矩陣計算Accuracy=0.60,P=0.86,R=0.67。從樣本不均衡和均衡條件的計算,可以看出在兩種樣本分布下Accuracy表現結果相同,而Precision和Recall隨樣本分布變化呈現反差,類別不平衡問題會導致正樣本或負樣本的比例過多,當僅使用Accuracy去評估分類器性預測能力就不能合理地評估,在Everson R中對分類問題樣本不均衡情況下如何進行合理評估方法的討論以及Davis[2]證明了PR曲線相比于文獻[2]在樣本不均衡下更關注正樣本,更能反映分類器的好壞的推理。當針對其他分類問題時,我們將預測類主類和其他類從類歸納為二分類問題,能夠對混淆矩陣預測總結計算Accuracy公式(1)所示。
從上分析,以及幾種競賽的評估分析中能夠看到,Precision和Recall是各種評估標準的基礎,本文主要從P-R曲線在各種競賽任務中的應用進行分析,論述P-R曲線的評估方法,并結合競賽任務中的應用分析P-R曲線在實際場景中的評估方法。
2 ?P-R曲線分析
Davis[2]詳盡地分析了通過P、R去關注分類器在預測主類的能力,能相對較好地忽略樣本不均衡帶來的問題(更關注于主類樣本),能更有效地評估模型。本節主要從P-R曲線評估對象和在檢測任務中通過兩者之間的曲線去評估模型進行討論,從坐標中的繪制方式到幾種可能狀態以及去分析如何獲取理想條件下的最優P-R曲線,對比假設在P-R曲線在樣本均衡時呈現。
2.1 ?Precision和Recall之間的聯系
在理想情況下,我們希望模型的精確率越高越好,同時召回率也越高越好,但實際情況下緊缺率和召回率總呈現反比狀態。在各種競賽的評估標準中,已有對P-R曲線權衡問題的討論,在對兩種指標進行平衡中,常用的方法是F-Measure(加權調和平均),當Measure=1時即為F1_Score平衡兩者之間的關系,如表1所示是幾種文本分類算法在CNN和DailyMail數據集測試和驗證集上F1的評估對比,在NLP類別的競賽任務中,在樣本無法均衡情形下,利用F1綜合考慮P和R的評估結果,取F1較高指標時作為最優模型,能更準確地評估模型性能。
以上我們討論Precision和Recall以及加權調和平均的應用和關系,如文中針對評估模型,很難僅依靠其中單一的指標去判斷模型的優劣,因此如表1文本比賽中通過Precision和Recall之間的調和平均數、目標檢測以及圖像分割任務中AP的計算都是通過P-R曲線之間的聯系進行模型分析和評估。
3 ?P-R曲線在目標檢測數據中的分析與評估
本節對目標檢測競賽任務中評估模型的方法使用P-R曲線進行討論,本節主要從不同季賽情形下數據的分布情況進行分析,論證P-R曲線對模型評估的合理性并討論通過P-R曲線獲取AP的評估方式。
3.1 ?P-R曲線評估合理性分析
在合理的模型的測試集中,我們期望理想情況下主類測試樣本是無窮多,從類測試樣本也是無窮多。以目標檢測任務為例,在對評估模型性能過程中,我們期望測試集盡可能包含所有場景樣例,去驗證模型的魯棒性。假設在測試樣本中多類別Ci,P-R曲線是通過對象類別i(主類)和其他類(從類),以分類角度去評估,從先驗概率的角度來講,Precision最小值由P(主類)和P(從類)兩個先驗概率確定,為P(主類)/(P(主類)+P(從類))。在主、從類樣本均衡時,在少樣本情況下每組P-R曲線呈現。需要考慮在多樣本情形下P-R曲線如何呈現。
雖在很多算法中對分類樣本不均衡問題從算法層面和數據增廣方面進行處理樣本不均衡問題。如檢測算法Faster RCNN利用RPN抑制前背景以及一階段檢測算法SSD按一定比例取前背景樣本預測樣本。但樣本不均衡問題仍不能很好地解決,對模型訓練和評估存在極大影響。
3.2 ?P-R曲線在目標檢測競賽種的應用
從目標檢測競賽VOC2007[3]訓練和測試數據以及KITTI數據,Person類和其他類別相比明顯出現類別不均衡問題。目標檢測需要在大背景下同時對目標進行定位和識別,但由于前景和背景之間的不平衡,使得這一工作具有挑戰性。基于深度學習的檢測解決方案通常采用多任務分支網絡體系,處理不同類別的分類任務和定位任務,其中分類任務的目標是識別給定框中的對象,而定位任務的目標是預測對象的精確邊界框。無論是類別不均衡還是前景和背景不均衡的問題,對基于模型的訓練和評估都有著極大的影響。
從在VOC2007檢測數據的評估中的方法看,通過訓練好的模型,對VOCtest數據(4 952張)預測后,得到所有Person類的置信度得分,并對預測為Person類的樣本進行排序,計算Precision和Recall。在VOC競賽評估中是對當前類評估時該類為主類,其他類和背景類為從類,得到兩類問題的混淆矩陣,計算Precision和Recall。根據計算一組Range[0,0.1,1.0](0~1.0之間間隔為0.1,11個點)的Recall,得到Recall>Threshold時對應最大的Precision,通過11點差值平均精度得到Person類的AP,其計算如式(3)左公式所示。
式(3)右公式是對VOC2007中差值平均精度計算類別對象的AP和多類mAP的方法,其中Precision是通過11點中根據Recall計算出的Top-N中取最大值。在P-R曲線中,雖然理論上說PR曲線呈現遞減趨勢,在VOC2007的評估中可能會出現某階段上升情形,但總體上來說在多樣本情形下整體是趨于下降趨勢的,因此P-R曲線的評估更符合實際多樣本情形下評估模型問題的標準。
4 ?結 ?論
考慮到幾種模型精度評價標準都基于混淆矩陣對模型預測能力的統計進行評估,本文主要從Precision和Recall之間的關系進行討論,分析了分類以及檢測任務中實際場景中樣本分布的樣本均衡和前背景均衡問題。本文從P-R曲線的角度分析了其在面對以上問題時評估方法的合理性。近幾年學術研究中通過CNN模型的擬合評估角度思考的方式,通過P-R角度思考的AP-Loss[4]為一種新思路,這也將是我們后續探索P-R曲線與模型結合的優化方向。
參考文獻:
[1] DENG J,DONG W,SOCHER R,et al.ImageNet:a Large-Scale Hierarchical Image Database [C]//2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009),USA.IEEE,2009.
[2] DAVIS J,GOADRICH M.The Relationship Between Precision-Recall and ROC Curves [C]//ICML06:Proceedings of the 23rd international conference on Machine learning,2006:233-240.
[3] EVERINGHAM M,GOOL L V,WILLIAMS C K I,et al.The Pascal Visual Object Classes (VOC) Challenge [J].International Journal of Computer Vision,2010,88(2):303-338.
[4] CHEN K,LI J G,LIN W Y,et al.Towards Accurate One-Stage Object Detection with AP-Loss [J].[2019-12-26].https://arxiv.org/abs/1904.06373?context=cs.CV.
作者簡介:張超(1992.06-),男,漢族,河南固始人,碩士在讀,研究方向:模式識別。