999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

P-R曲線與模型評估問題研究

2020-07-31 09:31:55張超
現代信息科技 2020年4期

摘 ?要:現階段深度學習作為一種實現機器學習的技術,在分析模型問題和評估模型的方法上基本一致。文章從評估模型的角度,以混淆矩陣為基礎,通過常用的Accuracy,Precision以及Recall等衡量模型的預測能力。研究結合深度學習近幾年的競賽任務分析樣本均衡與非均衡下幾種評估模型方法的差異,從幾種評估指標之間的聯系討論P-R曲線評估模型之間的相關性,以及P-R曲線在目標檢測任務中作為評估模型方法的合理性。

關鍵詞:評估標準;Accuracy;P-R曲線;mAP

中圖分類號:TP181;TP311.1 ? ? 文獻標識碼:A 文章編號:2096-4706(2020)04-0023-03

Abstract:At present,deep learning,as a technology to realize machine learning,is basically consistent in analyzing model problems and evaluating model methods. From the perspective of the evaluation model,based on the confusion matrix,this paper measures the prediction ability of the model from the commonly used Accuracy,Precision and Recall. This paper analyzes the differences of several evaluation models under the condition of sample equilibrium and non-equilibrium,discusses the correlation between the evaluation models of P-R curve from the relationship between several evaluation indexes,and discusses the rationality of P-R curve as the evaluation model method in the target detection task.

Keywords:model performance evaluation;Accuracy;P-R curve;mAP

0 ?引 ?言

在機器學習領域,模型評估的主流標準都以統計混淆矩陣下的TP(true positive)、FP(false negative)、TN(true negative)、FN(false positive)去評價模型的優劣,例如圖像分類競賽的ImageNet[1]中使用的Top-1、Top-5的Accuracy評估標準。筆者在建模研究中,發現在使用以上幾種評估指標評估模型時,單性能指標不能準確地評估模型,如何更優地評估模型以及如何迭代地對模型進行優化成為了研究熱點之一。本文針對各種數據集樣本分布不均衡問題進一步分析,在針對多種深度學習技術應用中的目標檢測、圖像分割以及圖像分類的模型評估方法的研究中,我們從模型評估的最優化的角度,研究模型判定標準以及怎樣的標準才能最優評估模型,以混淆矩陣為基礎,探究評估模型最優方法。

本文從多類問題分析時可以理解為對主類和從類(其他)兩種角度,研究以兩類問題下的P-R曲線,并結合競賽任務中的應用分析P-R曲線在實際場景中的評估方法的最優性。

1 ?混淆矩陣與幾種評估指標的關系

我們以汽車分類問題為例,假設汽車類型有A和B兩類,我們在均衡比例A=5,B=5的測試集去測試車型分類對兩類樣本的識別能力。假設分類器對在測試集中識別A類汽車共預測7張,預測B類汽車3張,其中識別成A類中包含A類5個,B類2個,識別成B類中,實際包含2個B類和一個A類。根據以上模型預測輸出能夠得到對應的混淆矩陣如圖1所示,本文從混淆矩陣進行分析幾種評價指標之間的相互關系。

在圖1汽車分類中,如果我們先以Accuracy評估模型為例,能夠計算出Accuracy=0.60,Precision=0.71,Recall= 0.71。以上三種評估指標的計算是在樣本均衡情形下得出的,假設樣本中如果測試樣本類是以9:1的方式呈現,預測結果A=7(預測A集合中A=6,B=1),在這種在數據不均衡的情況下,我們能夠通過混淆矩陣計算Accuracy=0.60,P=0.86,R=0.67。從樣本不均衡和均衡條件的計算,可以看出在兩種樣本分布下Accuracy表現結果相同,而Precision和Recall隨樣本分布變化呈現反差,類別不平衡問題會導致正樣本或負樣本的比例過多,當僅使用Accuracy去評估分類器性預測能力就不能合理地評估,在Everson R中對分類問題樣本不均衡情況下如何進行合理評估方法的討論以及Davis[2]證明了PR曲線相比于文獻[2]在樣本不均衡下更關注正樣本,更能反映分類器的好壞的推理。當針對其他分類問題時,我們將預測類主類和其他類從類歸納為二分類問題,能夠對混淆矩陣預測總結計算Accuracy公式(1)所示。

從上分析,以及幾種競賽的評估分析中能夠看到,Precision和Recall是各種評估標準的基礎,本文主要從P-R曲線在各種競賽任務中的應用進行分析,論述P-R曲線的評估方法,并結合競賽任務中的應用分析P-R曲線在實際場景中的評估方法。

2 ?P-R曲線分析

Davis[2]詳盡地分析了通過P、R去關注分類器在預測主類的能力,能相對較好地忽略樣本不均衡帶來的問題(更關注于主類樣本),能更有效地評估模型。本節主要從P-R曲線評估對象和在檢測任務中通過兩者之間的曲線去評估模型進行討論,從坐標中的繪制方式到幾種可能狀態以及去分析如何獲取理想條件下的最優P-R曲線,對比假設在P-R曲線在樣本均衡時呈現。

2.1 ?Precision和Recall之間的聯系

在理想情況下,我們希望模型的精確率越高越好,同時召回率也越高越好,但實際情況下緊缺率和召回率總呈現反比狀態。在各種競賽的評估標準中,已有對P-R曲線權衡問題的討論,在對兩種指標進行平衡中,常用的方法是F-Measure(加權調和平均),當Measure=1時即為F1_Score平衡兩者之間的關系,如表1所示是幾種文本分類算法在CNN和DailyMail數據集測試和驗證集上F1的評估對比,在NLP類別的競賽任務中,在樣本無法均衡情形下,利用F1綜合考慮P和R的評估結果,取F1較高指標時作為最優模型,能更準確地評估模型性能。

以上我們討論Precision和Recall以及加權調和平均的應用和關系,如文中針對評估模型,很難僅依靠其中單一的指標去判斷模型的優劣,因此如表1文本比賽中通過Precision和Recall之間的調和平均數、目標檢測以及圖像分割任務中AP的計算都是通過P-R曲線之間的聯系進行模型分析和評估。

3 ?P-R曲線在目標檢測數據中的分析與評估

本節對目標檢測競賽任務中評估模型的方法使用P-R曲線進行討論,本節主要從不同季賽情形下數據的分布情況進行分析,論證P-R曲線對模型評估的合理性并討論通過P-R曲線獲取AP的評估方式。

3.1 ?P-R曲線評估合理性分析

在合理的模型的測試集中,我們期望理想情況下主類測試樣本是無窮多,從類測試樣本也是無窮多。以目標檢測任務為例,在對評估模型性能過程中,我們期望測試集盡可能包含所有場景樣例,去驗證模型的魯棒性。假設在測試樣本中多類別Ci,P-R曲線是通過對象類別i(主類)和其他類(從類),以分類角度去評估,從先驗概率的角度來講,Precision最小值由P(主類)和P(從類)兩個先驗概率確定,為P(主類)/(P(主類)+P(從類))。在主、從類樣本均衡時,在少樣本情況下每組P-R曲線呈現。需要考慮在多樣本情形下P-R曲線如何呈現。

雖在很多算法中對分類樣本不均衡問題從算法層面和數據增廣方面進行處理樣本不均衡問題。如檢測算法Faster RCNN利用RPN抑制前背景以及一階段檢測算法SSD按一定比例取前背景樣本預測樣本。但樣本不均衡問題仍不能很好地解決,對模型訓練和評估存在極大影響。

3.2 ?P-R曲線在目標檢測競賽種的應用

從目標檢測競賽VOC2007[3]訓練和測試數據以及KITTI數據,Person類和其他類別相比明顯出現類別不均衡問題。目標檢測需要在大背景下同時對目標進行定位和識別,但由于前景和背景之間的不平衡,使得這一工作具有挑戰性。基于深度學習的檢測解決方案通常采用多任務分支網絡體系,處理不同類別的分類任務和定位任務,其中分類任務的目標是識別給定框中的對象,而定位任務的目標是預測對象的精確邊界框。無論是類別不均衡還是前景和背景不均衡的問題,對基于模型的訓練和評估都有著極大的影響。

從在VOC2007檢測數據的評估中的方法看,通過訓練好的模型,對VOCtest數據(4 952張)預測后,得到所有Person類的置信度得分,并對預測為Person類的樣本進行排序,計算Precision和Recall。在VOC競賽評估中是對當前類評估時該類為主類,其他類和背景類為從類,得到兩類問題的混淆矩陣,計算Precision和Recall。根據計算一組Range[0,0.1,1.0](0~1.0之間間隔為0.1,11個點)的Recall,得到Recall>Threshold時對應最大的Precision,通過11點差值平均精度得到Person類的AP,其計算如式(3)左公式所示。

式(3)右公式是對VOC2007中差值平均精度計算類別對象的AP和多類mAP的方法,其中Precision是通過11點中根據Recall計算出的Top-N中取最大值。在P-R曲線中,雖然理論上說PR曲線呈現遞減趨勢,在VOC2007的評估中可能會出現某階段上升情形,但總體上來說在多樣本情形下整體是趨于下降趨勢的,因此P-R曲線的評估更符合實際多樣本情形下評估模型問題的標準。

4 ?結 ?論

考慮到幾種模型精度評價標準都基于混淆矩陣對模型預測能力的統計進行評估,本文主要從Precision和Recall之間的關系進行討論,分析了分類以及檢測任務中實際場景中樣本分布的樣本均衡和前背景均衡問題。本文從P-R曲線的角度分析了其在面對以上問題時評估方法的合理性。近幾年學術研究中通過CNN模型的擬合評估角度思考的方式,通過P-R角度思考的AP-Loss[4]為一種新思路,這也將是我們后續探索P-R曲線與模型結合的優化方向。

參考文獻:

[1] DENG J,DONG W,SOCHER R,et al.ImageNet:a Large-Scale Hierarchical Image Database [C]//2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009),USA.IEEE,2009.

[2] DAVIS J,GOADRICH M.The Relationship Between Precision-Recall and ROC Curves [C]//ICML06:Proceedings of the 23rd international conference on Machine learning,2006:233-240.

[3] EVERINGHAM M,GOOL L V,WILLIAMS C K I,et al.The Pascal Visual Object Classes (VOC) Challenge [J].International Journal of Computer Vision,2010,88(2):303-338.

[4] CHEN K,LI J G,LIN W Y,et al.Towards Accurate One-Stage Object Detection with AP-Loss [J].[2019-12-26].https://arxiv.org/abs/1904.06373?context=cs.CV.

作者簡介:張超(1992.06-),男,漢族,河南固始人,碩士在讀,研究方向:模式識別。

主站蜘蛛池模板: 欧美综合区自拍亚洲综合绿色| 玩两个丰满老熟女久久网| 日本一区二区不卡视频| 在线不卡免费视频| 亚洲福利视频一区二区| 亚洲小视频网站| 特级毛片免费视频| 2020精品极品国产色在线观看 | 成人综合在线观看| 熟妇人妻无乱码中文字幕真矢织江| 国产99欧美精品久久精品久久| 久久久久免费看成人影片| 亚洲高清资源| 真人免费一级毛片一区二区| 国产精品一区在线麻豆| 亚洲色图另类| 高h视频在线| 毛片在线区| 久久久久久久蜜桃| 国产性猛交XXXX免费看| 亚洲人成网站观看在线观看| 一级毛片免费不卡在线| 欧美国产日韩另类| 欧美 国产 人人视频| 先锋资源久久| 久久青草视频| 亚洲欧美极品| 日本精品视频一区二区| 亚洲精品波多野结衣| 亚洲二区视频| 国产原创自拍不卡第一页| 亚洲精品无码久久毛片波多野吉| 精品国产免费观看一区| 亚洲欧美不卡| 日韩美毛片| 精品国产99久久| 色老头综合网| 成人一区在线| 国产精品白浆无码流出在线看| 国产亚洲欧美另类一区二区| 91九色最新地址| 凹凸精品免费精品视频| 亚洲自偷自拍另类小说| 免费在线国产一区二区三区精品| 国产成人亚洲欧美激情| 国产91线观看| 99热免费在线| 91视频区| AV熟女乱| 无码区日韩专区免费系列 | 高潮毛片免费观看| 真实国产乱子伦视频| 不卡视频国产| 国产小视频在线高清播放| 亚洲综合激情另类专区| 亚洲第一色网站| 国产成人综合网在线观看| 国产成人精品亚洲77美色| 国产区网址| 国产浮力第一页永久地址| 六月婷婷激情综合| 麻豆精品在线播放| 99在线免费播放| 天天爽免费视频| 亚洲欧美激情另类| 自拍偷拍欧美| av色爱 天堂网| 免费高清a毛片| 国产在线视频自拍| 亚洲国产一成久久精品国产成人综合| 视频二区中文无码| 日韩一区二区在线电影| 欧美中文字幕一区二区三区| 欧美成人午夜在线全部免费| 成人在线欧美| 国产精品大尺度尺度视频| 另类重口100页在线播放| 久久黄色视频影| 久久综合成人| 亚洲系列无码专区偷窥无码| 亚洲人成成无码网WWW| 欧美中文字幕一区|