999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下ROC曲線介紹與應用

2021-01-04 18:19:37李子言
科教導刊 2021年14期
關鍵詞:機器學習

李子言

摘要ROC曲線是研究二分類問題中一種簡便、高效的綜合性工具,它通過連接真陽率與假陽率在不同切斷點或者閾值下的值,構造出一條單調遞增曲線,曲線下的面積AUC即可作為衡量診斷效果的指標,面積數值越大,則代表該分類方法越有效。ROC曲線在算法效度研究,心理測評,[1]臨床醫學診斷中都有廣泛的應用。本文簡單介紹了ROC曲線的構造方法、基本性質和實際意義,并以生物醫學和機器學習的三個例子深入介紹了不同情形下ROC曲線的應用,最后總結ROC曲線的優缺點和應用場景。

關鍵詞 ROC曲線 AUC生物醫學 機器學習 二分類

中圖分類號:R195文獻標識碼:ADOI:10.16400/j.cnki.kjdk.2021.14.026

IntroductionandApplicationofROCCurveundertheBackgroundofBigData

LI Ziyan

(School of Mathematics and Statistics, Central China Normal University, Wuhan, Hubei 430079)

AbstractROC curve is a simple and efficient comprehensive tool in the study of binary classification. It constructs a monotonic increasing curve by connecting the true positive rate and false positive rate at different cut-off points or thresholds. The area AUC under the curve can be used as an index to measure the diagnosis effect. The larger the area is,the more effective the classification method is.ROC curve is widely used in algorithm validity research, psychologicalevaluation,clinicaldiagnosis.This paperbriefly introducestheconstructionmethod,basicpropertiesand practical significance of ROC curve, and introduces the application of ROC curve in different situations with three examples ofbiomedicine and machinelearning.Finally, it summarizes theadvantages and disadvantages of ROCcurve and application scenarios.

KeywordsROC curve; AUC; biomedical science; machine learning; dichotomy

1 ROC曲線的介紹

1.1 ROC曲線

ROC曲線(Receiver Operator Characteristic Curve,接收者操作特征曲線)是一種研究二分類問題的有效工具。對于二分類問題,它的樣本只有正樣本和負樣本兩類,但某些情形中,一個實驗可以提供多個結果而不是簡單的正樣本和負樣本,甚至在某些情形中,實驗結果是連續性變量。因此通過以假陽率為橫軸、縱軸為真陽率,ROC曲線可以將不同閾值下計算的準確值指標,比如以識別實驗結果是正樣本或假樣本的不同切斷點(cut-off-point)計算出的準確值指標連成一條曲線,曲線下面積則構成了檢驗整個診斷精度的一個合理指標。[2]ROC曲線常在醫學中確定診斷準則時有重要應用。

在醫學中一個癥狀(或一組癥狀,或篩選檢驗)的真陽率是疾病發生后出現癥狀的概率,又稱為靈敏度。

需要注意的是,顯然在同一種簡單的分類方法中,切斷點越多,對應的ROC曲線下面積越大,因此對比兩種分類方法時,切斷點的數量是固定的。但并不一定要求切斷點數量一致,因為切斷點的數量也可以理解為分類方法的內容之一。通常,我們認為有五個以上切斷點的分類或者連續型數據才有繪制ROC曲線的必要。[3]

當AUC=1時,所使用的分類器被稱為完美分類器,無論什么閾值都能獲得完全準確的預測,但在現實情況中這樣的分類器一般不存在。

當0.5

當AUC=0.5時,使用的分類器與隨機預測相同,類似于丟硬幣,預測正確和錯誤的概率均為50%,該分類器沒有一個好的預測價值。

當AUC<0.5時,使用的分類器比隨機預測效果更差,但此時可以反著預測,則得到0.5

使用AUC的原因是當兩種分類器的ROC曲線相交的時候,很難直觀判斷出哪個分類器的性能更好,而AUC能夠比較數值大小,AUC數值越大則分類器性能越好。

當測試樣本很有限時,ROC曲線圖形是階梯狀的,如圖2,于是計算每個階梯下的小矩形面積之和就可以獲得AUC。

但這個方法實際上計算是比較麻煩的,還有一種ROC AUCH法,與梯形面積法都是以逼近法求近似值。[5]

2大數據背景下ROC曲線的實際應用

2.1精神衛生

中國人的最少精神病測驗(CMMS)由114個項目組成,用于去識別老年性癡呆。這個指標也被延伸且用到臨床。每個老人與精神病醫生及護士談話并被診斷是否有老年性癡呆。表2僅列出一部分正式受過教育的部分老人資料。

改變分界點值,分別取5,10,15,20,25,30,當CMMS合計值小于該分界點者識別為有老年性癡呆,計算真陽率和假陽率構建ROC曲線如圖3。

使用梯形面積法,計算出ROC曲線下的面積s=0.08091,這個面積意味著醫生能按照CMMS分數的相對順序而正確地把一個非老年癡呆患者從老年癡呆患者中識別出來的概率是80.91%。當正常受試者與不正常受試者有相同分數時,學者可以隨機地做決定。

一般情況下,對于相同疾病地兩個篩選檢驗中,ROC曲線下面積大者被認為是較好地檢驗。但在某種特殊情形下可以例外,比如在兩個檢驗比較中,某個值的真陽率或假陽率特別重要時,面積的比較就沒有必要了。

2.2糖尿病預測算法分析

糖尿病是目前世界上較普遍的一種疾病,且發病率和患病率逐年提升,甚至日漸呈現低齡化的趨勢,通過皮瑪族印第安女性糖尿病數據集(PimaIndiansWomenDiabetes)進行分類預測,并繪制不同算法的ROC曲線,可以尋找高效預測糖尿病的算法,提高預測精度,幫助人們盡早發現糖尿病風險。[6]

對于此類算法而言,由于結果與閾值沒有很大聯系,于是可以僅采用一個切斷點,即一次輸出的結果,與原點和(0,1)點連接,得到僅有一個折點的ROC曲線。雖然這樣不能橫向比較同一個算法中不同分類效果的影響,但通過對折線下面積的比較,仍然能縱向比較不同算法的分類效果。

如果基于30%的測試集迭代隨機森林、隨機森林、K最近鄰、支持向量機、Logistic回歸、梯度提升機、決策樹和人工神經網絡分類模型分別畫出ROC曲線。[7]當一條曲線完全包裹另一條曲線時,則認為該算法更優,而本例得到的結果中,迭代隨機森林、隨機森林和K最近鄰三個分類模型的ROC曲線包裹了其他曲線且相交,無法直觀判斷算法優良性。此時便借助AUC值,由于這里只有一個折點,通過梯形面積法很快地就能獲得這三種算法的AUC值,迭代隨機森林的AUC值為0.7427,高于K最近鄰的0.7407和隨機森林的0.7368。因此下結論,認為迭代森林算法在該數據的分類上有最優秀的效果。

2.3人臉識別

在人臉識別技術中,ROC曲線也有重要應用,在人臉檢測數據集和基準官方網站(FDDB)中,對于不同的人臉檢測技術,并考慮閾值,繪制ROC曲線,得到圖4。

圖中,橫軸是誤報數,縱軸是檢測率,不同曲線代表著不同人臉識別算法。其中ROC曲線越陡峭,越高的算法性能更好,于是該圖能簡明快速地幫助學者尋找性能最好的人臉識別算法。

3 ROC曲線的優缺點

3.1優點

(1)直觀,ROC曲線將靈敏度和特異度以曲線圖像的形式綜合分析,可以肉眼觀察分類模型的性能。

(2)平衡性好,ROC曲線繪制過程中同時考慮到正樣本和負樣本,且即使正樣本與負樣本的比例發生了很大變化,ROC曲線也不會產生大的變化。

(3)簡單,ROC曲線所采用的兩個指標,TPR和FPR都不依賴于樣本具體的分布。

3.2缺點

ROC曲線對類分布的改變不敏感。[8]

這點既是優點也是缺點。類分布就是測試集中正例和負例的比例。在實際應用中,類分布的不平衡現象非常廣泛,類分布不平衡程度達到1:10,1:100的情況非常常見,有的甚至達到1:106。

一方面,這種嚴重的不平衡的類分布使得一些傳統的評價標準不再適用,而ROC曲線由于不受類分布的影響,適合于評估、比較這種不平衡數據集。另一方面,當模型分類中主要關心正例的預測準確性時,ROC曲線便不好應用。并且如果負例的數目眾多,會使得,FPR的增長不明顯,導致ROC曲線呈現一個過分樂觀的效果估計,大量負例被錯判成正例,在ROC曲線上卻無法直觀地看出來。

在大數據分析中,ROC曲線是一種非常形象直觀、操作簡單的方法,受到很多數據分析師的青睞。[9]

參考文獻

[1]郭秀艷,楊治良.實驗心理學.人民教育出版社,2004:292-295.

[2]伯納德·羅斯納著.生物統計學基礎(第五版).孫尚拱譯.科學出版社,2020.7.

[3]王曼,徐春燕,施學忠.醫學論文中ROC曲線應用錯誤例析.編輯學報,2019,(02):159-161.

[4]雷明.機器學習與應用.清華大學出版社,2019.1.

[5]分類學習算法的性能度量指標綜述,楊杏麗,計算機科學,網絡首發2021-04-21.

[6]王成武,晏峻峰.早期糖尿病風險預測模型的比較研究,智能計算機與應用. 2021,(01).

[7]劉文博,梁盛楠,秦喜文,等.基于迭代隨機森林算法的糖尿病預測,長春工業大學學報,2019,40(06),604-611.

[8]J-JunLiang.P-R曲線與ROC曲線使用總結. https://blog.csdn.net/ jliang3/article/details/88881315.

[9]Two sensitivity orders applied to the comparison of ROC curves,Ramos HéctorM.; Ollero Jorge; Suárez Llorens Alfonso,Communications inStatistics -Theory andMethods,Volume50,Issue 8. 2021. PP 1884-1896.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 亚洲欧洲日产国码无码av喷潮| 亚洲一级毛片在线观播放| 亚洲91精品视频| 国产精品自在自线免费观看| 欧美国产三级| 激情成人综合网| 一级片一区| 性做久久久久久久免费看| 毛片手机在线看| 久久综合五月婷婷| 亚洲第一精品福利| 永久免费精品视频| 中文字幕66页| 日本成人一区| 国产va在线观看免费| 国产在线观看91精品亚瑟| 亚洲电影天堂在线国语对白| 国产流白浆视频| 中文字幕永久在线观看| 国产精品亚洲综合久久小说| 国产乱子伦精品视频| 亚洲婷婷丁香| 国产高清不卡视频| 国产网站免费观看| 午夜国产精品视频| 99一级毛片| 亚洲精品成人片在线观看 | 国产成人高清在线精品| 农村乱人伦一区二区| 亚洲Va中文字幕久久一区| 日本亚洲国产一区二区三区| 国产原创自拍不卡第一页| 亚洲精品国产日韩无码AV永久免费网 | 国产乱子伦精品视频| 国产电话自拍伊人| 成年人国产网站| 国产女人在线观看| 五月婷婷精品| 国产成人精品一区二区三在线观看| 美美女高清毛片视频免费观看| 18禁影院亚洲专区| 丁香婷婷在线视频| 欧美一区日韩一区中文字幕页| 谁有在线观看日韩亚洲最新视频| 欧美成人日韩| 色综合网址| 98超碰在线观看| 2019国产在线| 国产精品久久久久婷婷五月| 国产sm重味一区二区三区| 国产无码性爱一区二区三区| 国产二级毛片| 欧美午夜网站| 中文字幕在线视频免费| 欧美亚洲日韩中文| 亚欧美国产综合| 国产精品所毛片视频| 国产精品无码一区二区桃花视频| 色婷婷国产精品视频| 欧美性久久久久| 国产91小视频在线观看| 婷婷久久综合九色综合88| 国产精品13页| 97亚洲色综久久精品| 亚国产欧美在线人成| 欧美亚洲国产日韩电影在线| 在线看片中文字幕| 狠狠v日韩v欧美v| 国产区网址| 丁香婷婷在线视频| 亚洲精品自拍区在线观看| 丁香婷婷在线视频| 永久免费av网站可以直接看的| 国产在线精品99一区不卡| 中文字幕久久波多野结衣| 国产97视频在线观看| 在线观看欧美精品二区| 欧美中文字幕在线视频 | 亚洲精品老司机| 午夜不卡视频| 亚洲国产91人成在线| 99精品国产高清一区二区|