999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非平衡大數據下的保險欺詐識別研究

2015-05-30 10:30:46范廣哲劉瑾雯
中國新通信 2015年1期

范廣哲 劉瑾雯

【摘要】 隨著保險欺詐(Insurance Fraud)向全球蔓延,研究方法開始由定性研究向實證研究過渡。然而現有分類器的設計都是基于類分布大致平衡這一假設的,針對現實世界中廣泛存在不平衡數據這一事實,本研究對美國機動車保險機構提供的車險索賠非平衡大數據,運用隨機森林(Random Forest)對欺詐進行識別預測,為構建我國保險欺詐識別模型提出建議。

【關鍵詞】 保險欺詐 識別模型 隨機森林

國內外保險欺詐(Insurance Fraud)識別研究 早期的識別模型主要是以 Logit 模型為主。Artis、Ayuso 和 Guillen 建立了 AAG 欺詐識別模型。Caudill、Ayuso、Guillen 建立多項分對數模型。

Ridit模型通過建立標準組,將其他組的數據與之做對比來計算 R 值。我國學者葉明華1,運用 Logit 回歸分析對識別因子進行精煉,將 BP 神經網絡應用在車險欺詐識別中,得到了更高的準確率。

然而,在實際操作過程中,可能會因兩方面因素影響,導致準確率偏差:一是數據樣本小,缺乏對于現實中包含微弱信息的大型數據庫的數據分析。二是以理想的數據平衡狀態作為研究背景,脫離實際。

研究數據 研究樣本為美國車輛保險機構提供的車險索賠數據,共包含 11336 項記錄。其中 94 年的數據為訓練集(6141 條),95 年的數據為測試集(5195 條)。共有包括“車輛品牌”、“事故發生地”等在內的 31 個自變量,一個應變量“欺詐與否”,誠實索賠為 0,欺詐索賠為 1,正類樣本只占樣本總量的 6%,為兩分類非平衡大數據。

評價準則

目前分類算法常見的評價準則主要有:

(1) 準確率(Precision ): Precision= TP / ( TP + F P ) )

(2) 查全率(Recall): Recall = TP / ( TP + FN ))

此外,人們從醫療分析領域引入了一種新的評判方法—ROC分析,其橫坐標是將負例錯分為正例的概率(FPR),縱坐標是將正例分對的概率(TPR),通常采用ROC曲線下面積AUC來代替ROC曲線對分類器的性能進行定量評估。在眾多現實分類任務中AUC已經替代準確率成為分類算法的性能評價指標。

本研究選取AUC作為分類器性能評價準則。 保險欺詐識別中的隨機森林(Random Forest)應用 Leo Breiman2將統計學理論中的數據分析分為數據建模文化(The Data Modeling Culture),例如線性回歸,邏輯回歸,Cox 模型等;算法建模文化(The Algorithmic Modeling Culture),典型模型是 Leo Breiman 在決策樹基礎上建立的隨機森林3。

相比數據建模文化,算法建模文化可以得到更有效的預測模型。隨機森林對缺失數據和非平衡的數據比較穩健,可以很好地預測多達幾千個解釋變量的作用,而不需要對解釋變量進行交叉檢驗及精煉,從而避免刪除隱藏的有效信息。此外,隨機森林算法還不容易產生過擬合現象,被譽為當前最好的算法之一。

研究采用 R 軟件的 randomForest 程序包命令對數據進行分析。將訓練集數據(1994 年數據)全部輸入,設置參數,500 顆樹(ntree),每個節點選取 5個特征值(mtry),構建隨機森林欺詐識別模型。將測試集(1995 年數據)輸入模型中,得到欺詐預測輸出結果。圖為預測結果ROC曲線,得到AUC面積為0.724。用ROC曲線的AUC評價診斷試驗的準確性判斷標準為:AUC在0.5~0.7之間表示診斷價值較低,在0.7~0.9之間表示診斷價值中等,大于0.9則表示診斷價值較高4。

結論與建議

本文針對現實生活中存在的多為非平衡數據這一事實,對獲得的車險索賠大數據進行欺詐識別研究。基于數據的不平衡特性,選取AUC作為分類器性能的評價指標,利用94年的數據對95年的車險欺詐進行預測,很好的保證了研究樣本的

時間連貫性。 由于國內目前的車險欺詐識別研究沒有針對非平衡數據的分析,研究結果沒有準確的比較標準,從醫療領域利用AUC進行評價的分類器性能研究中可以看到,大多數預測研究的AUC都在0.7~0.8之間,且研究樣本也并沒有如此龐大。由此可以看出,本文的研究結果在可接受范圍內。 在進一步的研究中,我們將會進行國內保險數據的收集和整理,規避人為的數據篩選,保持數據的原始性,通過進一步的研究分析,構建符合國內行情的,立足于現實的保險欺詐識別模型。

參 考 文 獻

[1]葉明華,基于 BP 神經網絡的保險欺詐識別研究[J].保險研究,2011(3):79-86

[2] Leo Breiman, Statistical Modeling: The Two Cultures[J].Statistical Science,2001,Vol. 16,No. 3: 199–231

[3] Leo Breiman, Random Forests[J].Machine Learning,2001,45(1):5–32

[4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition,1997,30(7)

主站蜘蛛池模板: 麻豆国产精品一二三在线观看| 无码专区在线观看| 天天操天天噜| 国产精品内射视频| 2021精品国产自在现线看| a级毛片免费在线观看| 国产老女人精品免费视频| 久久精品国产精品国产一区| 99久久精彩视频| 国产无码高清视频不卡| 久久99国产综合精品1| 久久久久无码国产精品不卡| 免费观看精品视频999| 亚洲精品视频免费看| 亚洲天堂日韩在线| 美女啪啪无遮挡| 色屁屁一区二区三区视频国产| 日韩高清成人| 青草精品视频| 国产精品999在线| 亚洲开心婷婷中文字幕| 91 九色视频丝袜| 2021亚洲精品不卡a| 久久人妻xunleige无码| 免费看美女自慰的网站| 中文字幕资源站| 黄色福利在线| 91在线精品免费免费播放| 欧美日韩v| 二级毛片免费观看全程| 最新亚洲人成无码网站欣赏网 | 97超爽成人免费视频在线播放| 国语少妇高潮| 日韩在线视频网站| 亚洲伦理一区二区| 999国产精品| 国产精品3p视频| 国产女人水多毛片18| 免费一极毛片| 九九视频在线免费观看| 国产精品免费p区| 青青青伊人色综合久久| 国产亚洲精久久久久久无码AV| 国产女人18毛片水真多1| 91精品专区国产盗摄| 国产成人高精品免费视频| 亚洲一区网站| 久久久久人妻一区精品色奶水| 亚洲色图欧美一区| 在线五月婷婷| 亚洲第一页在线观看| 亚洲码一区二区三区| 特黄日韩免费一区二区三区| 夜夜高潮夜夜爽国产伦精品| 26uuu国产精品视频| 日韩欧美一区在线观看| 中文天堂在线视频| 人妻无码中文字幕一区二区三区| 国产无码精品在线播放| 精品久久综合1区2区3区激情| 无码AV日韩一二三区| a国产精品| 国语少妇高潮| 中文字幕永久视频| 亚洲欧美成aⅴ人在线观看| 国产小视频免费观看| 国产精品深爱在线| 超清无码熟妇人妻AV在线绿巨人| 亚洲欧洲日本在线| 1769国产精品免费视频| 日本影院一区| 40岁成熟女人牲交片免费| 波多野结衣亚洲一区| 福利视频一区| 国产福利一区在线| 国产精品成人久久| 国产老女人精品免费视频| 99热这里只有精品2| 无码内射中文字幕岛国片| 国产老女人精品免费视频| 2021最新国产精品网站| 欧美亚洲综合免费精品高清在线观看 |