999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非平衡大數據下的保險欺詐識別研究

2015-05-30 10:30:46范廣哲劉瑾雯
中國新通信 2015年1期

范廣哲 劉瑾雯

【摘要】 隨著保險欺詐(Insurance Fraud)向全球蔓延,研究方法開始由定性研究向實證研究過渡。然而現有分類器的設計都是基于類分布大致平衡這一假設的,針對現實世界中廣泛存在不平衡數據這一事實,本研究對美國機動車保險機構提供的車險索賠非平衡大數據,運用隨機森林(Random Forest)對欺詐進行識別預測,為構建我國保險欺詐識別模型提出建議。

【關鍵詞】 保險欺詐 識別模型 隨機森林

國內外保險欺詐(Insurance Fraud)識別研究 早期的識別模型主要是以 Logit 模型為主。Artis、Ayuso 和 Guillen 建立了 AAG 欺詐識別模型。Caudill、Ayuso、Guillen 建立多項分對數模型。

Ridit模型通過建立標準組,將其他組的數據與之做對比來計算 R 值。我國學者葉明華1,運用 Logit 回歸分析對識別因子進行精煉,將 BP 神經網絡應用在車險欺詐識別中,得到了更高的準確率。

然而,在實際操作過程中,可能會因兩方面因素影響,導致準確率偏差:一是數據樣本小,缺乏對于現實中包含微弱信息的大型數據庫的數據分析。二是以理想的數據平衡狀態作為研究背景,脫離實際。

研究數據 研究樣本為美國車輛保險機構提供的車險索賠數據,共包含 11336 項記錄。其中 94 年的數據為訓練集(6141 條),95 年的數據為測試集(5195 條)。共有包括“車輛品牌”、“事故發生地”等在內的 31 個自變量,一個應變量“欺詐與否”,誠實索賠為 0,欺詐索賠為 1,正類樣本只占樣本總量的 6%,為兩分類非平衡大數據。

評價準則

目前分類算法常見的評價準則主要有:

(1) 準確率(Precision ): Precision= TP / ( TP + F P ) )

(2) 查全率(Recall): Recall = TP / ( TP + FN ))

此外,人們從醫療分析領域引入了一種新的評判方法—ROC分析,其橫坐標是將負例錯分為正例的概率(FPR),縱坐標是將正例分對的概率(TPR),通常采用ROC曲線下面積AUC來代替ROC曲線對分類器的性能進行定量評估。在眾多現實分類任務中AUC已經替代準確率成為分類算法的性能評價指標。

本研究選取AUC作為分類器性能評價準則。 保險欺詐識別中的隨機森林(Random Forest)應用 Leo Breiman2將統計學理論中的數據分析分為數據建模文化(The Data Modeling Culture),例如線性回歸,邏輯回歸,Cox 模型等;算法建模文化(The Algorithmic Modeling Culture),典型模型是 Leo Breiman 在決策樹基礎上建立的隨機森林3。

相比數據建模文化,算法建模文化可以得到更有效的預測模型。隨機森林對缺失數據和非平衡的數據比較穩健,可以很好地預測多達幾千個解釋變量的作用,而不需要對解釋變量進行交叉檢驗及精煉,從而避免刪除隱藏的有效信息。此外,隨機森林算法還不容易產生過擬合現象,被譽為當前最好的算法之一。

研究采用 R 軟件的 randomForest 程序包命令對數據進行分析。將訓練集數據(1994 年數據)全部輸入,設置參數,500 顆樹(ntree),每個節點選取 5個特征值(mtry),構建隨機森林欺詐識別模型。將測試集(1995 年數據)輸入模型中,得到欺詐預測輸出結果。圖為預測結果ROC曲線,得到AUC面積為0.724。用ROC曲線的AUC評價診斷試驗的準確性判斷標準為:AUC在0.5~0.7之間表示診斷價值較低,在0.7~0.9之間表示診斷價值中等,大于0.9則表示診斷價值較高4。

結論與建議

本文針對現實生活中存在的多為非平衡數據這一事實,對獲得的車險索賠大數據進行欺詐識別研究?;跀祿牟黄胶馓匦裕x取AUC作為分類器性能的評價指標,利用94年的數據對95年的車險欺詐進行預測,很好的保證了研究樣本的

時間連貫性。 由于國內目前的車險欺詐識別研究沒有針對非平衡數據的分析,研究結果沒有準確的比較標準,從醫療領域利用AUC進行評價的分類器性能研究中可以看到,大多數預測研究的AUC都在0.7~0.8之間,且研究樣本也并沒有如此龐大。由此可以看出,本文的研究結果在可接受范圍內。 在進一步的研究中,我們將會進行國內保險數據的收集和整理,規避人為的數據篩選,保持數據的原始性,通過進一步的研究分析,構建符合國內行情的,立足于現實的保險欺詐識別模型。

參 考 文 獻

[1]葉明華,基于 BP 神經網絡的保險欺詐識別研究[J].保險研究,2011(3):79-86

[2] Leo Breiman, Statistical Modeling: The Two Cultures[J].Statistical Science,2001,Vol. 16,No. 3: 199–231

[3] Leo Breiman, Random Forests[J].Machine Learning,2001,45(1):5–32

[4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition,1997,30(7)

主站蜘蛛池模板: av无码久久精品| 国产99久久亚洲综合精品西瓜tv| 国产黄在线免费观看| 欧美啪啪精品| 国产一级小视频| 欧美日本二区| 亚洲自偷自拍另类小说| 浮力影院国产第一页| 高清欧美性猛交XXXX黑人猛交| 欧美另类图片视频无弹跳第一页| 国产小视频在线高清播放| 久久综合结合久久狠狠狠97色| 日本亚洲国产一区二区三区| 孕妇高潮太爽了在线观看免费| 99re66精品视频在线观看| 亚洲最新在线| 久久精品亚洲热综合一区二区| 伊人精品视频免费在线| 91麻豆久久久| 亚洲人成网7777777国产| 欧美精品啪啪一区二区三区| 免费 国产 无码久久久| 日韩欧美中文| 色综合中文| 97视频在线观看免费视频| 免费观看精品视频999| 不卡无码网| 97国产精品视频自在拍| 亚洲国产AV无码综合原创| 亚洲精品手机在线| 欧美精品在线视频观看| 精品视频一区二区三区在线播| 国产毛片高清一级国语| 亚洲婷婷丁香| 日韩中文无码av超清| 尤物国产在线| 男女性午夜福利网站| 国产成本人片免费a∨短片| 国产成人91精品免费网址在线| 久青草网站| 免费福利视频网站| 高清不卡毛片| 国产美女无遮挡免费视频| 免费高清a毛片| 免费A级毛片无码无遮挡| 欧洲免费精品视频在线| 国产美女免费| 久久久久人妻一区精品| 亚洲综合色区在线播放2019| 欧类av怡春院| 免费看a级毛片| 久久国产拍爱| 一级毛片在线免费看| 久久国产拍爱| 国产精品99久久久久久董美香| 亚洲浓毛av| 99热这里只有精品免费国产| 日韩无码精品人妻| 国产一区二区三区在线精品专区| 久久国产精品电影| 黄色片中文字幕| 国产精品视频第一专区| 国产精品亚洲一区二区在线观看| 二级特黄绝大片免费视频大片| 精品视频一区在线观看| 制服丝袜一区| 夜夜爽免费视频| 国产一二三区在线| 99久久精品视香蕉蕉| 国产精品免费久久久久影院无码| 久久国产精品影院| 国产91透明丝袜美腿在线| 91亚洲视频下载| 国产JIZzJIzz视频全部免费| 69视频国产| 亚洲日韩AV无码一区二区三区人| 色综合狠狠操| 女人爽到高潮免费视频大全| 中文字幕无线码一区| 午夜在线不卡| 日本一区二区三区精品AⅤ| 久久狠狠色噜噜狠狠狠狠97视色|