非平衡大數據下的保險欺詐識別研究

2015-05-30 10:30:46范廣哲劉瑾雯

中國新通信 2015年1期

范廣哲劉瑾雯

【摘要】隨著保險欺詐（Insurance Fraud）向全球蔓延，研究方法開始由定性研究向實證研究過渡。然而現有分類器的設計都是基于類分布大致平衡這一假設的，針對現實世界中廣泛存在不平衡數據這一事實，本研究對美國機動車保險機構提供的車險索賠非平衡大數據，運用隨機森林（Random Forest）對欺詐進行識別預測，為構建我國保險欺詐識別模型提出建議。

【關鍵詞】保險欺詐識別模型隨機森林

國內外保險欺詐（Insurance Fraud）識別研究早期的識別模型主要是以 Logit 模型為主。Artis、Ayuso 和 Guillen 建立了 AAG 欺詐識別模型。Caudill、Ayuso、Guillen 建立多項分對數模型。

Ridit模型通過建立標準組，將其他組的數據與之做對比來計算 R 值。我國學者葉明華1，運用 Logit 回歸分析對識別因子進行精煉，將 BP 神經網絡應用在車險欺詐識別中，得到了更高的準確率。

然而，在實際操作過程中，可能會因兩方面因素影響，導致準確率偏差：一是數據樣本小，缺乏對于現實中包含微弱信息的大型數據庫的數據分析。二是以理想的數據平衡狀態作為研究背景，脫離實際。

研究數據研究樣本為美國車輛保險機構提供的車險索賠數據，共包含 11336 項記錄。其中 94 年的數據為訓練集（6141 條），95 年的數據為測試集（5195 條）。共有包括“車輛品牌”、“事故發生地”等在內的 31 個自變量，一個應變量“欺詐與否”，誠實索賠為 0，欺詐索賠為 1，正類樣本只占樣本總量的 6%，為兩分類非平衡大數據。

評價準則

目前分類算法常見的評價準則主要有：

（1）準確率（Precision ）： Precision= TP / （ TP + F P ））

（2）查全率（Recall）： Recall = TP / （ TP + FN ））

此外，人們從醫療分析領域引入了一種新的評判方法—ROC分析，其橫坐標是將負例錯分為正例的概率（FPR），縱坐標是將正例分對的概率（TPR），通常采用ROC曲線下面積AUC來代替ROC曲線對分類器的性能進行定量評估。在眾多現實分類任務中AUC已經替代準確率成為分類算法的性能評價指標。

本研究選取AUC作為分類器性能評價準則。保險欺詐識別中的隨機森林（Random Forest）應用 Leo Breiman2將統計學理論中的數據分析分為數據建模文化（The Data Modeling Culture），例如線性回歸，邏輯回歸，Cox 模型等；算法建模文化（The Algorithmic Modeling Culture），典型模型是 Leo Breiman 在決策樹基礎上建立的隨機森林3。

相比數據建模文化，算法建模文化可以得到更有效的預測模型。隨機森林對缺失數據和非平衡的數據比較穩健，可以很好地預測多達幾千個解釋變量的作用，而不需要對解釋變量進行交叉檢驗及精煉，從而避免刪除隱藏的有效信息。此外，隨機森林算法還不容易產生過擬合現象，被譽為當前最好的算法之一。

研究采用 R 軟件的 randomForest 程序包命令對數據進行分析。將訓練集數據（1994 年數據）全部輸入，設置參數，500 顆樹（ntree），每個節點選取 5個特征值（mtry），構建隨機森林欺詐識別模型。將測試集（1995 年數據）輸入模型中，得到欺詐預測輸出結果。圖為預測結果ROC曲線，得到AUC面積為0.724。用ROC曲線的AUC評價診斷試驗的準確性判斷標準為：AUC在0.5～0.7之間表示診斷價值較低，在0.7～0.9之間表示診斷價值中等，大于0.9則表示診斷價值較高4。

結論與建議

本文針對現實生活中存在的多為非平衡數據這一事實，對獲得的車險索賠大數據進行欺詐識別研究。基于數據的不平衡特性，選取AUC作為分類器性能的評價指標，利用94年的數據對95年的車險欺詐進行預測，很好的保證了研究樣本的

時間連貫性。由于國內目前的車險欺詐識別研究沒有針對非平衡數據的分析，研究結果沒有準確的比較標準，從醫療領域利用AUC進行評價的分類器性能研究中可以看到，大多數預測研究的AUC都在0.7～0.8之間，且研究樣本也并沒有如此龐大。由此可以看出，本文的研究結果在可接受范圍內。在進一步的研究中，我們將會進行國內保險數據的收集和整理，規避人為的數據篩選，保持數據的原始性，通過進一步的研究分析，構建符合國內行情的，立足于現實的保險欺詐識別模型。

參考文獻

[1]葉明華，基于 BP 神經網絡的保險欺詐識別研究[J].保險研究，2011（3）：79-86

[2] Leo Breiman， Statistical Modeling： The Two Cultures[J].Statistical Science，2001，Vol. 16，No. 3： 199–231

[3] Leo Breiman， Random Forests[J].Machine Learning，2001，45（1）：5–32

[4] Bradley A P. The use of the area under the ROC curve in the evaluation of machine learning algorithms[ J ]. Pattern Recognition，1997，30（7）

中國新通信2015年1期

中國新通信的其它文章: 基于MPP和Hadoop的低價值密度結構數據聯合處理方法的設計與實現; 淺談電子通信工程項目成本管理; 煤礦交變濕熱試驗箱溫度監測系統設計; 基于B/S的移動基站高空巡檢信息管理系統; 對戰術互聯網現存不足及攻擊手段初探; 融合網絡寬帶IP互動電視技術方案設計