吳磊 孫勇
摘 要:隨著互聯網信息爆炸時代來臨,保險金融行業必將面臨異常嚴峻的欺詐風險,及時發現,及時識別欺詐是行業,單純依靠人工判斷已經滿足不了需求,單純依靠機器判斷,也做不到完全的自動化。因此人工結合機器是一條可以選擇的路徑。
關鍵詞:保險欺詐,有監督機器學習,無監督機器學習,分類,聚類,回歸,信息檢測,規則引擎
前言
保險詐騙是指以非法獲取保險金為目的,違反保險法規,采用虛構保險標的、保險事故或者制造保險事故等方法,向保險公司騙取保險金,數額較大的行為。保險詐騙種類是繁多的,形式是多樣的,手段是隱蔽的。在實踐中行為人為騙取保險金而故意制造保險事故,虛構事實,隱瞞真相,制造假案,甚至引發其他刑事犯罪。保險欺詐表現形式多式多樣。在投保環節、理賠環節保險公司目前的信息檢測手段主要是使用規則引擎+人工核保來檢測欺詐行為,面對日益增長的保單數量和欺詐人多變的技術手段,保險公司正面臨著嚴峻的挑戰。本文主要利用有監督機器學習和無監督機器學習檢測保險欺詐行為,并且探討了業內模型共享平臺的設計,涉及到大數據技術和人工智能技術。
1. 保險欺詐
1. 1. 保險欺詐分類
1.1.1 投保環節
1. 1. 1. 1. 重復投保欺詐
重復投保,一險多賠。按我國法律規定,財產保險的重復保險累計保險總額不得超過保險價值,即使超過,對于超過部分不得也不應給予賠償。然而有的不法分子為了多得保險金,往往故意向多個保險人投保,并隱瞞重復保險的情況,在出險后向多個保險人索賠,以期獲得多份賠償。
1. 1. 1. 2. 隱情投保欺詐
主要表現為人身保險,被保險人已患有嚴重疾病或財產保險標的處于危險之中而去投保。
1. 1. 1. 3. 高額投保欺詐
投保人并無保費交費能力,而強求投保高風險保障,受益人為自己,這存在嚴重的道德危險。
1.1.2 理賠環節
1. 1. 2. 1. 低損高賠
夸大損失,低險高賠。出險損失本來很小,被保險人卻故意夸大其程度,如虛列損失項目,夸大損失數額或偽造、涂改原始費用憑證等方式虛報損失。又如將損失由小改大,事故時間由前改后,8號肇事,10號投保,索賠時間改為18號,肇事機車本來是開回來的,硬開一張拖車施救費發票數千元要求索賠。夸大損失另一種做法是消極地放任事故的發生,故意不采取積極的防范措施或補救措施,這也是一種欺詐行為,違反保險法第42條的規定,即保險事故發生后,被保險人有責任盡力采取必要的措施,防止或者減少損失。
1. 1. 2. 2. 更改標的
張冠李戴式騙賠。主要采取移花接木,冒名頂替方式。保險標的應該是唯一的、特定的,實踐中有的欺詐者為了騙取保險賠償金,常用類似物體或案件予以頂替,如將一投保汽車的車牌摘下掛在未投保的出險汽車上,冒名頂替;在醫療保險中,有的醫院因患者付不起醫藥費而與患者串通,寫已保險的他人姓名;在財產保險中,甲房屋著火未保險,報案時說是已保險的乙房。
1. 2. 保險欺詐檢測
1.2.1 投保環節檢測
1. 2. 1. 1. 基于規則引擎檢測
一般而言設置一套規則樹,用于業務在過往的數據中已經發現的欺詐行為,綜合進行評定。當該投保行為在規則集中運行完成,輸出每項的欺詐評分數,最后進行加權平均得到最后的評分。分數達到某個臨界值之后,可以采取拒絕承保或者提高保費等手段來進行風險對沖。
X=8.89,屬于高風險用戶。此方法的弊端很明顯:首先,規則數量可能會很大,隨著欺詐行為識別次數的規模以及更新方式的迭代快速的特點,規則引擎本身不會根據數據分析觀察,只能全部依靠人工來進行分析并且添加規則來識別新的欺詐行為;因此這種工作量將會非常龐大并且效率不高,需要引入機器學習新技術來幫助人工進行檢測。
2. 機器學習識別保險欺詐
機器學習主要分為有監督機器學習和無監督機器學習,有監督機器學習通過現有的已經標記為欺詐的數據,訓練為模型,用來檢測已經發現的欺詐模式;無監督機器學習主要用來發現新的沒有出現過的欺詐模式;兩者結合使用,最大程度的檢測出來保險欺詐行為。
2. 1. 機器學習
C:\Users\huawei\AppData\Local\Youdao\YNote\markdown\index.html - 2-1-1概述2. 1. 1.概述
C:\Users\huawei\AppData\Local\Youdao\YNote\markdown\index.html - 線性模型和深度學習網絡結合線性模型和深度學習網絡結合
采用tensorflow的DNNLinearCombinedClassifier的API構建廣度深度模型,將WIDE_COLUMN,DEEP_COLUMN作為數據特征組合 數據原始column如下所示:
特征字段FEATRURE_COLUMN: 字段組裝分為三類,離散數據(分類),NUMBER非離散數據(連續)。
使用tensorflow給出的接口,進行深度學習,訓練出一個欺詐模型。相比較傳統的統計建模使用規則引擎,深度網絡的模型可以得到較好的魯棒性,可以學到更加復雜,更加抽象的數據表征。通過一個三分類的任務,來判斷白案件,黑案件和灰案件。其中白案件比例、黑案件、灰案件的比例為1:1:1。因為白案件占比例在90以上,為了平衡神經網絡計算,因此設定此比例來保證不會過擬合。測試集同樣也遵循這個比例。
epoch=10 batch_size=100 分批次訓練模型
使用線性模型結合深度網絡,相比較傳統的統計建模得到的規則,最終準確度提高了20%~35%,達到了80%左右。而且避免了傳統機器學習的弱點,沒有需要決策樹存在的魯棒性不好的缺點,具有較好的泛化能力。在實際生產環節中起到真正的控制風險,指導和啟發業務的作用。
3. 模型共享
3. 1. 模型共享的意義
出于商業同業競爭的角度,保險公司的基礎數據如保單數據、理賠數據等核心數據當然不愿意拿出來共享的,但是處于某一種共同行業利益的考慮,由一個中間層次來獲取這些數據并加以共享,杜絕某一個方面的風險,顯然對于保險公司樂意拿出數據。由一個具備安全性,公正性,權威性的機構組織此類系統的開發和維護,成本由各個保險公司按照調用次數收取費用以維持平臺運轉。在車險領域為了杜絕重復投保和識別出險次數發現,已經在保險行業協會搭建了數據共享平臺,此平臺由于保險數據屬于公司商業數據,不可能保險數據種類繁多雖然數據不能共享,但是是欺詐模型;
3. 2. 模型共享的技術手段
使用一套標準,一套接口,在監管單位和行業協會的推動之下搭建一整套的數據流轉和接口。車險就已經在此模式之下實現了車險理賠信息共享平臺,全國分散部署。是一個事實上的分布式數據庫查詢平臺。在車險重復投保和查詢理賠次數、理賠金額等,基本上杜絕了車主在A公司有理賠記錄,下年費率上浮的情況,去B公司投保可以費率不上浮的情況。對于保險業的整體健康運營是非常有好處。
4. 后記
本文著重闡述了保險業在信息化大數據浪潮的背景之下,應用大數據的技術手段,解決保險業界存在的問題。也只有在此背景之下,保險業才能享受到大數據技術所帶來的便利性。通過部署和使用大數據技術,保險業應該可以更加準確的識別欺詐風險,采取及時的應對手段。保險業界一直以來存在的數據不共享,但是模型可以共享。也必將更加豐富模型數據,也為后面的保險規模擴大化,拒絕惡意投保帶來技術手段。
5. 引用