999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習技術的機動車輛保險欺詐識別模型與實證研究

2019-09-20 02:27:30王正祥王牧群北京工商大學經濟學院
上海保險 2019年8期
關鍵詞:分類深度模型

徐 徐 王正祥 王牧群 北京工商大學經濟學院

本文受北京工商大學2018年研究生科研能力提升計劃項目資助。

針對車險欺詐的日益猖獗和傳統欺詐識別模型的低效率特點,本文建立了以深度學習技術為基礎的車險欺詐識別模型,同時考慮到為了與傳統機器學習模型進行比較,針對車險數據中的數據不平衡問題,利用下采樣和過采樣算法將不平衡數據轉變為平衡數據集。然后,根據數據變量之間存在相關性的事實,采用PCA算法對數據進行降維處理,最后將數據應用到不同的模型。車險欺詐數據集的實驗結果表明,深度學習的預測能力最好,提升了欺詐識別的準確率。

一、引言

伴隨著經濟的快速增長和汽車保有量的增加,車險市場蓬勃發展。以中國車險市場為例,2005年保險公司實現保費收入857.52億元,到2015年車險保費收入為6198.96億元,占財產險保費收入的比例由69.9%增加到77.54%,年平均增長率為21.87%,遠超過經濟增長率。但是,隨之而來的問題就是車險欺詐案件的增多,而且欺詐行為發生的范圍也在擴大,如被保險人、車輛維修人員、律師、警察、保險工作人員和其他人(?ubelj et al.,2011)。

保險欺詐給保險公司帶來的直接損失就是賠款增加,同時也會造成其他消費者潛在利益的損失。在我國保險欺詐最嚴重的險種是車險和健康險,其中車險欺詐占比最高,業務中最為普遍(喻煒、馮根福和張文珺,2017)。根據中保協發布的數據顯示,財產險中70%的保險欺詐案件屬于車險欺詐,欺詐形式表現為高檔車碰瓷、虛構保險事故、內外串通騙保、修理人員偽造證明材料騙保等。當下,從車險反欺詐實踐來看,保險公司的對手已經由原來的單個、隱蔽行為逐漸轉化成“專業群體”和“標準化操作”,最后欺詐團伙形成產業鏈,其結果降低了保險公司的經營效益,增加了賠款支出,可能影響保險公司的定價策略和社會經濟福利。在發達經濟體中,如美國、英國、澳大利亞,它們具有比較成熟的保險市場,但是車險欺詐也很嚴重。美國每年的保險欺詐金額約為800億美元,直接導致美國家庭保費平均上漲950美元;澳大利亞保險欺詐局的一項研究反映了因保險欺詐導致的費用上漲的趨勢,平均每年上漲20億美元(Australia:Insurance,2016);在2014年,英國保險業協會的調查表明虛假索賠數量比2013年增加了18%(Cutting Corners,2015)。這些統計數字清楚地說明了保險欺詐的嚴重性,因此需要加以解決,以減輕這種惡意企圖造成的損失。

傳統的保險欺詐識別主要依靠財務審計和專家判斷,其缺點包括識別效率和準確率較低、識別成本費用高。為了最大限度地提高識別效率和準確率,建立行之有效的識別技術迫在眉睫。人工智能的出現為保險反欺詐帶來了新的工具和技術。本文將借鑒國外先進的機動車輛保險反欺詐識別系統,并結合運用人工智能領域中成熟的深度學習技術,構建機動車輛保險欺詐識別模型,最后運用保險公司經驗數據檢驗模型識別可行性和效果。

文章的結構安排如下:第二部分簡要介紹保險欺詐領域的相關研究工作;第三部分解釋本文欺詐識別的技術基礎,主要包括深度卷積網絡;實證和識別模型效果比較在第四部分;最后是結論和啟示。

二、文獻回顧

國內外對保險欺詐的研究主要包括兩個方面:理論研究和欺詐識別實證研究。理論研究成果豐富,研究工具主要包括博弈論和委托—代理理論。大多數學者認為保險欺詐主要是由保險市場的信息不對稱和道德風險導致的(Arrow、Artis、Caudill、毛欽、張瑞剛等)。

在保險欺詐的實證研究方面,主要是對欺詐識別的檢測,檢測的方法可以歸納為兩個方面。一是采用傳統的回歸模型和專家系統進行分類,如Probit、Logit和Logistic等廣義線性模型(GLM)。Ll.Bermudez(2008)等采用Logit模型和Gibbs抽樣對西班牙的一組保險索賠數據進行了欺詐識別檢測和分析。使用Probit和Logit等回歸模型的學者還包括Artis et al.(1999)、Belhadji et al.(2000)、Steven B.Caudill(2005)、Stijn Viaene(2005)等。此外,Von Altrock(1997)、Stefano et al.(2001)、Major et al.(2002)、Pathak et al.(2003)、Barse etal.(2005)使用專家系統進行索賠欺詐的風險管理和識別。二是采用機器學習技術對車險欺詐進行建模,選擇合適的算法來識別欺詐,以實現對保險索賠的分類,取得了不錯的效果。欺詐識別所運用的機器學習技術主要包括神經網絡(Neural Network)、樸素貝葉斯(Naive Bayes)、決策樹(Decision Tree)、模糊邏輯(Fuzzy Logic)、貝葉斯信念網絡(Bayesian Belief Networks)和隨機森林(Random Forest)、社會網絡分析(Social Network Analysis)等。

早期采用的機器學習模型都是基于索賠數據類別分布大致均勻和平衡這一假設,如Hongxing He et al.(1997)構建了反向傳播算法的多層感知器,使用已被專家分為四類的醫療保險樣本來訓練模型,最后考慮到專家分類中的噪聲程度(即不一致性),使用基于神經網絡輸出的概率解釋的技術來查看多層感知器的分類性能。S.Viaene et al.(2005)采用具有自動相關性和正則化確定權重的神經網絡分類器,研究了汽車保險索賠欺詐的檢測。由于神經網絡分類效果的高效性,很多學者對神經網絡模型進行了優化,如S.Viaene et al.(2005)采用具有自動相關性和正則化確定權重的神經網絡分類器,結合貝葉斯學習研究了汽車保險索賠欺詐的檢測。WeiXu etal.(2011)提出了基于隨機粗糙子空間(Random Rough Subspace)的神經網絡組合模型。首先產生粗糙集約簡并且保持數據信息一致性,然后隨機選擇約簡構成一個子集并利用保險索賠數據訓練神經網絡分類器,最后根據組合策略得到組合神經網絡分類器。另外,很多學者也在其他技術上進行了實踐,如Bermúdez et al.(2008)提出了非對稱的貝葉斯二分類邏輯模型用于識別在西班牙汽車市場發現的惡意保險索賠。Rekha Bhowmik(2011)采用樸素貝葉斯、決策樹和基于規則的分類器,評估了其在汽車保險欺詐識別上的效果。

像保險欺詐、信用卡欺詐等異常檢測問題,傳統的方法忽略了一個重要的問題——數據的非平衡性,即欺詐性的交易樣本占總體的比例要遠遠小于正常的交易樣本。隨著大數據的出現,數據的非平衡性更加明顯,傳統的分類方法在非平衡數據集上就會失效。近年來,國內外學者開始關注非平衡數據集的分類問題,主要包括兩個層面:數據和算法。數據層面是對數據采用欠采樣或者過采樣等方法來處理得到新的數據;算法層面是指根據非平衡數據的特點,設計新的分類算法,如代價敏感、支持向量機、隨機森林(Ke Nian et al.,2016;Yaqi Li et al.,2017;閆春、李亞琪和孫海棠,2017)。

然而,上述所采用的機器學習算法只能使用已經存在的特征。數據集中隱含的其他特征信息很難利用傳統的算法提取和利用。隨著深度學習技術的不斷發展,Yifei Lu(2017)和Kang Fu et al.,(2018)分別提出了利用深度神經網絡進行欺詐檢測和采用卷積神經網絡識別信用卡欺詐。因此,本文提出基于深度神經網絡技術的汽車保險欺詐識別模型,并且最后與SVM(支持向量機)、RF(隨機森林)等進行比較。

三、深度學習

深度學習(Deep Learning,DL),也稱為深度神經網絡(Deep Neural Network,DNN),來源于機器學習泰斗Hinton在2006發表的一篇論文(Reducing the Dimensionality of Data with NeuralNetworks)。深度學習的前身是人工神經網絡(ArtificialNeuralNetwork,ANN),基本特點是試圖模擬人腦的神經元之間傳遞和處理信息的模式。深度學習的發展經歷了三次發展浪潮:20世紀40年代到60年代出現了以控制論為基礎的深度學習雛形;20世紀80年代至90年代出現了以聯結主義為特征的深度學習;從2006年“深度學習”概念提出,深度學習研究進入快速發展和爆炸期,以谷歌、微軟和臉書等為代表將深度學習在圖像識別、語音識別和自然語言處理等方面實現了商業應用。

深度學習網絡模型主要包括卷積神經網絡、循環和遞歸神經網絡、自編碼器和玻爾茲曼機、深度信念網絡等。下面對其中的幾個進行簡單介紹。

卷積神經網絡(Convolution Neural Network,CNN)是一種專門用來處理具有類似網絡結構的數據的神經網絡,比如時間序列和圖像數據。它結合利用了三大體系結構特點來保證一定程度的位移和失真不變性:局部感知區域、權重共享和空間或時間上的下采樣(Yann LeCun和Yoshua Bengio,1997),其中權值共享機制大大降低了網絡的復雜度,減少了網絡權值數量。卷積神經網絡的架構主要包括輸入層、卷積層、Relu激活層、池化層、全連接層,其中卷積層是卷積網絡的核心部分,自動完成特征提取,池化層通過匯聚特征后稀疏參數來減少要學習的參數,來降低網絡的復雜度。普通神經網絡與卷積網絡的區別見圖1。

循環神經網絡(Recurrent Neural Network,RNN)是一類處理序列數據的神經網絡。網絡的訓練使用的是隨時間反向傳播(Back Propagation Through Time,BPTT)算法。循環神經網絡主要應用在自然語言處理(Natural Language Processing,NLP)領域。

自編碼器(Autoencoder)是神經網絡的一種,它的內部有一個隱含層h,可以產生編碼表示輸入。自編碼器由兩個部分組成:一個函數表示編碼器和一個生成重構解碼器。搭建一個自編碼器模型需要完成三項工作:搭建編碼器和解碼器、設置損失函數。它的類型主要有正則編碼器、稀疏編碼器、去噪編碼器等。

四、實證分析

本文選取某保險公司的車險索賠數據作為模型訓練和驗證數據集,建立深度神經網絡欺詐識別模型,進而基于不同的指標與傳統模型進行比較。

(一)數據描述和預處理

考慮到車險索賠數據獲取的困難性,本文選取的數據集來自1994—1996年美國某家保險公司的不同區域的車險索賠數據,多位學者(Phua et al.,2004;Xu et al.,2011;Sundarkumar and Ravi,2015;SundarkumarKe et al.,2015;Nian et al.,2016;Sharmila et al.,2017)已使用該數據集來驗證所建立的模型的識別準確度。數據集包括15420條索賠記錄,其中14497條索賠記錄為正常索賠(94%),923條索賠記錄為欺詐索賠(6%),為了與其他學者的模型進行比較,本文將1996年的所有索賠記錄(4083條)作為模型的測試數據集,而1994—1995年的索賠記錄(11337條)作為模型的訓練數據集(Phua et al.,2004)。原始數據特征見表1。

由于在原始數據里年齡出現了兩次:離散型和類別型。由于離散型年齡的唯一性會增加模型的復雜性,因此去掉離散型特征年齡,保留類別型年齡。因此,最后綜合得到了21個對車險欺詐有重要影響的特征。

?圖1普通神經網絡(左)和卷積神經網絡(右)

?表1 車險數據的變量描述信息

(二)特征工程與采樣

在數據預處理階段得到的對車險欺詐有重要影響的21個特征中,描述數據點的既有連續特征(Continuous Feature)也有分類特征(Categorical Feature)或離散特征(Discrete Feature)。由于數據表示方式會對機器學習模型的性能產生巨大影響,比如數據縮放(縮放到單位方差)和特征擴充(增加特征的交互項),因此選擇合適的特征就顯得尤為重要。特征工程就是解決問題的一種方式。

在本文的數據集中,只存在數值型和類別型兩種數據表示方式,故只對類別型數據進行處理。在機器學習領域,對分類變量進行處理的方法是獨熱編碼(One-hot-encoding)或N取一編碼(One-out-of-N encoding),也叫虛擬變量。根據獨熱編碼方法,我們總會獲得了對欺詐有影響的獨立特征。另外,為了消除數值型變量的量綱對模型產生的影響,本文在數據預處理階段已經進行了無量綱化的數據標準化。

根據特征的重要性判定出有意義的特征,接下來要做的工作就是剔除一些信息重疊的特征,即進行數據的降維。在機器學習中,流行的降維處理技術有主成分分析(Principle Component Analysis,PCA)、線性判別分析(Linear DiscriminantAnalysis,LDA)和核主成分分析(Kernel Principle Component Analysis,KPCA),其中前兩種屬于線性降維,最后一個屬于非線性降維。本文將采用PCA技術進行數據的降維。

在保險索賠數據中,欺詐性的數據只是少數類,如圖2所示,其中0表示非欺詐索賠,1表示欺詐索賠,這種情況在機器學習中被稱為數據不平衡問題。處理不平衡問題的方法主要有兩類,一種是在數據層面進行下采樣(Undersampling)或過采樣(Oversampling),減小或增加某個類別的數量;另一種是在模型的算法層面上,主要包括集成學習和代價敏感學習,算法主要有Adaboosting。本文采用的是在數據層面的方法來消除數據不平衡問題給分類效果帶來的不利影響。

(三)模型評價與比較

為了比較各種機器學習模型的分類效果,文章采用了交叉驗證,即將數據隨機劃分成10個子數據集,依次選擇其中的9個子數據集作為模型的訓練數據,另外1個作為驗證數據集,最后計算評價指標的平均值。

對于二分類問題,通常選擇評價模型的指標是混淆矩陣。混淆矩陣是根據真實類別和預測類別交叉統計的列聯表,用來確定模型的性能好壞。對于欺詐識別分類模型,混淆矩陣的結構如表2所示,其中TP、FP、FN、TN為真實類別和預測類別下的保單數。

?圖2 欺詐數據頻數統計

?表2 欺詐識別模型的混淆矩陣

根據混淆矩陣,可以定義與模型性能評價相關的準確率(Precision,PRE)和召回率(Recall,REC),如下:

準確率表示在模型預測保險欺詐的保單中,實際上也為保險欺詐的保單比例;召回率表示在實際保險欺詐的樣本中,被預測為保險欺詐的保單比例。在實踐中,常采用準確率和召回率的組合,稱為F1分數:

基于F1分數的定義,F1的取值在[0,1]之間,取值越大,表明模型的泛化能力越好,預測能力越強。

對于不平衡數據分類模型性能的評價標準中,受試工作者曲線(Receiver Operator Characterristic,ROC)是較為全面的評價標準。ROC曲線的橫軸是假正率,縱軸為真正率(也為召回率)。ROC的對角線可以理解為隨機猜測,如果分類器性能曲線在對角線以下,那么其性能比隨機猜測還差。對于完美的分類器來說,其真正率為1,假正率為0,這時的ROC曲線即為橫軸與縱軸1組成的折線。基于ROC曲線,ROC曲線右下方的區域面積被定義為AUC,其取值越接近于1,表明模型的分類效果越好。

第一步的實驗結果如圖3所示,從圖中可以得出Logistic回歸、K-最近鄰支持向量機、決策樹和隨機森林的AUC得分分別為0.81、0.67、0.61和0.73(自上而下),整體來看與Ravi(2011)和Sundarkumar(2015)的分類效果一致。其中,Logistic回歸的效果明顯優于其他的三種模型,隨機森林次之,決策樹的效果最差。

?圖3 Logistic、Kneighbors、Dec isionTree和Random Forest的PR曲線和ROC曲線

第二步比較的是傳統機器學習模型和深度學習的分類效果,其中圖4為車險欺詐數據集使用沒有經過采樣處理的效果,采用的傳統模型為Logistic回歸、K-最近鄰支持向量機和決策樹。圖5和圖6分別為下采樣和過采樣的模型分類效果直方圖(注:圖中的藍色、綠色和灰色分別代表未采樣、下采樣和過采樣的分類效果,紅色代表深度學習模型的模型效果,數字0-3分別代表隨機森林、K-最近鄰、Logistic回歸和決策樹模型)。

在精確度方面,深度學習模型為0.94,除了與Logistic回歸相等,均優于其他模型,尤其是未經過采樣處理來消除數據不平衡問題時,模型的性能平均提升21%。從召回率來看,深度學習預測能力明顯優于K-最近鄰、Logis回歸,也比采用下采樣的隨機森林和決策樹預測能力好。雖然隨機森林和決策樹模型過采樣后與深度學習的模型性能相差無幾,但是隨著數據量的增多,經過過采樣之后,數據的維度會劇增,這樣對于模型的訓練就顯得有點困難,以至于影響預測能力。最后,綜合來看F1分數,深度學習的預測性能最好,其次是決策樹模型,再是隨機森林模型和K-最近鄰、Logistic回歸模型。

綜合考慮精確度(Precision)、召回率(Recall)和F1分數這三個模型評價指標,深度學習模型對于車險欺詐的預測能力最好,而Logistic回歸模型最差。

五、結論與建議

隨著我國車險市場的不斷壯大,車險欺詐案件也不斷攀升,已擾亂了車險市場的正常經營秩序。考慮到傳統車險欺詐檢測手段的低效率現狀以及新興技術的出現,本文建立了以深度學習技術為基礎的車險欺詐識別模型,同時考慮到為了與傳統機器學習模型進行比較,針對車險數據中的數據不平衡問題,利用下采樣和過采樣算法將不平衡數據轉變為平衡數據集。然后,根據數據變量之間存在相關性的事實,采用PCA算法對數據進行降維處理,最后將數據應用到不同的模型。車險欺詐數據集的實驗結果表明,深度學習的預測能力最好,提升了欺詐識別的準確率。因此,保險公司應加快數字化轉型,利用保險科技為欺詐檢測賦能。

?圖4 傳統機器學習模型與深度學習準確率(Precision)對比

?圖5 傳統機器學習模型與深度學習召回率(Recall)對比

?圖6 傳統機器學習模型與深度學習F1分數對比

第一,科技發展對保險業帶來的創新是巨大的,保險公司應該在反欺詐應用中重視大數據分析技術、云平臺建設,在識別、計量、評估、檢測、控制和報告欺詐風險等環節建立有序的和可靠的信息系統,同時與同業共建反欺詐共享信息平臺。

第二,保險公司在應用傳統反欺詐工具的基礎上,應加快研究如何應用新技術,如大數據、云計算、機器學習、物聯網等。在公司內部設立相關的研究部門和研究崗位,引進大數據和機器學習、圖像識別等技術人才,建立反欺詐科技應用平臺。

第三,加強公司內部各個部門的合作。反欺詐是一項系統性的工作,傳統的管理模式會降低數字化轉型帶來的效率提升。所有工作都應該在公司數字化轉型戰略的指引下進行決策,避免數字化轉型過程中消耗企業的利潤。

另外,后續研究工作中還可以考慮更加復雜的深度學習模型,如卷積神經網絡等,進一步提升欺詐檢測的效率。

猜你喜歡
分類深度模型
一半模型
分類算一算
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
深度觀察
深度觀察
深度觀察
數據分析中的分類討論
主站蜘蛛池模板: 欧美亚洲香蕉| 亚洲欧洲日产国产无码AV| 精品国产免费人成在线观看| 亚洲an第二区国产精品| 亚洲天堂日韩在线| 国产高清在线精品一区二区三区 | 亚洲欧美自拍中文| 久久婷婷色综合老司机| 国产91丝袜在线播放动漫 | a网站在线观看| 91小视频版在线观看www| 中国毛片网| 久久婷婷六月| 国产综合亚洲欧洲区精品无码| 四虎永久免费地址在线网站| 免费观看亚洲人成网站| 国产网站免费看| 亚洲欧美日韩久久精品| 制服无码网站| 日韩高清无码免费| 久久精品女人天堂aaa| 欧美一级色视频| 欧美成人综合在线| 久久成人免费| 成人午夜视频网站| 日韩精品免费在线视频| 香蕉久久国产超碰青草| 亚洲日韩精品无码专区97| 亚洲高清中文字幕在线看不卡| 日韩天堂视频| www.亚洲国产| 成人福利在线看| 一区二区欧美日韩高清免费| 国产精品高清国产三级囯产AV| 久久精品一卡日本电影| 亚洲无码视频喷水| 欧美视频免费一区二区三区| 成人在线欧美| 亚洲一级毛片| 亚洲成人在线网| 超清人妻系列无码专区| 欧美成人a∨视频免费观看| 国产亚洲高清在线精品99| 狼友视频一区二区三区| 91精品免费久久久| 黄色片中文字幕| 精品超清无码视频在线观看| 欧美国产视频| 黄色在线不卡| 99视频在线免费| 免费国产在线精品一区| 成人噜噜噜视频在线观看| 亚洲国产清纯| 激情综合五月网| 亚洲天堂网在线视频| 亚洲天堂2014| 天天躁夜夜躁狠狠躁躁88| 国产精品视频3p| 999国内精品久久免费视频| 国产真实自在自线免费精品| 一区二区日韩国产精久久| 国产啪在线91| 国产女人在线视频| 久久精品亚洲热综合一区二区| 欧洲欧美人成免费全部视频| 亚洲综合天堂网| 久久国产成人精品国产成人亚洲| 国产三级成人| 国产日本欧美在线观看| 国产女人18毛片水真多1| 亚洲国语自产一区第二页| 香蕉久久国产超碰青草| 久久人人97超碰人人澡爱香蕉| 欧美成人h精品网站| 亚洲VA中文字幕| 国产人成午夜免费看| 久久6免费视频| 丰满人妻一区二区三区视频| 日本尹人综合香蕉在线观看| 精品一区二区三区视频免费观看| 久久99精品国产麻豆宅宅| 丰满人妻中出白浆|