999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習模型在車險欺詐檢測的研究進展

2022-04-09 07:02:00盧冰潔李煒卓那崇寧牛作堯
計算機工程與應用 2022年5期
關鍵詞:深度檢測模型

盧冰潔,李煒卓,那崇寧,牛作堯,陳 奎

1.之江實驗室,杭州 311121

2.南京郵電大學 現代郵政學院,南京 210003

3.東南大學 蘇州聯合研究生院,江蘇 蘇州 215123

4.南京大學 計算機軟件新技術國家重點實驗室,南京 210093

自改革開放以來,我國保險業取得了長足的發展。據2021年4月銀保監會發布的保險業發展報告,發展至2020年,我國共計成立了235家保險公司,總資產達23萬億,保費收入4.53萬億元,同比增長6.12%,成為了全球第二大保險市場。車險作為財產險中的第一大險種高達69%,對保險行業的發展至關重要。然而,近年來車險欺詐案件的數量呈逐年上升趨勢,使得保險公司的賠付成本不斷上升。保守估計,我國車險欺詐滲漏占理賠金額的比例至少達20%[1]。2020年我國車險理賠支出合計約為4 725.50億元,照此推算,保險公司在車險欺詐方面的滲漏損失高達900億元以上[2]。車險欺詐增加了保險公司運營成本和經營風險,侵害了保險消費者的合法權益,破壞車險市場秩序,同時也對他人財產及整個社會構成危害。為此,銀保監會于2018年2月專門印發了《反保險欺詐指引》以指導保險公司和保險行業進行反欺詐制度建設。如何有效地識別車險欺詐對促進車險市場良性健康發展具有重要意義。

在我國保險欺詐領域,車險欺詐相比于其他險種的欺詐,存在犯罪手段隱蔽、手法多樣的特點,并逐漸呈現出團伙化的作案方式[2]。從近幾年的數據可以發現,車險共同犯罪的比例存在明顯的提升,且作案人員分工明確,這都給車險欺詐檢測帶來不小的挑戰。近年來,受益于各個國家監管部門與保險公司對車險欺詐的廣泛關注,車險欺詐檢測技術的研究取得了很大的進展。由于機器學習模型對原始數據的預處理要求比較低、可以建模因子間存在的交互效應和非線性關系、具有預測能力較好等優點,目前已在車險損失預測中有了諸多應用研究[3]。

車險欺詐檢測問題可以抽象為一個二分類或者多分類問題,國內外均有不少學者將機器學習模型應用在車險欺詐檢測技術上,并取得了較好的研究成果。譬如,在國外,Viaene等人[4]、Hanafizadeh等人[5]、Ka??elan等人[6]、Li等人[7]分別探索了貝葉斯模型、聚類模型、數據挖掘、隨機森林等技術在車險欺詐檢測領域的效果;He等人[8]、Guo等人[9]、Wang等人[10]則進一步探索了深度學習模型在該任務上的應用價值;Subudhi等人[11]、Majhi等人[12]則從混合模型的角度進行切入,提供了一種有效的建模方法。相應的,國內學者庹國柱等人[13]、劉喜華等人[14]最早開始從車險的理論進行了探究;桂萍等人[15]收集了大量國內外車險道德風險文獻,并在此基礎上進行歸納梳理;趙桂芹等人[16]、湯俊等人[17]、王海巍等人[18]則根據國內的車險欺詐的實際情況,應用傳統機器學習模型對其進行建模;近些年,閆春等人[19]、喻煒等人[1]、徐徐等人[20]開始從深度學習網絡、混合模型的角度出發,在車險欺詐檢測任務上取得了較大的進展。此外,車險欺詐領域具有其獨特的挑戰性。比如:車險欺詐數據的特征空間龐大,且特征之間有著復雜的依賴關系,而傳統機器學習往往需要進行特征選擇。針對這個問題,Panigrahi等人[21]采用了三種特征選擇算法,提取車險欺詐數據中的重要特征,并利用機器學習算法進行檢測,從而挑選出不同機器學習模型的最佳特征選擇方法。另一方面,車險欺詐相對于信用卡欺詐等常見形式發生概率更低,因此類別不平衡現象更為明顯[22]。為此,Hassan等人[23]、Padhi等人[24]分別使用了欠采樣、過采樣等策略來緩解車險欺詐任務所存在的挑戰。

然而,盡管已有上述的諸多車險欺詐檢測的研究工作,并且取得了較為顯著的進展,但缺乏基于機器學習模型對車險欺詐檢測進行系統深入的梳理與總結的工作,特別是近些年深度學習方法在車險欺詐檢測研究上的進展。一方面,國內在車輛保險欺詐檢測技術方相對滯后,模型實驗所采用的車險欺詐數據較為陳舊,且部分采用國外早期開源的數據進行模擬。另一方面,國外的研究成果又較少對我國車險業務數據進行關注,無法適配目前國內車險行業擬定的規范,因此無法較好地進行建模。

為此,本文首次針對機器學習模型在車險欺詐檢測領域的研究工作進行了文獻調研。具體地說,本文首先給出車險欺詐檢測流程的簡介,分別對專家系統與智能理賠系統在車險欺詐檢測的流程進行了簡要的敘述。然后,對二十多年來的研究工作進行系統化的歸納與總結,依次從國外和國內的角度介紹了機器學習模型在車險欺詐檢測的具體研究進展,將其歸納為基于傳統機器學習方法、基于神經網絡的方法以及基于混合模型的方法,并進行了宏觀的對比。接著基于國內某車險公司近5年來高質量的車險數據選取最具代表性的機器學習模型進行建模,并進行了全面的測試與分析。最后,對全文進行總結并展望車險欺詐技術未來的研究方向。

1 車險欺詐檢測流程簡介

本章將分別從車險專家系統與智能理賠系統兩個角度來介紹車險欺詐檢測的流程。

車險專家系統(下稱專家系統)是一種基于車險領域知識的推理系統,具體來說,它能夠利用車險專家的經驗知識進行決策,由此判定案件的性質以達到預警的目的[25]。專家系統的特點在于其基于規則和推理,這使得它具備了良好的可解釋性。但相對的,一旦規則觸發的條件不充足或者得不到滿足時,專家系統就很難得出有用的結果。倘若欺詐方對規則有所了解,就可以在犯罪過程中繞過這些規則的觸發條件來規避專家系統的檢測。因此,專家系統在欺詐檢測的精度和準確度上都存在局限。

盡管如此,專家系統在車險欺詐檢測中依然有著廣泛的應用。通常來說,當車險案件進入核價核損階段時,案件數據將通過接口傳輸到專家系統中進行檢測。如圖1所示,數據進入專家系統后首先根據數據類型進行分類,隨后根據數據類別采取相應的計算準則,計算得到案件觸發的風險因子集合,接著,將該案件觸發的風險因子集合與規則的觸發條件進行一一匹配,最終得到案件的反欺詐判別結果和觸發的欺詐規則集合,并提示該案件最終的欺詐風險等級。

圖1 專家系統車險欺詐檢測流程圖Fig.1 Diagram of expert system for auto insurance fraud detection

隨著人工智能技術的發展,基于大數據的機器學習技術能夠突破傳統專家系統的局限,通過對被保險人、保險標的、出險情況等各方面數據進行收集和分析,為車險理賠提供了調查的方向。圖2展示了構建智能理賠系統的5個步驟,包含數據需求、數據清洗、特征工程、超參數調優以及模型訓練。

圖2 智能理賠系統車險欺詐檢測流程圖Fig.2 Diagram of intelligent claim system for auto insurance fraud detection

(1)數據需求:根據車險業務場景提出數據需求,構建原始數據庫。通常情況下,原始數據庫中應包含報案、查勘、立案、定損、核價核損等多個重要環節數據。

(2)數據清洗:處理原始數據中可能存在的數據重復、數據格式不規范以及字段數據大量缺失等問題,并聚合清洗后的數據,將數據匯總至一張表中,形成結構化數據庫。

(3)特征工程:采用手動/自動特征工程的方法處理結構化數據,包含時間類型數據處理、經緯度數據處理、離散型變量處理、特征交叉和選擇等,最終生成統計學特征庫。

(4)超參調優:基于標注好的訓練數據,通過手動/自動超參優化方法優化機器學習模型參數,得到模型最優超參數設置。

(5)模型訓練:采用最優超參訓練模型,獲得最優模型。需要注意的是,為了保證智能理賠系統的性能,在模型上線后,往往需要保持增量訓練或定期更新模型。

2 機器學習模型在車險欺詐檢測的研究進展及評述

2.1 國外研究進展

2.1.1 基于傳統機器學習的方法

國外早期研究主要采用了一些傳統的機器學習方法,目標是在車險欺詐檢測數據中篩選出若干數據特征,從而根據這些特征構建車險欺詐檢測的分類模型?;谪惾~斯模型的主要思路是利用貝葉斯分類的影響因子獨立假設根據保險欺詐的因素構建分類器,最終推理得到保險欺詐的分類概率?;谠撍枷?,Viaene等人[4]探索了具有自動確定相關性(automatic relevance determination,ARD)權重正則化項的神經網絡分類器的顯式能力,并將該網絡應用于汽車保險索賠欺詐檢測。該方案使用了一種基于貝葉斯學習的證據框架來實現ARD,從而確定每個輸入的相對重要性,并剔除冗余特征。此外,作者通過和流行的Logistic和決策樹算法得出的輸入相對重要性進行比較,認為不同分類器具有互補的可能性,這符合現代貝葉斯學習在數據量有限時選擇模型的方法。Bermúdez等人[26]將非對稱鏈接函數的思想應用到保險欺詐領域,使用了一種有偏連接模型,假設模型參數服從某種先驗分布進而通過貝葉斯估計和Gibbs采樣來擬合。同時,作者在一個西班牙保險數據集上進行了實驗,驗證了該方法能顯著提高保險欺詐檢測的準確率。貝葉斯模型的局限性在于車險欺詐檢測的特征通常具有復雜的關系,而無法滿足相互獨立的假設。此外,貝葉斯模型預測概率不夠精確,通常只用于定性分析和特征選擇。

基于聚類模型的主要思路是根據若干風險因素對車險案例進行劃分,并得到可疑車險欺詐案例?;谠撍枷耄琀anafizadeh等人[5]基于自組織映射和K-Means算法,提出了一種新穎的兩階段車險客戶細分模型。在第一階段,作者從文獻綜述中提取了人口統計學規范、汽車規范、政策規范和駕駛員記錄4類18種不同的風險因素。在第二階段,作者進一步利用專家意見來確定篩選過程。通過實證分析,作者發現保險公司的客戶在很多方面都有所不同,而數據分析表明了基于歷史數據和專家意見的最終選定因素對于區分客戶的重要性。K-Means算法的性能取決于聚類簇的數量以及劃分標準,在特征空間較大的情況下開銷較大,因此在車險欺詐領域中應用依賴專家意見和人工篩選特征等過程。

基于數據挖掘的主要思路是從大量數據中找出隱藏的信息,主要通過統計學、模式識別等方法來進行有用信息的提煉。基于該思想,Bhowmik[27]分別提出了基于樸素貝葉斯、決策樹以及產生式規則的欺詐檢測方法,并借助可視化工具從實際車險數據中分析存在道德風險的可能性。同時,作者通過實證分析發現混淆矩陣具有很強的類傾斜性,是一個重要的欺詐檢測領域的可靠性能指標。Ka??elan等人[6]基于數據挖掘技術找到現存風險和風險因子之間的功能依賴關系,繼而幫助保險人評估風險和計算適當的保費。同時,作者通過實例分析驗證了數據挖掘技術同樣可以準確地預測索賠的規模和發生情況,從而為保費計算和風險分類提供了依據。在實例分析的過程,作者指出數據質量和合適的數據挖掘技術是該方法成功的前提條件。Yan等人[28]研究了數據挖掘技術在反車險欺詐中的應用。將基于規則剪枝的最近離群點檢測方法應用于車險欺詐領域,建立了改進的車險欺詐識別模型,利用關聯規則挖掘車險欺詐規律。實驗結果表明,改進后的車險欺詐識別算法具有時間復雜度低、識別率高、準確率高、對聚類算法K值影響小等優點。Mihaela等人[29]通過對投保人年齡變量進行顯著性分析,得出高欺詐風險人群特征。具體的,作者基于五個年齡區間構建了保費計算的負二項分布模型。在利用似然比對檢驗了泊松分布等假設后,實驗結果表明負二項分布模型能更好地擬合數據,緩解保險組合中存在的過度分散現象。Nian等人[30]基于異常點檢測的方法,提出了一種基于譜排序的異常保險樣本檢測方法,并發現譜優化問題可以解釋為一個無監督支持向量機問題。作者通過利用拉普拉斯矩陣的非主特征向量來直接推導排序向量,從而找出異常的欺詐樣本。同時,作者基于一個真實索賠數據集進行了實證分析。通過將該問題建模為無監督學習,基于海明距離及其核函數來生成該數據集的譜排序,并取得了良好的性能,此外,作者也表明為欺詐檢測問題選擇適當的相似度量的重要性。數據挖掘方法的特點是基于數據進行統計學分析,再利用機器學習模型實現車險欺詐檢測的具體任務。因此,數據質量、統計建模以及模型選擇等過程都會影響最終的預測結果。

基于K近鄰算法的主要思路是給定車險欺詐數據的訓練集,當新輸入樣本時分析該樣本的最相似的K個實例,也就是K近鄰的類別,把出現次數最多的類別作為新輸入樣本的類別。Badriyah等人[31]采用最近鄰法和四分位數法檢測車險數據中的欺詐行為。從實驗結果來看,使用特征選擇會提高檢測欺詐的性能。具體的,作者采用基于距離的遺傳算法進行特征選擇,利用最近鄰法進行欺詐檢測。K近鄰法應用于車險欺詐檢測仍有較大的局限性,K比較小時對噪聲數據非常敏感,容易過擬合;K比較大時,由于每個新輸入數據作分類時都要遍歷整個數據集,會造成巨大開銷。

基于回歸模型的主要思路是利用統計分析方法模擬風險因素的關系,繼而得到保險欺詐因素之間的線性關系。Yan等人[32]提出了一種基于人工蜂群算法(artificial bee colony,ABC)的核嶺回歸算法(kernel ridge regression,KRR)——KRR-ABC,用于汽車保險欺詐檢測。具體的,作者利用ABC算法的全局優化能力和良好的并行性對KRR的參數組合進行優化,提高了模型的泛化能力和計算速度。同時作者在8個基準數據集上對KRR-ABC模型的性能進行了測試,結果表明KRR-ABC模型具有更快的運行時間和更好的生成性能。將KRR-ABC模型應用于汽車保險欺詐檢測,得到了欺詐規則。由于邏輯回歸模型只能進行線性擬合,而且對變量相關性敏感,因此無法直接用于真實車險欺詐數據的檢測,往往用來進行特征選擇。

基于隨機森林模型的主要思路是利用集成學習泛化性能強的優勢來進行分類器之間的組合,以此來提升保險欺詐的判別效果?;谠撍枷?,Xu等人[33]提出了一種基于隨機粗糙子空間的神經網絡集成方法用于保險欺詐檢測。該方法利用粗糙集劃分的子集分別基于真實保險數據訓練一個神經網絡分類器,并利用集成策略將訓練好的神經網絡分類器進行組合。為了驗證該方法的有效性,作者進行了實證分析。實驗結果表明,作者提出的集成模型優于單個分類器和其他模型,能夠快速準確地發現可疑的保險欺詐行為。Li等人[7]從潛在最近鄰的角度分析了隨機森林的分類機制,用基于潛在最近鄰的投票機制取代了多數投票機制,避免了出袋(out of bag,OOB)樣本造成的信息丟失。在此基礎上,提出了主成分分析轉換方法,將數據轉換到主成分分析空間,提高分類器的多樣性,從而提高隨機森林算法的整體分類精度。雖然隨機森林無須進行特征選擇也可以獲得較強的擬合能力,但是組合分類器給模型建立和預測增加了代價。此外,隨機森林的參數較傳統機器學習更多,不易調節。

基于XGBoost的方法同樣屬于集成學習,但它不同于隨機森林的弱分類器之間相對獨立的關系,XGBoost算法以提升樹為原理,模型的預測結果受上一次預測結果的影響。因此,該類方法相比隨機森林有較差的并行性。然而,XGBoost的整體效率高于使用多棵樹進行預測的隨機森林。此外,XGBoost可以用于對連續型欺詐數據進行回歸分析,而隨機森林模型只能用于分類任務。Dhieb等人[34]將XGBoost應用于車險欺詐檢測的批量學習,該算法不僅具有優越的計算速度和模型性能,還能解決跨學科問題。此外作者利用快速決策樹(VFDT)實現在線學習,該策略在新數據進入系統時動態地調整參數,而不需要重新訓練整個模型。

基于傳統機器學習方法均是先采用特征工程的方式來篩選對保險或者車險欺詐的敏感特征,隨后以各類機器學習模型為基礎進行有效的改進,從而達到更好的檢測結果。然而,上述方法仍會存在數據轉換適應性方面的問題。同時,傳統方法不易挖掘出汽車保險數據中隱藏的特征及其關聯。

2.1.2 基于神經網絡的方法

基于神經網絡的車險欺詐檢測方法主要集中在淺層神經網絡、圖神經網絡以及深度學習。目前,國外相關研究工作主要聚焦在圖神經網絡與深度學習這兩種類型。

基于圖神經網絡的主要思路是利用圖結構可以更好地表示車險欺詐中多方主體之間的關系,并發現潛在的組織行為?;谠撍枷耄琇iang等人[35]在索賠者之間引入了一個設備共享網絡,然后開發了一個基于圖學習算法的欺詐檢測自動化解決方案,以將詐騙者從常規客戶中分離出來,并發現有組織的詐騙者群體。作者介紹了三種類型的圖,并展示了它們通過圖神經網絡區分欺詐和正常行為的優勢。經過人類專家調查,與之前部署的基于規則的分類器相比,該解決方案的準確率超過80%,可疑賬戶覆蓋率增加44%。此外該模型可以簡單有效地推廣到其他類型的保險。Liu等人[36]針對欺詐者產生的不一致問題,即上下文不一致、特征不一致和關系不一致,設計了一個新穎的圖神經框架GraphConsis,并分別設計了三種模塊來解決不同的不一致性問題。具體來說:(1)對于上下文不一致性,將上下文嵌入與節點特征相結合;(2)對于特征不一致性,設計了一致性評分來過濾不一致的鄰域并產生相應的采樣概率;(3)對于關系不一致性,學習與抽樣節點相關的關系注意權值。實驗分析表明,各種模塊所針對的不一致性問題在欺詐檢測任務中扮演著至關重要的角色。圖神經網絡適合構建元素之間具有復雜拓撲關系的模型,車險欺詐中往往涉及多方主體,因此引入該方法可以學習到多方主體之間的潛在關系,從而用于預測。然而,圖神經網絡目前還不能保證收斂點的質量和實際預測效果。

基于深度學習的主要思路是利用深度學習的網絡深度優勢與對深度框架的改良來提高汽車保險欺詐的推理效果?;诖怂枷耄琎u等人[37]提出了一種基于點積的神經網絡(PNN),該神經網絡通過嵌入層來學習分類數據的分布式表示,然后通過點積層來捕獲域間類別之間的交互模式,進一步利用全連接層來探索高階特征交互。Cheng等人[38]提出了深淺層學習框架(wide&deep learning,WDL),通過聯合訓練淺層線性模型和深度神經網絡,將其記憶和泛化功能結合起來用于推薦系統。他們在Google Play上制作并評估了這個系統。在線實驗結果顯示,應用WDL比單獨的淺層和深度模型顯著增加了APP應用的購買量。Xiao等人[39]通過區分不同特征交互的重要性來改進FM。他們提出了一種新的模型,稱為注意力因子分解機(AFM),該模型通過神經網絡從數據中學習每個特征交互的重要性。在兩個真實數據集上的大量實驗證明了AFM的有效性。Wang等人[40]提出了深度交叉網絡(DCN)保留了深度神經網絡(DNN)的優點,并引入了一種新穎的交叉網絡,在學習某些有界度特征交互時更有效。特別地,DCN顯式地在每一層應用特征交叉,不需要手動進行特征工程,并且增加的復雜度可以忽略不計。實驗結果表明,在點擊率預測數據集和密集分類數據集上,該算法在模型精度和內存使用方面均優于現有的算法。Guo等人[41]證明了可以推導出一個同時強調低階和高階特征交互的端到端學習模型DeepFM。在新的神經網絡架構中,DeepFM結合了分解機制和深度學習的能力分別用于推薦和特征學習。與深度學習模型Wide&Deep相比,DeepFM有一個共享的輸入分別傳輸到淺層和深層,可以直接利用原始特征不需要特征工程。同時作者在基準數據和商業數據上進行了綜合實驗,驗證了DeepFM對點擊率預測的有效性。盡管上述模型只是深度學習模型在推薦任務上的應用,但兩者關聯非常緊密,可以將上述模型根據車險欺詐檢測任務進行適配,并得到較為理想的效果(見3.2節測試模型與結果分析)。

近年來,由于深度學習模型無須進行繁瑣的特征選擇,并能夠捕獲文本中的特征之間隱藏的語義關系,不少學者開始將深度學習應用于車險欺詐檢測,通過大量實證分析,深度學習模型往往優于傳統機器學習模型。He等人[8]提出了一種用于稀疏預測的神經因子分解機(NFM)模型。NFM巧妙地結合了因子分解機(FM)在建模二階特征交互中的線性和神經網絡在建模高階特征交互中的非線性。具體的說,作者通過添加隱藏層獲得比FM更強的性能。相較于深度學習方法Wide&Deep和DeepCross而言,NFM使用了更淺的結構并保證了其性能,因此在實踐中更容易訓練和調整。Guo等人[9]提出了一種基于歷史注意的交互式LSTM(HAInt-LSTM)循環神經網絡來學習序列行為表示以進行欺詐檢測。作者利用歷史自注意模塊解釋了人類行為的周期性,并通過將源信息編碼為一個交互模塊,以增強行為序列的學習。通過結合歷史自注意模塊和交互模塊,HAInt-LSTM在欺詐檢測的序列行為表示學習、序列預測和序列分類等方面都取得了良好的性能。同時,作者在車險欺詐數據集上證明了該方法在欺詐檢測任務上的優越性。Wang等人[10]提出了一種結合潛在狄利克雷分布(latent Dirichlet allocation,LDA)和深度學習的文本分析模型,并用于車險欺詐檢測。該方法首先利用LDA提取事故索賠文本描述中隱藏的文本特征,利用深度神經網絡訓練文本特征和傳統的數字特征。實驗結果表明,深度神經網絡的性能優于隨機森林和支持向量機等廣泛使用的機器學習模型。

基于神經網絡方法更多是利用了神經網絡較大的特征學習能力。不過,目前特征的選取仍是通過聚類、LDA無監督方式來進行訓練篩選,并未涉及到端到端的模式。此外,基于深度學習的方法普遍依賴于大量訓練數據,不利于小樣本場景下的表示學習問題。特別是在車險欺詐領域,公開的有標簽數據難以輕易獲得,而標注任務也需要相當的專業知識。最近已經有學者將無監督深度學習用于保險欺詐檢測,從而緩解數據對該任務的影響。Gomes等人[42]提出的方法結合無監督深度學習模型變分自編碼器(VAE)和自編碼器(AE)的能力,通過點擊按鈕進行周期性模型更新,持續學習用戶行為的復雜變化。目前無監督深度學習方法分類精度有限,將更多應用于檢測結果的質量評估、相似欺詐案例的推薦等場景。

2.1.3 基于混合模型的方法

目前基于混合模型的方法主要集中在將多個模型組合形成的系統框架,國外相關研究工作主要包括基于內在關聯屬性的方法以及其他的混合模型方法兩種類型。

基于內在關聯屬性的主要思路是從實體因素之間的關系來進行建模,繼而利用因素之間的網絡關聯來進行保險欺詐工作?;谠撍枷?,?ubelj等人[25]提出了一種車險欺詐群體檢測的專家系統,并對該系統進行了詳細的描述和評估,同時考慮了檢測欺詐的幾個技術難點,以使其在實踐中適用。與其他方法不同的是,該系統使用網絡來表示數據,刻畫和分析了實體之間的復雜關系。此外,作者還提出了一種新穎的迭代評估算法(iterative evaluation algorithm,IAA)來發現虛假實體。該算法除了研究實體的內在屬性外,還研究了實體之間的關系,并根據真實世界數據進行了嚴格分析。結果表明,該系統在良好的數據表示的前提下,能夠有效地檢測出汽車保險欺詐行為。

其他混合模型算法的主要思路是將各個方法的優勢進行融合?;诖怂枷?,Subudhi等人[11]提出的車險欺詐檢測系統為訓練和欺詐檢測兩階段。在訓練階段,結合遺傳算法和模糊C聚類方法,在大多數類實例上生成具有最優集群中心的集群,從而識別出異常值和冗余數據點并刪除,最終得到一個平衡的數據集,用于進一步的實驗。在第二階段對可疑樣本進行驗證,分別由四種不同的有監督學習方法DT、SVM、MLP和GMDH進行驗證。作者在一個真實的汽車保險數據集上進行了實驗,驗證了該系統的有效性。Majhi等人[12]采用模糊C均值聚類方法進行聚類,并通過改進的鯨優化算法尋找給定數據集的全局最優解,進而提出了一個基于模糊聚類的保險欺詐檢測系統。該方法首先采用模糊聚類方法去除離群點,對大部分樣本數據集進行裁剪,然后使用CATBoost、決策樹等先進的分類器對修改后的數據集進行分類。通過測量靈敏度、特異性和準確性等性能參數對分類器進行評價。

總的來說,國外對于保險欺詐檢測領域的研究多采用組合分類器(如:隨機森林),或較為前沿的深度學習模型(如:長短期記憶網絡(LSTM)、圖神經網絡(GNN)。通過實證分析來進行模型的評價與改善,往往模型都能夠達到較高的準確率與較強的泛化能力。從數據集的角度來看,這得益于國外的保險索賠數據具有更豐富的評價指標體系,從而為模型訓練特征的選取提供了更多的保障。

2.2 國內研究進展

2.2.1 基于傳統機器學習的方法

隨著國內保險事業的興趣,國內越來越多的學者也參與到保險欺詐與車險欺詐的研究中來。與國外類似,國內學者的車險欺詐研究早期仍以回歸模型、聚類分析、數據挖掘等技術為主。

基于回歸模型的主要思路是利用邏輯回歸模型模擬風險因素的關系,繼而得到保險欺詐與其他因素之間的關聯關系。基于該思想,趙桂芹等人[16]為了探究車險市場中是否存在道德風險,作者首次采用動態續保數據進行實證研究。通過使用邏輯回歸的參數方法和條件相關模型的非參數方法,從多個方面論證了道德風險存在的范圍,并發現了道德風險在不同投保人群中具有不同顯著性的現象。此外,作者再次驗證了信息不對稱的廣泛性和顯著性給道德風險帶來的影響。張連增等人[43]基于國外保險索賠數據,通過邏輯回歸模型分析了車險索賠的影響因素,并利用SAS軟件對實驗結果進行統計分析,得出汽車價值、地區、車型和駕駛員年齡都會影響車險索賠發生概率,并預測了概率數值。此外作者考慮到風險暴露對車險索賠造成的影響,通過引入風險暴露因子對模型進行了優化,從而擴展了邏輯模型在保險業的應用。

基于聚類模型的主要思路是根據若干風險因素對車險案例進行劃分,并得到可疑欺詐案例?;谠撍枷?,王海巍等人[18]利用一個保險運營的動態數據流,通過對投保、承保、理賠等關鍵環節的數據字段進行聚類分析,并建立數理模型觀測、估計保險欺詐風險閾值,探索了保險實務中的道德風險識別問題。同時,作者基于實證分析提出了建立動態Hadoop模型進行風險因子聚類分析的必要性。

基于數據挖掘的主要思路是從大量數據中找出隱藏的信息,主要通過統計學、模式識別、大數據分析等方法對保險數據中特征關聯進行提煉。基于該思想,湯俊等人[17]基于支持向量機和Apriori算法的數據挖掘技術,提出了一種新穎的車險欺詐檢測規則挖掘方法。具體的說,作者利用Apriori算法挖掘到的規則構造了一個欺詐規律知識庫,用于對支持向量機從歷史數據庫匯總挖掘出來的可疑案例進行再檢驗,從而提高車險欺詐檢驗的準確性。此外,作者建議周期性地對知識庫中的規則進行維護更新以應對不斷變化的車險欺詐行為。袁幕琴[44]基于我國保險欺詐的現狀和主要表現形式,對保險欺詐的原因和危害進行了定性的分析研究工作,并結合大數據等現代信息技術提出了高效防范保險欺詐的對策建議,包括建設智能反欺詐模型、大數據分析優化承保、理賠規程等。盧文龍[45]基于保險欺詐案件的風險因子和大數據技術,提出了一個閉環式的保險欺詐循環處理系統,通過提煉出的風險因子建立數理識別模型,再將識別結果反饋來更新風險因子,從而構建出一個越來越完善的反欺詐模型。張澄等人[46]結合保險業個性化、定制化的發展趨勢,使用大數據分析和“互聯網+”技術實現風險管理的精細化和產品服務的定制化。具體的說,作者從位置大數據應用的角度出發,對手機定位的車輛位置信息在車險管理的應用問題進行探討,并提出了一種新穎的地理區域網格化方法用于風險劃分和計算。同時,作者針對生產應用中的承包端和理賠端分別給出模型實施路徑和使用建議。

2.2.2 基于神經網絡的方法

相比于國外學者的研究集中在淺層神經網絡、圖神經網絡以及深度學習領域,國內相關研究工作主要集中在淺層神經網絡。

基于淺層神經網絡的主要思路是利用前饋神經網絡來學習各個欺詐因素的權重,以此來提高保險欺詐的推理效果?;诖怂枷?,葉明華[47]以保險欺詐行為中的車險索賠為例,對基于反向傳播神經網絡(BP神經網絡)用于保證欺詐識別的有效性進行驗證。作者將欺詐識別分為統計回歸混合人工智能兩個階段,利用邏輯回歸分析選出顯著性指標作為精煉變量來進行訓練的BP神經網絡模型。通過實驗驗證了BP神經網絡和統計回歸方法融合的效果。通過實驗結果驗證了經過融合后方法的識別準確率要高于單獨使用BP神經網絡識別的結果,從而證明了統計回歸與BP神經網絡具有互補性和相互糾錯性的理論。因此,作者指出提高神經網絡識別效果的前提是完善索賠指標體系。為了克服BP神經網絡容易陷入局部最優、收斂速度慢而且依賴樣本等局限性,閆春等人[48]利用改進的遺傳算法來優化基于BP神經網絡的車險欺詐識別模型。首先通過主成分分析將某保險公司的欺詐索賠數據進行指標的提煉,將提煉后的指標用于模型欺詐預測。改進的遺傳算法通過自適應調節交叉概率與變異概率,進一步提高了遺傳算法的尋優能力,防止算法陷入局部最優。作者在實證分析中發現,改進的遺傳算法與經典遺傳算法GA、IAGA算法相比,取得了收斂速度、精準度等評價指標的性能提升。

近年來,少數學者開始嘗試利用深度學習技術構建車險欺詐檢測模型,相比淺層神經網絡方法在效果上有明顯改善。徐徐等人[20]基于深度學習構建了一個車險欺詐識別模型。具體的說,作者基于采樣思想來轉換不平衡數據集,同時采用主成分分析算法對車險數據進行降維處理并消除變量之間的相關性。通過實證分析,作者驗證了深度學習模型相比傳統機器學習模型在欺詐識別領域取得更好的效果。

2.2.3 基于混合模型的方法

基于混合模型的方法目前主要集中在將多個模型組合形成的系統框架,國內相關研究工作體現在基于內在關聯屬性以及其他的混合模型兩種類型。

基于內在關聯屬性的主要思路是從實體因素之間的關系來進行建模,繼而利用因素之間的網絡關聯來進行保險欺詐工作。基于該思想,趙長利等人[49]基于變分不等式理論和變步長投影算法,探索了投保人、保險人和保險監管者三方主體在車險行為中的最優均衡模式。不同于常規模型在探究此類問題上的局限性,其構建的風險控制閉環模型能夠以定量的方式分析各方主體的決策行為和利益關系。通過數據分析,作者發現了汽車網絡利潤不均衡的特點,進而提出給予各方參與者一定的利潤空間以實現各方利潤最大化和風險控制。喻煒等人[1]針對車險欺詐檢測問題,首次在該領域引入了團伙微觀建模的概念,利用矩陣運算識別出可疑的車險欺詐團伙行為。同時,將可疑欺詐團伙的碰撞網絡矩陣映射為人的網絡關系,從而識別出人為規避行為。相比傳統方法,矩陣數值運算省略了樣本預處理、模型訓練等步驟,極大提高了計算效率。

其他混合模型算法的主要思路是將各個方法的優勢進行融合。基于此思想,閆春等人[19]提出了一種基于蟻群算法和隨機森林模型的組合分類器來提取出用于車險欺詐識別的一組特征。作者用平衡隨機森林算法來改善車險索賠數據的不平衡性,然后將特征在隨機森林中的重要性得分與數據的統計分數傳遞給蟻群算法實現信息素實時更新,從而準確地提取出車險欺詐特征。和傳統算法相比,該方法提高了車險欺詐識別的準確性與魯棒性。

總的來說,國內的車險欺詐檢測方法更傾向于使用傳統機器學習模型,如邏輯回歸、BP神經網絡,并利用數據挖掘等技術建立統計模型,在深度學習與集成學習方面的研究并不突出。這可能是因為國內的風險評價體系尚未健全,很多學者利用爬蟲技術自行收集的數據量級比較小,且數據中含有大量的噪音,導致數據質量不高,因此在一定程度無法滿足深度學習訓練條件,這大大制約了國內保險欺詐識別的性能和應用場景。

2.3 模型評述

在這一節中,將對常用的機器學習模型及其特點總結,如表1所示,其中貝葉斯分類中的C表示類別,x表示樣本特征。邏輯回歸模型中的w表示樣本權重,b表示偏置。決策樹模型通過計算信息增益Info(D)依次選擇分類效果最好的屬性,其中的i表示類別,D表示樣本集合,Pi表示D中任意一個樣本屬于i的概率。K近鄰中的函數I()根據括號中的參數是否相等返回1或0。另外,公式中出現的sign(·)函數的作用是根據參數和閾值的大小關系返回相應類別,σ(·)函數稱為激活函數,和sign(·)函數的作用類似,區別是sign(·)函數的取值是離散的,而激活函數σ(·)的取值是連續值。集成學習中的h(x)表示弱分類器預測結果,H(x)綜合這些結果得到強分類器的結果。除此以外,公式表中相同的符號有著相同或相似的含義。

表1 車險欺詐檢測中機器學習模型的總結Table 1 Summary of machine learning models for auto fraud detection

貝葉斯分類器是以貝葉斯定理為基礎的分類算法的總稱,是基于樣本分布已知的假設來選擇最有可能的類別。與其他方法相比,貝葉斯分類器支持增量訓練并實時調整概率值。此外由于假設特征之間相互獨立而無須考慮特征組合,大大提高了大規模訓練集的計算效率。然而,貝葉斯分類器對特征組合較為受限。邏輯回歸模型實際上是用于二分類問題的分類模型,選擇與實際輸出值誤差最小的類別作為預測標簽。這種方法實現簡單,易于理解,并且能夠方便地根據新的數據更新模型,因而得到了廣泛的應用。然而,當數據量或特征空間比較大導致線性不可分時,該模型也會因為過于簡單而無法對數據進行較好的學習,從而體現出欠擬合、異常值敏感等問題。支持向量機通過核函數可以較好地解決非線性問題,能夠提高模型的泛化性能,解決高維度數據的問題,但是方法本質受限于算法的復雜度(特別是核方法)無法處理大規模數據。決策樹也是一種易于理解的白盒模型,它甚至不限制使用非數值型數據。但是決策樹完全依賴數據,存在過擬合的風險。集成學習的思想是利用多個弱分類器組合成強分類器,從而提高預測精度,并且一些集成學習方法如隨機森林實現了數據的并行化處理,提高了效率,但是組合學習器相比單學習器勢必會增加更多的計算成本。神經網絡通過前向傳播來擬合數據,通過反向傳播來更新參數,是一種自主學習器,但是淺層的神經網絡往往因為有限的樣本數量和參數數量而無法擬合復雜函數。與之相比,深度學習通過增加網絡的參數量和數據的需求量來實現更復雜的功能,但是這也使硬件成本和數據標注成本大大提升。無論是淺層神經網絡還是深度學習方法都是一個完全的黑箱模型,因為人類無法得知模型輸入特征多對應的相對權重,因此較難給出對輸出的結果進行合理的解釋。從本文收集的各種機器學習模型的文獻數量和發表時間來看,傳統機器學習模型應用較早,但是研究成果不多,這反映出傳統機器學習可能在特征選擇、模型擬合等環節存在較大局限性;而近年來基于神經網絡,特別是基于深度學習的方法以強大的表示能力和數據擬合能力開始廣泛應用于車險欺詐檢測。

總之,沒有一種機器學習技術能在所有數據集上所有任務中優于其他技術,它們都有各自的模型特點與局限性。為此,在車險欺詐研究的過程中,諸多學者提出了相應的改進思路。

3 模型結果分析

3.1 測試數據集與評估標準

數據集選取真實生產環境下某車險保險公司降采樣數據(由于正常保險公司欺詐概率在1%左右,本文收集的標注數據欺詐概率在接近20%,實際上降低了正常數據的樣本,因此稱之為降采樣)。共11 350條,采集時間為2014-03—2019-08,采集案件主要集中在2019年。其中,非欺詐數據8 792條占數據總量的77.46%,欺詐數據2 558條占數據總量的22.54%。經數據清洗后,可用字段合計900項,包含類別型字段31項、數值型字段868項以及欺詐標簽字段1項。

由于車險數據是一種有偏的樣本數據,因此在數據劃分時需維持原樣本的標簽分布。在此模型測試過程中,訓練集、測試集分別占數據總量的80%和20%。其中,訓練集數據共9 080條,含非欺詐數據7 036條、欺詐數據2 044條;測試集數據共2 270條,含非欺詐數據1 756條、欺詐數據514條。需要注意的是,對于深度學習模型,將從訓練集中額外劃分出20%的數據作為驗證集以用于調整模型的超參數。

對于二分類問題,根據樣本真實類別和對應模型預測結果的組合分為真正例(true positive,TP)、真負例(true negative,TN)、假正例(false positive,FP)、假負例(false negative,FN),如表2所示。

表2 分類樣本混淆矩陣Table 2 Confusion matrix of classified sample

評估指標主要從精確率、召回率、F1-值、精度、AUC面積大小5種評估指標進行度量,以下分別對這5種指標進行描述。

Precision,又被稱為精確率、查準率,是二分類任務中常用于評估模型預測結果是否精確的性能指標。精確率定義為真正例占所有預測結果為正例樣本的比值,對應的公式為:

Recall,又被稱為召回率、查全率,是二分類任務中常用于評估模型預測結果是否完備的性能指標。召回率定義為真正例占所有真實類別為正例樣本的比值,對應的公式為:

F1-score,又被稱為F1度量,它是在精確率和召回率的基礎上取調和平均數得到,對應的公式為:

Accuracy,又被稱為精度,定義為分類正確的樣本占樣本總數的比值,對應的公式為:

AUC(area under ROC curve),AUC是二分類任務中用于評估模型泛化性能的指標,它的定義是ROC(receiver operating characteristic)曲線下的區域面積。ROC曲線按照模型的預測結果逐個對樣本進行排序,并分別以真正例率和假正例率為縱軸和橫軸繪制在二維坐標系上形成一條曲線。其中真正例率(true positive rate,TPR)和假正例率(false positive rate,FPR)公式為:

通常使用曲線下區域面積AUC來進行比較,如圖3所示。該性能指標可以在數據不平衡的數據集上進行客觀的評估。

圖3 AUC示意圖Fig.3 Diagram of AUC

此外,為了分析欺詐模型在多分類上的效果,進一步將數據的標簽細分為9個標簽(為了保證多分類模型的訓練效果,在欺詐標簽類型細分時,會將少量原因不明欺詐數據視為正常數據處理),并保持實驗的訓練測試比例不變。具體的細分標簽為:非欺詐標簽(8 892),人工標記欺詐(1 302),倒簽單(7),痕跡不符(928),酒駕(131),虛假報案(9),隱瞞事故真相(60),重復索賠(12),準駕異常(5)。

相應的,實驗采用了多分類的評價指標,分別使用了Precision、Recall、F1-score對應的微平均(Micro)、宏平均(Macro)和帶權平均(Weighted)的評估方式。

Micro形式的評價指標不關注樣本類別,直接評估全體樣本的分類效果。以precision為例,將所有類的TP加和,再除以所有類的TP和FN的加和。Micro形式下的precision、recall、accuracy相等。

Macro形式的評價指標首先分別求出每個類的對應值,再求算術平均。

Weighted形式是在Macro形式上的改進,對各類的結果值不再取算術平均,而是乘以該類在總樣本數中的占比作為權重。

3.2 測試模型與結果分析

在Linux操作系統上(16核的Inter Xeon 2.99 GHz CPU,內存16 GB)進行了仿真實驗,采用編程語言為Python 3.7,并基于sklearn庫、xgboost庫和deepCTRtorch庫實例化測試模型。深度學習模型均選擇自適應梯度算法(adaptive gradient algorithm)作為優化函數,設定學習率為0.01、批量采樣的大小batch_size為32,周期epochs選擇對應驗證集梯度最小的參數值。需要注意的是,在未說明的情況下,輸入數據中類別型數據默認采用標簽編碼(label encoding)的方式處理。

為了全面地評估現有機器學習模型的效果,一共選擇了7類傳統機器學習模型(含變種)以及6種深度學習模型進行測試和分析,具體列出如下:

貝葉斯網絡,為經典的機器學習模型,基于特征間強獨立假設和貝葉斯定理,車險數據特征大多離散分布,適用于二分類或者多分類任務建模,其中模型的先驗平滑因子alpha=1.0。

邏輯回歸,為經典的機器學習模型,基于概率論,通過極大似然模型求解參數以實現未知數據的欺詐檢測,其中模型的懲罰參數penalty=l2,最大迭代次數

max_iter=100。

SVM(線性),為經典的機器學習模型,基于幾何間隔最大化原理,以找出最大幾何間隔的分類面為優化目標,其中模型的正則化參數penalty=l2,模型的損失函數為平方合頁損失(squared_hinge)。

SVM(非線性),為SVM的核方法,適用于數據線性不可分的情況,通過核函數將數據映射到高維空間直到線性可分,其中模型選取的核為徑向基函數(RBF)。

隨機森林,屬于機器學習中集成學習范疇,是一個由多個決策樹構成的組合分類器,決策樹之間無依賴關系,其中基評估器的數量為100個。

Xgboost,屬于機器學習中集成學習范疇,是一個由多個分類回歸樹構成的組合分類器,分類回歸樹之間存在強依賴關系,其中目標函數分別采用binary:logistic(二分類)和multi:softprob(多分類)。

Xgboost(one-hot),為Xgboost的變種,主要是對輸入數據中類別型數據采用one-hot encoding處理,其中目標函數同樣采用binary:logistic(二分類)和multi:softprob(多分類)。

PNN,為基于點積的神經網絡,屬于深度學習模型。相較于傳統的MLP模型,PNN通過嵌入層來學習分類數據的分布式表示,然后通過點積層來捕獲域間類別之間的交互模式,進一步利用全連接層來探索高階特征交互,其中隱藏層層數為2層,神經元數量均為128個,激活函數為relu,核的類型為mat。

WDL,為深淺層學習框架,屬于深度學習模型。WDL通過結合線性模型和深度模型,保證了記憶與泛化的優點,同時采用聯合訓練(joint training)的方法進行優化。其中隱藏層層數為2層,神經元數量分別為256和128個,激活函數為relu。

DeepFM,為深度的因子分解機,屬于深度學習模型。DeepFM結合了分解機制和深度學習的能力分別用于推薦和特征學習,它改進了WDL模型的Wide部分,將LR替換FM(因子分解機),以實現自動構造二階特征,其中隱藏層層數為2層,神經元數量分別為256和128個,激活函數為relu。

DCN,為深度交叉網絡,屬于深度學習模型。它改進了WDL模型的Wide部分,DCN能夠顯式地在每一層應用特征交叉,自動構造有限高階的交叉特征并學習對應權重,其中隱藏層層數為2層,神經元數量均為128個,激活函數為relu。

NFM,為神經因子分解機,屬于深度學習模型。改進了WDL模型的Deep部分,NFM將FM的二階交叉項作為Deep模型的輸入,通過添加隱藏層獲更強的性能,其中隱藏層層數為2層,神經元數量均為128個,激活函數為relu。

AFM,為注意力因子分解機,屬于深度學習模型。改進了WDL模型的Deep部分,加入注意力機制區分不同交叉特征的重要性,其中激活函數為relu,attention network的隱藏層大小設置為8層。

表3列出了上述機器學習模型在車險欺詐中的整體實驗結果。可以發現基于集成學習Xgboost及其變種Xgboost(one-hot)模型與基于深度學習的模型效果較好,特別在F1-score、Accuracy、AUC均超過傳統的機器學習模型。Xgboost及其變種Xgboost(one-hot)在F1值與AUC上取得了最佳的效果,認為主要是受益于數據特征的提煉以及集成學習自身較強的泛化能力。相對的,在深度學習模型中,DCN的效果最佳,得益于它在改進部分深度學習模型(如:WDL)對于深度模塊的建模方式。由于深度學習模型受限于現有數據規模,無法進一步從海量的特征中進行隱形特征的學習,因此效果較Xgboost略差。此外,發現貝葉斯網絡和SVM-核方法分別在Recall和Precision取得了最佳效果。從側面可以發現,這兩類模型在車險欺詐檢測任務中表現得較為極端。貝葉斯網絡盡管可以發現更多的車險欺詐案例,但對應的也會誤判部分正常的車險理賠案件,因為其正確率較低,這將會給公司校對人員帶來更大的現場勘測成本。而SVM-核方法過于保守,盡管不會將正常的車險理賠案件誤判,但也很難對真實的車險欺詐案件進行有效檢測,因此難以達到實現車險欺詐檢測的目的。

表3 車險欺詐檢測整體的實驗結果Table 3 Whole experiment result of auto fraud detection

考慮到車險欺詐數據在真實場景中存在客觀的不均衡性,進一步檢測了不同幅度下數據不均衡對各模型的影響。具體來說,將訓練集中標注為“欺詐”的訓練樣例進行隨機移除,同時保證正常的車險理賠案件數量不變,由此對訓練數據集中的不均衡性進行調整。數據不均衡對各類機器學習模型的影響如表4所示??梢园l現,大部分模型的性能都出現了不同程度的下降趨勢。整體而言,Xgboost及其變種Xgboost(one-hot)依然能在各種數據不均衡的車險欺詐檢測任務中獲得最佳效果。受益于one-hot的建模效果Xgboost(one-hot)在比例減少時,性能上甚至存在著一定程度的反彈。分析認為,可能在于該批移除的車險欺詐的數據存在部分噪聲,使得模型學習剩余數據的效果反而得到了提升。整體來說,隨著數據不均衡的加劇,Xgboost(one-hot)仍會出現性能下降的趨勢。此外,大部分深度學習模型在車險欺詐任務的性能上也會有不同程度的下降。盡管如此,在性能的損失方面,除了NFM與DCN之外,其他的深度模型下降的幅度只有1.5%左右,這在一定程度凸顯出了這些模型能較好地學習到數據的隱性特征。

表4 數據不均衡對各模型的影響Table 4 Influence of data imbalance on each model

為了進一步驗證訓練數據規模對各模型的影響,對整體的訓練集進行了等比例的縮放,并保證測試集不變。表5列出了不同百分比數據集對模型性能的影響。可以發現,即便在整體訓練規模只有原訓練集的50%時,Xgboost及其變種Xgboost(one-hot)依然能在車險欺詐檢測任務上獲得最佳的效果,綜合F1-score和AUC的評分情況,可以發現Xgboost及其變種Xgboost(one-hot)在性能上均處于前2名。從圖4中,可以觀察到其在取值上整體高出了深度學習模型1.5%~2.0%。相對的,大部分深度學習模型在車險欺詐任務的性能都有不同程度的下降。此外,在性能損失方面,即便只有50%的訓練數據,Xgboost及其變種Xgboost(one-hot)在F1-score與AUC的評分上只有2%左右的下降,在一定程度凸顯出了它們的泛化能力。

圖4 不同訓練百分比數據集中模型性能的趨勢圖Fig.4 Trend graph of model performance in data sets with different training percentage

表5 訓練百分比對各模型的影響Table 5 Influence of training percentage on each model

表6給出的是機器學習模型在多分類任務中評估的結果。整體上,可以看到在三項評估中,Xgboost(one-hot)依然在Micro形式與Weighted形式上較傳統的機器學習方法與深度學習方法有著更加出色的效果。貝葉斯網絡與Xgboost分別在Macro形式的Recall與Weighted形式的Precision上獲得了最佳的效果。而深度學習模型整體表現非常一般,其效果甚至只能與邏輯回歸模型的結果相當。經過對數據集的分析,發現深度學習模型主要還是受限于數據規模的影響。此外,在Macro評估方式中,可以發現所有的模型在Precision、Recall、F1-Score的表現都不如人意,特別是在虛假報案、隱瞞事故真相、重復索賠、準駕異常、倒簽單這些樣本不足100的分類標簽上。通過表7中的實驗結果,進一步證實了,絕大多數的模型是無法對一些稀疏樣本的欺詐數據進行學習與區分的。因此,以算術平均為基礎的Macro評估則會給出一個整體較差的結果。相對來說,傳統的機器學習模型在這些少樣本的分類任務上能取得的效果比深度學習模型的效果略好一些。

表6 機器學習模型在多分類任務中的評估結果Table 6 Evaluation results of ML models in multi-classification tasks

表7 機器學習在不同類別中F1的實驗結果Table 7 Experimental results of F1 of ML models in different categories

根據目前車險公司提供的數據表明,在車險欺詐檢測任務中,集成學習的效果與深度學習效果較傳統機器學習模型效果更好。一方面,集成學習和傳統的機器學習模型對硬件要求較低,而深度學習對硬件普遍具有較高的要求。另一方面,深度學習在保險欺詐檢測任務中具備較好的效果,基于深度學習的思想可以學到潛在的特征表示,且標注數據規模越大越有效。相對的,傳統的機器學習模型與集成學習模型對數據的特征提取存在較高的要求。

4 總結與展望

本文重點對機器學習模型在車險欺詐檢測的研究進展進行全面細致的歸納與總結,基于車險公司真實的數據對各類機器學習模型進行全面測試與分析。實驗結果表明,在車險欺詐的任務中,集成學習與深度學習模型較傳統機器學習模型效果更好。相對的,集成學習需要對數據特征的提取存在較高的要求,而深度學習則對模型實現的硬件環境與數據集規模具有較大的需求。

經過對國內現有保險數據進行綜合分析,認為將來車險欺詐檢測的研究可以從以下五方面進行展開:

(1)基于小樣本學習的欺詐檢測技術。目前機器學習的模型在常規的二分類任務上表現較為滿意。然而,對于多分類任務,可以發現當下的機器學習模型無法勝任這些欺詐類別中樣本極度稀疏的分類工作。為此,可以將小樣本學習(few-shot learning)[50-51]的前沿技術進行引入到車險欺詐的多分類任務中,以此來提高多種車險欺詐類型的檢測性能。

(2)基于圖譜的團伙檢測技術。目前車險欺詐團伙犯罪的趨勢較為明顯,未來車險欺詐檢測可以從團伙車險欺詐檢測[52]入手,結合知識圖譜[53]與事件圖譜[54]等方法中實體關聯,利用知識圖譜或事件圖譜表示學習中連續、稠密的向量表示來預測對案件因子之間內在的關聯與案件之間的因果聯系,從而將案件相關信息和相似案件信息進行深度結合,以此來提高欺詐檢測的效果。

(3)基于表示學習的案因回溯檢測技術。目前機器學習模型盡管表現效果較好,但仍存在解釋匱乏的問題。而專家系統中的規則表達方式可以較好地彌補這一點。為此,可以對專家系統中的觸發因子與機器學習和深度學習的向量表示進行關聯,利用機器學習中各因子所在模型中所對應的權重以及深度學習所學習得到的向量表示來評估觸發規則的概率,即便專家系統中的觸發規則并未觸發,但仍可以通過規則中相應的觸發因子以及因子權重獲得最可能的規則推送給專家,繼而利用案因回溯的思想[55-56]給保險公司現場勘測人員提供有效的線索,提升勘測人員去現場確認的成功率。

(4)融合文本、圖像的多模態檢測技術。目前的機器學習模型更多地圍繞車險欺詐擬定的指標體系從數據集庫數據中抽取與提煉核心的特征,但對于文本(勘測記錄的文字描述)以及圖像數據(如:現場勘測拍攝的圖片)的信息利用并不成熟。利用多模態技術[57-58]提高車險欺詐的檢測精度將是未來的一個重要的研究方向。一方面,可以利用自然語言處理中的關系抽取技術、事件抽取技術從勘測記錄中得到更多有用的結構化信息;另一方面,利用圖像中的場景識別技術與匹配技術,可以有效地辨識案件中是否存在車險欺詐常用的場景,繼而提高車險欺詐檢測整體的效果。

(5)基于車險體系的聯邦學習技術。由于目前車險欺詐領域高質量的標注數據存在不均衡現象,細粒度的欺詐標注數據集十分稀缺。為此,可以通過各保險公司協商,基于知識對齊技術[59]形成一套統一的車險規范體系[60],再進一步利用聯邦學習技術[61-62]將保險公司中高質量的標注數據進行數據加密共享,最終,借助外部的高質量數據來提升模型學習的效果,繼而提高車險欺詐檢測的性能。

猜你喜歡
深度檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 亚洲国产成人无码AV在线影院L| www.av男人.com| 人人91人人澡人人妻人人爽| 视频一本大道香蕉久在线播放 | 国产欧美日韩综合在线第一| 欧美中文字幕第一页线路一| 亚洲AV永久无码精品古装片| 91无码人妻精品一区二区蜜桃| 精品视频一区在线观看| 天天视频在线91频| 国产亚洲精品资源在线26u| 不卡网亚洲无码| 日韩国产亚洲一区二区在线观看| a级高清毛片| 日本欧美中文字幕精品亚洲| a级高清毛片| 国产噜噜噜| 亚洲日韩精品无码专区97| 亚洲成人网在线观看| 亚洲欧美另类中文字幕| 国产成人欧美| 欧美乱妇高清无乱码免费| 99偷拍视频精品一区二区| 国产特级毛片aaaaaa| 91视频99| 尤物视频一区| 91年精品国产福利线观看久久| 成人一区在线| 亚洲系列无码专区偷窥无码| 91精品国产综合久久香蕉922| 日韩高清成人| 亚洲国产欧洲精品路线久久| 无码电影在线观看| 久久99热这里只有精品免费看| 国产欧美成人不卡视频| a在线观看免费| 毛片一区二区在线看| 久久性妇女精品免费| 亚洲中文字幕23页在线| 成年人午夜免费视频| 专干老肥熟女视频网站| 久久91精品牛牛| 老色鬼久久亚洲AV综合| 亚洲Av综合日韩精品久久久| 日韩高清无码免费| 久久天天躁夜夜躁狠狠| 最新国产网站| 好久久免费视频高清| 亚洲国产精品日韩av专区| 中文字幕久久波多野结衣| 香蕉久人久人青草青草| 2021精品国产自在现线看| 中文字幕色在线| 日韩中文字幕免费在线观看| 青青草综合网| 伊人久久综在合线亚洲2019| 欧美一区二区三区欧美日韩亚洲| 国产精品偷伦在线观看| 亚洲精品欧美日本中文字幕| 无码高潮喷水专区久久| 亚洲AV无码精品无码久久蜜桃| 亚洲一区网站| 一级福利视频| 成人国产免费| 免费高清毛片| 97国产精品视频自在拍| 香蕉综合在线视频91| 香蕉色综合| 亚洲欧美一区二区三区麻豆| 无码精品国产VA在线观看DVD| 天天综合天天综合| av天堂最新版在线| 美女一区二区在线观看| 国产对白刺激真实精品91| 人妻出轨无码中文一区二区| 亚洲手机在线| 日本高清有码人妻| 亚洲无码高清视频在线观看| 综合久久五月天| 欧美啪啪网| 免费国产福利| 亚洲中文字幕在线观看|