張旭升
摘 要: 近些年,保險行業(yè)得到迅猛發(fā)展,同時,保險欺詐活動應運而生。面對保險欺詐,很多保險公司往往一籌莫展,導致騙賠猖獗。如何從以往的拒賠案件信息中,抽取有效識別欺詐案件的模式,促進保險業(yè)持續(xù)健康發(fā)展,成為保險行業(yè)研究的關鍵。數(shù)據(jù)挖掘在處理大批量數(shù)據(jù),挖掘潛在關系方面具有無可比擬的優(yōu)勢。本文提出利用神經(jīng)網(wǎng)絡算法,從歷史賠案信息中訓練出識別欺詐案件的模型,并抽取賠案數(shù)據(jù)進行模型效果測試。實驗證明,通過此模型篩選出的高理賠用戶群具有較高準確率,此數(shù)據(jù)對保險工作人員具有一定的指導作用。
關鍵詞: 高風險理賠 神經(jīng)網(wǎng)絡算法 數(shù)據(jù)挖掘
1.引言
目前,我國保險業(yè)正處在發(fā)展的重要時期。一方面,保險業(yè)務和保險產(chǎn)品在社會上有一定量的需求,保險業(yè)已經(jīng)成為國家的一個重要行業(yè),并正處于朝氣蓬勃的發(fā)展階段。另一方面,保險業(yè)的發(fā)展出現(xiàn)諸多問題,尤其是保險欺詐問題日益嚴重。在過去十多年中,各種各樣的保險欺詐案急劇上升。據(jù)《中國保險報》報道,某些保險險種因被欺詐導致的賠款支出最高可達保費收入的50%,全部業(yè)務被欺詐導致的賠款支出估計約為10%~30%[1]。中國人民大學統(tǒng)計分析和數(shù)據(jù)挖掘和商業(yè)智能應用研究小組就某保險公司1998~2002年的理賠數(shù)據(jù)分析,高危人群理賠率為12.73%,遠遠大于總體比例的受理賠率3.66%[2]。面對日益猖獗的保險欺詐,我國部分商業(yè)保險公司還沒有采取行之有效的措施。他們把研究該問題的關鍵集中在擴大保險費收入總量上,沒有意識到保險欺詐給保險公司及當事人帶來的嚴重危害。處理海量數(shù)據(jù)時,數(shù)據(jù)挖掘技術具有無可比擬的優(yōu)勢。近年來,國內(nèi)外很多文章從多方面專門探討數(shù)據(jù)挖掘在不同保險行業(yè)中的應用。
從一個全新角度切入,數(shù)據(jù)挖掘技術為保險公司提供可以處理海量信息的方法,將收集到的海量數(shù)據(jù)通過該技術,了解擁有的客戶的具體類型,以及其中什么特征的客戶存在高風險。由數(shù)據(jù)挖掘結果可以更清楚地知道未來目標客戶群在哪里,針對該客戶群推薦保險理賠產(chǎn)品進而獲得更大效益。
我國壽險行業(yè)經(jīng)過近二十年的發(fā)展,積累了大量客戶數(shù)據(jù)及大量理賠用戶數(shù)據(jù)。
本文引入神經(jīng)網(wǎng)絡算法,分析大量理賠用戶數(shù)據(jù),把這些高危理賠人員分離出來,集中分析,同時找到保單中風險較大的區(qū)域,從而得到一些實用的控制風險的規(guī)則,以便對保險公司的工作起到指導作用。
2.神經(jīng)網(wǎng)絡算法
神經(jīng)網(wǎng)絡結構是由多個簡單處理單元彼此按某種方式相互連接而形成的一種計算機系統(tǒng),通過對連續(xù)或斷續(xù)式的輸入做狀態(tài)響應,該系統(tǒng)能夠進行信息處理。盡管每個神經(jīng)元的結構和功能相對比較簡單,但由大量神經(jīng)元構成的網(wǎng)絡系統(tǒng)的行為豐富多彩和相當復雜。研究發(fā)現(xiàn)該算法具有以下優(yōu)點:非線性映射逼近能力、高強的容錯能力、對信息的并行分布式綜合優(yōu)化處理能力、對學習結果的泛化能力和自適應能力、便于集成實現(xiàn)和計算模擬等[3]。
3.模型構建
神經(jīng)網(wǎng)絡算法模型構建具體過程一般需要四步:
第一步:數(shù)據(jù)收集,從而獲取建模所需的客戶數(shù)據(jù),其中數(shù)據(jù)項的選擇等工作直接決定了最終建立的模型是否與研究目標一致;
第二步:預處理數(shù)據(jù),對初始客戶數(shù)據(jù)進行預處理,因為初始客戶數(shù)據(jù)并不一定符合我們的建模要求,其中會有數(shù)據(jù)噪聲等多種問題存在,所以對其進行預處理是保證建模結果準確的必然要求;
第三步:根據(jù)收集的特定的一群數(shù)據(jù),通過訓練這些數(shù)據(jù),得出該數(shù)據(jù)群的特征,存入特征數(shù)據(jù)集合中;
第四步:有特征集合和分類算法,構造分類器;如圖1所示。
建立好神經(jīng)網(wǎng)絡算法模型,對于新加入的用戶數(shù)據(jù),可以通過圖2進行檢測,首先將待檢測的用戶信息向量化,讓其符合特定格式,通過分類器進行分類,通過比較得出結論。
4.實例分析
經(jīng)過幾十年發(fā)展,保險行業(yè)已經(jīng)積累了海量理賠數(shù)據(jù),足夠我們構建一個神經(jīng)網(wǎng)絡算法模型。
第一步:將大量理賠數(shù)據(jù)資料進行預處理,提取出我們需要的向量(編號,年齡,收入水平,可信度),將這些作為訓練數(shù)據(jù);第二步:將訓練數(shù)據(jù)按照分類算法得到分類規(guī)則,將分類規(guī)則放入特征集合中,如圖3所示;
建立好分類算法模型后,當保險公司發(fā)現(xiàn)可疑用戶時,可以利用建立好的分類算法模型進行測試,提取用戶信息,按照得到特征集合中的分類規(guī)則進行分類,判斷該用戶屬于哪一類。
5.結語
對保險公司而言,其很希望每個人都買保險,但是不要出事故,但是對于每個人而言,由于生活中各種各樣的不確定性因素,甚至會出現(xiàn)騙取保險的現(xiàn)象。如何有效且準確地識別出這些人群,對保險公司具有重要意義。本文采用神經(jīng)網(wǎng)絡算法,篩選出高理賠的用戶群,并舉例對實驗結果進行分析,從而給予保險公司有益的改善意見。
參考文獻:
[1]唐紅祥.投保方保險欺詐問題研究[J].廣西財政高等專科學校學報,2004,17(3):42-55.
[2]張健,馮建華.數(shù)據(jù)頇處理在保險理賠預測中的應用[J].計算機工程,2005.9:2537-2539.
[3]謝承泮.神經(jīng)網(wǎng)絡發(fā)展綜述[J].科技情報開發(fā)與經(jīng)濟,2006,16(12):148-149.
[4]陳永強,胡雷芳.數(shù)據(jù)挖掘技術在人壽保險CRM系統(tǒng)中的應用研究[J].現(xiàn)代生產(chǎn)與管理技術,P39-42.
[5]黃晶晶.數(shù)據(jù)挖掘技術在醫(yī)院醫(yī)保費用分析屮的研究與應用[D].廣州:南方科技大學,2009.