摘 要:本文的目的是希望在保險公司壽險客戶對產品的索賠記錄上,通過數據挖掘的方法,發現影響客戶索賠次數的主要因素。應用數據挖掘技術,通過對客戶的數據進行抽取、清洗和預處理,生成數據挖掘庫,并使用數據挖掘工具,利用決策樹方法建立模型,并對所分析出的模型及結果進行了分析理解及驗證,得出一些實用的控制壽險風險的規則。
關鍵詞:數據挖掘壽險決策樹
中圖分類號:TP311.13文獻標識碼:A文章編號:1674-098X(2011)08(b)-0192-02
壽險行業在我國雖然起步較晚,但改革開放以來,壽險業在我國取得長足發展,每家壽險公司都積累了自己龐大的信息庫,面對這些海量的數據,如何加以合理分析與利用,是每家公司急于要解決或正在解決的問題。基于這樣的一個背景,本文應用數據挖掘的決策樹方法挖掘壽險數據中的投資風險規則。
1 國內研究現狀
國內的壽險業經過近20年的發展,積累了大量的客戶數據和代理人數據,目前國內的各大壽險公司已經從數據倉庫著手,建立自己公司的BI系統,從目前的規模、IT人員技術的積累、市場競爭的加劇等客觀情況來看,數據挖掘在壽險業的應用的時機和條件都日趨成熟,只是在目前的條件下,數據挖掘在壽險行業的成功應用并不能一蹴而就,而需要一個循序漸進的過程。
雖然數據挖掘在壽險應用方面的研究還遠不如在基礎理論和技術方面的研究那么熱烈,但目前業內已有很多成熟的數據挖掘方法論,為壽險領域的實際應用提供了理想的指導模型。
1.1 對保險業務風險分析,進行保費的制定
吉根林等人分別采用關聯規則和分類模型技術對壽險數據庫(由個人信息表、單位信息表、索賠信息表等數據表組成)進行壽險業務風險分析。通過關聯規則挖掘工具對個人索賠信息表進行挖掘,就可以得到一系列的關聯規則。通過關聯規則的挖掘,可以發現投保人中索賠具有什么特征,這樣壽險公司就可以有針對性地對潛在客戶開展工作,從而減少風險,提高公司盈利能力。通過分類模型進行風險分析,在壽險數據集中,選取是否索賠作為目標屬性,其它屬性作為條件屬性。利用決策樹生成工具對表所示的數據集生成一個決策樹,根據決策樹和投保人的詳細信息,可以預測一段時間內索賠概率的大小,并相應制訂某類投保人的保險費率。
1.2 客戶關系管理
李曉瑞等人通過對投保客戶基本信息庫的數據進行關聯規則的數據挖掘,找出客戶購買縣中的內在的關聯規則。對于壽險公司來說,如何找出新客戶、失去的客戶及老客戶尤其是給公司帶來最大利潤的20% 的“黃金客戶” 各屬性的關聯規則,同時又能以用戶易理解的方式概括出來,是決策者策劃營銷計劃的關鍵。例如通過關聯規則挖掘得出這樣一個規則:<年齡:30~40>and<工作地區:ARI區>=><險種:B>(80%),其表達了這樣一個信息:客戶年齡在30~40歲之間,其工作地區在ARI區,那么此客戶(80%)的可能會投保B險種。
2 數據集市設計
2.1 業務相關表及結構
數據集市的數據全部來自于業務系統,在進庫過程中進行了深層次的加工,是系統前臺數據展示、挖掘、鉆取的主要數據源。相關表的主要結構及相互關系如下:
保單信息表,主要包含的字段有:保單號、提交日期、審批日期、有效日期、保單狀態、繳費模式、幣別、代理人、受保人、性別、受保年齡、出生日期、身份證號碼、住址、保單類型號、保額;
個人信息輔助表,主要包含的字段有:保單號、教育程度、是否結婚、是否有健康問題、是否有抽煙習慣、平均每天抽煙數、是否有喝酒習慣、身高、體重;
索賠信息表,主要包含的字段有:保單號、索賠號、索賠類型、索賠日期、索賠人、索賠狀態、幣別、索賠金額;
保單類型表,主要包含的字段有:保單類型號、數字型保單類型號、保單類型描述
其中,保單信息表,個人信息輔助表及索賠信息表由保單號連接,而保單類型表與保單信息表由保單類型號連接。
2.2 數據預處理
1)數據選取
由于壽險數據量大,這次試驗只選取了普通類型保單、保單日期為2002至2006年間的保單信息及相關表的數據??偣渤槿×?7828條數據,將其中25622條數據進行數據挖掘,而剩余的2206條數據作為驗證挖掘結果數據。
在進行數據挖掘之前,需要進行前期的數據字段選取工作,比如根據直觀經驗去除數據中的冗余信息,像個人姓名、單位名稱、投保日期、幣別、身高、體重、提交日期及保單狀態等。
最終,根據直觀經驗選取了以下字段組合成一個表進行數據挖掘工作:保單號、保額、繳費模式、性別、受保年齡、教育程度、是否結婚、是否有健康問題、平均每天抽煙數、是否有喝酒習慣、月收入、索賠次數。
2)數據清洗
壽險業的數據與其他數據一樣,常常是含有噪聲、不完全和不一致的,數據預處理能夠幫助改善數據的質量,進而幫助提高數據挖掘進程的有效性和準確性。對于實驗中的數據的情況,進行的數據清洗工作包括以下幾個方面。
(1)遺漏數據清理
a.被保單信息表中的保險人婚姻狀態為空:使用個人信息輔助表里的數據來修;
b.被保險人的教育程度為空:利用年齡分段,按各學歷與年齡的平均值來填充。
c.被保險人月收入為空:一共523條記錄,從與該保險人保費相近的那些記錄的均值填充。
d.是否有健康問題、是否有喝酒問題及每天抽煙數為空:可以根據其他同年齡、同教育程度等類似群人的普遍信息進行補充。
e.教育程度為空:可以根據年齡,保額進行補充。
(2)噪聲數據處理
例如:被保險人抽煙每天抽9000根,被保險人身高3.75m,被保險人體重6001kg等。由于這類錯誤的記錄相對較少,所以可以通過查詢客戶投保書的方法來修改。
(3)錯誤數據處理
例如:客戶的婚姻狀況。我國婚姻法第五條規定“結婚年齡,男不得早于22周歲,女不得早于20周歲”,但是發現有記錄與這些規定不符,處理的方法是按婚姻法修改這些數據。
3)數據分類
在業務系統上,某些信息是用具體數值來表示,需要進行分類以便進行數據挖掘。根據各信息的分布情況進行以下分類:
(1)保額的分類
Code A:保額在10萬以下
Code B:保額在10~20萬之間
Code C:保額在20~50萬之間
Code D:保額在50萬以上
(2)投保年齡的分類
Code A:投保年齡在18歲以下
Code B:投保年齡在18~35歲之間
Code C:投保年齡在35~55歲之間
Code D:保額在55歲以上
(3)月收入的分類
Code A:月收入在1萬以下
Code B:月收入在1~2.5萬之間
Code C:月收入在2.5~5萬之間
Code D:月收入在5萬以上
3 決策樹分析
3.1 決策樹模型建立
1)啟用SQL Server 2005中的Microsoft SQL Server Management Studio工具構建數據庫以進行數據挖掘的數據準備工作。新增本次實驗的數據庫TESTING,按以上結構新增表,并將數據集市共25622條數據導入數據庫中。
2)啟用在SQL Server 2005中的Analysis Services工具,建立Analysis Services項目進行數據挖掘。進行配置連接本地數據庫TESTING,建立數據源視圖,并選擇用決策樹方法進行數據挖掘。
3)配置完成后進行提交數據挖掘的部署工作,即可得出壽險客戶索賠次數的決策樹模型。
3.2 結果分析
從產生的結果來看,以常識或者業務的角度可以得出以下規則:
1)收入高的客戶比收入低的客戶的平均索賠次數小:
分析:由于收入高的客戶可能更有條件在健身、保健等方面投資,而年收入相對低的客戶可能在保健方面考慮的少一些,所以收入高的客戶比收入低的客戶的平均索賠次數小是可以理解的。
2)有抽煙、喝酒習慣或者有健康問題的客戶平均索賠次數大于沒有這些習慣的客戶;
分析:由于有抽煙或者有喝酒習慣或者本身有健康問題的的客戶身體健康狀況較差,容易生病或者病發作而進行索賠,因此明顯可以得出這條規則。
3)老年人客戶平均索賠次數大于年輕人客戶平均索賠次數;
分析:由于老年人客戶身體抵抗能力差,生病的機率遠大于年輕人,老年人客戶的索賠機率也遠大于年輕人索賠,因此這條規則也是比較容易理解的。
4)受高等教育客戶的平均索賠次數小于沒有接受過高等教育客戶的平均索賠次數;
分析:由于接受過高等教育的客戶可能更有理論知識或者積極的態度去進行健身或者保健,在工作環境方面也好過未接受高等教育的客戶,因此接受過高等教育的客戶比未接受過高等教育的客戶的平均索賠次數小是可以理解的。
5)女性客戶平均索賠次數小于男性客戶平均索賠次數;
分析:經調查,女性的平均身體健康程度好于男性的平均身體健康程度,包括壽命、所得疾病的機率等等,因此這條規則也是比較容易理解的。
根據決策樹和購買該類保險的投保人的詳細情況,可以預測出在將來的一段時間內的索賠次數,并根據索賠次數相應的調整某類投保人的保單的費類標準。比如:保單為年繳費、保額在為10萬、教育程度為大學、無喝酒習慣、無抽煙習慣的投保人,在決策樹中依次沿各分支走下去,可以預測他的索賠次數為0,即沒有索賠,可以考慮降低這一類投保人的保單費用。而保單為年繳費、保額在為10萬、教育程度為大學、無喝酒習慣、平均每天抽煙5支的投保人,根據決策樹預測索賠次數為2,則可以考慮適當提高這類投保人的保單費用。
3.3 結果驗證
在Microsoft SQL Server Management Studio中,將剩余的用來驗證結果的2206條數據數據導入數據庫TESTING中,將驗證數據直接帶入決策樹模型中以判斷決策樹預測是否準確,可得如下驗證結果:
如表1所示。
可以發現用于驗證數據的預測結果能控制在可接受的范圍內,決策樹模型的預測結果是令人滿意的。