于燕麗
(1.中國海洋大學 信息科學與工程學院,山東 青島 266071;2.青島理工大學琴島學院 計算機工程系, 山東 青島 266106)
客戶作為企業的一種資產,對提高企業競爭力的重要性日益增加。在當前競爭激烈的商業時代,所有公司都紛紛從以產品為中心轉向以客戶為中心,保險業格外突出。如何找出新客戶、失去的客戶及老客戶尤其是給公司帶來最大利潤的20%的“黃金客戶”各屬性間的關聯規則[1],同時又能以用戶易理解的形式概括出來,這是決策者策劃營銷產品的關鍵。保險公司經過多年發展,已積累了大量寶貴的客戶數據資源,如何處理這些海量數據,更好地匯總、分析這些歷史數據并從中挖掘出業務內在規律,將其變為有用的信息和商機,將會主導未來相當長時間內各個保險公司的工作戰略。
數據挖掘(Data Mining,簡稱 DM),簡單的講就是從大量數據中挖掘或抽取出知識。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。[2]
常用的數據挖掘方法有:(1)關聯分析。(2)序列模式分析。(3)分類分析。(4)聚類分析。(5)孤立點分析。在這些分類方法中,關聯分析方法由于自身的優點而廣被使用。
2.1 Apriori算法
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法[3]。其核心是基于兩階段頻集思想的遞推算法。該算法的基本思想:
2.1.1 找出所有的頻繁項集:根據定義,這些項集出現的頻繁性至少和預定義的最小支持度一樣,即滿足Support不小于Minsupport的所有項目子集。
2.1.2 由頻繁項集產生強關聯規則:根據定義,這些規則必須滿足最小支持度和最小置信度。挖掘關聯規則的總體性能由第一步決定。
頻繁項集的生成原理:從包含每個項的C1中找出1項頻繁集的集合L1。然后,連接LK-1產生K項候選集的集合CK,并根據Apriori性質刪除那些具有非頻繁子集的候選集。最后,掃描數據庫一次,統計候選集的支持計數,與最小支持計數相比,形成頻繁集。[4]

表1 數據樣本
2.2 數據挖掘在某保險公司中的應用
2.2.1 數據預處理
現有某保險公司統計的個人投保數據若干,從中取出10人的三維數據作為解釋說明算法應用代表,將這些數據作為抽樣數據分析關聯規則,以供公司決策層使用。數據見表1。
在表1中編號表示投保人保單號的唯一標識。insurance表示該保險公司的個人保險的類型:A(養老保險類),B(意外傷害保險類),C(未成年保險類)。
age和income為連續數值型數據,對其進行離散化、分組:age 分為 a:1-18,b:19-30,c:31-45,d:46-60,e:61-80 共 5 組 ;income 分為 m:1200-6000,n:6000-120000,o:12000-36000,p:36000以上共 4組。A 用 x表示,B用y表示,C用z表示。通過數據預處理轉換后得到的數據見表2。

表2 數據預處理后的數據項目集
經過數據預處理之后,將一些對結果影響不大的數據預先清除掉,以便提高算法的效率。
2.2.2 算法的實現:對以上數據進行Apriori算法,求出頻繁集,求出置信度。然后由置信度得到年齡、收入、險種之間的關聯關系。因此,當有客戶上門時,我們就可以對癥下藥了。這對企業的工作的展開有很大的推動作用。
表3是算法的核心內容:
2.2.3 算法的結果
進行Apriori算法,得到的結果如圖程序運行結果下(圖1):
通過算法的運行,我們得到了如上的結果。從圖中可以看出,年齡在19歲-30歲、收入在1200元-6000元的客戶和年齡在31歲-45歲、收入在6000元-12000元的客戶買意外傷害類保險的可能性都是100%。當然,通過運用Apriori算法,我們還會得到其他類似的關聯關系,這些都對企業的決策有著重要的指導作用。

表3

圖1 程序運行結果
本文在一個有1000條記錄的客戶數據集上測試了該算法。 所以對于這一數據集來說,該方法的結果還是有實用價值的。如果有規模更大的企業,它的客戶記錄應該更多,這樣用更多的數據訓練可能會提高該方法的準確性。
[1]羅華等.數據挖掘與數據倉庫技術及其在保險業中的應用.微計算機信息 2004
[2]陳京民.數據倉庫與數據挖掘技術[M].電子工業出版社,2002.8
[3]洪玉峰,湯靜煜.數據挖掘技術及工具發展和應用.北京統計,2004.12
[4]邵峰晶、于忠清.數據挖掘原理與算法[M];中國水利水電出版社;2007.6