基于決策樹C4.5算法的大數據保險業模型研究

2017-02-28 19:35:47李飛齊林

中國市場 2017年2期

李飛+齊林

[摘要]如今大數據背景下客戶信息數據呈現指數級增長趨勢，盈利企業亟須通過大數據分析發現客戶更深層次的潛在信息從而降低客戶流失率，尤其是流動率高的保險行業性質企業。保險公司力求穩定增長的市場占有率和經濟效益就需要通過數據挖掘來不斷發現潛在客戶價值，此時數據的多元性和數據量成為有效快速挖掘用戶信息的瓶頸。文章引入“數據湖”的概念結合HDFS構建集群式的大數據模型，并引入價值率來對客戶進行分析，構建用戶畫像，幫助公司深度理解客戶特征降低客戶流失率。

[關鍵詞]大數據；決策樹；價值率；保險

[DOI]10.13939/j.cnki.zgsc.2017.02.071

1 引言

隨我國經濟快速增長，人民收入不斷增加，保險業也呈現出高速發展的趨勢，自國內恢復業務以來，保險業相比金融領域的其他行業，取得了不小的成績。新時代背景下的保險業所呈現出的信息多元化、海量化等特點，使得大量用戶信息以指數級增長趨勢存在于保險行業，多元化的媒體介質輸入導致數據預處理難度加大，用戶的興趣遷移導致構造用戶畫像模糊，而保險行業競爭日趨激烈，高風險性條件情況下保持客戶黏性，降低流失率對企業競爭就顯得尤為重要。

傳統的商業情報分析往往結合數據挖掘技術對歷史數據和已有的用戶信息進行挖掘，發現潛在的未知的具有一定商業價值的信息，但由于以往的客戶數據信息量較小，信息量更換慢，現有的保險業使用的傳統的運營環境和模型難以適應海量數據，以及傳統模型運行速度慢，運行代價高，準確率低，挖掘深度不夠等都是不容忽視的弊端。近些年，隨著大數據技術、人工智能、機器學習在工程和學術界的火熱發展，相關的數據模型都發展得十分完善充分，而決策樹其良好的魯棒性，全樣本挖掘性，準確度高，實施快捷，運行速度快，實現成本小都是它的優勢所在。

故本文首先引入“數據湖”的概念以緩解傳統數據處理處理異質數據問題，適應不同數據源存儲介質的需求，引入使用可擴展性大數據分析模型獲取用戶的興趣遷移特征，應用算法基于CART決策樹算法模型并以某保險公司具體用戶數據為實例構建應用場景進行模型訓練和數據預測，并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長、效率較低、準確度不高等問題。

2 基于決策樹C4.5算法的數據模型

2.1 模型生成描述

數據基本處理：原始用戶數據錄入，形成基礎數據湖，并將數據導入HBase和Oracle數據庫中，對數據選取加工預處理并對數據進行選表、選鍵、連接器層選擇以匹配數據模型，通過數據表的前期基本處理清洗篩選形成基礎寬表，在形成寬表基礎上再對數據清洗機進行標準化處理，對樣本數據做簡單的描述統計、缺失值處理以及標準化（分層處理）工作。

模型生成：調用Apache Spark 中的Mllib決策樹中的類庫，根據樣本數據和用戶情景生成初始模型，對生成的模型進行訓練集和驗證機選取，我們此處以7/3原則進行選取，對大數據模型進行訓練，將數據抽樣導出到數據中介Oracle中，將傳統的SAS數據挖掘模型訓練導入JAR中以便對比，至此基本的模型池生成，經訓練測試后的用戶反饋信息對模型的各個參數進行調試，并對外發布服務模型，模型中所設計重要參數如表1所示。

數據預測：根據服務模型和用戶輸入的基本信息屬性進行加工，并對模型的預測產生結果集，再根據結果集進行場景信息預測并生成用戶畫像。

2.2 決策樹C4.5算法

3 實證研究

3.1 實驗數據

基于某保險公司的用戶數據，由于數據本身來源差異和獲取方式的不同，導致“數據湖”中本身存在大量的不完整、不一致、含噪聲和冗余數據，所以需要對數據進行一個簡單的處理分析工作，其一，減少數據集變量間的冗余，方便模型挖掘數據的效率和輸出預測信息的簡潔；其二，提高數據屬性列間的相關性，去掉關聯性較高的數據屬性列，如保險繳費與收入屬性具高相關性；其三，由于決策樹模型運行時離散型數據進行處理速率較快，故多連續性數據進行離散化處理。

數據選取基本上對寬表的行列維度數據進行處理，由于在實際過程中對數據生成一個大約20個屬性列的寬表，數據選擇可以避免數據處理時發生高維數據災難，并且在數據處理過程中進行部分數據歸一化處理，以適應模型的匹配度。見表1。

3.2 分析工具和平臺

本模型運行平臺基于Hadoop分布式文件系統，其良好的高容錯性和高吞吐數據訪問比較適合大規模數據集的應用，本模型應用的環境基于HDFS的基本運行環境，使用Python數據處理語言，操作系統版本：CentOS release 6.5（Final），搭建集群6臺，各個設備相關信息：Intel（R），E5606，@2.13GHz，2128.000MHz，cache size：8192KB。

3.3 模式評估與應用

算法模型的運行結果展示出哪些因素影響客戶流失的決策，通過評估可以得到更為有價值的客戶信息，評估方法有準確率，召回率，F1-score，PR，ROC等，其中，真正TP：樣本類型被數據模型正確歸類預測命中正確類的數量；假負FN：樣本類型被數據模型誤判為其他類型的數量；假正FP：樣本不屬于正確類別被數據模型誤判為正確類別的數量；真負TN：樣本類型屬于正確類別被數據模型誤判為其他類型的數量。

全樣本數據運行模型的結果展示見表2。

經結果發現這里采用準確率、召回率以及F1_score，抽取用戶的預測值與評分值進行模型檢驗，得到值均在合理值范圍，模型運行時間2320.34s，較傳統的SAS跑出的34min23s，較為高效，據此此模型可以投入運用。

4 結論與展望

論文借助“數據湖”挖掘模型實現了保險業的用戶流失率檢測，取得了以下結論。第一，論文建立在HDFS運行環境中，一方面，通過對決策樹基本特點的研究，找到了決策樹與保險業用戶流失率的結合點，建立了基于用戶數據湖的大數據模型；另一方面，模型基于開源HDFS環境中，具有良好的可擴展性。第二，根據信息論的相關理論概念引入信息熵和客戶價值率，提高對客戶數據屬性分類的準確性，本文最后結合實例對所提出的模型進行驗證，證明數據模型的可靠性。

本文引入“數據湖”的概念以緩解傳統數據處理異質數據問題，極好地適應不同數據源存儲介質的需求，并引入使用可擴展性大數據分析模型以便適應用戶的興趣遷移，通過數據挖掘技術提高銷售凈利率，擴大企業市場所占份額，識別客戶等級，誠信度和價值率，降低企業風險，預測預警以及制訂相應的決策計劃，降低用戶流失率提高忠誠度，本文基于CART算法模型以某保險公司用戶數據具體數據為實例構建應用場景進行模型訓練和數據預測，并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長效率較低準確度不高等問題。

由于時間和硬件環境的制約，本文仍存在一些有待進一步改進和深入研究的地方。第一，論文對于數據挖掘算法采用較為經典的決策樹方法，在數據處理時采用常規處理方法難免會導致部分數據的缺失和預測準確率的下降；第二，本文研究中數據均居于有限的數據集，隨傳輸媒介的變化，用戶的時間維度并未良好地考慮進去，對用戶仍舊缺乏較時間維度及其用戶標簽等級的良好劃分。

參考文獻：

[1]孟小峰，慈祥. 大數據管理：概念、技術與挑戰[J]. 計算機研究與發展，2013（1）：146-169.

[2]王艷. 中國保險公司制度變遷與創新研究[D].長春：吉林大學，2014.

[3]丁兆云，賈焰，周斌. 微博數據挖掘研究綜述[J]. 計算機研究與發展，2014（4）：691-706.

[4]Quinlan J R.C4.5 Programs for Machine Learning[M].California：Morgan Kaufmann，San Mateo，1993.

[5]趙強利，蔣艷凰，盧宇彤. 具有回憶和遺忘機制的數據流挖掘模型與算法[J]. 軟件學報，2015（10）：2567-2580.

[6]徐鵬，林森. 基于C4.5決策樹的流量分類方法[J]. 軟件學報，2009（10）：2692-2704.

[7]陳文偉.數據挖掘技術[M].北京：北京工業大學出版社，2002.