999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹C4.5算法的大數據保險業模型研究

2017-02-28 19:35:47李飛齊林
中國市場 2017年2期
關鍵詞:大數據

李飛+齊林

[摘要]如今大數據背景下客戶信息數據呈現指數級增長趨勢,盈利企業亟須通過大數據分析發現客戶更深層次的潛在信息從而降低客戶流失率,尤其是流動率高的保險行業性質企業。保險公司力求穩定增長的市場占有率和經濟效益就需要通過數據挖掘來不斷發現潛在客戶價值,此時數據的多元性和數據量成為有效快速挖掘用戶信息的瓶頸。文章引入“數據湖”的概念結合HDFS構建集群式的大數據模型,并引入價值率來對客戶進行分析,構建用戶畫像,幫助公司深度理解客戶特征降低客戶流失率。

[關鍵詞]大數據;決策樹;價值率;保險

[DOI]10.13939/j.cnki.zgsc.2017.02.071

1 引 言

隨我國經濟快速增長,人民收入不斷增加,保險業也呈現出高速發展的趨勢,自國內恢復業務以來,保險業相比金融領域的其他行業,取得了不小的成績。新時代背景下的保險業所呈現出的信息多元化、海量化等特點,使得大量用戶信息以指數級增長趨勢存在于保險行業,多元化的媒體介質輸入導致數據預處理難度加大,用戶的興趣遷移導致構造用戶畫像模糊,而保險行業競爭日趨激烈,高風險性條件情況下保持客戶黏性,降低流失率對企業競爭就顯得尤為重要。

傳統的商業情報分析往往結合數據挖掘技術對歷史數據和已有的用戶信息進行挖掘,發現潛在的未知的具有一定商業價值的信息,但由于以往的客戶數據信息量較小,信息量更換慢,現有的保險業使用的傳統的運營環境和模型難以適應海量數據,以及傳統模型運行速度慢,運行代價高,準確率低,挖掘深度不夠等都是不容忽視的弊端。近些年,隨著大數據技術、人工智能、機器學習在工程和學術界的火熱發展,相關的數據模型都發展得十分完善充分,而決策樹其良好的魯棒性,全樣本挖掘性,準確度高,實施快捷,運行速度快,實現成本小都是它的優勢所在。

故本文首先引入“數據湖”的概念以緩解傳統數據處理處理異質數據問題,適應不同數據源存儲介質的需求,引入使用可擴展性大數據分析模型獲取用戶的興趣遷移特征,應用算法基于CART決策樹算法模型并以某保險公司具體用戶數據為實例構建應用場景進行模型訓練和數據預測,并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長、效率較低、準確度不高等問題。

2 基于決策樹C4.5算法的數據模型

2.1 模型生成描述

數據基本處理:原始用戶數據錄入,形成基礎數據湖,并將數據導入HBase和Oracle數據庫中,對數據選取加工預處理并對數據進行選表、選鍵、連接器層選擇以匹配數據模型,通過數據表的前期基本處理清洗篩選形成基礎寬表,在形成寬表基礎上再對數據清洗機進行標準化處理,對樣本數據做簡單的描述統計、缺失值處理以及標準化(分層處理)工作。

模型生成:調用Apache Spark 中的Mllib決策樹中的類庫,根據樣本數據和用戶情景生成初始模型,對生成的模型進行訓練集和驗證機選取,我們此處以7/3原則進行選取,對大數據模型進行訓練,將數據抽樣導出到數據中介Oracle中,將傳統的SAS數據挖掘模型訓練導入JAR中以便對比,至此基本的模型池生成,經訓練測試后的用戶反饋信息對模型的各個參數進行調試,并對外發布服務模型,模型中所設計重要參數如表1所示。

數據預測:根據服務模型和用戶輸入的基本信息屬性進行加工,并對模型的預測產生結果集,再根據結果集進行場景信息預測并生成用戶畫像。

2.2 決策樹C4.5算法

3 實證研究

3.1 實驗數據

基于某保險公司的用戶數據,由于數據本身來源差異和獲取方式的不同,導致“數據湖”中本身存在大量的不完整、不一致、含噪聲和冗余數據,所以需要對數據進行一個簡單的處理分析工作,其一,減少數據集變量間的冗余,方便模型挖掘數據的效率和輸出預測信息的簡潔;其二,提高數據屬性列間的相關性,去掉關聯性較高的數據屬性列,如保險繳費與收入屬性具高相關性;其三,由于決策樹模型運行時離散型數據進行處理速率較快,故多連續性數據進行離散化處理。

數據選取基本上對寬表的行列維度數據進行處理,由于在實際過程中對數據生成一個大約20個屬性列的寬表,數據選擇可以避免數據處理時發生高維數據災難,并且在數據處理過程中進行部分數據歸一化處理,以適應模型的匹配度。見表1。

3.2 分析工具和平臺

本模型運行平臺基于Hadoop分布式文件系統,其良好的高容錯性和高吞吐數據訪問比較適合大規模數據集的應用,本模型應用的環境基于HDFS的基本運行環境,使用Python數據處理語言,操作系統版本:CentOS release 6.5(Final),搭建集群6臺,各個設備相關信息:Intel(R),E5606,@2.13GHz,2128.000MHz,cache size:8192KB。

3.3 模式評估與應用

算法模型的運行結果展示出哪些因素影響客戶流失的決策,通過評估可以得到更為有價值的客戶信息,評估方法有準確率,召回率,F1-score,PR,ROC等,其中,真正TP:樣本類型被數據模型正確歸類預測命中正確類的數量;假負FN:樣本類型被數據模型誤判為其他類型的數量;假正FP:樣本不屬于正確類別被數據模型誤判為正確類別的數量;真負TN: 樣本類型屬于正確類別被數據模型誤判為其他類型的數量。

全樣本數據運行模型的結果展示見表2。

經結果發現這里采用準確率、召回率以及F1_score,抽取用戶的預測值與評分值進行模型檢驗,得到值均在合理值范圍,模型運行時間2320.34s,較傳統的SAS跑出的34min23s,較為高效,據此此模型可以投入運用。

4 結論與展望

論文借助“數據湖”挖掘模型實現了保險業的用戶流失率檢測,取得了以下結論。第一,論文建立在HDFS運行環境中,一方面,通過對決策樹基本特點的研究,找到了決策樹與保險業用戶流失率的結合點,建立了基于用戶數據湖的大數據模型;另一方面,模型基于開源HDFS環境中,具有良好的可擴展性。第二,根據信息論的相關理論概念引入信息熵和客戶價值率,提高對客戶數據屬性分類的準確性,本文最后結合實例對所提出的模型進行驗證,證明數據模型的可靠性。

本文引入“數據湖”的概念以緩解傳統數據處理異質數據問題,極好地適應不同數據源存儲介質的需求,并引入使用可擴展性大數據分析模型以便適應用戶的興趣遷移,通過數據挖掘技術提高銷售凈利率,擴大企業市場所占份額,識別客戶等級,誠信度和價值率,降低企業風險,預測預警以及制訂相應的決策計劃,降低用戶流失率提高忠誠度,本文基于CART算法模型以某保險公司用戶數據具體數據為實例構建應用場景進行模型訓練和數據預測,并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長效率較低準確度不高等問題。

由于時間和硬件環境的制約,本文仍存在一些有待進一步改進和深入研究的地方。第一,論文對于數據挖掘算法采用較為經典的決策樹方法,在數據處理時采用常規處理方法難免會導致部分數據的缺失和預測準確率的下降;第二,本文研究中數據均居于有限的數據集,隨傳輸媒介的變化,用戶的時間維度并未良好地考慮進去,對用戶仍舊缺乏較時間維度及其用戶標簽等級的良好劃分。

參考文獻:

[1]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013(1):146-169.

[2]王艷. 中國保險公司制度變遷與創新研究[D].長春:吉林大學,2014.

[3]丁兆云,賈焰,周斌. 微博數據挖掘研究綜述[J]. 計算機研究與發展,2014(4):691-706.

[4]Quinlan J R.C4.5 Programs for Machine Learning[M].California:Morgan Kaufmann,San Mateo,1993.

[5]趙強利,蔣艷凰,盧宇彤. 具有回憶和遺忘機制的數據流挖掘模型與算法[J]. 軟件學報,2015(10):2567-2580.

[6]徐鵬,林森. 基于C4.5決策樹的流量分類方法[J]. 軟件學報,2009(10):2692-2704.

[7]陳文偉.數據挖掘技術[M].北京:北京工業大學出版社,2002.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 97视频在线观看免费视频| 午夜视频在线观看免费网站 | 日韩午夜片| 国产精品无码影视久久久久久久| av一区二区无码在线| 久久精品最新免费国产成人| 欧美精品另类| 找国产毛片看| 国产女人在线| 久久综合五月| 四虎永久免费地址| 久久男人视频| 老色鬼久久亚洲AV综合| 性色一区| 亚洲欧美日韩视频一区| 国产人人射| 久无码久无码av无码| 粗大猛烈进出高潮视频无码| 久草视频一区| 国产一级做美女做受视频| 区国产精品搜索视频| 精品国产欧美精品v| 国产精品视频观看裸模| 99re视频在线| 超清无码一区二区三区| 日本午夜精品一本在线观看| 四虎AV麻豆| 欧美高清日韩| 免费视频在线2021入口| 亚洲成人高清无码| 亚洲欧美日韩另类在线一| 99视频在线精品免费观看6| 国产精品无码久久久久久| 国产精品无码制服丝袜| 国产精品v欧美| 亚洲国产精品日韩欧美一区| 精品国产自| 九色91在线视频| 国产福利免费在线观看| 国产精品自在拍首页视频8| 国产一区亚洲一区| 成人精品午夜福利在线播放| 国产第三区| 亚洲欧洲日本在线| 国产精品内射视频| 无码在线激情片| 综合网天天| 色综合狠狠操| 五月天久久综合| 欧美中文字幕一区二区三区| 日韩成人午夜| 国产麻豆福利av在线播放| 午夜不卡视频| 成年片色大黄全免费网站久久| 性喷潮久久久久久久久| 2021国产精品自拍| A级毛片高清免费视频就| 日韩欧美中文字幕在线韩免费| 精品無碼一區在線觀看 | 色婷婷国产精品视频| 亚洲 欧美 日韩综合一区| jizz在线观看| 国产美女无遮挡免费视频网站| 国产精品免费电影| 又粗又硬又大又爽免费视频播放| 国产亚洲视频播放9000| 久热re国产手机在线观看| 久久中文无码精品| 免费看的一级毛片| 亚洲综合精品第一页| 在线观看亚洲国产| 亚洲综合18p| 超碰免费91| 欧美色综合网站| 国产91高跟丝袜| 视频国产精品丝袜第一页| 国产农村1级毛片| 亚洲日韩图片专区第1页| 成人国产精品一级毛片天堂| 狠狠ⅴ日韩v欧美v天堂| 久久精品国产国语对白| 欧美第二区|