999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹C4.5算法的大數據保險業模型研究

2017-02-28 19:35:47李飛齊林
中國市場 2017年2期
關鍵詞:大數據

李飛+齊林

[摘要]如今大數據背景下客戶信息數據呈現指數級增長趨勢,盈利企業亟須通過大數據分析發現客戶更深層次的潛在信息從而降低客戶流失率,尤其是流動率高的保險行業性質企業。保險公司力求穩定增長的市場占有率和經濟效益就需要通過數據挖掘來不斷發現潛在客戶價值,此時數據的多元性和數據量成為有效快速挖掘用戶信息的瓶頸。文章引入“數據湖”的概念結合HDFS構建集群式的大數據模型,并引入價值率來對客戶進行分析,構建用戶畫像,幫助公司深度理解客戶特征降低客戶流失率。

[關鍵詞]大數據;決策樹;價值率;保險

[DOI]10.13939/j.cnki.zgsc.2017.02.071

1 引 言

隨我國經濟快速增長,人民收入不斷增加,保險業也呈現出高速發展的趨勢,自國內恢復業務以來,保險業相比金融領域的其他行業,取得了不小的成績。新時代背景下的保險業所呈現出的信息多元化、海量化等特點,使得大量用戶信息以指數級增長趨勢存在于保險行業,多元化的媒體介質輸入導致數據預處理難度加大,用戶的興趣遷移導致構造用戶畫像模糊,而保險行業競爭日趨激烈,高風險性條件情況下保持客戶黏性,降低流失率對企業競爭就顯得尤為重要。

傳統的商業情報分析往往結合數據挖掘技術對歷史數據和已有的用戶信息進行挖掘,發現潛在的未知的具有一定商業價值的信息,但由于以往的客戶數據信息量較小,信息量更換慢,現有的保險業使用的傳統的運營環境和模型難以適應海量數據,以及傳統模型運行速度慢,運行代價高,準確率低,挖掘深度不夠等都是不容忽視的弊端。近些年,隨著大數據技術、人工智能、機器學習在工程和學術界的火熱發展,相關的數據模型都發展得十分完善充分,而決策樹其良好的魯棒性,全樣本挖掘性,準確度高,實施快捷,運行速度快,實現成本小都是它的優勢所在。

故本文首先引入“數據湖”的概念以緩解傳統數據處理處理異質數據問題,適應不同數據源存儲介質的需求,引入使用可擴展性大數據分析模型獲取用戶的興趣遷移特征,應用算法基于CART決策樹算法模型并以某保險公司具體用戶數據為實例構建應用場景進行模型訓練和數據預測,并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長、效率較低、準確度不高等問題。

2 基于決策樹C4.5算法的數據模型

2.1 模型生成描述

數據基本處理:原始用戶數據錄入,形成基礎數據湖,并將數據導入HBase和Oracle數據庫中,對數據選取加工預處理并對數據進行選表、選鍵、連接器層選擇以匹配數據模型,通過數據表的前期基本處理清洗篩選形成基礎寬表,在形成寬表基礎上再對數據清洗機進行標準化處理,對樣本數據做簡單的描述統計、缺失值處理以及標準化(分層處理)工作。

模型生成:調用Apache Spark 中的Mllib決策樹中的類庫,根據樣本數據和用戶情景生成初始模型,對生成的模型進行訓練集和驗證機選取,我們此處以7/3原則進行選取,對大數據模型進行訓練,將數據抽樣導出到數據中介Oracle中,將傳統的SAS數據挖掘模型訓練導入JAR中以便對比,至此基本的模型池生成,經訓練測試后的用戶反饋信息對模型的各個參數進行調試,并對外發布服務模型,模型中所設計重要參數如表1所示。

數據預測:根據服務模型和用戶輸入的基本信息屬性進行加工,并對模型的預測產生結果集,再根據結果集進行場景信息預測并生成用戶畫像。

2.2 決策樹C4.5算法

3 實證研究

3.1 實驗數據

基于某保險公司的用戶數據,由于數據本身來源差異和獲取方式的不同,導致“數據湖”中本身存在大量的不完整、不一致、含噪聲和冗余數據,所以需要對數據進行一個簡單的處理分析工作,其一,減少數據集變量間的冗余,方便模型挖掘數據的效率和輸出預測信息的簡潔;其二,提高數據屬性列間的相關性,去掉關聯性較高的數據屬性列,如保險繳費與收入屬性具高相關性;其三,由于決策樹模型運行時離散型數據進行處理速率較快,故多連續性數據進行離散化處理。

數據選取基本上對寬表的行列維度數據進行處理,由于在實際過程中對數據生成一個大約20個屬性列的寬表,數據選擇可以避免數據處理時發生高維數據災難,并且在數據處理過程中進行部分數據歸一化處理,以適應模型的匹配度。見表1。

3.2 分析工具和平臺

本模型運行平臺基于Hadoop分布式文件系統,其良好的高容錯性和高吞吐數據訪問比較適合大規模數據集的應用,本模型應用的環境基于HDFS的基本運行環境,使用Python數據處理語言,操作系統版本:CentOS release 6.5(Final),搭建集群6臺,各個設備相關信息:Intel(R),E5606,@2.13GHz,2128.000MHz,cache size:8192KB。

3.3 模式評估與應用

算法模型的運行結果展示出哪些因素影響客戶流失的決策,通過評估可以得到更為有價值的客戶信息,評估方法有準確率,召回率,F1-score,PR,ROC等,其中,真正TP:樣本類型被數據模型正確歸類預測命中正確類的數量;假負FN:樣本類型被數據模型誤判為其他類型的數量;假正FP:樣本不屬于正確類別被數據模型誤判為正確類別的數量;真負TN: 樣本類型屬于正確類別被數據模型誤判為其他類型的數量。

全樣本數據運行模型的結果展示見表2。

經結果發現這里采用準確率、召回率以及F1_score,抽取用戶的預測值與評分值進行模型檢驗,得到值均在合理值范圍,模型運行時間2320.34s,較傳統的SAS跑出的34min23s,較為高效,據此此模型可以投入運用。

4 結論與展望

論文借助“數據湖”挖掘模型實現了保險業的用戶流失率檢測,取得了以下結論。第一,論文建立在HDFS運行環境中,一方面,通過對決策樹基本特點的研究,找到了決策樹與保險業用戶流失率的結合點,建立了基于用戶數據湖的大數據模型;另一方面,模型基于開源HDFS環境中,具有良好的可擴展性。第二,根據信息論的相關理論概念引入信息熵和客戶價值率,提高對客戶數據屬性分類的準確性,本文最后結合實例對所提出的模型進行驗證,證明數據模型的可靠性。

本文引入“數據湖”的概念以緩解傳統數據處理異質數據問題,極好地適應不同數據源存儲介質的需求,并引入使用可擴展性大數據分析模型以便適應用戶的興趣遷移,通過數據挖掘技術提高銷售凈利率,擴大企業市場所占份額,識別客戶等級,誠信度和價值率,降低企業風險,預測預警以及制訂相應的決策計劃,降低用戶流失率提高忠誠度,本文基于CART算法模型以某保險公司用戶數據具體數據為實例構建應用場景進行模型訓練和數據預測,并創新性地引入價值率對用戶進行分類解決公司所面臨的處理用戶海量數據時間較長效率較低準確度不高等問題。

由于時間和硬件環境的制約,本文仍存在一些有待進一步改進和深入研究的地方。第一,論文對于數據挖掘算法采用較為經典的決策樹方法,在數據處理時采用常規處理方法難免會導致部分數據的缺失和預測準確率的下降;第二,本文研究中數據均居于有限的數據集,隨傳輸媒介的變化,用戶的時間維度并未良好地考慮進去,對用戶仍舊缺乏較時間維度及其用戶標簽等級的良好劃分。

參考文獻:

[1]孟小峰,慈祥. 大數據管理:概念、技術與挑戰[J]. 計算機研究與發展,2013(1):146-169.

[2]王艷. 中國保險公司制度變遷與創新研究[D].長春:吉林大學,2014.

[3]丁兆云,賈焰,周斌. 微博數據挖掘研究綜述[J]. 計算機研究與發展,2014(4):691-706.

[4]Quinlan J R.C4.5 Programs for Machine Learning[M].California:Morgan Kaufmann,San Mateo,1993.

[5]趙強利,蔣艷凰,盧宇彤. 具有回憶和遺忘機制的數據流挖掘模型與算法[J]. 軟件學報,2015(10):2567-2580.

[6]徐鵬,林森. 基于C4.5決策樹的流量分類方法[J]. 軟件學報,2009(10):2692-2704.

[7]陳文偉.數據挖掘技術[M].北京:北京工業大學出版社,2002.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 亚洲日韩Av中文字幕无码| 99草精品视频| 国产黄在线免费观看| 国产香蕉一区二区在线网站| 91小视频版在线观看www| 有专无码视频| 欧美午夜在线视频| 日韩天堂网| 中文精品久久久久国产网址 | 国产久草视频| 婷婷五月在线| 欧美亚洲综合免费精品高清在线观看| 欧美日韩理论| 亚洲欧美精品日韩欧美| 国产成人高清精品免费| 狠狠亚洲五月天| 久草中文网| 亚洲中文字幕久久无码精品A| 免费A∨中文乱码专区| 久久精品中文字幕免费| 成人中文在线| 国产精品第页| 996免费视频国产在线播放| 网友自拍视频精品区| 精品少妇人妻无码久久| 91成人在线观看| 成人毛片免费在线观看| 欧美日韩成人| 1024国产在线| а∨天堂一区中文字幕| 女同久久精品国产99国| 日本欧美中文字幕精品亚洲| 综合亚洲网| 国产欧美精品一区二区 | 精品国产免费第一区二区三区日韩| 综合五月天网| 亚洲国产日韩一区| 国产精品99r8在线观看| 久久精品无码国产一区二区三区| 欧美国产成人在线| 国产精品自拍露脸视频| 无码人妻免费| 欧美日本中文| 午夜影院a级片| 欧美 亚洲 日韩 国产| 亚洲永久色| 日本亚洲国产一区二区三区| 无码精油按摩潮喷在线播放 | 色综合婷婷| 亚洲国产高清精品线久久| 91国语视频| 波多野结衣国产精品| 亚洲无码37.| 秋霞午夜国产精品成人片| 中文字幕啪啪| 久草热视频在线| 亚洲欧美在线综合图区| 高潮毛片免费观看| 国产精品丝袜在线| 在线无码九区| 三级欧美在线| 日韩高清中文字幕| 日韩 欧美 小说 综合网 另类| 亚洲精品欧美重口| 国产18在线| 国产av色站网站| 九九久久99精品| 小说 亚洲 无码 精品| 国产区在线观看视频| 国产综合欧美| 天堂岛国av无码免费无禁网站| 在线观看国产精美视频| 精品午夜国产福利观看| 欧美精品不卡| 久久久久国产精品嫩草影院| 日韩高清在线观看不卡一区二区| 国产精品无码久久久久AV| 国产亚洲男人的天堂在线观看 | 久久综合五月| 欧美亚洲国产日韩电影在线| 国产小视频免费观看| 在线观看亚洲天堂|