邱文俊
【摘要】 商務智能是從大量的數據和信息中發掘有用的知識、并用于決策以增加商業利潤,是一個從數據到信息到知識的處理過程。在 IBM SPSS Modeler中,使用四種常用的決策樹演算法對顧客流失進行數據挖掘分析,幫助企業對留住顧客做出最有利的決策。
【關鍵字】 企業 顧客流失 數據挖掘 決策樹
一、背景
商務智能是從大量的數據和信息中發掘有用的知識、并用于決策,以增加商業利潤,是一個從數據到信息到知識的處理過程。商務智能輔助商業活動作出快速反應,加快知識的獲取速度,減少企業不確定性因素的影響,滿足管理層和決策層對信息知識的時間性和準確性的要求。超過2000個世界領先的品牌依靠IBM數十載的商務經驗改善業務洞察和執行,幫助企業向客戶和合作伙伴增加交付的價值。政府或企業都需要在海量的信息中獲取有價值的信息,并據此做出科學的評估和決策。SPSS( 社會科學統計程序)是一套集數據信息的采集、處理、分析、評估、預測、并給出專業人士可接受解決方案的軟件。IBM在收購SPSS后發布了IBM SPSS,在原有SPSS基礎上融入商務智能理念,拓展了分析、評估、預測模型,具有了更加豐富強大的智能決策支持能力。
二、問題分析
市場調查顯示:一個公司平均每年約有10%-30%的顧客卻在流失。但很多公司常常不知道失去的是哪些顧客,更不知道這樣會給他們的銷售收入和利潤帶來怎樣的影響。冷靜地研究分析顧客流失,對于企業挽救危機、健康成長具有十分重要的意義。
顧客流失是現代公司通過計算一位顧客一生能為公司帶來多少銷售額和利潤來衡量顧客價值。尋找他們流失的原因即流失客戶的特征,通過數據處理,根據以前擁有的客戶流失數據建立基本屬性、服務屬性和客戶消費數據與客戶流失可能性的數據模型,找出其潛在的關系,分析出客戶流失的因素,預測客戶是否流失的可能性。對于客戶的基本數據、行為數據及消費數據,進行數據挖掘研究已流失客戶數據,從中找出先前未知的、對企業決策有潛在價值的知識和規則,發掘潛在流失客戶,讓企業適時把握住市場及客戶動態,掌握客戶流失的規律。
三、解決算法
決策樹演算法
人們認識事物時往往先把被認識的對象進行分類,以便尋找其中同與不同的特征,從而構建特征模型。在數據挖掘中一般用規則或決策樹模式表示。
一個決策樹的架構,是由三個部分所組成:葉節點、決策節點以及分支。決策樹演算法的基本原理為:通過演算法中所規定的分類條件對于整體數據進行分類,產生一個決策節點,并持續依照演算法規則分類,直到數據無法再分類為止。在IBM SPSS Modeler中,主要提供了四種常用的決策樹演算法供使用者選擇。使用者可依據數據類型以及分析需求的不同,選擇適當的決策樹演算法進行分析。雖然不同的決策樹演算法有各自適用的數據類型以及演算架構等差異,但概括來說,決策樹的主要原理均為通過演算法所定義的規則,對數據進行分類,以建立決策樹。
①C5.0由C4.5演化而來。此演算法的分類原理主要是利用資訊衡量標準來構建決策樹,并對每一個節點產生不同數目的分支來分割數據,直到數據無法分割為止。C5.0的目標字段測量級別,不適用于連續類型的測量級別。而輸入字段的數據型態則適用連續類型的測量級別。②CHAID此演算法和前述的C5.0概念很像,均可以在每一個節點產生不同數目的分支來分割數據,用來建立決策樹。但是在背后分類的原理則利用卡方分析檢定來進行分支,通過卡方檢定來計算節點中的P-value,來決定數據是否仍須進行分支。另外,CHAID的目標字段的測量級別可適用于連續類型的測量級別,但在輸入字段則只適用分類類型的測量級別。③QUEST此演算法是利用統計方法分割數據,即以判定決策樹是否仍需進行分支,以建立二元的決策樹。QUEST在變數的數據型態限制上,跟C5.0一樣,目標字段測量級別,不適用于連續類型的測量級別。但在輸入字段的測量級別則適用連續類型的測量級別。④C&R Tree 又稱為 CART,構建決策樹的原理是使用Gini Ratio作為判定決策樹是否仍須進行分支的依據,并建立二元的決策樹。此演算法不管是在目標變數以及輸入字段的測量級別均適用連續類型的測量級別做分析。
四、方案對策
隨著國內各種企業的改革,激烈的競爭下各企業都面臨嚴重的客戶流失問題。大量的客戶流失延長了企業利潤回收的周期,給企業造成了巨大的損失。在這種形勢下,如何分析客戶行為預測客戶的流失,并結合競爭環境的變化制定有效的客戶挽留以實現企業利益的最大化,已成為企業的一個重要課題。減少客戶流失的具體措施:開展品牌工程建設、開展個性化服務、做好客戶關系的開發和維持工作、積極參與建立公平的市場秩序、完善自身業務能力、做好營銷隊伍建設等。
參 考 文 獻
[1] 劉小虎,李生. 決策樹的優化算法[J]. 軟件學報. 1998(10)
[2] 王秀巖. 決策樹算法及其應用[J]. 電子技術與軟件工程. 2014(05)