

摘要:客戶價值的不同,給企業帶來的利益不同,因此客戶價值的科學分類成為企業成功的關鍵。針對客戶數據收集的過程中難免會有特殊實例或噪聲數據造成數據的不一致性,把變精度粗糙集的分類質量的量度作為信息函數對客戶價值進行分析,對兩個甚至兩個以上屬性的分類質量量度相等的特殊情形,選擇歸屬度大于[β]的分支數目少的屬性對客戶價值進行分類,最終生成具有置信度的決策樹。實驗表明,該算法能夠有效地處理不一致性數據集,并能合理地將客戶價值進行合理分類,供決策者參考。
關鍵詞:決策樹;變精度粗糙集;置信度;客戶價值;客戶分類;
中圖分類號: TP182? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)25-0193-04
Abstract: Classification of customer value is the key to enterprises success. A decision tree based on Variable Precision Rough Set is applied to the analysis of customer value about the inconsistency in the dataset of customer relationship management. The Measure of Quality of Classification is acted as information function to select the condition attribute in this method, and the maximum number of ownership attributes are acted as the node when two or more attributes have the same value of quality of classification. The method can classify the data set of customer correctly and find some valuable decisions for analysis.
Key words: Decision Tree; Variable Precision Rough Set; Confidence; Customer Value; Customer Classification
隨著“一帶一路”的構建,企業面臨全球競爭,客戶是企業競爭的重點對象,要想讓企業在競爭中獲勝,就要留住老客戶,發展潛在客戶,因此要滿足不同客戶所需要的不同服務。另外不同的客戶給企業帶來的利潤不同,比如占20%的VIP客戶卻可以給企業帶來80%收益,而占80 %的一般用戶給企業只能帶來20%利潤,因此科學的客戶價值分類就非常重要了。現在客戶除了比較產品的價格和質量外,還比較產品的售后、服務態度等方面,為此,客戶關系管理系統[1,2](Customer Relationship Management簡稱CRM)就產生了。CRM可以動態及時地分析客戶的行動大數據,獲取客戶的需求,對客戶的未來行為進行預測,分析客戶的價值,對客戶進行科學的分類,針對不同的客戶提供不同的服務,留住高價值客戶,發展潛在客戶。
但是CRM系統中龐大的數據量阻礙了人們從中發現有價值的客戶關系模式,隨著數據挖掘技術的發展,國內外很多學者也把粗糙集[3,4]、決策樹[5,6]、神經網絡[7,8]等應用到CRM的客戶價值數據信息挖掘中,但是在客戶數據收集的過程中難免會有特殊實例或噪聲數據造成數據的不一致性,從而影響分析的結果。因此本文使用引入置信度和變精度粗糙集的分類質量的量度對經典決策樹進行改造,然后使用改造后的決策樹對客戶的歷史數據進行挖掘,從而避免了不一致信息對預測結果的影響,挖掘出若干合理的客戶數據規律,供企業決策者參考。
1 具有置信度的決策樹模型
1.1決策樹
在數據挖掘中,決策樹[9]算法是一種非常有效的分類方法之一,它是一種樹結構,由結點、分支和葉子組成,其結點用樣本的屬性組成,分枝由屬性的取值組成,葉結點由樣本的類別值構成。它采用自上而下的遞歸方法,根結點是由信息量最大的屬性構成,中間結點是以該結點為根的子樹所包含的樣本中信息量最大的屬性。比較典型的決策樹算法ID3算法[10],由J.R.Quilan在1986年提出,該算法的樹結構的結點選擇了屬性的信息增益最大者。自20世紀60年代以來,決策樹廣泛應用于預測、分類和規則獲取等領域。還有后來的C4.5算法,是對ID3算法的改進,它的樹結構的結點采用信息增益率最大者。這些算法在分類預測中都取得了很好的效果,但是在某些方面都存在著不足,比如針對訓練集數據中難以避免的噪聲數據就沒法處理了,因此難以提高決策樹的泛化能力,所以就有人針對不可避免的噪聲數據,使用變精度粗糙集理論對現有決策樹進行構造[11],取得一定效果。本文根據實際問題,在前人研究的基礎上利用變精度粗糙集理論的最大分類質量量度結合歸屬度對決策樹進行進一步構造,很好地避免了不一致信息對預測結果的影響。
1.2變精度粗糙集模型
Pawlak[12]提出了粗糙集(Rough Set簡稱RS)模型,但是RS理論對近似邊界定義太嚴格,不利于處理噪聲數據,Ziarko[13]等人針對這個問題提出設置[β]閾值參數,來放松近似邊界的定義,其中[0.5<β≤1],就是變精度粗糙集(Variable Precision Rough Set)。隨著[β]增大,變精度粗糙集模型的近似邊界區域變窄,即VPRS意義下的不確定區域變小。當[β=1]時,變精度粗糙集模型就變成了粗糙集模型,因此粗糙集模型是變精度粗糙集模型的一個特例,所以變精度粗糙集模型能夠在一定程度上容忍數據的不一致性,并有利于解決屬性間不確定關系或無函數數據的分類問題。
2 該模型在客戶價值數據分析中的應用
2.1實例分析
對一個企業來說,區分客戶的價值以及發展潛在客戶是非常重要的。客戶價值是指客戶能夠給企業帶來的利潤的高低。不失一般性,以本地區某超市一個月交易記錄為例,隨機從中選取30位顧客的391條記錄。通過數據預處理,并從中隨機抽取19個顧客的數據為訓練集,如表1所示。其中[C={a,b,c,d}]是條件屬性集,[D={e}]是決策屬性。對于條件屬性[a]表示所獲利潤,取值1表示所獲利潤在0~40元之間,2表示40~100元之間,3表示大于100元;條件屬性[b]表示促銷次數,取值1表示促銷次數4次以上,2表示0~4次;條件屬性[c]表示購買頻率,取值1表示8次以上,2表示4~8次,3表示1~4次,4表示0~1次;條件屬性[d]表示最后一次購買至今的天數,取值1表示30天以上,2表示10~30天,3表示0~10天。決策屬性[e]表示客戶價值類別,取值1表示低價值客戶,2表示一般價值客戶,3表示高價值客戶,4表示最高價值客戶。經分析發現該決策表存在不相容信息(例如對象11和16等,條件屬性相同而決策屬性不同)。
用具有置信度的決策樹算法(Confidence_decision_tree)對該數據集進行決策樹的構造,其過程如下:
取[β=0.667],其步驟如下:
(1)數據集[U]取值不純;
(2)分別由Measure_Quality_Classification_algorithm計算出每個條件屬性相對于決策屬性的 [β]分類質量的量度為:[γβ(a,e)=0.5263];[γβ(b,e)=0];[γβ(c,e)=0.053];[γβ(d,e)=0.053];
(3)經過比較可知屬性a的分類質量的量度值最大,所以選擇屬性[a](即所獲利潤)作為決策樹的根結點;
(4)由于屬性[a]取三個不同的值,因此形成決策樹的三個不同分支,其中[a]=1(即表示利潤低于40元)的數據集以75%(即大于[β])屬于同一類別低價值客戶,因此標記為樹葉。當[a]=2(即表示利潤在40~100元之間)時,再遞歸調用本算法,計算得[γβ(b,e)=1],[γβ(c,e)=1],[γβ(d,e)=0.22],計算[xn(b)=2],[xn(c)=4]。所以屬性[b](即促銷次數)符合條件選為子樹的根結點進行進一步構造,當[b]=(0~4)次時,其對應的數據集66.7%(即等于[β])的屬于同一類別一般價值客戶,當[b]=(>4)次時,其對應的數據集66.7%(即等于[β])的屬于同一類別低價值客戶。當[a]=“>100”時,再遞歸調用上述算法,其對應的數據集66.7%(即等于[β])的屬于同一類別高價值客戶。
(5)結束。最終所構造的決策樹如圖1所示。
對于同一數據集采用C4.5算法構造的決策樹如圖2,采用粗糙集理論的決策樹算法構造的決策樹如圖3所示。由于這兩種算法很成熟,在此文中就不再敘述。
分析圖1基于置信度的決策樹模型對客戶價值訓練集進行分析的結果,從根結點到葉子結點得到一條決策規則,葉子結點下方的百分數為該規則的置信度(未作標記的置信度為100%)。可以看出當[β=0.667]時可以得出如下具有置信度的決策規則:
1.IF所獲利潤=“<40”THEN屬于低價值客戶(置信度為75%);
2.IF所獲利潤=“40~100”AND促銷次數=“<4”THEN屬于一般價值客戶(置信度為66.7%);
3. IF所獲利潤=“40~100”AND促銷次數=“>4”THEN屬于低價值客戶(置信度為66.7%);
4.IF所獲利潤=“>100” THEN屬于高價值客戶(置信度為66.7%)。
以第1條規則為例進行解釋置信度的作用,75%的記錄符合所獲利潤為“<40”,那么這類客戶就是低價值的客戶。根據實際情況有可能25%的客戶數據是其他數據類別,即形成了所謂的噪聲數據,因此不失一般性,可以認為不管什么原因,只要所獲利潤小于40元,認為就是低價值的客戶,這樣的規則是合理的。
由以上規則可以看出,所獲利潤基本上決定了客戶類別,如第1條和第3條規則,對于低價值客戶沒必要花費心思去做工作,對于高價值客戶要想辦法保留。對于第2條和第3條規則而言,可以看出,對于低價值客戶如果促銷次數多一些,那么就使從低價值客戶所獲利潤等同于一般價值客戶,因此每個月可以適當地多搞幾次促銷活動來提高所獲利潤。從以上分析可以看出所得規則的合理性及有效性。
2.2結果分析與比較
為了驗證本置信度的決策樹在客戶價值分類中的有效性能,采用硬件實驗環境為:Pentium(R)4, CPU2.40GHZ,,2G內存, 軟件環境:Windows XP 和Matlab6.5,使用表1的數據集,分別使用置信度的決策樹、C4.5算法和基于粗糙集的決策樹進行訓練預測,其結果如表2所示,采用置信度的決策樹模型對該數據集進行預測分析,樹形結構最簡單,產生的規則數目最少,其規則泛化能力最強,不會出現不可分的對象組,也就是所有對象都可分類預測,有效地避免了由噪聲數據帶來的過擬合問題。而采用C4.5算法和基于粗糙集的決策樹對該數據進行分析預測,獲得的決策樹相當復雜,產生的規則數目相對多,并且都或多或少存在不可預測的對象組。例如,在圖2中,符合所獲利潤=“40”,并且購買頻率=“4~8”的記錄這些客戶到底是低價值客戶還是高價值客戶呢?確定不了。
3 結束語
在目前商業競爭日益嚴峻的環境下,把具有置信度的決策樹應用于企業客戶價值分類預測,實驗表明,該方法更加科學實用,而且對產生的規則具有較高的可理解性。和其他決策樹算法相比較,本置信度決策樹算法所得的客戶分類決策規則數量少,并能夠很好避免由噪聲數據所導致的不一致決策表對結果的影響,提高了該算法泛化能力,能夠對特殊實例進行更好的處理,具有實際應用價值,能夠為企業決策者提供更有價值的參考。
參考文獻:
[1] 丁秋林.客戶關系管理[M].北京:清華大學出版社,2003.
[2]? David J. Finnegan, Wendy L. Currie. A multi-layered approach to CRM implementation: An integration perspective[J]. European Management Journal, 2010(28):153–167.
[3] 侯淑源.基于粗糙集和關聯規則的電子商務客戶分類與交叉銷售研究[D].青島:青島科技大學,2018.
[4] 魏娟. 基于粗糙集的知識發現及在CRM中的應用研究[D].哈爾濱:哈爾濱工程大學,2006.
[5] 尹婷,馬軍,覃錫忠等.貝葉斯決策樹在客戶流失預測中的應用[J]. 計算機工程與應用, 2014,50(7):125-128.
[6] 肖進.決策樹分類器融合在CRM客戶分類中的應用研究[J].軟科學,2008,22(9):18-21.
[7] 張獻忠.基于決策樹的旅游CRM 系統的分析和設計[J].現代計算機,2018, (8):97-100.
[8] 覃華,蘇一丹,何慧.基于免疫遺傳神經網絡的CRM數據挖掘模型的設計與實現[J].計算機工程與設計,2005,14:182-184.
[9]? Han jiawei, KamberMicheline.數據挖掘概念與技術[M].北京:機械工業出版社, 2001.
[10] Quinlan J R. Induction of decision trees[J]. Machine Learning,1986,(1):81-106.
[11] 常志玲,張曉玲.增量式的多變量決策樹構造算法研究[J].計算機技術與發展,2011,21(2):90-93.
[12]? Pawlak Z.W. Rough Sets [J]. International Journal of information and Computer Science,1982,11(5):314 -356.
[13]? Z iarko W. Variable precision rough set model [J]. Journal of Computer and System Sciences,1993,46(1):39-59.
[14] 孫潔,周慶敏,常志玲.變精度粗糙集模型在決策樹構造中的應用[J].計算機工程與應用,2007,43(7):195-197.
【通聯編輯:唐一東】