楊靜雅,孫林夫,吳奇石
西南交通大學 信息科學與技術學院,成都610031
客戶細分(Customer Segmentation),是企業在明確的戰略、業務模式和特定的市場中,根據客戶的屬性、行為、需求、偏好以及價值等因素對于客戶進行分類,并提供有針對性的產品、服務和營銷模式的過程[1]。能夠正確評估客戶價值的企業可以對不同客戶提供個性化的服務,在有效管理客戶關系的同時增加企業的利潤[2]。
汽車售后服務供應鏈中的企業包括配件供應商、制造廠和售后服務商。汽車售后服務供應鏈云平臺為實現售后服務供應鏈企業間的業務協同提供了一種基于公共服務平臺的解決方案。作為平臺的增值服務,根據購車客戶在售后服務商處的歷史維修保養數據對客戶細分,將客戶劃分為一個個具有不同特征的客戶群體,對每個客戶群適時地給予個性化的維修保養建議,可以有效改善售后服務質量,提高客戶滿意度,對售后服務供應鏈的發展至關重要。
目前,國內外關于客戶細分的研究中,聚類分析及其改進算法最常用[3-6]。文獻[3]使用K-Means算法對零售業客戶進行細分。文獻[4]運用自組織映射神經網絡對客戶進行聚類,通過對聚類結果進行分析與識別得到4S店客戶細分結果。文獻[5]提出了一種基于k 均值和多變量量子混合蛙跳算法(MQSFLA)的聚類算法,用作電信客戶營銷中的客戶細分。文獻[6]提出了一種基于進化的聚類算法,將元啟發式與核心直覺模糊c 均值(KIFCM)算法相結合,用于女裝銷售客戶細分。然而,這些研究大都基于單一聚類算法或聚類算法與其他數據挖掘算法的結合,沒有完整地揭示數據集的潛在結構,難以獲得精確的聚類結果。
聚類集成[7]算法通過訓練多個基聚類器,充分挖掘數據集的內在特征,再利用共識函數集成所有基聚類結果標簽,得到一個更具魯棒性和穩定性的劃分[8-9]。半監督聚類[10-11]能夠結合少量標簽或者成對約束信息指導聚類過程,利用數據集本身潛藏的先驗知識,使得聚類算法能夠獲取更多的啟發式信息,從而減少搜索過程的盲目性,提高聚類質量。譜聚類算法[12-13]可以在任意形狀的樣本空間上聚類且通過特征分解收斂于全局最優解。本文作者在文獻[14]中同時運用了聚類集成、半監督學習和譜聚類算法的優勢,提出了半監督譜聚類集成算法,用成對約束信息指導聚類集成過程,獲得了較優的聚類效果。現有客戶細分研究中很少運用聚類集成和半監督學習思想,基于此,本文將半監督譜聚類集成算法應用到汽車售后服務客戶細分過程。
此外,客戶細分指標的選擇與細分目的相關,影響細分結果,是客戶細分的關鍵任務。RFM模型[15]是應用最廣泛的一種客戶細分指標模型,模型通過客戶最近一次消費(R)、消費頻率(F)以及消費金額(M)三項指標評估客戶的價值狀況,用于監測客戶消費行為異動、防范重要客戶流失。后來的很多研究都繼承自RFM 模型[16-18,4],做了相應發展。文獻[16]引入總利潤屬性,創建RFP 模型,用于電子商務企業客戶細分;文獻[17]增加購買傾向屬性,提出了RFAT指標模型,用于食品連鎖銷售企業的客戶細分;文獻[18]提出了LRFMP模型,用于對雜貨零售行業的客戶分群。但這些細分指標模型均不適合汽車售后服務客戶保養的場景。文獻[4]雖然針對汽車維修服務業的特點,提出了YKFM客戶細分模型,但不適合本文只研究保修期內客戶的特點,因此無法指導本文研究的汽車售后服務客戶細分。
綜上分析,本文根據汽車售后服務客戶細分的目的及研究對象的特點,設計了RFMD 細分模型;并將半監督譜聚類集成算法應用于細分過程,提出了基于半監督譜聚類集成的售后服務客戶細分方法。
保修期內,客戶對車輛的關注度非常高,對服務商(本文指整車特約服務商和能提供維修保養服務的整車特約經銷商)的依賴度也相當高,關于車輛的幾乎所有的保養與維修都在服務商處進行,是服務商最基本的目標客戶。服務商處也會因此記錄客戶從購車以來的所有維修保養數據,該數據真實反應了不同客戶的駕駛習慣、消費習慣、購買能力、喜好,以及對車輛的使用頻率、使用環境、保養維修頻率等,依據這些數據對客戶細分,可以從不同側面或層次了解客戶、定位客戶,分析客戶的潛在價值,從而有針對性地向客戶提供差異化的產品和服務,提高客戶的滿意度和忠誠度,使客戶在保修期過后仍然選擇到該服務商處維修保養,增加企業利潤。
本文以保修期內的車輛用戶(以下簡稱“客戶”)為研究對象,根據該時期內客戶對車輛的保養情況來細分客戶。對于細分到不同簇的客戶群,根據簇內群體的不同特征推薦與其特征相符的產品和服務,比如向追求高品質的客戶群體推薦中高檔車輛保養產品,而向不太注重品質且購買能力不高的客戶推薦中檔及以下的保養產品;對于細分為同一簇的客戶,可以為其推薦簇內其他客戶購買或使用過的產品和服務,比如某一簇內客戶A除了常規保養外還對車輛進行了漆面護理,那么推測該簇內的客戶B 也傾向做漆面護理,因此,可以嘗試向客戶B推薦漆面護理的保養。
客戶細分的關鍵任務是選擇適當的細分指標。由2.1 節的分析,本文在RFM 模型基礎上,總結如下與車輛保養屬性相關的影響因素,并從中選擇合適的細分指標。
(1)最近一次保養的時間R:從上次保養到當前日期的天數。如果R 大于一定期限,比如半年,則推斷客戶保養習慣較隨性,或不注重保養,需給予其一定提醒。
(2)保養的頻率F:從購車到當前日期內的保養頻率(次數/天數)。F越大,客戶潛在價值越大。
(3)保養的總金額M:這里修正為從購車到當前日期內,每次保養的平均消費金額(總金額/次數)。M 一定程度上反映了客戶的消費習慣和購買能力,M 越大,客戶潛在價值越大。
(4)日均行駛里程D:從購車到最近一次保養日期內,客戶的日均行駛里程(總行駛里程/天數)。日均行駛里程大,預示車輛磨損老化快,需要客戶經常保養來保證車輛的正常使用。因此,D越大,客戶潛在價值越大。
(5)車輛行駛的外部環境E:外部環境包括溫度、濕度和道路狀況等。溫度高,橡膠制品易老化;濕度大,金屬易銹蝕;道路狀況差,輪胎易磨損;等等。
(6)客戶駕駛技術S:駕駛技術好,則車輛不易被剮蹭,剎車片、輪胎等易損件也不易被損耗,因此車輛不需要經常保養;反之,車輛需要經常保養。
其中,(4)(5)(6)因素均可通過保養頻率即因素(2)來體現,然而(4)因素對保養屬性影響較大,并且(5)(6)因素難以量化。綜合考慮,選擇(4)因素與(1)(2)(3)因素一起作為本文的客戶細分指標,即RFMD 細分指標模型。
假定有對象集O={o1,o2,…,on} ,以及這n 個對象的基聚類劃分數目r 。一致函數Γ 被定義為這樣一個映射Nn×r→Nn,將一組聚類的集合映射為一個集成聚類,即Γ:{λ(q)|q ∈{1 ,2,…,r }}→λ ,其中{1 ,2,…,k} }表示將對象集O 聚成K 類的一個劃分。聚類集成的目標是從r 個λ(q)中尋找一個一致性劃分,使其能夠更好地代表所有劃分的特性。
半監督聚類利用先驗知識(成對約束或少量標簽信息)指導聚類過程,減少了搜索的盲目性,提高聚類結果的質量。本文算法利用成對約束先驗信息,mustlinks:M={(oi,oj)|oi和oj屬于同一個 }簇,cannot-links:C={(oi,oj)|oi和oj屬于不同的 }簇,指導聚類集成過程,即半監督聚類集成。
半監督聚類集成不僅要實現聚類集成的目標,而且還要達成一個目標,即:利用成對約束信息學習一個相似度矩陣S,使C 中樣本點間的距離盡可能得大,而M中樣本點間的距離盡可能得小。
圖1 為本文提出的半監督譜聚類集成(SSSCE)框架。具體來講,SSSCE 首先隨機初始化k-means 算法,生成多樣性的基聚類結果{λq|q ∈{1 ,2,…,r }};然后,用基聚類結果標簽向量生成相似度矩陣S,并用成對約束信息修正S。最后,采用譜聚類算法作為一致性函數生成最終聚類結果。
半監督譜聚類集成算法實現步驟如下。
輸入:對象集O={o1,o2,…,on} ,聚類結果的簇數K ,基聚類器數目r ,必連約束樣本點集M ,不連約束樣本點集C
步驟1 生成基聚類器,為聚類集成做準備;
for q=1:r

圖1 半監督譜聚類集成(SSSCE)框架
kq:從中隨機選取
λq=kmeans(O,kq)
end for
步驟2 將基聚類結果的標簽向量轉換成超圖H ;
步驟3 構建相似度矩陣S=HHT,且S ∈Rn×n,H ∈Rn×d;
步驟4 用成對約束信息修正相似度矩陣S:
(1)如果樣本點對(oi,oj)∈M ,則Sij=1;
(2)如果樣本點對(oi,oj)∈C,則Sij=0;
步驟5 以相似度矩陣S 為輸入,運行標準的譜聚類算法;
輸出:對象集O 的K 個簇
在文獻[14]中,通過選取UCI機器學習庫中的16個數據集,已經驗證SSSCE 在MP[19]和ARI[20]指標的衡量下均優于CSPA、HGPA、MCLA、SCE 等聚類集成算法。以下分析SSSCE在汽車售后服務客戶細分中的實驗結果,并與譜聚類算法(SC)和譜聚類集成算法(SCE)的客戶細分結果比較。
西南交通大學和四川省現代服務科技研究院等單位創建的汽車售后服務供應鏈云平臺,自搭建以來,受到了各整車及零配件制造廠的青睞,目前已經為全國5 000 多家與汽車生產相關的上下游企業提供服務,本文依托于該平臺,以某汽車售后服務供應鏈中的售后服務商為實例,以2018 年5 月1 日為當前日期,選取該服務商F12 型汽車在保修期內的357 位客戶的2 623 條歷史保養記錄作為樣本數據。將樣本數據按RFMD 細分指標模型計算整理,形成357×4的矩陣,如表1所示。

表1 F12型汽車客戶的保養相關樣本數據
將樣本數據分別按四個指標由大到小或由小到大排序;根據企業管理中的“二八法則”,每次排序后,分別取各序列中前20%的數據組成四個樣本集合,選取該四個集合中均存在的樣本,組成樣本集M_set1;同理,從各指標序列的后20%中選出樣本集M_set2;設定M_set1中的樣本對和M_set2 中的樣本對均屬于must-links,而同時由M_set1 和M_set2 中的樣本構成的樣本對屬于cannot-links,由此生成成對約束集M 和C。
由于樣本數據存在較大波動,且四個指標的意義、量綱和數值范圍各不相同,需要在聚類前對數據進行歸一化處理[21],歸一化公式如下,歸一化后的數據如表2所示。

式中,xi為樣本數據實際值,xmax=max(xi),xmin=min(xi)。

表2 歸一化后的樣本數據
在汽車售后服務客戶細分等實際應用中,樣本數據的真實標簽無法或很難事先獲知,因此,基于已知標簽的聚類效果評價指標(比如MP、ARI、NMI 等),將不能通過計算得出。故實驗需要選用不依據已知標簽的評價指標,比如Silhouette Coefficient[22]、Calinski-Harabasz Index[23]、Davies-Bouldin Index[24],這三個指標一定程度上均是從簇內的密集程度和簇間的離散程度來評估聚類效果。與Calinski-Harabasz Index 相比,Silhouette Coefficient計算稍顯復雜,Davies-Bouldin Index使用質心距離限制了歐幾里德空間的距離度量,因此,實驗選用Calinski-Harabasz Index 作為評價指標。另外,本文自定義一個損失函數來評估聚類效果,以及估計聚類的簇數。
(1)Calinski-Harabasz Index

其中,n 為樣本數,K 為簇數,BK為簇間的協方差矩陣,WK為簇內數據的協方差矩陣,tr 為矩陣的跡。CH( K )值越大,則聚類效果越好。
(2)損失函數
設c1,c2,…,cK為K 個聚類中心,yik∈{ }0,1 表示樣本oi是否屬于聚類k(0代表“否”,1代表“是”),則損失函數J(c,y)定義如下:

在K 取值一定的情況下,J(c,y)的值越小,表示算法的聚類效果越好。
對于參數r(基聚類器數目)的設置,r 越大,基聚類結果越多樣化,最終聚類結果也將越準確,但考慮到實驗運行效率,r 不能過大,文中實驗設置r 為10;而各基聚類k -means 算法中k(即kq)的取值范圍設置為:。譜聚類算法中參數σ 設置為1。
分別使K 取2、3、4、5、6,依次進行聚類,運行20次取平均值。
(1)SC 算法、SCE 算法和SSSCE 算法的Calinski-Harabasz Index如圖2所示。

圖2 三種算法的Calinski-Harabasz Index
從圖2可以看出,①在K 的五個取值中,SCE算法的Calinski-Harabasz Index 幾乎均大于SC 算法,而SSSCE算法的Calinski-Harabasz Index 也幾乎均大于SCE 算法,由此顯示出聚類集成算法的優勢,以及半監督學習思想的優勢。②三種算法的Calinski-Harabasz Index均在K=4 時取得最大值,可以判斷4為最佳聚類數目。
(2)SC算法、SCE算法和SSSCE算法的損失函數如圖3所示。

圖3 三種算法的損失函數
從圖3看出,①在K 的五個取值中,SCE算法的損失函數均小于SC 算法的損失函數,且二者的“肘點”值均為4(根據經典的“肘點”法,“肘點”值為最佳K 值)。②SSSCE 算法的損失函數變化不大,且始終處于較低值。圖3 印證了由圖2 得出的判斷,即聚類集成和半監督學習使聚類效果更優,且4為最佳聚類數目。
因此,選擇K=4 時SSSCE算法的運行結果為最終聚類結果,四個聚類中心如表3所示。

表3 聚類中心
由表3 和表4 分析各類客戶群的特征,并給出以下保養指導建議:
1類客戶:這類客戶用車多,對車輛保養頻繁,每次保養花費較高,剛做過保養;可以推斷該類客戶對車輛比較依賴,對車輛性能要求高,愛惜車,消費水平較高,對服務商忠誠,對服務商來說是高價值客戶;另外,可以判斷該類客戶的車輛接近保修期,服務商應特別關注該類客戶的需求,盡量做到一對一個性化服務,確??蛻衾^續忠誠,保修期過后不流失。
2類客戶:這類客戶用車時間正常,保養頻率正常,每次保養花費也處于中檔水平;該類客戶占比較大,是服務商盈利的中堅力量,服務商應遵循其保養規律,適時給予相似客戶的保養用品推薦,互通該類客戶群的保養選擇;在保證這類客戶忠誠度的同時,適當引導其消費習慣,提高其消費水平,使這類客戶的保養消費水平逐漸向1類客戶靠攏。

表4 各類的成員數量
3類客戶:這類客戶用車少,保養頻率低,每次保養花費也較低,且已經很久沒做過保養;可以推斷該類客戶對車輛依賴比較低,對車輛性能要求低,不關注也不太愛惜車輛,對車輛消費水平偏低,對服務商來說是低價值客戶;服務商需要關注這類客戶,向其普及保養常識,引導其形成正確正常的用車和保養意識,增加其忠誠度,使其逐漸形成2 類客戶的保養習慣,或者不至于流向競爭企業。
4類客戶:這類客戶用車多,但保養頻率不高,每次保養的花費處于正常偏上水平,已經較長時間沒來保養;可以推斷該類客戶對車輛依賴度高,但不注重保養,這將存在一定的安全隱患;服務商應針對性地提醒其適時保養,規范其保養行為,并適當地給予其保養用品建議,使其形成正確的保養意識,提高其對服務商的依賴度與忠誠度,保修期內外都將對服務商產生較大的潛在價值。
通過分析客戶在售后服務商處的歷史保養記錄,建立了與汽車保養屬性相關的RFMD細分指標模型;基于半監督譜聚類集成算法對售后服務客戶進行細分,實驗結果表明該算法的細分結果優于SC 算法和SCE 算法。對不同客戶群進行特征分析,給出與其特征相符的保養建議。依據客戶其他屬性(比如維修、駕駛等)進行客戶細分,以及進一步優化半監督聚類集成算法(比如調整成對約束集的取法)將是下一步研究的方向。