基于RFMS的高速公路客戶商業價值挖掘

2021-04-13 10:58:16翁小雄謝志鵬

重慶交通大學學報(自然科學版) 2021年4期

翁小雄，謝志鵬

(華南理工大學土木與交通學院，廣東廣州510640)

0 引言

隨著我國高速公路車流量不斷增加，高速公路擁堵和道路使用效率不均等問題日益凸顯，車輛出行特征的多元化，對高速公路運營管理也提出了更高的要求。高速公路供給側改革給出了高速公路差異化收費的方向，而差異化收費是解決上述問題的重要措施。高速公路使用者的出行特征差異是高速公路差異化收費的重要基礎，如何對高速公路使用者進行有效劃分，獲取客戶出行特征，提升客戶的商業價值，是進行差異化收費的重要理論支撐。

客戶細分理論是自市場細分理論以來，以客戶行為差異性為基礎的客戶管理模型，從20世紀90年代開始已在銀行、保險、電信等多個領域中得到應用[1]，為實施精準營銷、個性化服務和差異化管理提供了有效的理論來源。在交通領域中客戶出行需求和行為的多元化發展趨勢下，客戶細分RFM模型也得到了廣泛的運用。WEI Zhengzheng等[2]在spark算法框架下，根據RFM模型對高速鐵路乘客的商業價值進行分類；張斌等[3]根據鐵路貨運特點對傳統RFM模型進行改進，提出KFAV模型并對鐵路貨運客戶進行價值分析；H.ZEYBEK[4]對鐵路貨運客戶進行客戶期望分析，為不同的目標客戶群提供差異化服務并開拓新的客戶對象；LIU Jiale等[5]基于RMF模型對航空旅客的當前價值和潛在價值進行分析，設計客戶綜合價值評估框架并挖掘高價值客戶；孫世超等[6]根據公交乘客出行特征，提出了一種通過統計分析，以乘客RFM特征為基礎對公交忠誠度進行定義，并以此作為群體劃分分析模型的特征指標。RFM模型逐漸深入交通領域應用研究中，但目前的研究主要存在以下2種問題：① 未考慮實際應用背景直接使用RFM模型，因不同領域特征重要程度的差異性和不同數據結構的差異性使得應用效果下降；② 考慮了應用背景并對RFM模型進行改進，但在具體算法未對客戶群細分效果進行評估和改進。

對高速公路使用者進行客戶細分，是高速公路管理和服務差異化和精準化的重要基礎，是高速公路差異化收費重要的理論支撐。筆者根據客戶細分理論，結合高速公路背景提出基于RFMS的高速公路客戶商業價值挖掘模型，并對k-means算法初始類簇中心選取和最終聚類效果進行優化，建立Adaboost-k-means++混合算法，以高速公路收費數據為基礎劃分高速公路客戶群并挖掘其商業價值。

1 高速公路客戶商業價值特征

1.1 客戶細分理論

客戶細分是在一定市場環境下，依據客戶的基本性質和購買行為的差異，將客戶總體劃分為異質性較大的子客戶群的過程[7]。RFM模型是美國學者Hughes提出的一套定量分析模型，是目前被廣泛使用的客戶細分理論之一。

RFM模型根據反應客戶商業行為的三項指標，近度R(Recency)、頻度F(Frequency)和值度M(Monetary)對客戶進行分析，并以此區分客戶的商業價值[8]。近度R表示在設定時間節點t0下，時間區間內最后一次購買行為距t0的時間間隔；頻度F表示在時間區間內購買的總次數；值度M表示在時間區間內購買的總消費金額。

1.2 高速公路客戶商業價值計算

由于交通出行者出行目的、個人偏好差異，出行者在不同特征上都具有異質性特點，高速公路出行者也同樣具有異質性特點[9]。高速公路系統屬于收費服務系統，高速公路使用者屬于在高速公路系統內的消費客戶，一次高速公路的進出屬于一次商業行為。為高速公路客戶提供多元化服務，讓全國聯網ETC持續健康發展，是當前高速公路運營中面臨的重要問題之一[10]，因此需要對高速公路使用者的商業價值挖掘。

RFM模型在客戶商業價值挖掘中起到了重要作用，但主要適用于具有一定周期性的商業行為，若客戶的購買行為較為分散或周期較長，RFM模型適用程度將降低[11]。高速公路個體車輛出行周期現象較弱，且不同車輛出行波動較大，需針對高速公路客戶特征，對傳統RFM模型進行改進。

改進模型RFMS包含4個特征，近度R表示時間區間內相鄰兩次出行及最后一次出行與區間末端的時間間隔總和與出行間隔總數的比值，如式(1)：

(1)

式中：ti+1,in為第i+1次出行的入口時刻；ti,out為第i次出行的出口時刻；t0為當次出行所屬周的最后時刻；f為出行總次數。

頻度F表示時間區間內出行總次數與出行天數的比值，計算公式如式(2)：

(2)

式中：d為出行天數。

值度M表示時間區間內收費總金額與出行總次數的比值，如式(3)：

(3)

式中：m為收費總金額。

穩定度S表示車輛出行特征的變化程度。定義時間區間為T，根據時間長度l將T劃分子區間μ1，μ2，…μi,…，μs。取l為一周，出行子區間μi表示第i周出行構成的集合。計算公式如下：

(4)

(5)

(6)

(7)

(8)

依據購買場景為RFM特征設立權重有助于區分客戶的商業價值，考慮權重的RFM模型在不同的應用場景都有廣泛應用[12-14]。考慮高速公路的實際出行特點，根據德爾菲法為四個特征設立如下權重ω=(ωr,ωf,ωm,ωs)=(0.20,0.31,0.33,0.16)，并通過min-max數據標準化方法統一特征指標量綱。

根據四個特征及相應權值，高速公路客戶商業價值v計算公式如式(9)：

(9)

式中：R*為近度標準化值；F*為頻度標準化值；M*為值度標準化值；S*為穩定度標準化值。

2 高速公路客戶細分算法

高速公路客戶商業價值挖掘的需要將客戶根據特征劃分為異質性較大的子群體。聚類的基礎在于數據間特征的相似度，相似度的度量方式則是通過兩數據間的距離[15]。k-means算法是最經典的聚類算法之一，對處理大數據集具有高效和可伸縮性。但也存在3個缺陷：① 初始類簇中心選取的隨機性會影響聚類效果；② 類簇數量的不確定性；③ 大數據集聚類可能出現類簇間及邊緣數據點的小聚類現象，降低類簇間的差異度。為此，筆者采取優化初始類簇中心點選取的k-means++算法，并結合Adaboost集成學習算法進行改進，以減少小聚類現象和提高聚類效果，最后通過輪廓系數SC、Calinski-Harabasz指數和Davies-Bouldin指數評估聚類效果，確定最優類簇數量，得到高速公路異質性客戶群。

2.1 k-means++及Adaboost算法

2.1.1 k-means++

k-means算法由于初始類簇中心選取的隨機性，可能出現選取的類簇中心相距較近的情況，進而影響迭代過程和聚類效果，結果具有一定的波動性和偶然性。

(10)

2.1.2 Adaboost

Adaboost是一種自適應分類算法，核心思想是將在同一訓練集下訓練得到的各弱分類器集成為強分類器。原理為輸入訓練集并對樣本設定初始化權值分布，訓練得到第一個弱分類器，計算訓練集上的分類誤差率并對弱分類器設定權重系數，根據分類誤差率對樣本權值分布進行調整并迭代，得到一組弱分類器。

(11)

式中：I(Gt(xi)≠yi)取值為0或1，取0表示分類正確，取1表示分類錯誤

根據式(12)計算弱分類器Gt(x)權重αt，根據式(13)和(14)更新權值分布ωt+1,i。更新訓練集權值分布后，進行第t+1次迭代，直到et<0.5。假設迭代總次數為T，根據式(15)組合多個弱分類器為強分類器G(x)。

(12)

(13)

(14)

(15)

2.2 基于Adaboost-k-means++的客戶細分算法

k-means聚類以樣本點間的歐式距離作為樣本特征相似度的度量標準。高速公路收費數據的特點是樣本量大且樣本密度較大，在聚類過程中，會出現各邊緣的樣本點分類的模糊性和小聚類現象。為提高聚類各類簇內部相似度和類簇間差異度，提出一種基于Adaboost的改進k-means++算法，優化聚類效果。

根據高速公路收費數據可獲取高速公路客戶商業價值特征RFMS，其中涉及特征提取的收費數據字段如表1。

表1 高速公路收費數據字段說明

高速公路客戶細分算法如下：

第一步：將高速公路客戶特征全樣本數據集U通過k-means++劃分為k個類簇；

第二步：通過質心法判別類簇分布是否合理，是否存在小類簇；

(16)

(17)

若存在小聚類，則執行第三步。若不存在小聚類，則執行第四步。

第三步：定義類簇Mz為小聚類簇，取類簇Mi與Mj(1≤i

(18)

第四步：輸出最終聚類結果

2.3 客戶細分算法評估

最優類簇數和聚類效果的優劣可通過簇內相似度和簇間相似度衡量。簇內相似度越高，簇間相似度越低，則聚類效果越好[16]。筆者選取輪廓系數、CH(Calinski-Harabasz)指數和DB(Davies-Bouldin)指數對聚類算法進行評價。

輪廓系數是通過類簇內不相似度和類簇間不相似度對聚類效果進行評價的內部衡量指標。CH指數是通過計算類簇內各點與類簇質心的距離平方和度量類簇內緊密度，通過計算各類簇質心與數據集中心點距離平方和，來度量類簇間分離度，以分離度和緊密度的比值對聚類效果進行評價的內部衡量指標。CH越大代表著類簇自身越緊密，類簇間越分散，擁有更優的聚類結果。DB指數是根據類簇內樣本點與其類簇中心的距離表示類簇內相似度，類簇中心間的距離表示類簇間分離度，綜合得出的一種評估聚類算法優劣指標，DB越小代表類簇內距離越小類簇間距離越大。

各指標的計算公式如表2。

表2 聚類算法評價指標

3 實例應用及分析

3.1 應用過程

實例選取2018年10月9日—12月9日廣東珠三角地區78條高速公路收費數據，考慮各車型收費費率差異較大，筆者以7座以下小客車作為研究對象。

在數據預處理階段，剔除非研究對象車輛收費數據及免費通行車輛收費數據，并對異常收費數據進行以下處理：① 無出入車牌收費數據予以剔除；② 入口時間大于出口時間或缺出入口時間任意一項，通過當前時段以同一出入口的其他數據字段完整的所有車輛的行程時間平均值作為參考作均值插補，若出入口時間兩項全無予以剔除；③缺失車輛收費數據通過出入口的收費標準進行補充。最終篩選得到194 088 593條收費數據，共計15 041 213輛7座以下小客車。

選取k-means、k-means++和Adaboost-k-means++混合算法分別對數據集以最終類簇數量2～8為目標進行聚類。k-means、k-means++算法的初始類簇數量與最終類簇數量相等。混合算法聚類中出現小聚類現象時，若初始類簇數量為k1與k2的聚類結果得到相同最終類簇數k，則根據聚類結果評價指標值最優原則，通過投票法為兩者計算得分。若初始類簇數量k1聚類結果的輪廓系數優于初始類簇數量k2聚類結果，則前者得1分，反之后者得1分，其他指標同理。得分最高的作為最終類簇數k的聚類結果。

圖1 三類算法評價指標變化

從圖1(a)可以看出，Adaboost-k-means++混合算法和k-means++呈先上升后下降的，類簇數較大時Adaboost-k-means++混合算法的聚類效果較好，k-means的輪廓系數波動性較大，主要受制于初始類簇中心選取的隨機性；從圖1(b)可以看出，在相同類簇數量下混合算法的CH系數大于k-means++，兩者都優于k-means，Adaboost-k-means++混合算法波動性較小；從圖1(c)可以看出，三個算法在類簇數為2～5時DB下降速度較快，后趨于平緩。Adaboost-k-means++混合算法與k-means++算法在最終類簇數為5時輪廓系數和CH指數達到最大值，DB達到最小值；k-means算法的輪廓系數和CH指數分別在類簇數為4和6時取得最大值，DB值在k=6時取最小值。綜上，Adaboost-k-means++混合算法有利于提升高速公路收費數據的聚類效果。同時，根據評價原則確定最優類簇數為5。

3.2 高速公路客戶價值分析

依據Adaboost-k-means++混合算法，得到劃分類簇及特征，并根據客戶商業價值定義客戶類型，結果如表3；根據各類簇劃分結果對各樣本歸屬進行統計得到不同類簇樣本數占總樣本的比例，結果如圖2；對各類簇客戶特征值度M作概率密度擬合如圖3。

圖2 各類簇占比統計

表3 高速公路客戶細分與商業價值結果

圖3 各類簇及總體值度M概率密度分布

從表3和圖2、圖3可以看出不同類簇的特點。類簇1屬于VIP客戶，占比5.75%，客戶群特征為出行值度M遠高于其他類簇客戶群體，以中長距離出行為主，且出行頻次較高。這類客戶由于貢獻度最大，應重點關注其對高速公路服務的評價，提升高速公路服務質量；

類簇2屬于重點價值客戶，占比11.15%，客戶群特征為出行頻度較大，根據該類簇客戶值度的數值密度最大值可得，值度分布集中于18元/次，應重點關注這類群體的高速公路出行時空分布，為客戶出行路徑選取提供更多的信息支持；

類簇3和類簇4屬于中等價值客戶，客戶群特征多數處于總體平均水平，但類簇3各項特征都優于類簇4，兩者出行穩定度較高，客戶價值較低，總體上在高速公路出行中保持相對穩定狀態；

類簇5屬于一般價值客戶，占比不低達到22.06%，客戶群特征出行頻度和值度都較低，以短距離城郊城際出行為主。

VIP客戶、重點價值客戶和一般價值客戶為高速公路差異化收費重點考慮對象，分時段分路段差異化收費有利于VIP客戶和重點價值客戶降低出行成本的同時改善高速公路道路利用狀況，穩定中等價值客戶，吸引和提升一般價值客戶的高速公路出行意愿，減少流失現象。

4 結語

筆者根據客戶細分理論，結合高速公路出行特點提出了高速公路RFMS客戶細分和商業價值挖掘模型，并以高速公路收費數據作為特征提取數據源。考慮k-means算法對于初始類簇中心選取和大數據下的小聚類現象的算法不足，提出Adaboost-k-means++混合算法，通過實例分析得出該算法有利于提高聚類效果，提升客戶集群劃分質量。實證表明聚類分類混合算法能提高類簇劃分效果，提升大數據集下算法的適用性。

筆者對7座以下小客車的客戶細分與商業價值挖掘同樣適用于其他高速公路車型，后續的工作可以通過對不同車型的細分和商業價值比較，進一步探索同等商業價值客戶群下不同車型的特征異質性。