摘要: 基于大數據背景下的客戶關系管理,著眼于B2C電子商務企業,本文構建了客戶分類指標體系,采用因子分析和Bagging模型對一家電商銷售數據進行了研究,展示了大數據背景下客戶關系管理的具體操作。本文發現,通過對以往消費者行為數據的分類,管理者能夠區分出潛在、核心和流失客戶;Bagging模型能夠預判客戶類型,從而指導管理者進行差異化的客戶關系管理。
關鍵詞:大數據;客戶關系管理;客戶分類;數據挖掘
中圖分類號:F224.1 文獻標識碼:A
引言與文獻述評
隨著信息技術的發展,多種多樣、來源廣泛的數據以不同形式飛速增長和積累。這些數據數量巨大,種類各異。在大數據時代中,如何從客戶信息挖掘價值,升級已有客戶關系管理模型,是一個全新的話題。具體而言,大數據的出現,提高了各種信息的復雜度,數據體量和產生速度,但同時也提高了每一個客戶的信息精準度。對于現在的許多企業尤其是在網絡上進行交易的電子商務企業,數據分析和信息獲取對其具有重要的商業意義。本文著眼于B2C企業,將給出基于大數據,利用數據挖掘技術進行客戶關系管理的方法,我們主要著眼于電子商務領域中的B2C(即Business-to-Customer)電子商務企業。
近年來,“大數據”成為研究的熱點問題,在零售、醫療、電信、金融、制造等行業都得到了廣泛關注及研究[1]。同時,大數據也在學術界引起了廣泛的關注。Science期刊在2011年2月推出的關于數據處理的專刊“Dealing with Data”,分析了數據洪流(Data Deluge)可能會帶來的挑戰,并進一步說明大數據在今后科研領域的重要性[2]。
如今在買方市場環境的主導下,顧客角色從被動采購逐步轉換為企業新產品、新服務的共同開發者以及企業的合作者、價值創造者等。客戶關系管理的研究最早源于西方的市場營銷理論。Gartner Group公司率先提出客戶關系管理(Customer Relationship Management,CRM),即客戶關系管理是通過客戶細分來最大化了解客戶,組織管理企業,采取滿足客戶需求或加強客戶與供應商之間的聯系的手段,并通過該手段增加企業收入以及提高客戶滿意度。早期研究主要側重理論的探討,后期發展集中在實用角度。Gartnet Group、Carlson Marketing Group、Hurwitz Group等大型公司都積極地推出他們的客戶關系管理理念。IBM、Oracle公司也相繼推出CRM系統[3]。部分學者也發現客戶價值與公司績效、公司價值之間具有較高的相關性。
國內針對客戶管理的研究更偏向理論性。王健康和寇紀淞[4]構建了客戶關系價值鏈模型,齊佳音等[5]提出評價客戶-企業價值的價值評價體系;劉英姿等[6]構建了一個將企業價值和客戶價值聯系起來的價值鏈模型,表明了企業價值與客戶價值之間聯系與互動的過程,企業必須從客戶視角來分析企業的價值增值過程,結合客戶需求的狀況,通過更經濟、更有效的方法提供更有價值的產品和服務,增大客戶感知價值,從而提高客戶忠誠度,進而提升企業的客戶價值。
綜合現有研究來看,客戶關系管理的研究中,較少涉及應用大數據來指導企業的營銷活動。本文的研究將基于大數據背景下的客戶關系管理,著眼于B2C電子商務企業,構建客戶分類指標體系,采用因子分析和集成學習模型對一家電商銷售數據進行了研究,展示了大數據背景下客戶關系管理的具體操作。
1、大數據與客戶關系管理
在大數據的背景下,企業必須通過對客戶交互信息的不斷搜集、處理、分析和挖掘來了解客戶的需求與喜好,借此來為客戶提供更加個性化的服務,從而實現客戶關系管理的目標。
在我國,電子商務是從B2B(Business to Business)發展而來的,然后有了C2C(Consumer to Consumer)和B2C(Business to Business)兩種商業模式。在我國獨特的經濟環境下,B2C商業模式的發展受居民生活水平、物流行業發展、在線支付的完善程度、網絡普及程度等因素的制約,這些決定了B2C的商業模式較適合一級城市和一些較為發達的二級城市。今天,B2C電子商務以其靈活的交易手段、低成本高收益的營銷模式、快捷的物流配送支持等優勢成為電子商務的業態中發展最迅速同時也是最具有生命力的商業模式。B2C商業形式的電子商務主要是指網絡零售業借助于互聯網開展在線的銷售活動。同時,B2C電子商務正在深刻地改變著經濟、市場和產業結構,改變著產品、服務及競爭模式,同時也改變著消費者的價值和行為以及就業形勢和勞動力市場結構。
電子商務行業的快速發展和激烈競爭,使這個行業的變化加快,對于電子商務企業的經營者,要想在瞬息萬變的行業趨勢中做出最快的反應,就必須擁有準確預判的能力,從而,學習運用數據挖掘技術成為必要。因此,大數據挖掘對于電子商務尤為重要。特別是傳統企業,如果想要在網絡上勝出,必須與互聯網接軌,將互聯網信息運用到企業中。
客戶關系管理就是通過與信息技術的結合,收集、整理、分析客戶信息,對客戶行為深入研究,為了優化企業資源配置,降低企業成本,以客戶為中心開展企業的各項業務,為企業決策提供依據的管理理念。客戶關系管理最終要解決的是企業的市場和客戶資源分配問題。企業希望通過客戶關系管理能夠提高效率、為客戶提供更加優質的服務、擴大銷售、降低成本,實現客戶和企業的雙贏局面。
以下典型的商業行為可以通過數據挖掘得以解決:以數據庫營銷、客戶群體劃分、背景分析、交叉銷售等為主要方式的市場分析行為以及客戶流失性分析、客戶信用記分、欺詐發現等。數據挖掘廣闊的應用平臺依賴于電子商務領域豐富的信息資源,并能極大地提高企業提煉信息的能力。本文主要討論數據挖掘在電子商務CRM中的應用,其主要體現發現潛在客戶、分析客戶價值、客戶保持、建立推薦系統、分析客戶滿意度、改善網站設計、客戶信用分析等。
為保證數據挖掘完全有效地進行,本文將電子商務企業用戶數據挖掘分成四個大階段,每個大階段中又細分成了很多個細節作為小階段,并且整個過程通過遞歸迭代的方式得到最優模型,再將理論最優模型從商業的角度進行模式評估,確保理論與實際的統一,提高模型的準確度。如下圖所示:
2、模型的構建
電子商務企業面臨的顧客眾多,每天店鋪的點擊量、商品收藏數、逗留時長、消費金額等數據非常繁雜。為了提高效益,企業可以從這些數據中挖掘有用的客戶信息,對客戶進行分類,從而進行差異化的營銷手段,提高客戶關系管理水平。企業可以從交易記錄中獲取數據,電商企業的客戶交易數據能全面說明客戶的購買行為,具有不涉及個人隱私、易獲得且高準確度等特點。而在大數據時代,可以獲取結構化和非結構化的數據,包括客戶性別、年齡、關聯的社交賬號、商品鏈接分享、口碑傳遞等數據。
2.1 客戶分類指標體系的構建
(1)指標體系構建原則
建立客戶分類模型的基礎是指標體系的構建,指標選擇的好壞直接決定客戶分類的質量,因此,建立客戶分類指標體系,應遵循科學性原則、全面性原則、可操作性原則、恰當性原則。
(2)指標體系的確定
在B2C電子商務中,客戶的信息可以分成三類:客戶人口統計學特征、行為特征、客戶價值信息[7,8]。對于人口統計學特征,我們選取年齡、性別以及個人月收入這三個指標,受教育程度與婚姻狀況也是影響購買行為的重要指標,但是因為不易獲得,因此舍棄;對于行為特征,選取了逗留時長與瀏覽次數這兩個指標;對于客戶價值,我們則選取了總消費金額和年均消費金額這兩個反映過去價值的指標以及最近1個月消費額和最近3個月消費額這兩個反映當前價值的指標。詳細的指標體系如表1。
2.2 客戶分類模型的建立
客戶分類模型的總體框架。基于B2C電子商務企業的客戶分類模型的總體框架如圖2,具體說明如下:
(1)提取指標。根據設計好的客戶分類指標體系,從客戶資料數據庫中提取相應的指標。
(2)因子分析。運用因子分析法,找出潛在的那些影響對客戶進行分類結果的因素,最終確定需要應用的因子的個數、各因子的得分以及它們各自的權重。
(3)根據(2)的因子得分,進行K-means聚類。
(4)用Kruskal-Wallis檢驗算法對聚類結果進行檢驗。
(5)若聚類結果通過檢驗,進入(6),若沒有通過檢驗,調整分類類別,直到通過為止。
(6)根據聚類結果,分析每一類客戶的性質,定義客戶類型,并將分類結果反饋到客戶資料數據庫。
2.3 構建預測模型
在對客戶進行分類后,電商企業將得到不同類型客戶的具體特征,而根據這些特征我們可以采用Bagging等集成學習算法對未來的客戶進行預測,來判斷一個客戶屬于什么類型,從而在開始便對客戶進行有針對性的客戶關系管理以提高客戶的滿意度。Bagging算法是基于Bootstrap的采樣方式下的分類算法,其主要原理是通過投票這一自然方法來解決通過隨機選取的相同規模訓練集所產生的不同歸納結果來進行組合[9]。一般而言,由不同訓練集所產生的可供投票的分類器越多,投票所產生的結果就越可靠。
(1)Bootstrap采樣方法
在這過程中,我們需要應用Bootstrap的采樣方法,故以下先對Bootstrap采樣方法進行介紹:
Bootstrap的思想是:基于放回采樣,對樣本規模為n的隨機數據集放回采樣n次,每次隨機抽出一個樣本,然后由著n個樣本構成一個規模為n的訓練集,這樣就會出現原來數據集中的有的樣本會不出現,有的會多次出現的情況。
設數據集規模為n,則某個樣本被選中的概率是1/n,不被選中的概率為(1-1/n),因為新生成的數據集,即訓練集規模也為n,因此某個數據不在訓練集的概率為:
對于一個合理大的數據源而言,新生成的訓練集大約包含0.632的數據集樣本。
但在這種情況下,訓練集僅有約63%的樣本,因此其訓練集的樣本使用率是較低的,為了彌補這一缺點,提高數據的使用率,一般是采取將測試集錯誤率和訓練集錯誤率結合的方式來估計產生的模型的預測錯誤率。Bootstrap采樣方法通過下面的公式來對最終預測錯誤率進行確定,記最終預測錯誤率為e,則:
Bootstrap算法需要多次反復進行放回式采樣,來以此生成不同的訓練集和測試集,最后取預測錯誤率的平均值作為最終結果。
(2)集成學習算法的步驟
在Bootstrap的采樣方法的基礎上,集成學習算法的主要步驟如下。
給定一個訓練集S和一個弱訓練器h,在每次應用訓練集對訓練器進行訓練后,從S中通過Bootstrap采樣取出樣本集Si,并用該樣本集建立一個對應的基訓練器hi,進行λ次這樣的訓練,就可以得到基分類器h1,h2,…,當有一個測試集u需要分類時,就可以分別用基分類器h1,h2,…,對它進行分類,最后用投票的方法形成最終的分類結果。
3、實證分析
3.1 數據采集與分析
本文以某B2C家具企業的數據為例。數據中包括客戶信息。基于隱私考慮,這些客戶的具體信息只括每個客戶性別、年齡、平均每次逗留時長、瀏覽次數、購買平均單價、總消費金額、總購買次數、最近六個月的消費金額、最近一年消費金額、瀏覽的其他店鋪、付款方式、互動、類別等。我們的研究也將建立在這些數據的基礎上。
表2 變量描述表
3.2 客戶價值提取
本節給出基于客戶信息,進行客戶價值的提取過程。具體地,我們希望根據客戶價值的不同對客戶進行分類,因此我們選擇平均逗留時長、瀏覽次數、平均購買價格、總消費金額、總購買數、最近6個月消費金額、最近一年消費金額,這七個最能代表客戶價值或客戶潛在價值的指標進行分析。
首先,我們采用因子分析對上述指標降維。在進行因子分析前必須考察變量之間的相關性,判斷是否適合用因子分析法進行分析。下圖是標準化的變量之間的相關系數表,從表格中可以看到總逗留時長和瀏覽次數具有很高的相關性,相關系數為0.692,總逗留時長和瀏覽次數與其他變量之間的相關度低。而平均購買單價、總消費金額、購買數量、最近6個月消費金額、最近一年消費金額這5個變量之間具有很強的相關性,除了購買數量與最近6個月消費金額的相關系數為0.481以外,其他變量之間的相關系數都超過了0.5。因此可以使用因子分析法。
(4)提取公因子。提取公因子時,我們采用最大方差旋轉。使用最大方差旋轉后,我們從下表可以看到前兩個公因子旋轉后的累計方差貢獻率為77.912%,可以認為前兩個公因子提供了7個變量的足夠信息。因此提取兩個公因子。
表4 解釋的總方差
(5)因子旋轉。提取兩個公因子后,用最大方差法對因子載荷進行旋轉,使得每個指標僅在一個公因子上有較大的載荷,而在另一個公因子上的載荷較小。如表5所示。
表5 成份得分系數矩陣
根據旋轉成份矩陣,可以看出第一個公因子在平均購買價格、總消費金額、總購買數、最近6個月消費金額、最近一年消費金額上有較大的系數,因此可以把公因子1命名為價值因子。第二個公因子在平均逗留時長和平均瀏覽次數上有較大的系數,可以把公因子2命名為瀏覽因子。把價值因子和瀏覽因子作為新的變量,得到每個顧客在新的變量上的值。
3.3 客戶分類
通過因子分析法,得到兩個新的變量,分別是價值因子和瀏覽因子。然后用K-means聚類方法對客戶進行分類,來確定不同類型的顧客對企業的價值。
K-means聚類方法需要先確定k個點為“凝聚點”,然后,根據和這k個點的距離遠近,把所有點分成k類。再把這k類的中心(均值)作為新的凝聚點,再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求。在分析中,我們選擇將客戶分成3類。
從表8的方差分析表中可以看到,K-means聚類的效果非常顯著,因此分類效果良好。從表7結果可以看到,第一類顧客的價值因子較小,為0.32,而瀏覽因子較大,為0.92,說明此類顧客在店鋪消費金額較小,但是經常瀏覽該店鋪;第二類顧客的價值因子比第一類顧客的大,為1.0,瀏覽因子為0.97,說明此類顧客在店鋪消費較多,且瀏覽頻繁;第三類顧客的價值因子最大,為1.53,而瀏覽因子較小,為0.12,說明此類顧客在店鋪的消費多,但是瀏覽次數較小。
根據顧客分類的以上特征,可以把第一類客戶定義為潛在客戶,他們當前的價值較小,但是瀏覽次數較多或瀏覽時間較長;第二類客戶定義為核心客戶,他們的價值大且瀏覽次數多,瀏覽時間長;第三類客戶定義為流失客戶,他們的價值最大但是瀏覽次數很少,瀏覽時間短。從K-means聚類的結果中可以看到在1693個客戶里面,有722個潛在客戶,647個核心客戶以及324個流失客戶。
3.4 基于集成學習模型的客戶
在對客戶進行分類后,我們得到了三種不同類型的客戶,分別潛在客戶、核心客戶和流失客戶,并且得到了每種類型客戶的具體特征。接下來,根據這些特征我們可以采用集成學習算法,Bagging算法對未來的客戶進行識別,來判斷一個客戶屬于什么類型,從而在開始便對客戶進行有針對性的客戶關系管理以提高客戶的滿意度。
Bagging算法處理后,錯誤率收斂到0.15,大大提高了判斷精度。根據bagging算法可以判斷客戶的類型,從而電商企業可以根據客戶類型進行差異化的客戶關系管理。對于潛在客戶,企業可以推送商品的優惠信息,以吸引潛在客戶購買;對于核心客戶,企業可以展示客戶關懷,在節假日送上問候,以及在快遞包裝上體現企業的特色,以提高客戶的忠誠度;對于流失客戶,企業同樣也可以推送優惠信息吸引其購買或者聯系客戶得到改進的建議。
4、結論
在大數據時代背景下,誰能更有效地利用數據里面的信息,誰就能搶占市場的先機,得到制勝的法寶。而作為線上交易的電子商務企業有其獨特的優勢,若能從大數據中獲取有用的信息,加以處理,對客戶進行個性化的營銷,展示不一樣的客戶關懷,提高客戶滿意度,從而提高企業的經濟效益。本文詳細研究了大數據背景下B2C電子商務企業的客戶關系管理,探究了數據挖掘在商業客戶關系管理的應用,介紹了電子商務企業數據挖掘流程和方法,并建立了客戶關系管理的分析模型。通過因子分析,本文將客戶分為潛在客戶、核心客戶和流失客戶,潛在客戶的價值因子較低,但瀏覽因子較高;而核心客戶的價值因子和瀏覽因子都比較高;而流失客戶的價值因子較高,而瀏覽因子較低。根據不同類型客戶的特征,本文建立了bagging模型預測客戶的類型,幫助企業識別客戶,從而達到差異化的營銷目標。
參考文獻
[1] McKinsey Global Institute. Big data: The next frontier for Innovation Competition and Productivity [R]. USA: McKinsey & Company, 2011
[2] Dealing with data [J]. Science,2011.
[3] Big Data. Nature, 2008.
[4] 王健康,寇紀淞. 客戶關系管理價值鏈研究 [J]. 管理工程學報, 2002, 16(4).
[5] 齊佳音,韓新民,李懷祖. 一種新的客戶-企業價值評價體系的設計 [J]. 管理工程學報, 2002, 16(4).
[6] 劉英姿,姚蘭,嚴赤衛. 基于價值鏈的客戶價值分析 [J].管理工程學報, 2004, 18(4).
作者簡介:賈應麗,博士研究生,中央財經大學商學院,研究方向:營銷風險管理、企業戰略規劃、商務信用評估。