向昆竹 黃凱 侯皓文

摘 要:在如今同質產品的市場環境下,企業的市場競爭從產品質量逐步向客戶滿意度轉變。企業通過客戶細分,以客戶類群為單位進行針對性的產品銷售可以促進提升產品在市場的競爭力。本文通過對客戶細分以及聚類分析的研究,運用聚類分析中的K-Means算法來解決客戶細分問題。
關鍵詞:大數據;機器學習;數據挖掘;聚類;k-means算法
隨著經濟的不斷發展,市場中的大量產品供大于需,不同企業生產的同類同質產品不免會產生激烈的競爭。在這種市場環境下,企業若想提升產品競爭力,就需要施行有針對性的營銷策略,將客戶分而治之,將重點逐漸從產品質量的競爭向不同客戶滿意度的競爭進行轉變。
在大數據時代的當下,數據不斷反映著我們在日常生活的各種信息。通過對大量數據的分析與處理,對數據進行統一標準、屬性篩選從而獲取有用的信息。在如今的電子商務中,使用聚類的分析方法可以將客戶進行細分,企業則可以將已經細分的客戶類群作為銷售的單位,提供更有針對性的產品與服務,從而提升企業銷售的競爭性。
1 客戶細分
1.1 客戶細分概念
客戶細分是指企業根據客戶的屬性、行為、需求、偏好以及價值等因素,尋求客戶之間的共性特征,從而對客戶進行與歸類。
1.2 客戶細分原因與做法
在信息快速流通的時代,企業與客戶之間的關系也不斷發生著變化。當企業在沒有針對性的營銷時,通常會因為企業產品與一類或多類客戶需求之間的不匹配,造成該一類或多類客戶的流失。若企業想要提升自己的產品競爭性,就必須要了解客戶的需求,施行有針對的銷售。然而,有些產品若施行一對一的銷售會使銷售成本加大,從而也會影響銷售額。若將客戶的不同信息進行篩選分析,從而將其進行分類,對細分后的客戶類進行多樣化具有針對性的銷售,則會達到事半功倍的效果。
在客戶細分中,不同方向劃分類別的做法也不盡相同。一般可以從不同的業務場景以及客戶關注的不同特征出發,結合企業自身實力的有限資源來進行細分。常用的參考種類有:消費行為、消費水平、客戶年齡段、消費偏好等以及基于這些種類的多類組合。
消費行為:根據客戶的消費頻次、最近消費時間、平均消費金額等方面進行分析,可以對客戶評級,判斷客戶的價值。
消費水平:按消費水平劃分,對不同消費水平的客戶提供不同的產品與服務。如會員卡分級策略。
客戶年齡段:客戶年齡段不同,客戶的消費理念、產品需求也會不同。企業可以根據不同年齡段推薦不同的產品與服務。
消費偏好:根據客戶的消費習慣、生活方式、消費場所等各方面的不同,從而整理出生活形態類似的客戶群,給客戶標上不同的標簽,從而推薦不同的產品與服務。如RFM模型。其中R、F、M分別指最近一次消費、消費頻次以及每筆平均消費金額。
多類組合:多方面綜合分析客戶的屬性。
2 聚類分析
聚類是數據挖掘的最基本方法,一般在無目標劃分中采用。通過聚類,從而將數據的組群分類標簽化。其中要根據最大化類內相似性(分類后盡可能保證同類內有較高的相似性)、最小化類間相似性(分類后盡可能保證不同類之間有較低的相似性)原則進行聚類與分組。
聚類的主要方法分為動態聚類和層次聚類。
K-means算法是動態聚類中的常用算法之一。該算法簡單且結果直觀,適合對多維數據進行聚類,但是僅適用于連續的變量,當初始值與K值不同時結果也會不同。且結果無最優解。
譜系聚類(hierarchical clustering)是層次聚類中經典的方法。因為其可視性強的特點,通過不同公式與算法的多次計算,并根據實際業務分析可以得到最理想的分類。但是當分析的樣本容量很大時,會消耗巨大的資源。因此譜系聚類較適合小樣本使用。
3 K-means算法在客戶細分的應用
3.1 K-means算法基本步驟
(1)選擇類群的K個值作為初始的聚類中心。
(2)計算每個數據到K個聚類中心的距離,并且按照其最小距離將每個數據分配到對應最近的類,形成K個類。
(3)計算分類后的均值或者重心作為新的聚類中心,重新計算每個數據到K個聚類中心的距離,并將每個數據分配給對應最近的類。
(4)不斷重復(2)、(3),直到前后計算的聚類中心不發生明顯的變化為止。
3.2 在客戶細分中的應用
客戶細分應用的數據來源來自于某市某銀行2018年客戶交易數據,針對銀行客戶信息數據量大,采用K-means算法較適合。銀行客戶的分組應結合業務經驗依據多類組合來施行。
異常處理:通過數據清洗,將數據中的異常值進行去除與代替。本實例使用99分位點法對數據進行數據清洗。
相關降維分析:由于數據量大,對數據之間相關性強的變量進行降維,從而降低數據之間的相關性。
數據標準化:將數據轉換為各種適當的格式,獲取需要的指標。本實例抽取交易次數、平均月交易金額為主要標準數據指標構造。
聚類分析:本實例隨機抽取3000名客戶數據,通過分析將K設為6,經過 K-means算法實驗,得到如下表所示聚類結果。
從聚類結果來看,A、B、F類客戶數量占比少,其中A類客戶月交易額大,交易次數頻繁,是銀行的重要價值客戶;B類客戶交易次數少,交易額低,是重要的發展客戶;F類客戶,交易次數不頻繁但交易額大,屬于銀行的潛力客戶。C、D、E類客戶數量占比較大,其中C類客戶月交易資金較大,交易次數較頻繁,屬于較重要的價值客戶;D類客戶數量大,交易次數略低,交易金額處于中等水平,屬于重要發展客戶;E類客戶數量最大,交易次數頻繁,月交易額較低,屬于一般價值客戶。針對不同類別的客戶,銀行就可以推薦不同的產品以及服務。例如針對F類用戶,銀行可以推薦定期存款或其他適合理財產品。
4 結語
在聚類分析中,K-Means算法是最常用且應用最廣泛的算法之一,K-means算法簡單,對計算機性能要求不高,因此適合大量數據樣本的聚類。該算法運用迭代的方式使不同類間的距離達到最優,最終得到聚類中心(類內某一特征的均值)。通過K-means算法對企業中客戶進行細分,便于企業針對不同客戶推薦不同的產品與服務。這樣不僅促進了企業的產品競爭力,而且使客戶擁有更好的產品體驗。
參考文獻:
[1]Jiawei Han,Micheline Kamber,Jian Pei.數據挖掘概念與技術[M].第三版.北京:機械工業出版社,2012-07.
[2]張建萍,劉希亞.基于聚類分析的K-means算法研究與應用[J].計算機應用研究,2007-05.
[3]李鑫鑫.聚類算法在電子商務客戶細分中的應用研究[J].中國海洋大學,2012.
[4]王麗萍,劉建平.基于密度的K-Means算法在客戶細分中應用的研究[J].工業控制計算機,2016-05-26.
作者簡介:向昆竹(1998-),男,漢族,河南信陽人,2016級本科生在讀,主要研究方向:網絡工程;侯皓文(1998-),男,漢族,河南信陽人,2016級本科生在讀,主要研究方向:軟件工程。
通訊作者:黃凱(1997-),男,河南南陽人,2016級本科生在讀,主要研究方向:網絡工程。