基于大數(shù)據(jù)聚類算法K-means的用戶分群

2021-07-04 11:12:40蘇進

數(shù)字通信世界 2021年6期

蘇進

（中國聯(lián)通安徽分公司，安徽合肥 230000）

0 引言

運營商之間競爭愈發(fā)激烈，盲目的進行市場營銷不僅成功率較低，而且浪費了大量的人力、物力資源，更有甚者會給用戶帶來負面感知，導(dǎo)致用戶轉(zhuǎn)網(wǎng)。同時運營商擁有海量的用戶級數(shù)據(jù)，如何將用戶數(shù)據(jù)深入分析，進而支撐市場營銷及網(wǎng)絡(luò)資源投放，成為運營商之間市場競爭的關(guān)鍵。

本文將基于大數(shù)據(jù)挖掘算法，將用戶進行分群，不同的群體用戶基于其特征進行不同的營銷方案，通過精準營銷克服盲目性，吸引新用戶，留住老用戶。同時鎖定目標用戶群進行有效網(wǎng)絡(luò)資源投放，降本增效，獲得更有利的市場滲透。

1 數(shù)據(jù)建模

商業(yè)營銷方案中，聚類可以幫助數(shù)據(jù)分析人員根據(jù)消費者的自身屬性、消費特征劃分為不同的消費群體，并總結(jié)出每一類消費群體的消費習(xí)慣，進而支撐市場進行有針對性的營銷方案。Clustering（聚類）目的即把數(shù)據(jù)分類，但是事先我們是不知道如何去分的，完全是算法自己來判斷各條數(shù)據(jù)之間的相似性，相似的就放在一起。在聚類的結(jié)論出來之前，我們完全不知道每一類有什么特點，一定要根據(jù)聚類的結(jié)果通過人的經(jīng)驗來分析，看看聚成的這一類大概有什么特點。聚類是數(shù)據(jù)挖掘中使用較廣泛的算法之一，可用來從海量的樣本點中挖掘出一些深層信息，基于每一類的特點，可將注意力放在自己關(guān)注的特征上做進一步的分析。聚類分析是通過挖掘樣本點之間的關(guān)系進而達到數(shù)據(jù)分組的目的，組內(nèi)的樣本點相似性越強，組間差異化越大，聚類效果越好。本文將采用聚類分析中最廣泛使用的算法K-Means，將XX局點500萬+用戶進行聚類，并針對每一類的特點進行總結(jié)，進而支撐市場營銷及網(wǎng)絡(luò)資源投放。

K-Means是一種無監(jiān)督的機器學(xué)習(xí)算法，也叫K-均值、K-平均，是聚類算法中的最常用的一種，概括是說是“物以類聚、人以群分”，算法運算速度快，適合連續(xù)型的數(shù)據(jù)，但在聚類前需要手工指定要分成幾類。[1]

K-Means基本思想是將多個樣本根據(jù)其屬性劃分為K個簇，初始K個簇的中心點是隨機選定，再通過計算每個樣本點到K個簇中心的距離，按照最近鄰原則把每個樣本點劃分到K個簇中，然后將每個簇中所有樣本點的坐標值進行平均，作為每個簇的新中心，如此進行迭代，直到簇中心的位置不再移動（即簇中心移動距離小于給定值），具體步驟如下：①將原始雜亂無章的樣本點劃分K個簇，簇中心隨機選擇。②計算每個樣本點到K個簇中心的距離，將樣本劃分到距離最近的簇中心對應(yīng)的簇中。③初始K個簇劃分完成后，計算K個簇中所有樣本點的坐標平均值，更新每個簇的簇中心。④重新按照②、③中的方法，將原始樣本點進行簇劃分，并且重新計算新的簇中心。直到新的簇中心與上一次的簇中心之間的距離不再變化，或者小于某個給定值，則聚類過程結(jié)束。

根據(jù)上述K-Means算法過程，我們在應(yīng)用K-Means算法之前需確定幾個關(guān)鍵點：距離如何計算；K值如何確定各維度單位如何換算。

（1）距離如何計算：K-Means算法中要迭代進行每個點到聚類中心的距離，距離的計算一般有圖1兩種方法：

圖1 距離的計算方法

（2）K值如何確定：K值得取值不是固定的，一般是根據(jù)聚類的結(jié)果，評估是否滿足業(yè)務(wù)分析的目的，可嘗試多個K值，聚類的結(jié)果通過實踐驗證最優(yōu)K值，或者可以把各種K值算出的SSE做比較，取最小的SSE的K值。

（3）各維度的單位必須要一致：如果K-Means聚類中選擇歐幾里德距離計算距離，數(shù)據(jù)集一定要進行數(shù)據(jù)的標準化（normalization），即將數(shù)據(jù)按比例縮放，使之落入一個特定區(qū)間內(nèi)。[2]去除數(shù)據(jù)的單位限制，將其轉(zhuǎn)化為無量綱的純數(shù)值，便于不同單位或量級的指標能夠進行計算和比較。

標準化方法最常用的有兩種：

第一種：min-max標準化（離差標準化）：對原始數(shù)據(jù)進行線性變換，是結(jié)果落到[0，1]區(qū)間，轉(zhuǎn)換方法為X'=（X-min）/（max-min），其中max為樣本數(shù)據(jù)最大值，min為樣本數(shù)據(jù)最小值。

第二種：z-score標準化（標準差標準化）：處理后的數(shù)據(jù)符合標準正態(tài)分布（均值為0，方差為1），轉(zhuǎn)換公式：X減去均值，再除以標準差。

2 用戶分群分析結(jié)果

選取用戶消費特征、用戶行為以及用戶感知共11類特征，作為本次進行分群的特征向量，用戶樣例如表1所示：

表1 用戶樣例

針對XX局點550萬+用戶通過特征選取，異常數(shù)據(jù)篩除后，應(yīng)用K-Means聚類分析方法進行全量用戶分析，對原始數(shù)據(jù)本文采用min-max標準化方法進行線性變換，同時選取歐幾里德距離作為距離依據(jù)，選擇K=8時，分群結(jié)果如圖2所示：

圖2 分群結(jié)果

根據(jù)用戶分群結(jié)果，針對不同特征聚類的用戶結(jié)合市場營銷方案，更易于提高營銷成功率，同時可識別出高價值低感知用戶進而投入更多的網(wǎng)絡(luò)資源，比如當(dāng)K=8為時，cluster_3用戶喜歡投訴，愛好瀏覽網(wǎng)頁，游戲時間中等，但游戲時延感知較差，該類用戶的套餐較低，ARPU值中等，可建議針對該類通過贈送游戲類權(quán)益，提高用戶感知，降低用戶投訴量，同時該類用戶更易引導(dǎo)提升套餐。

表2、表3是本次聚類結(jié)果以及從服務(wù)等級、權(quán)益、套餐以及網(wǎng)絡(luò)資源四個方面提出的建議方案：

表2 本次聚類結(jié)果

表3 建議方案

3 結(jié)束語

本文通過K-Means聚類分析方法對XX局點全量用戶進行聚類分析，并根據(jù)聚類特征給予市場及網(wǎng)絡(luò)側(cè)的建議方案，支撐市場側(cè)營銷以及網(wǎng)絡(luò)側(cè)資源投放，但K-Means聚類算法本身也存在一定的缺陷性，比如：K值需要人為設(shè)定，不同K值得到的結(jié)果不一樣；對初始的簇中心敏感，不同選取方式會得到不同結(jié)果；對異常值敏感；樣本只能歸為一類，不適合多分類任務(wù)；不適合太離散的分類、樣本類別不平衡的分類、非凸形狀的分類。這將導(dǎo)致聚類的不同特征用戶適配為錯誤的營銷策略，降低市場營銷成功率。