蘇 進
(中國聯通安徽分公司,安徽 合肥 230000)
運營商之間競爭愈發激烈,盲目的進行市場營銷不僅成功率較低,而且浪費了大量的人力、物力資源,更有甚者會給用戶帶來負面感知,導致用戶轉網。同時運營商擁有海量的用戶級數據,如何將用戶數據深入分析,進而支撐市場營銷及網絡資源投放,成為運營商之間市場競爭的關鍵。
本文將基于大數據挖掘算法,將用戶進行分群,不同的群體用戶基于其特征進行不同的營銷方案,通過精準營銷克服盲目性,吸引新用戶,留住老用戶。同時鎖定目標用戶群進行有效網絡資源投放,降本增效,獲得更有利的市場滲透。
商業營銷方案中,聚類可以幫助數據分析人員根據消費者的自身屬性、消費特征劃分為不同的消費群體,并總結出每一類消費群體的消費習慣,進而支撐市場進行有針對性的營銷方案。Clustering(聚類)目的即把數據分類,但是事先我們是不知道如何去分的,完全是算法自己來判斷各條數據之間的相似性,相似的就放在一起。在聚類的結論出來之前,我們完全不知道每一類有什么特點,一定要根據聚類的結果通過人的經驗來分析,看看聚成的這一類大概有什么特點。聚類是數據挖掘中使用較廣泛的算法之一,可用來從海量的樣本點中挖掘出一些深層信息,基于每一類的特點,可將注意力放在自己關注的特征上做進一步的分析。聚類分析是通過挖掘樣本點之間的關系進而達到數據分組的目的,組內的樣本點相似性越強,組間差異化越大,聚類效果越好。本文將采用聚類分析中最廣泛使用的算法K-Means,將XX局點500萬+用戶進行聚類,并針對每一類的特點進行總結,進而支撐市場營銷及網絡資源投放。
K-Means是一種無監督的機器學習算法,也叫K-均值、K-平均,是聚類算法中的最常用的一種,概括是說是“物以類聚、人以群分”,算法運算速度快,適合連續型的數據,但在聚類前需要手工指定要分成幾類。[1]
K-Means基本思想是將多個樣本根據其屬性劃分為K個簇,初始K個簇的中心點是隨機選定,再通過計算每個樣本點到K個簇中心的距離,按照最近鄰原則把每個樣本點劃分到K個簇中,然后將每個簇中所有樣本點的坐標值進行平均,作為每個簇的新中心,如此進行迭代,直到簇中心的位置不再移動(即簇中心移動距離小于給定值),具體步驟如下:①將原始雜亂無章的樣本點劃分K個簇,簇中心隨機選擇。②計算每個樣本點到K個簇中心的距離,將樣本劃分到距離最近的簇中心對應的簇中。③初始K個簇劃分完成后,計算K個簇中所有樣本點的坐標平均值,更新每個簇的簇中心。④重新按照②、③中的方法,將原始樣本點進行簇劃分,并且重新計算新的簇中心。直到新的簇中心與上一次的簇中心之間的距離不再變化,或者小于某個給定值,則聚類過程結束。
根據上述K-Means算法過程,我們在應用K-Means算法之前需確定幾個關鍵點:距離如何計算;K值如何確定各維度單位如何換算。
(1)距離如何計算:K-Means算法中要迭代進行每個點到聚類中心的距離,距離的計算一般有圖1兩種方法:

圖1 距離的計算方法
(2)K值如何確定:K值得取值不是固定的,一般是根據聚類的結果,評估是否滿足業務分析的目的,可嘗試多個K值,聚類的結果通過實踐驗證最優K值,或者可以把各種K值算出的SSE做比較,取最小的SSE的K值。
(3)各維度的單位必須要一致:如果K-Means聚類中選擇歐幾里德距離計算距離,數據集一定要進行數據的標準化(normalization),即將數據按比例縮放,使之落入一個特定區間內。[2]去除數據的單位限制,將其轉化為無量綱的純數值,便于不同單位或量級的指標能夠進行計算和比較。
標準化方法最常用的有兩種:
第一種:min-max標準化(離差標準化):對原始數據進行線性變換,是結果落到[0,1]區間,轉換方法為X'=(X-min)/(max-min),其中max為樣本數據最大值,min為樣本數據最小值。
第二種:z-score標準化(標準差標準化):處理后的數據符合標準正態分布(均值為0,方差為1),轉換公式:X減去均值,再除以標準差。
選取用戶消費特征、用戶行為以及用戶感知共11類特征,作為本次進行分群的特征向量,用戶樣例如表1所示:

表1 用戶樣例
針對XX局點550萬+用戶通過特征選取,異常數據篩除后,應用K-Means聚類分析方法進行全量用戶分析,對原始數據本文采用min-max標準化方法進行線性變換,同時選取歐幾里德距離作為距離依據,選擇K=8時,分群結果如圖2所示:

圖2 分群結果
根據用戶分群結果,針對不同特征聚類的用戶結合市場營銷方案,更易于提高營銷成功率,同時可識別出高價值低感知用戶進而投入更多的網絡資源,比如當K=8為時,cluster_3用戶喜歡投訴,愛好瀏覽網頁,游戲時間中等,但游戲時延感知較差,該類用戶的套餐較低,ARPU值中等,可建議針對該類通過贈送游戲類權益,提高用戶感知,降低用戶投訴量,同時該類用戶更易引導提升套餐。
表2、表3是本次聚類結果以及從服務等級、權益、套餐以及網絡資源四個方面提出的建議方案:

表2 本次聚類結果

表3 建議方案
本文通過K-Means聚類分析方法對XX局點全量用戶進行聚類分析,并根據聚類特征給予市場及網絡側的建議方案,支撐市場側營銷以及網絡側資源投放,但K-Means聚類算法本身也存在一定的缺陷性,比如:K值需要人為設定,不同K值得到的結果不一樣;對初始的簇中心敏感,不同選取方式會得到不同結果;對異常值敏感;樣本只能歸為一類,不適合多分類任務;不適合太離散的分類、樣本類別不平衡的分類、非凸形狀的分類。這將導致聚類的不同特征用戶適配為錯誤的營銷策略,降低市場營銷成功率。