內江職業技術學院 信息中心,四川 內江 641000
移動互聯網時代的到來,智能終端特別是手機成為人們日常工作、生活的必備工具,引領和刺激用戶參與到多樣化、便捷性的網絡服務應用中,如網絡教育辦公、在線娛樂購物、網絡醫療、網約車等[1]。用戶使用互聯網服務如數據獲取、視頻觀看、信息交互等均需要手機流量的支撐,流量已經成為移動互聯網的血液,產生海量的流量數據。據工信部的統計,2016 年我國用近9 億手機網民,日均使用時間3 h,人均月手機流量約350 M,每天產生流量數據近千億條約5 TB。用戶手機流量使用受到多種因素的影響,包括外部因素如刺激懲罰政策、節假日、服務屬性等,內部因素包括習慣、愛好、價值觀念等,社會因素包括文化、社會對比、區域等,不同年齡、個性的手機用戶流量使用模式存在較大差異[2]。對于移動運營商和服務商而言,發現和理解不同類型用戶的流量使用模式對其經營決策具有重要意義,如針對不同的用戶提供定制型的流量套餐和增值服務,構建基于情境的個性化營銷方案,進行流量資源的優化分配,提升市場占有率。同時,對消費者而言,則可以了解自身流量的消費情況,制定合理的流量使用策略,增強流量使用效率和滿意度。因此,如何從復雜的流量大數據中挖掘有價值的信息,進行合理的用戶流量使用模式分類成為重要的科學問題。
用戶手機流量使用模式分類就是運用不同的聚類方法,將具有相似月使用特征的用戶劃分為一類,從而抽象出共同的流量使用特點,運用一個模式原型即聚類中心來表示這一類用戶的使用特征。當前,眾多學者關注了手機流量的監測技術、流量業務營銷策略等[3,4],還沒有對用戶手機流量的使用模式進行分析。但作為一類無監督學習方法的模糊C 均值聚類算法能夠根據數據集中對象間的距離,發現相似的模式并進行高效分類,使類內的對象距離最小,而不同類間聚類最大化[5]。其提出了隸屬度描述樣本對類歸屬的模糊性,分析了樣本到簇類的隸屬程度。與傳統硬聚類方法相比,其具有更好的準確性,更真實的反應現實世界。作為流行的FCM 不斷應用到電力、制造、醫療、市場影響等多個領域[6,7,8,9],取得的大量成果為手機流量使用模式聚類分析提供了技術支撐。但是,FCM具有其自身的缺陷,如模糊參數的選擇難以確定、聚類數目不知道、搜索能力受本地局限,這些將會影響大數據環境下流量使用模式聚類的效率和結果。消費者頻繁的利用手機獲取移動互聯服務,涌現了海量的流量使用數據。為更高效識別大數據環境下用戶手機流量使用模式,制定針對性的策略,本文提出改進繁榮聚類模型。首先構建了用戶月手機流量使用模式分類的過程模式,包括數據準備、模糊聚類和結果應用三個階段;其次從模糊參數、聚類有效性指標和搜索能力三個方面改進了FCM 算法;最后運用從一拓集團得到的數據實例驗證了本文方法的適應性。基于改進FCM 的用戶手機流量使用模式分類框架可以有效地進行流量預測、資源調度和需求側管理等,大大提升移動服務商流量業務的市場績效。
智能互聯環境下,手機流量使用數據呈現大數據的4V 特征即規模性(Volume)、高速性(Velocity)、多樣性(Variety)和真實性(Veracity)。從管理角度,流量大數據是一類能夠反映用戶使用流量狀態和狀態變化的信息資源,它具有海量性、異構性、增長性、復雜性和可重復開采性,具有多種潛在價值,需要移動服務商進行挖掘以發現促進業務增長的信息和知識。這些高維、時變的流量大數據新特點對用戶流量使用模式分類提出了更好地要求,需要新的實時處理方法來進行模式識別。因此,本文提出基于模糊聚類的手機流量使用模式分類過程模型,如圖1 所示,主要包括數據準備、模糊聚類和結果應用三個階段。

圖1 基于模糊聚類的用戶手機流量使用模式分類Fig.1 Classification of usage patterns of consumers’mobile phone traffic on the fuzzy clustering
通過智能監測技術實時收集不同用戶的每天手機流量使用數據,構建移動服務商的流量數據庫。對分析樣本的數據進行標準化處理,降低不同量綱對分析的影響。同時由于數據具有異常值、噪音和缺失值,需要對數據集進行數據清洗修正,保障數據的可用性。考慮到數據挖掘算法的運行效率,需要對數據進行離散化、屬性約簡,實現數據的平滑化,為聚類分析做好準備。
從預處理后數據中抽取流量使用模式分類的特征指標,直接使用月流量使用曲線的時空數據,或者以最低、最高、平均日使用流量作為聚類的依據。選擇適用于流量使用特征的聚類方法,本文選擇FCM 算法作為聚類工作,從模糊參數設置、有效性指標和算法改進方面,提升算法的效率和聚類效果。執行改進的FCM 算法,通過迭代更新得到最終的聚類結果。
根據流量使用模式聚類結果得到每一類特征月流量使用曲線,抽取出每一類流量使用模式的特征作為聚類中心表示,用于分析用戶的流量使用特點。通過計算機生成流量使用模式的曲線圖、直方圖和特征分布,對聚類結果進行可視化,使服務商和用戶能夠直觀的理解和判別不同的使用模式。流量使用模式分類的主要目的就是支持服務商的經營決策,根據用戶流量使用模式的特點制定差異化的流量資費策略,提供個性化的流量套餐,創新業務營銷方案,提升客戶需求管理。
從第2 節流量使用模式分類過程可以看出,模糊聚類是用戶月手機流量使用模式分類的核心模塊。為了更好地適應流量數據特征,提升聚類效果,本文提出改進的FCM 算法以增強聚類方法的有效性和搜索能力。
作為模糊聚類的典型代表,FCM 算法已被應用到多個領域。其通過引入模糊隸屬度概念,運用距離計算和局部搜索能力迭代更新隸屬度和類簇中心,其目標函數是實現數據樣本到類簇中心的類內距離加權平方和最小化。給定樣本集合X=(X1,X2,…,Xn)包含n個用戶的流量使用數據,每個對象包含了m個模式特征A=(A1,A2,…,An),取值范圍為dom(Ai),得到k個類簇。標準化處理后隸屬度矩陣U的元素0≤μij≤1,滿足條件n,k為聚類數,n為用戶數,μij為第j個用戶屬于第i類的隸屬度。FCM 算法的目標函數即:

可知U表示隸屬度矩陣,V代表簇中心矩陣,m為模糊參數,d2 ij為第i簇中用戶xj到第i簇簇中心的歐氏距離。通過拉格朗日乘數法,進一步得到用戶xj劃分到第i簇Ci的隸屬度μij和第i簇的簇中心vi,即為:

雖然FCM 算法的應用取得了諸多成果,本身存在的不足如模糊參數設置、聚類數目不確定及局部搜索能力等,均制約了其進一步的拓展。為了適應流量大數據的分布特征,本文提出改進的FCM算法增強聚類效果。
2.2.1 模糊參數的選擇 模糊度是FCM 算法的重要參數,控制類與類之間重疊度。不同的應用領域均有模糊度參數選擇方法,沒有一個廣泛接受的準則進行模糊度的評估。大部分主觀的選擇m=2,但并不總是最優的合適的選擇。特別是在電力數據聚類中,Zhou 提出RWB 指標進行模糊參數優化,得到m=2.8 時聚類效果最好[10]。由于流量數據與電力數據分布的相似性,本文借鑒其結果,選擇模糊參數m=2.8。
2.2.2 聚類有效性指標 由于缺乏先驗知識,聚類數目不知的情況下,需要聚類有效性指標(Cluster validity index,CVI)來確定最終最終聚類數目。大部分CVI 考慮類內和類間距離,沒有一個CVI適合所有的數據集。良好的CVI 需要考慮數據的規模和密度,本文從致性C、重疊度O 和分離性S三個維度提出新的CVI,即COS。

2.2.3 搜索能力優化 將啟發式智能算法應用到模糊聚類成為一種趨勢,能夠提升FCM 算法的全局搜索能力。綜合模擬退火算法(Simulated Annealing,SA)和遺傳算法(Simulated Annealing,SA)的優點[11],本文提出了SAGA-FCM 算法能更快速高效地收斂到全局最優,實現流量使用模式的最優聚類結果,詳細步驟如圖2 所示。

圖2 基于模糊聚類的用戶手機流量使用模式分類過程Fig.2 Classification steps of usage patterns of consumers’mobile phone traffic on fuzzy clustering

圖3 1145 名手機用戶月流量使用分布Fig.3 Distribution of 1145 consumers’mobile phone traffic in a month
合肥一拓集團是一家移動互聯應用服務商,涵蓋流量經營、移動應用分發和融合通信等業務。通過與一拓集團的合作,我們收集了1500 名手機用戶的流量使用情況。為了保護用戶隱私,我們只獲取用戶編號和每天的流量使用總量。運用智能設備,獲取2016 年9 月1 日到10 月1 日一個月的數據。由于存在不完整、異常值、零值數據,需要對數據集進行清洗和預處理。最終355 名用戶數據被剔除,共獲得1145 名用戶一個月的流量使用記錄數據,如圖3 所示。
在一臺處理器Intel(R)Core?、4 G RAM 戴爾臺式電腦,運用Matlab R2013a 進行改進FCM 聚類算法的編程實現。根據前面的討論分析,模糊度參數設置為2.8。在聚類有效性驗證的過程中,運用COS 指標得到最終的優化聚類數目k=4。
當聚類數據確定為4 時,我們運用提出的算法將1145 名手機用戶的月流量使用模式聚類成為4個群體,如圖4 所示。這個4 個群體的月流量使用模式在總量和波動性上存在顯著差,圖4 右側給出了每一類流量使用模式的類中心,可很清楚的分辨出不同模式見得區別。另外每個群體的用戶分布也存在較大差異,如圖5a 所示。同時,4 個群體的月流量使用的相關統計指標如圖5b 所示。

圖4 用戶月流量使用模式聚類結果(k=4)Fig.4 The clustering results of usage patterns in a month
從圖5a 和5b 中,可發現有47%用戶被劃分到群體3,說明大部分用戶具有相似的月流量使用模式,該群體具有較低的日均流量消費(10 M<x<30)和較低的波動性。他們可能是普通上班族,具有穩定的網絡使用習慣。15%的用戶被劃分到群體1 中,他們的日均流量消費低于10 M,且總體的波動性較小,維持在一個穩定的狀態。這一類群體可能是年齡較大的人群,手機上網使用頻率較低。對于群體1 和3,服務商應該培養其移動互聯網的使用習慣,提供詳細的咨詢,推出其迫切需要的產品。此外,18%用戶劃分到群體2,該群體具有較高的日均流量消費(30 M<x)和較低的波動性。他們可能是主要利用手機進行工作的微商、自由職業者、網絡寫手、網絡策劃等,并受到時間、空間環境的影響。群體4 包含最少的手機用戶,占總體的20%,這類用戶具有最高的日均流量消費為40 M 和最高的波動性。此類群體可能是在校學生,形成了利用手機學習、生活的習慣,且流量使用受到節假日、促銷活動、聚會等影響較大。群體2 和4 具有較高的標準差即波動性,容易受到外部刺環境的刺激,因此,可以采取基于價格和激勵的需求響應機制,為這些用戶提供按天計算的流量計費或包月方式,制定有針對性的營銷策略,增加用戶的使用體驗和滿意度,提升用戶粘度和忠誠度。

圖5 用戶月流量使用模式統計分析Fig.5 Statistic analysis of consumers’traffic in a month
首先運用本文提出的聚類有效性指標進行驗證COS,如下6 所示。其他聚類數目下COS 值較小,k=4 時COS 取得最大值為18.42,得出最優的聚類數目4 用于上節的聚類分析。其中k=6 時COS取值也較大,也可以作為聚類數目,但本文中直接舍棄可能會影響聚類的結果。

圖6 COS 值變動情況Fig.6 Variations of COS values
為了進一步對比不同聚類數目的結果,本文運用熟知的聚類有效性指標XB、VK、VI 來評估k=4 和k=6 差異,驗證本文選擇的正確性,指標表達為:

上述有效性指標均是最小化類型,值越小,聚類結果越好。通過實驗分析得到流量使用模式聚類分析的XB、VK、VI 值[12]。如表1 所示,k=4 時的所有聚類有效性指標值均小于k=6 時值。因此,得出k=4 為最優的聚類數目,驗證本文算法的效果,也排除了k=6 作為聚類數目的可能性。

表1 流量使用數據聚類有效性指標值Table 1 Valid indexes of traffic clustering
在“聯網+”時代的日常生活中,用戶頻繁使用手機從移動互聯網上獲取各種網絡服務的同時,產生了復雜時變的流量大數據,蘊含著豐富的知識。大數據環境下,為有效地挖掘用戶手機流量使用模式,本文構建基于模糊聚類的流量使用模式分類過程模型,重點介紹了數據準備、聚類分析和結果應用。同時,從模糊參數設置、聚類數目確定和搜索能力三個維度改進FCM 算法,提升了聚類的效率效果。通過對1145 名手機用戶一個月內日流量使用數據的聚類分析,得出四個群體,每一群體的流量使用模式存在差異,大部分用戶(約47%)具有相似的流量使用特征。用戶手機流量使用模式挖掘和識別對于移動服務商、消費者和商業運營者具有重要的價值。對移動服務商而言,其可以根據不同群體的流量使用模式,制定有針對性的個性化的產品和營銷方案,提升市場策略的效果。對消費者來說,可以實時的掌握自己的流量使用情況,更好地進行流量的分配,降低因突發事件導致的流量超額和資費上漲。對于商業運營者而言,則可以通過免費流量的策略引導用戶的使用習慣,開發新的商業服務應用產品,吸引客戶流入,增加商業價值。本文只是分析了用戶9 月分的流量使用情況,難以全面表達用戶流量的使用模式。未來可以搜集全面的日流量使用數據,發掘年度流量使用模式。由于影響流量使用的影響因素較多,可以通過多因素分析找出關鍵因素,建立回歸模型進來預測未來流量使用情況,更好進行價格策略和激勵機制的設置。