(中國電信股份有限公司研究院,廣東 廣州 510630)
國內5G網絡所使用的頻譜資源,決定了單個5G基站覆蓋距離較短,覆蓋相同區域,比4G網絡需要更多的基站。5G基站耗電量預計將是4G的3~5倍[1],給運營商的運營成本帶來極大挑戰。因此針對基站的節能降耗研究勢在必行。
針對基站節能場景問題,國內外學者展開了深入的研究工作,且取得不錯的成果。基站節能場景這種分類問題,按照建模方法可以分為兩類:第一類是基于簡單的線性模型或專家經驗,依靠人工經驗判斷與操作;第二類是基于機器學習算法,如梯度提升回歸樹、神經網絡等。實驗證明,機器學習算法比傳統方案具有更好的節能效果。
時間序列聚類算法是一種挖掘時間序列間相似性的有效方法,可以從數據中發現一些潛在的模式。近些年有很多學者將聚類算法應用到用戶行為、業務分析等方面,取得不錯的成效。Jeffrey Erman[2]等人采用K-Means和DBSCAN算法有效識別相似通信特征的流量組;Jiang ZHU[3]等人對微博用戶時序數據的聚類分析發現了不同群體的情感特征等。李文璟等人[4]提出基于對稱KL距離的用戶互聯網行為時序聚類方法;王瀟迪等人[5]提出了基于負荷曲線形態聚類的k-shape算法在電力負荷的應用。
以上方法對初始值敏感,容易陷入局部最優,且目前涉及基站側數據的聚類分析文獻較少,對節能場景定義也相對保守和固化。為此,本文在提出一種基于輪廓系數迭代修正的AP聚類算法,無需預設參數,對基站業務的日負荷曲線進行自適應聚類;并考慮到“潮汐效應”導致網絡資源利用率低的問題,結合周效應和汐節能時段對場景進行個性化定義,大大提高可節能空間。
(1)研究對象
由于本文需要利用大量歷史數據研究分析基站可節能的場景,考慮到在規模較小或者業務不發達的城市,人們對網絡的需求量少,基站負荷變化規律不顯著。因此,選取規模大、網絡業務活躍的某個城市某運營商基站作為研究對象,從而驗證模型的可行性及泛化性。
(2)變量描述
由于運營商數據量龐大,對歷史數據的保存時間有限。為此,選取某城市某運營商2019年連續10周的時間序列數據,涵蓋六萬多個基站每日24小時的小時級業務負荷數據記錄,除了業務負荷數據之外,還收集了影響業務負荷的相關因素的數據,如:
1)設備數據。包括生產廠商、室分、頻點、方向角等。
2)業務數據。包括激活用戶、PDCP(Packet Data Convergence Protocol)上下行平均流量等。
3)網絡數據。包括上下行PRB(Physical Resource Block)利用率、各類信道占用率等。
(3)預處理
由于信號干擾、設備故障等問題,基站采集的數據往往存在缺失或噪音,需要對原始數據進行預處理,得到標準、連續的數據,以便挖掘和分析。
1)缺失值填補
針對時間序列數據常見的缺失,利用周期信息進行缺失值填補(簡稱周期性填補法[6])。
2)異常值處理
為保證聚類算法的有效性和指標解釋的合理性,將指標數值超出正常取值范圍,直接取上、下界數值。
3)特殊過濾
超低負荷基站(所有時點的負荷極差值小于0.1)屬于全天候可節能,可采取深度休眠等策略,不在本文研究的范疇。
(1)Affinity Propagation聚類[6]算法
不同于傳統聚類算法,Affinity Propagation算法不需要指定聚類簇數或其他描述聚類個數的參數,而且樣本中的所有數據點都可當作潛在的聚類中心,通過信息在節點之間傳播直至產生一組高質量的聚類簇。
首先,基于節點間距離的定義,構建節點間的相似度矩陣做為輸入,所有節點均作為等機會的候選聚類中心點。聚類過程中,候選聚類中心通過吸引信息矩陣(見式(1))和歸屬信息矩陣(見式(2))競爭,為避免震蕩,引入阻尼系數λ更新迭代,淘汰部分候選中心,最終篩選出L個高質量的聚類中心(聚類數為L),即自動得出最優聚類中心,而避免事先人為指定,非聚類中心點也根據證據信息綜合判斷歸類至合適的中心點完成聚類。

式中,R(i,k)表示i節點支持k節點為聚類中心點的支持度,其值越大,則k點成為聚類中心的可能就越大;A(i,k)表示k節點適合成為i節點的聚類中心的適應度大小,其值越大,則i節點與k節點為同一類的可能越大;S(i,k)和S(i,k')分別為相似度i行k列和i行k'列元素。

式中,λ∈(0,1]。
1)相似度矩陣
兩兩特征向量間的相似程度用歐式空間距離矩陣Ed來表示:

2)偏向參數
偏向參數(Preference)k是衡量點能否成為聚類中心的評判標準,該值越大,這個點成為聚類中心的可能性就越大。利用聚類評價指標選擇合理的偏向參數值,能有效減少迭代次數,提高聚類精度。
3)輪廓系數
輪廓系數[7]是評價聚類效果好壞的一種方式,在相同數據的基礎上用來評價不同算法、或者算法不同參數下對聚類結果所產生的影響。
根據樣本i的簇內不相似程度ai和簇間不相似程度bi,定義樣本i的輪廓系數:


(2)優化
利用輪廓系數對偏向參數進行修正,采用改進AP聚類算法對負荷曲線進行自適應聚類,從而優化和改善聚類效果。優化Affinity Propagation聚類算法流程圖如圖1所示:

圖1 優化AP聚類算法流程圖
基于上述方法,本文以某城市某運營商15 857個基站2019年連續10周的歷史業務負荷作為試驗數據,進行分析和驗證。
本文采用Python軟件進行建模和分析,具體過程如下。
第一步,對歷史負荷數據進行缺失值填補、異常值剔除等一系列的預處理;
第二步,基于一個基站的日負荷曲線,采用AP聚類算法得出聚類結果,并計算結果的輪廓系數;
第三步,通過網絡搜索法遍歷中值的多個分位數,調整AP聚類的偏向參數(Preference),重復第二步;
第四步,選取輪廓系數最大的結果作為該基站最優的聚類結果,并識別所屬的周效應類型,三種類型定義如下。
(1)周效應明顯:如果聚類結果的輪廓系數大于0.65,則說明該基站日負荷曲線的聚類效果較佳,可認為該基站的周效應明顯。
(2)周趨勢一致:如果聚類結果的輪廓系數小于0.65且平均相似度大于0.9,則說明基站的日負荷波動是極度相似的,即該基站屬于全周的趨勢一致。
(3)無明顯效應:除了上述兩類基站以外,皆認為沒有明顯的變化規律。
第一步,計算基站的潮汐效應系數,判斷是否存在日潮汐現象。
假設f(x)為A基站一周七天24小時的業務負荷曲線函數,則潮汐系數定義為:

當潮汐系數T>0.5,則判定該基站存在明顯的日潮汐現象,否則,日潮汐現象不明顯。
第二步,對存在日潮汐現象的基站,計算日的潮時段和汐節能時段,結合周效應和汐節能時段,進一步定義基站的節能場景。
結合基站的周效應類型及其日潮汐現象,準確識別日間多個有規律的可節能時段,作為基站的個性化節能場景:
對于周效應明顯的基站,根據日分類的類別數,可分為兩或三種模式(其他不考慮);再根據日天數,將兩種模式基站分為1+6周效應、2+5周效應和3+4周效應,其中1+6周效應代表該基站一周七天的業務負荷曲線可分為兩類,第一類為1天,第二類為6天的多種組合(如第一類為周日,第二類為周一到周六);對于三種模式基站,則可分為1+1+5、1+2+4等多種周效應。
在周效應下,進一步對不同類別的日潮汐現象做細分,兩種模式基站分別對應第一類和第二類的汐節能時段,三種模式基站分別對應第一、二和三類的汐節能時段,從而更加精確、細化地描述該類基站的個性化節能場景。對于周趨勢一致的基站,即一周七天都有相似的業務走勢,只需要根據第一類日潮汐效應的汐節能時段,就可對其個性化節能場景進行定義。
針對上述對個性化節能場景的定義,智能識別出3個場景做示例,實現差異化節能策略。
(1)周效應明顯的基站
圖2為廣州某商務大廈基站(ID:856338)在20190603-20190812共十周的業務負荷變化情況。從圖2(a)可看出,該類型基站每周重復著相似的波動規律,即一周的前期負荷都比較高,到周末負荷處于低谷。

圖2 廣州某商務大廈基站20190603-20190812的業務負荷曲線圖
圖2(b)為日負荷曲線聚類效果圖,可直觀看出聚類效果較好,該基站的業務模式可分成兩類,即周一至周五負荷曲線大致相同,而周末日負荷走勢大體一致,可認為屬于周效應明顯基站。考慮到商務辦公類基站在工作日的業務負荷要明顯高于周末,汐節能時段在凌晨0-7點;而周末員工放假,出現全天候可節能的場景,符合實際情況,具有明顯的周效應現象。因此,該基站的個性化節能場景為“5+2周效應(工作日效應):工作日的0-7點,周末全天候”。
(2)周趨勢一致的基站
圖3為新塘民營工業園基站(ID:485435)在20190603-20190812共十周的業務負荷變化情況,該類型基站日業務負荷曲線走勢大體一致,在凌晨處于業務低峰期,經日潮汐分析輸出汐節能時段,即0-7點,識別該基站的個性化節能場景屬于“周趨勢一致:每日0-7點”。

圖3 新塘民營工業園基站20190603-20190812的業務負荷曲線圖
(3)無規律基站
圖4為花山支局基站(ID:856338)在20190603-20190812共十周的業務負荷變化情況,可看出該類型基站日業務負荷是隨機波動的,經聚類得輪廓系數僅為0.236 171,沒有明顯的規律,不適合執行節能策略,以免影響用戶體驗。

圖4 花山支局基站20190603-20190812的業務負荷曲線圖
根據優化AP聚類和潮汐分析,可快速、有效地自動識別基站的個性化節能場景,周期性選擇節能方式,智能化啟閉節能策略,如表1所示。

表1 基站的個性化節能場景
從結果可得,廣州某商務大廈基站(ID:856338)的個性化節能場景為5+2的工作日效應,第一類(周一至周五)汐節能時段在0~8點、19~23點,第二類(周末)汐節能時段在0~23點,一周可節能時長高達108個小時,可采取一周兩策,在兩種模式下的節能時段分別啟閉合適的節能方式,預估站點能耗最大可節省64%。新塘民營工業園基站(ID:485435)個性化節能場景屬于周趨勢一致下,單日的汐節能時段在1~7點,可實施一周一策略,每周可節能時長42個小時,預估站點能耗最大可節省25%。而花山支局基站(ID:485710),考慮到該類基站容易出現突發情況和隨機波動,為保證用戶體驗,不宜實施節能策略。
結果表明,個性化節能場景的智能、高效識別對能耗管理有顯著的指導意義,基于某城市全量基站數據可測算出,在保證不影響網絡性能指標KPI前提下,平均可節省功耗超過20%,具有良好的節能應用效果。
本文提出基于基站的日負荷特性指標,通過改進AP聚類算法,并結合日潮汐效應和節能時段,智能、高效地識別出基站的個性化節能場景。算例證明聚類效果的可靠性和識別節能場算法的有效性,有助于運營商在滿足業務QoS[8]需求的基礎上,提高基站的能源效率,達到5G基站節能的目的,可進一步應用到現網,實現5G基站能耗的智能化管理,優化網絡資源,提升運營商市場競爭力和可持續發展能力。