[李杰 吳威 關偉杰]
在教育、醫療、金融、社科等領域都涉及了大量的通信資源使用,通信網絡在人們的生活中占據了越來越重要的位置。如何創建一個更優秀的網絡體系、更高效的維護體系、更良好的用戶感知體系,已經成為一個非常值得研究的課題。如何從海量數據中采集到信息、又如何從信息中歸納知識,是一項高技術并且勞動強度很大的工作。為了減輕人們的勞動量,同時也為了節約社會成本,出現了一些載有能代替人類腦力勞動算法的機器硬件,這些算法被稱為智能算法。將智能算法與傳統的通信領域相結合,將大量的通信數據進行統計分析處理,從而轉化成的具有特定用途和使用價值的數據,并其與已知的信息進行比較后得出相應的結論用于支撐通信領域的相關工作,使其更加自動化、智能化。
通信網絡經歷了長期的發展,衍生出各大分支。技術的進步不僅帶來了電信業務種類的增加,隨著數據庫等技術的發展,通信數據量也呈現了爆發性的增長。而通信網絡屬于一個動態的網絡,網絡資源緊張,業務密度分布不均、網絡負荷過載等問題,在業務量逐年增加的情況下尤顯突出。雖然各大運營商已投入了大量的人力物力進行優化,但仍有較大的改善空間;此外,在人們使用通信網絡越來越頻繁的背景下,用戶感知也成為一個不容無視不容忽視的問題。通過對主流機器學習算法的理論研究,可以將智能算法融入到日常的網絡優化、維護等工作中,為廣東移動的網絡質量提升工作提供幫忙幫助,具有一定的現實意義。
智能化是中國移動集團公司發展戰略的一項重要內容,是驅動移動公司優化服務質量、高效運維的有效手段。而人工智能主要依托于計算機超凡的存儲能力,記憶大量的數據或是方案,再從中選取最匹配數據與最佳方案反饋輸出。人工智能主要依托于大數據,而通信網絡具備海量的數據源,將通信網絡與基于人工智能技術的深度學習算法和機器學習算法結合,將進一步推進通信領域朝著自動化、智能化的演變方向邁進。
應用建模主要依據如下算法選擇原則。
(1)依據任務需求進行算法類別的選擇;
(2)根據數據特征以及計算條件等評判依據進行具體的詳細算法選擇;
(3)一般可以選擇多個算法進行模型搭建;
(4)結合業務需求以及算法驗證結果對模型進行最終的確定。
分類是一個有監督的學習過程,目標數據庫中有哪些類別是已知的,分類過程需要做的就是把每一條記錄歸到對應的類別之中。由于必須事先知道各個類別的信息,并且所有待分類的數據條目都默認有對應的類別。
適用場景:在具體有哪些類別是已知的的情況下預測目標數據的歸屬類別,適用于投訴用戶預測、離網用戶預測等。
常用算法特征如圖1所示。
回歸通常是機器學習中使用的第一個算法。通過學習因變量和自變量之間的關系實現對數據的預測。

圖1 分類算法特征
適用場景:判斷自變量和因變量之間的關系,以及不同自變量對因變量影響的強度,適用于指標劣化預測、告警關聯預測等。
常用算法特征如圖2所示。

圖2 回歸算法特征
聚類是無監督學習的典型算法,不需要標記結果。試圖探索和發現一定的模式,用于發現共同的群體,按照內在相似性將數據劃分為多個類別,判斷其內相似性。
適用場景:將一系列點分成若干類,事先是沒有類別的。有時候也作為監督學習中稀疏特征的預處理。適用于用戶標簽分類、呼叫記錄詳細分析、警報自動化聚類預測等。
常用算法特征如圖3所示。

圖3 聚類算法特征
關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。
適用場景:從大量數據中發現項集之間有趣的關聯和相關聯系。適用于業務推廣、入網拉新等。
常用算法特征如圖4所示。

圖4 關聯算法特征
時間序列是按照時間順利排列的一組數據序列。時間序列算法就是發現這組數據的變動規律并用于預測的統計技術。,且具有假設事物發展趨勢會延伸到未來、預測所依據的數據具有不規則性和不考慮事物發展之間的因果關系的特點。
適用場景:通過時間延展的方式找到數據中的變化規律。一般都用于流量、話務量等基于時間的預測。
項目目標:由于用戶群體的分布以及用戶行為的變化,可能導致網絡資源配置無法滿足實際資源需求,亦可能存在部分資源浪費的情況。本模型根據歷史數據分析流量使用的規律性來預測用戶的實際使用情況,并以分析結果作為調整參照,可以更合理地分配網絡資源,避免資源浪費以及減少用戶投訴問題,達到提前預知提前準備的目的。
模型創建依照如下步驟進行。
(1)數據預處理:缺失值、異常值進行分析,并進行插補替換處理。如圖5所示。
(2)繪制時間序列圖觀察趨勢:采用時序平滑化與季節性分解。如圖6所示。

圖6 時間序列圖
(3)分析序列平穩性并進行平穩化:通過平穩性檢驗、白噪聲檢驗。
通過根檢驗(ADF)方法進行平穩性檢驗,觀測序列根檢驗對應p值小于0.05,屬于非平穩序列,二階滯后差分滿足平穩序列,如表1所示。

表1 根檢驗(ADF)
為了驗證序列中有用的信息是否已被提取完畢,需要對序列進行白噪聲檢驗。采用LB統計量的方法進行白噪聲檢驗,二階滯后差分后的p值系數小于0.05,如表2所示。

表2 LB統計量
(4)ARIMA模型定階
針對一階差分后的時序輸出自相關與偏自相關圖,計算得到ARIMA(1,0,0)模型,如圖7所示。

圖7 一階差分后的時序輸出自相關與偏自相關圖

計算ARMA(p,q)取p和q均小于等于15的所有組合的BIC信息量,如圖8所示。

圖8 計算ARMA(p,q)的BIC信息量
選取顯著變量為Φ1、Φ9、Φ12和θ5、θ12,輸出模型ARMA(1,5),ARMA(1,12),ARMA(9,5),ARMA(9,12),ARMA(12,5),ARMA(12,12)。
(5)模型評估與預測
檢查其殘差序列是否為白噪聲,是否滿足平穩序列。如果不是白噪聲,說明殘差中還存在有用信息,需要修正模型或者進一步提取。針對選出的模型進行擬合,模型的AIC值,ARIMA(1,1,12)的AIC值為最優,如表3所示。

表3 模型評估與預測表
通過預測結果并結合經驗分析,可以針對網絡資源進行針對性的調整,如圖9所示。

圖9 針對性調整
項目目標:采用線性回歸模型對無線傳播模型進行校正。通過無線信號采集數據帶入線性回歸模型,從而對SPM模型進行K值的求解,最終實現傳播信號的預測。能有效的模擬用戶實際的信號使用情況,對網絡規劃以及網絡優化都起到了重要的參考作用。
基于采集數據將其帶入SPM模型,如圖10所示。

圖10 SPM模型
采用線性回歸算法創建信號強度的預測模型,通過如下指標進行綜合評估,如表4所示。

表4 評估模型
最終確定的模型輸出結果如圖11所示。

圖11 模型輸出
紅色為現網數據,藍色為預測數據。從結果上可以看到,預測偏差為可接受范圍內,該模型可投入實際的規劃仿真工作中使用。

項目目標:用戶感知目前已經成為生活用中越來越關注的話題,如果要能讓用戶用得開心,預防勝于治療是關鍵。通過DPI指標結合告警信息進行模型創建,采用決策樹分類器預測潛在投訴用戶,可以做到先知先預防的作用。
(1)采集用戶投訴記錄、投訴前對應時段的DPI指標、投訴前時段的告警數據作為數據集,并將其進行關聯處理形成信息寬表,如表5所示。

表5 信息寬表
(2)針對采集數據進行預處理,圍繞缺失值、異常值、數據規范化三部分進行,處理后的訓練集保留1:1比例,如表6所示。

表6 采集數據預處理
(3)考慮到數據集的特征,優先選取隨機邏輯回歸的結果,再結合建模情況增加部分信息增益和卡方檢驗特征。通過前剪枝與后剪枝的兩種方式進行決策樹建模,輸出樹形結果,如圖12所示。

圖12 決策樹
(4)將原有訓練集中的0.3部分劃分為交叉訓練集,針對劃分后的訓練集進行模型訓練,選取優質模型參數,并在交叉訓練集中進行驗證,如圖13所示。

圖13 交叉訓練集驗證
(5)挑選準確率大于70%且召回率較高的單項規則進行組合訓練,模型輸出如圖14所示。

圖14 組合訓練模型輸出