解文博


摘 要:文章研究了大數據在移動通信中的應用。移動通信網絡中包含了海量的、異構化的數據,大數據技術為移動通信服務的數據存儲與數據分析提供了有效的技術基礎,為海量數據的存儲、查詢、挖掘、分析等提供了更為科學、準確的技術方案。所獲得的結果也更為準確、真實,更具有實時性,價值也更高。
關鍵詞:大數據;移動通信;數據存儲;數據分析;數據挖掘
大數據是一種超越了典型數據庫軟件采集、存儲、分析與管理等能力的大型數據集,具有數據體量大、數據類型多、處理速度快、數據價值密度低等特點。移動通信經過多年發展,累積了大量數據,包括了用戶基本數據,財務數據和業務使用情況,終端數據,網絡信令數據與DPI數據,業務數據,產品數據及線上和線下獲取的外部數據等各種結構化、半結構化和非結構化數據。如何發揮這些數據在移動通信中的價值,需要充分發揮大數據存儲、分析、管理等技術的價值[l]。
1 大數據技術
大數據分析技術則是大數據核心技術,是對每個數據進行分析,在大量數據中分析各個數據規律的技術,是將數據庫管理與人工智能技術等相結合提取數據集的一種技術。該技術包括數據挖掘、人工智能等機器學習技術、模式識別、神經元網絡、回歸計算、預測模型、時間序列分析、集成學習、關聯規則挖掘與學習、統計分析等技術。
2 大數據存儲技術在移動通信中的應用
2.1 Hadoop架構
Hadoop技術是基于Java語言而構建的一個軟件框架,大量計算機構成一個集群,對海量數據進行分布式計算,能夠在應用程序中支撐上千個節點達PB級別的海量數據。在應用Hadoop技術創建數據庫時,可根據數據流向合理設計分層,將其分為數據源層、邏輯計算層、數據存儲層、數據查詢層及應用層。數據源層可以利用各種數據傳輸組件抽取、轉換并裝載各類不同結構類型的數據,如位置信息、計費信息、網絡信息、客戶信息及基站參數等,這些數據會以Oracle,MySQL,MS SQL Server以用系統日志等異構數據。邏輯計算層則負責對海量數據完成MapReduce計算,每個節點先就近抽取本地存儲的各類數據,并進行計算處理,處理結束后,再將合并、排列并分發數據到各個Reduce節點,可以避免同時傳輸海量數據,造成數據傳輸擁堵。數據存儲層需要選擇性能較高、能夠滿足并發需求的數據庫軟件,以便于為前端應用層提供流暢的實時查詢服務。因此,可采用底層存儲引擎與分布式數據庫集群相結合的方式建立專門的數據存儲層,如利用HBase技術構建底層存儲引擎,建立NoSQL數據庫集群。數據查詢層是一個中間層,將前端應用層與后端存儲層隔離,對存儲層中的異構數據模塊進行屏蔽,為前端應用層提供統一化的接口,對存儲中的數據進行JOIN及UNION計算,使查詢數據顯示能夠同構化。在該架構中,數據采集ETL是一個關鍵環節,需要承擔對數據庫外數據采集的各種預處理工作,是該架構組件下對并行數據進行處理的主要工具,需要完成源接口文件的解壓、小文件的聚合、大文件的拆分、目標格式文件的壓縮、清洗、轉換與加載等[2]。
2.2 Hadoop+MPP架構
MPP架構是一種由多個松耦合處理單元構成的大規模并行式的處理系統,該架構更側重于對結構化數據的存儲與計算,所獲得的數據價值密度較Hadoop架構高,周期長,以GH信令數據的收斂計算為典型案例。Hadoop+MPP架構融合了兩種架構的優勢,數據主倉庫使用MPP架構,數據庫外預處理則使用Hadoop架構,Hadoop完成對數據的清洗、存儲、加載、輕度匯總及歷史數據的歸檔等任務,MPP則可對數據進行深度匯總與關聯處理。利用分布式云存儲ETL技術將B域、0域、M域及互聯網類等各種海量數據接入到數據庫中,再利用該技術組建的庫集群具備的可擴展性優勢,將海量數據進行并行接入,存儲層建立網絡爬蟲集群,可以對互聯網內容進行接入,并在該層建立流數據采集組件,以實現信令數據的實時接入功能。數據倉庫則可以使用Oracle數據庫技術,MPP庫接入的數據為異構類數據,根據業務要求決定實際存儲量,對數據進行深度分析與挖掘,可以實現即時查詢與多維分析任務,并完成非固定模型的運算與復雜模型運算;Hadoop集群則可以匯總海量的原始清單,并組建計算中心和查詢并匯總詳單,完成簡單數據的清洗、匯總、詳單數據的整合及數據的抽取等任務。
3 大數據分析技術
3.1 數據價值發現
大數據技術為移動通信數據價值的發現提供了極為便利的技術,利用大數據分析技術,對各種異構數據進行分析與挖掘,獲取移動運營商各項業務對于企業與個人用戶產生的價值與影響的相關數據,并用以指導舊業務的完善與新業務的開展。數據分析包含數據可視化、提取統計分析與數據挖掘3個主要步驟。運營商將各類海量數據資源通過分析,將其封裝為各項服務數據,使移動通信向信息服務的轉型成為可能。數據分析主要包括區域價值與客戶價值兩類價值研究。區域價值的目的在于推動業務運營的精細化,提高網絡管理的智能化水平,為企業發展戰略提供有效的分析。客戶價值的研究目的則在于實現精準化營銷,根據客戶的網絡特征與性能指標預測提供針對性的服務,不斷提高客戶擁有量,為客戶提供更符合自身需求的業務體驗。
3.2 數據挖掘技術的應用
KPI在通信網絡中往往以時間序列顯示,傳統的預測方法由于數據量選擇范圍較小、實時性差,導致結果準確率不足,通信網絡數據量的增加也使傳統算法的局限性與準確性不斷降低。大數據技術的出現,使KPI預測算法得到了有效的改進。基于大數據技術改進KPI預測方法,挖掘隱藏的海量數據背后的價值更高的有效信息,能夠提高預測準確率。
(1)要預測趨勢分量T(t),將每段無線網絡的起始話務量設為Xk,斜率設為Slopek,并將斜率擬合成一條直線,每一條擬合線之間保持首尾連續,采用無線網絡話務量的所有數據為訓練樣本,并建模進行預測分析,其公式為:
其中,KT+i代表補償后的得出的改善斜率,當最近的連續Ⅳ個斜率均不低于0時,第N+l個的斜率也不應低于0;y是一個可調節的常數,直至調節為一個最佳常數。因此,預測值前的數據權重就由歷史數據與斜率所決定。
(2)需要預測季節性分量,設為S(t),在確定周期時間后,利用統計分析,根據所需要的特征對海量數據完成抽取,并根據以下公式完成差分運算,獲得一個矩陣:
對該矩陣作線性擬合,可以獲得多條擬合直線,即Y-aX+b,取擬合誤差值最小的一個列數作為周期L,根據下式計算季節性分量:
式中p代表每一周期L中的樣本數量,每-q位置處的S(t)代表P樣本中同一位置q處的數據均值。
(3)要預測突發分量,設該分量為B,是由各種突發事件所產生的一個分量,該分量有很強的可列舉性,可通過特定類別與特定數值相對應來表示,如下式:
在分析突發變量時,只需要知道需要查詢位置的ID號,就能夠將該ID號相應的突發分量代入預測公式中。
(4)要預測隨機誤差分量,設該分量為R。基于大數據進行預測時,該分量具有非獨立分布性,是將無線網絡話務量產生的歷史數據減掉T(t)、S(t)與B(t)即可獲得R的預估值,該結果可增強R值的實際性。
(5)預測KPI,采用以下公式即可計算獲得:
X(t)=(1+B(t))×(T(t)+S(t)+R(t)
(6)在運用以上預測算法時,還需要對數據完成預處理,主要任務在于利用線性擬合曲線插入缺值,如利用最小二乘法進行線性回歸即可獲得缺失點的值。然后需要對需要預測的區域根據特征采取分類處理,如根據不同時間分布點的忙碌時段作為特征進行分類,再對不同類型的區域采取分類分析預測。第三步要排除異常值,對各類型數據作可信度取舍,置信度為95%,邊界取值為u-2σ與u+2σ,排除不在此區間內的異常值,當時間序列呈非正太分布時,則需要采取其他方法排除異常值。第四步就能夠根據以上預測算法進行分析預測與結果判定。當結果和真實值之間的誤差處于非接受范圍時,需要返回第一步,修正模型參數。
4 結語
未來的大數據技術將會使移動通信行業與交通、物流、銀行等各個行業、領域實現戰略合作,完成更為宏大的布局,發揮海量數據的最大價值。
[參考文獻]
[1]周天綺,嚴奧霞.基于移動通信大數據的流動人口統計中Hadoop的應用研究[J].軟件導刊,2015 (3):36-38.
[2]王超.基于大數據技術的現代移動通信研究[J].中國新通信,2015 (3):108.