江蘇移動通信有限責任公司江寧分公司 徐峰
一種基于大數據分析的網絡優化方案
江蘇移動通信有限責任公司江寧分公司 徐峰
摘要:在傳統網絡優化的基礎上提出了一種基于大數據的網絡優化解決方案,更好地對運營商全業務網絡進行規劃與優化。
關鍵詞:大數據;網絡優化;架構
隨著運營商全業務發展理念的提出,運營商寬帶網絡所涵蓋的網絡內容也日益豐富,各種網絡的數據量的不斷膨脹,使得對綜合大網管處理各項數據的能力及對網絡的更好的規劃和優化的要求不斷提高。傳統的網絡優化已經漸漸顯示出其局限性。表現在以下幾點:時效性不強,各種網絡性能指標呈現需要幾個小時,預警及時性不足,不能先于用戶之前發現問題,處理比較被動;集約化程度不高,系統比較分散,且不能靈活滿足網絡規模快速增長的需求,不能全網統一管理,網絡性能分析、周期性報表制作需要多個系統支撐,效率低下;支撐能力弱,對海量數據的深度挖掘效率不高,預處理能力缺乏,缺乏多維度數據的關聯分析能力,難以精確定位故障問題,全程全網預警能力缺乏,難以實現網絡預見性分析。因此,為滿足用戶日益增長的質量要求,必須建立一套健全的大數據分析系統,能夠對現網的各類網絡指標進行快速的統計分析,先于用戶發現問題、預先提出網絡優化建議。
1)從結構數據轉向混合數據。傳統的網優數據需要將信令數據等轉化為結構數據,大數據網優可以直接收集各種非結構數據而無需轉換。大數據網優數據采集方式見圖1。

2)從離線統計走向實時呈現。大數據基于流式數據處理,可以做到實時呈現,增加時效性。
3)從單系統走向多系統混采。傳統網優系統一般是基于CDT(呼叫詳細跟蹤)或者信令分析的網優工具,而大數據網優可以實現各領域數據全面采集。
4)從結果數據轉向動態數據。大數據網優將動態采集網絡變化的數據,增加網絡管理有效性。
大數據網絡優化由數據源、大數據網優平臺、業務應用層和管理4部分組成。見圖2。

2.1 數據源采集
大數據網絡優化系統要對全網所有的有效數據進行快速采集,因此對于有效數據的定義、數據的合理預處理、數據的入庫匯總尤為重要。
在有效數據定義方面,大數據網絡優化系統采用多模塊同步采集,采集數據包括網絡數據、位置數據、信令數據、網管數據、用戶數據和各種外部數據等,其中CDT、MR、信令數據定義為大數據的數據源,用戶數據、網管數據定義為傳統的數據。結構化數據與半結構化數據并行處理,這樣大大提高了數據的采集能力。
在數據的預處理方面,在數據緩存短期保留原始文件和數據,期間不用將數據的格式和結構做轉換。后期將基礎數據中各資源數據歸一化處理,數據按照最細粒度存儲。數據模型是按照傳統的數據庫來處理,便于數據長期存儲。
在數據入庫匯總方面,將數據倉庫層分為分析匯總數據和應用匯總數據。其中分析匯總數據中將基礎數據進行輕度分析匯總,這樣能夠提高性能,防止大量的細節數據訪問,數據沉淀,粒度較細的數據可以保存更長時間。而應用匯總數據則是以多種方式存放高度匯總數據,而且能夠直接支持前端分析應用。
總之,數據源采集模塊,可以實現將基礎數據層中大數據計算結果和MPP(大規模并行處理)傳統數據處理結果直接匯總到深度分析庫中,進行數據的深度分析。
2.2 數據深度分析
大數據網絡優化系統是基于Hadoop(分布式數據分析平臺)的深度優化。其中的關鍵技術是MapReduce(一種編程模型)過程、分布式數據庫(Hbase)、分布式文件系統(HDFS)、引入MPP和Hadoop與MPP分布式數據庫混搭架構。
1)優化MapReduce過程。該過程增加data locality(數據局部性)特性,讓多次迭代的MapReduce過程減少數據傳遞,數據本地寫,提高訪問速度;同時增加控制模塊,定義迭代及條件退出過程,實現過程完全自動化;在輸出模塊建立緩存及索引,加速數據處理速度,MapReduce任務調度優化,性能提升70%。而且自研14類72種適合于Hadoop處理的并行數據分析挖掘算法單元,已調度框架優化,使用task預調度減少空閑slot時間,提高異常節點分析及可維護性提升。
2)采用分布式數據庫Hbase。Hbase可以建在大量低端serve的集群上,基于開放平臺與操作體系。與傳統數據庫垂直擴展的計算能力/行存儲不相同的是,分布式數據庫采取的是橫向擴展的計算能力/列存儲,具有大規模的并行計算,無限的處理性能。所以不論從可靠、敏捷、性能、成本等方面,分布式數據庫都有很好的表現力,可在大規模集群中實現負載均衡。
3)采用Hadoop與MPP分布式數據庫混搭架構。將不同種類的數據存儲在Hadoop主數據倉庫和MPP分布式數據倉庫中,并通過一體化的管控平臺進行調度,可實現數據的靈活存儲及共享,其結構見圖3。

4)實現快速的實時流處理。為實現數據的快速處理,系統采用了基于非關系型key-value數據庫的分布式緩存和持久化存儲系統。dcache高速緩存可以有效地緩解大量數據請求對系統的沖擊,實現實時流處理。
預處理模塊分為字段處理和事件處理兩種類型,各種處理可以前后任意拼接組合。預處理模塊從消息隊列中獲取事件消息,然后依據預處理規則完成對消息的補償、剔除和組合等處理,然后將消息放入隊列中等待處理。預處理將消息轉成對象以便內部處理,并將基礎數據進行分解,分拆成需要統計分析的元數據。預處理模塊同時完成時間窗的打點操作,將時間信號記錄到事件消息中。
2.3 業務應用層輸出
業務應用可以有4大類的應用:
1)網絡優化。先于客戶投訴發現問題,挖掘出需要優化的網元。結合VIP用戶群的業務量、業務類型、特殊位置等為價值用戶提供重點保障。在特定區域內的不同網絡進行流量分析、對比分析,流量預測。多網均衡、分流提供支撐。
2)實時監測。實現在線實時的監測網絡的運行質量。
3)客戶感知。實現客戶感知從全網、區域、單客戶的層層鉆取,在網絡側對各接口的信令分析、定義與用戶感知密切相關的指標體系,將網絡現狀進行點播式呈現,準確反映網絡存在的具體問題。
4)客戶投訴。實現簡單、快速、準確、完整的投訴處理。從根據網絡信令數據信息的變化和各個設備、網絡的運行情況可以知道用戶的實際體驗情況,可以處理用戶的問題,可以通過分析網絡運行的情況、通過整個信令的整個流程來逐步分析網絡服務差的原因。
大數據網絡優化,利用功能強大的數據采集及分析系統,充分挖掘數據的潛在價值,大幅提升網絡優化的效率和效果。輕松實現,運籌帷幄,能夠把握整個全業務大網絡的“過去、現在和未來”。◆