陳 中
(中國聯通廣西分公司,廣西 南寧 530022)
通信大數據可視化是整合聯通集團總部、北海國家高新技術產業開發區、中國互聯網絡信息中心等多方數據源,匯聚全國各省市及東盟十國的語音通話、上網及域名解析等數據,從內容策劃、數據整合與分析、可視化等多個維度精心打造的高質量通信大數據展示產品。
第13屆中國-東盟博覽會于2016年9月在廣西南寧舉辦,政府迫切需要為參加博覽會的國內外嘉賓展示中國與東盟國家的信息往來。基礎設施平臺是中國—東盟信息港在職能層面規劃的第一大平臺。通信大數據可視化項目需要形象展現出基礎設施平臺中3個重要通信節點在中國與東盟國家交互流程中的核心地位。第一個重要的通信節點是中國聯通南寧區域性國家通信業務出入口(簡稱南寧國際局)。通信大數據通過對中國與東盟的語音呼叫行為的展示,突顯南寧國際局在雙方語音交互行為方面的重要作用。此外,通信大數據還要從東盟各國和中國各省兩個角度對中國與東盟經由南寧國際局的語音行為進行了統計,展現東盟十國與我國各省語音交互的活躍程度。第二個重要節點是南寧國家級互聯網骨干互聯節點。通信大數據要通過現在和未來進行對比,為參觀者展現該節點建成后三大運營商互聯網實現本地互聯的美好愿景。第三個重要節點是北海國家頂級域名解析系統節點。通信大數據要從解析行為、熱門網站等角度為參觀者直觀地詮釋了北海國家頂級域名解析系統節點在網絡通信中的重要角色。
本次創新內容主要是基于Hadoop的大數據分布式存儲,搭建基于hadoop的大型數據倉庫,存儲采集的各類原始數據,分析用戶上網行為及位置軌跡,結合GIS地圖或3D建模渲染等方式,通過圖形化的界面搭建具有專業水準的可視化應用,傳達中國與東盟國家的數據與信息往來[1]。
整個系統運行在Hadoop集群環境及mysql數據庫中,包括用于通信大數據可視化展示結果的前臺web;用于采集處理各類多源異構數據源到Hadoop集群中,并更新探索結果供前臺頁面展示的后臺server;用于自主編寫數據挖掘程序,集成了python、R等編程語言的環境的前臺ui;用于數據挖掘,集成了大量數據處理、數據挖掘算法的后臺miner。
前臺web展示使用了ECharts,它是百度提供的一個使用JavaScript實現的免費開源可視化庫,底層使用矢量圖形庫ZRender的技術,提供直觀,交互豐富,可高度個性化定制的數據可視化圖表。
ECharts是由數據驅動,數據的改變直接驅動圖表,能夠展現千萬級的數據量,通過增量渲染技術,基于visualMap的視覺編碼,支持不同維度的顏色、大小、透明度、明暗度調整。
本系統中的東盟訪問中國的十大熱門網站柱狀效果圖樣如圖1所示。

圖1 東盟訪問中國的十大熱門網站柱狀效果圖
隨著移動數據上網業務的日益增長,用戶的上網行為也逐漸成為大家關注的焦點。因此,系統通過沉淀海量互聯網上網日志到Hadoop集群,分別從用戶訪問人數、頻次、使用流量進行分析,得到中國與東盟國家用戶群中使用各類APP應用的排名情況及變化趨勢,洞察不同客戶群體的個性化差異需求。
聯通集團統一DPI系統架構如圖2所示。

圖2 統一DPI系統架構圖
統一DPI系統通過數據采集層、數據解碼層、應用 層 完 成LTE系 統Uu、X2、S1、S11、S10、SGs、S6a、S5/S8等接口及防火墻數據的接入和采集,原始XDR進行分析、關聯、回填及合成,上層應用系統的一系列功能。
傳統架構處理DPI記錄存在如下困難。
(1)移動用戶上網行為記錄是海量數據。當前聯通全國每月的上網記錄數達到萬億條。為滿足查詢和分析要求,需要存儲3-6個月的歷史數據,存儲容量達到PB級。同時,移動互聯網用戶訪問流量在快速增長(大約每半年翻一番),由此引發的上網記錄數據將進一步猛增。
(2)傳統的基于IOE(IBM小型機+Oracle關系數據庫+EMC2高端存儲)的IT方法無法滿足應用的需求:數據量超越了傳統關系型數據庫可管理的容量上限,并且關系型數據庫對如此大量的數據進行查詢和分析操作時,性能嚴重下降,導致系統無法使用。小型機+高端存儲+商用關系數據庫,投資成本巨大。
本系統滿足如上需求,在基于Hadoop/Hbase的分布式架構上提供兩大功能:移動用戶上網記錄查詢和分析服務。
(1)上網記錄查詢。通過在聯通移動通信網所有Gn接口鏈路進行用戶上網數據采集、信令和業務解析、合成,生成全網移動用戶上網流量詳單記錄(Flow Detail Record,FDR)。
(2)上網記錄分析。通過對用戶上網記錄數據進行統計,并提供實時和可視化結果,同時對外提供數據接口服務,來滿足未來的智能分析需求。
移動用戶上網記錄集中系統架構如圖3所示,用戶的所有上網數據進行采集主要通過省分分組域Gn口部署數據采集設備,進行信令和業務解析后入庫到采用Hadoop或Hbase的數據庫中[2]。
通過對中國與東盟國家用戶的手機終端分析能為終端生產和銷售產業鏈提供多維度終端熱度排行、忠誠度排行,綜合評估不同國家人群終端市場占有率、換機率、用戶終端喜好趨勢,為電子產品相關企業的研發、生產和銷售策略等提供完整的數據決策;為投資行業提供終端品牌價值參考,供其進行投資選擇;為公眾購買手機終端提供依據。本平臺通過聯通集團終端DW平臺接口將用戶五元組數據下發至省經分FTP接口機。終端基礎信息接口主要是一些編碼信息,包括終端廠商表、終端型號表、終端參數表、終端參數子項表。
主要接口協議與數據口徑說明如下。
(1)數據口徑:詳單中,截止到月末最后一天的用戶五元組。例如,2015年12月五元組月全量數據是:提供12月全月語音詳單和流量詳單中的用戶,截止到12月31日23:59:59時,用戶最新的五元組。
(2)數據內容:用戶五元組。
(3)數據接口:文件接口,TXT文本文件,分省提供。
(4)數據文件生成時間:每月6日。
DIM_IMEI_LABEL是手機IMEI標簽表,其主要功能是把所有的IEMI進行打標后呈現。同時,由上述數據觀察研究中國與東盟國家在通信行業發展歷史現狀及未來趨勢上的差異。

圖3 移動用戶上網記錄集中系統架構圖
手機信令是用戶位置的天然采集器,具有公認的連續性、全覆蓋特點。系統基于聯通歷史和實時手機信令分析數據,并融合第三方多源數據,形成了以手機信令數據為基礎的全域人口大數據位置信息。通過手機信令數據可實現居住地或工作地、POI、滲透輻射區、人口監測、人口流動的可視化,方便感知和洞察中國與東盟國家人口往來大數據背后的城市規律。
目前,我們可以通過話單和信令數據清楚知道用戶所在的基站,通過查找基站的信息可以大概知道用戶所處的范圍,但缺陷是只知道歸屬基站,無法更精準的實現用戶定位。因此,首先需要解決的是如何獲取用戶更為精準的位置信息,有兩個發展方面設想,具體如下。
第一,基于MR信息,根據用戶與多個基站之間的信號場強來判定用戶位置。
傳統的MR定位方法是基于信號強度進行定位,利用在MR中的接收信號功率以及導頻信道發射功率可以計算出路徑損耗,然后通過傳播模型計算移動臺到小區的距離,通過對多個小區的距離測量計算,最終確定用戶位置。該定位方法的精度受信道變化影響較大,在市區等無線環境復雜區域,無法精準定位用戶位置。此外,該方案需要從O域獲取MR數據,MR數據屬于非常態數據,可能需要專門的MR數據采集動作。
第二,基于用戶GPS定位數據,可以直接得到用戶準確的經緯度信息。
在WCDMA規范中,測量報告具備用戶上報位置GPS信息的功能,隨著基于用戶位置信息的APP應用日趨豐富,如百度地圖、嘀嘀打車、微信等,用戶已養成打開手機“GPS定位”功能習慣,這為大規模獲取用戶準確位置信息數據提供基礎。
3G網絡中已實現用戶呼叫記錄數據采集,網絡質量評估數據充足。目前,在3G網絡的RNC中已經采集用戶呼叫記錄數據。用戶呼叫記錄數據主要包含用戶的信令數據、MR測量報告數據等。其中,MR測量報告包含用戶的ECIO、RSCP、位置信息等。呼叫記錄數據采集情況如圖4所示。
在GN口部署探針,獲取手機QQ、微信中的位置信息數據,然后解析得到用戶手機號、帳號、經緯度等關鍵信息。根據用戶一段時期內的經緯度信息即可判斷出比較精確的常駐地點。該方案的定位準確度最高,但是需要直接獲取GN口數據來開發實現。

圖4 呼叫記錄數據采集情況
在2016年9月舉行的第13屆“中國-東盟”博覽會期間,通信大數據項目的可視化展示,生動形象的呈現出中國與東盟信息往來的千絲萬縷,獲得了各方各界人士及國內外嘉賓的高度評價,為推動“一帶一路”建設貢獻力量。通信大數據可視化,獲得由數據中心聯盟、中國大數據技術與應用聯盟、中國通信企業協會通信網絡運營專業委員會頒發的“2015-2016年度大數據優秀案例獎”。
本文結合實例詳細介紹了通信大數據可視化,以供參考。