趙新星
(江西省郵電規劃設計院有限公司,南昌 330000)
被認作為“未來的新石油”的大數據,其中潛藏著巨大、可挖掘的信息價值,成為各國家新一輪戰略爭奪點,也成為社會業界關注的新興焦點。英特爾中國研究院首席工程師吳甘沙說,“大數據是當前社會生命活動主要承擔者”。就國內電信運營商而言,大數據時代大潮勢不可擋,既有信息服務優勢在浪潮下遭受沖刷,管理運營支撐力不足、終端掌控力不夠、物業創新力滯后等問題逐漸顯現。這就要求電信運營商與時俱進,緊跟時代浪潮,利用自身體系比較優勢,深挖數據、整合信息,將大數據技術充分運用于IT 支撐系統構建、優化與完善,強化核心競爭力,進而實現穩定、可持續發展。
“大數據”其本質為一個數據集合。從此數據集合角度分析,無法運用傳統數據庫工具,對其進行抓取、管理與處理,究其緣由,關鍵在于其4V—體量(Volumes)、類別(Variety)、速度(Velocity)、真實(Veracity)基本特征。
一是數據體量大,就大數據而言,在實際應用中,其體量已達PB、EB 量級;二是數據類型多,數據來源廣泛,種類、格式日益多樣化,沖破既定結構化數據范疇,半結構化、非結構化數據囊括其中;三是數據處理快,基于數據超大體量,在數據存儲、傳輸、增長、更新等方面依舊能實現實時處理,大數據信息運用極其高效;四是數據真度高,企業內容、交易、應用與社交等新數據源逐漸興起,傳統數據源主導格局被破除,就需要保證數據真實有效來確保企業信息安全[1]。
對海量數據有效處理,是大數據運用中至關重要的一個課題。靜態數據批量處理、圖表數據綜合處理、在線數據實時處理,是目前大數據主要處理形式。針對大數據處理,相應處理系統也各自演化,各持特色,大體而言,呈現出三大趨勢,一為降成本、提能效,數據引擎專用化;二為擴領域、塑生態,數據處理平臺多樣化;三為加速度、走批量,數據計算實時化。
要深入挖掘大數據潛在信息價值,針對地分析與計算不可或缺。大數據分析,基于深度學習、知識計算,再以可視化關鍵性技術呈現分析結果。其中,深度學習,將架構學習對象層次化并進行梯度表達,把抽象問題具象化,加深理解并有效解決;知識計算,從海量數據中進行價值化抽取,構建查詢、計算知識庫,進行高端分析;可視化技術,將數據信息轉化為動態圖形,實現交互式展示,助力理解與合理決策。
終端技術智能化、用戶群體規模化、網絡業務多樣化,導致訊息數據海量化,給電信運營商IT 支撐系統帶來極其嚴峻的挑戰。就整個IT 支撐系統而言,其數據主要來自面向維護的設備層、面向管理的運維層、面向市場的用戶層三大方面,主要由GPRS的Gn、Gi、Gb 接口,交換網的A 接口、Abis 口等傳輸。這就要求電信運營商基于常規的網絡運營數據、用戶基本信息,構建更為真實、更為全面的用戶網上行為信息庫[2]。
在IT 支撐系統中,數據獲取分為采集、預處理、傳輸三個步驟,其中,數據采集,主要通過DPI 數據采集器,依據指定周期、IP 地址,采集網絡數據包,進行拆包處理,提取有價值信息;數據預處理,主要針對含噪、冗余、差異化的異構多源數據,以數據清洗、集成、冗余消除等方式,提質量,降傳輸、存儲壓力,確保分析結果準確;數據傳輸,數據經IP 骨干網到數據中心,完成存儲。面對海量數據信息,大數據處理、分析技術將行之有效。
訊息數據海量化、業務結構復雜化,傳統數據庫無法線性擴容,也難以滿足非結構化處理要求,電信運營商存儲、訪問壓力陡增,這要求基礎存儲空間更高性能、更大容量,更快吞吐。充分利用大數據技術,有效實現數據庫線性擴容,從容應對存儲需求,另外,也能滿足非結構化數據處理要求,進而提升IT 支撐系統整體性能。
數據分析,可應對非結構化數據,作用在于發掘數據價值。電信運營商依托IT 支撐系統優勢,革新運營模式,創新出大數據分析服務,從而提升品牌影響力。基于大數據分析技術,完善數據發掘、統計分析、數據可視等整體流程,將數據封裝為服務,轉型為信息服務供應商,實施企業戰略,精細運營、精準營銷,強管理、增體驗,提高市場占有率。
一方面,構建企業內部統一數據運算分析平臺,可提供企業級數據訪問功能,直接控制數據實例,既能靈活擴展、配置,又降低投資風險;另一方面,基于大數據統一分析云平臺,有效融入Map Reduce 架構與數據庫存儲,從而對半結構化、甚至非結構化數據進行高效化處理分析,基于此,客戶能以數據驅動業務,實現成本控制、利潤增長[3]。
大數據技術發展已然大勢所趨,其領域滲入將更為廣泛、更為深入、更為全面。大數據與電信領域有效結合,對數據潛在價值發掘意義重大,大數據技術應用于IT 支撐領域,電信運營商要把握其初級階段表現及規律,進行有益嘗試,打開電信行業發展新局面。