宋曉波
(華信咨詢設計研究院有限公司,浙江 杭州 310000)
隨著運營商集約化、互聯網化等策略的推進和5G時代的來臨,運營商大數據平臺面臨數據處理體量急劇增長的挑戰。如何在新形勢下構建適應未來業務戰略的大數據平臺成為迫切需要解決的問題[1]。
大數據需要特殊的技術,以快速有效地處理海量數據滿足應用需求,包括大規模并行處理(Massively Parallel Processing,MPP)數據庫、大數據采集技術、分布式存儲技術、分布式計算技術等。
由于技術、數據系統限制等問題,運營商利用大數據主要遇到以下問題。
海量數據存儲和處理壓力;數據處理種類多,單一技術難以實現:傳統數據平臺無法支持非結構化、半結構化數據存儲和處理,無法滿足互聯網類業務發展要求;實時應用需求難以滿足;挖掘能力不足;數據不全,無法形成跨專業、跨域的數據關聯,無法呈現端到端全局數據,價值不能深度被挖掘;應用支撐能力不足:數據共享與開放能力不足,不能有效支撐應用。
運營商大數據平臺經歷了從早期的對稱多處理器(Symmetric Multiprocessing,SMP)架構到MPP架構、Hadoop架構及Hadoop和MPP混搭架構[2]。
SMP架構即對稱多處理器結構,難以支撐運營商海量數據存儲和處理要求,平臺擴展能力成了瓶頸,并且平臺投資成本高,運維成本也相應劇增。
MPP架構具有高效的結構化數據處理能力和交互分析能力,SQL和報表工具兼容性好,開發和運維成本低等特點。但MPP數據庫在非結構化數據處理和實時處理方面能力有限。
Hadoop架構具有分布式數據存儲、分布式并行計算、支持橫向擴展、支持X86集群架構等特點,適合運營商的非結構化數據采集存儲、海量數據處理、實時處理等應用場景。
Hadoop和MPP混搭架構結合兩者優勢,既具有非結構化數據存儲和海量數據處理能力,又具有高效的結構化數處理和分析能力及良好的第三方應用工具兼容性。當前該架構在運營商大數據平臺中使用較多。
目前市場上的MPP數據庫多種多樣,例如有Teradata,Vertica,Greenplum,GBase等,建議結合運營商實際數據應用情況進行評測和選型,如表1所示。

表1 某運營商MPP數據庫選型評測項目
目前Hadoop發行版主要有CDH,HDP以及MapR,在組件和版本方面大致相同,但HDP完全開源、可視化工具強大;而CDH在I/O性能和MapReduce性能方面皆優于HDP和MapR。因此Hadoop發行版選型建議:
在計算性能和穩定性要求較高的場景,最佳Hadoop發行版選擇CDH;
在需要大量二次開發的場景中,最佳Hadoop發行版選擇HDP;
在可視化要求較高的場景,最佳Hadoop發行版可選擇CDH或HDP。
運營商大數據平臺采集的數據包括BSS,OSS,MSS的結構化業務數據和用戶上網、用戶行為等半結構化及非結構化數據。如果屬于高延遲的業務,可以采用批處理采集方式,實時分析則需要使用實時采集技術。
離線采集(批處理采集):對于運營商BSS,OSS,MSS的結構化業務數據,需定期按需接入數據源數據,經過校驗、清洗、轉換等步驟,對接入數據統一進行處理,加載到大數據平臺。
實時采集:對于運營商信令日志、用戶行為等實時性要高的業務數據,采用實時采集技術實時接入數據源數據。常用的數據采集組件特性如表2所示。

表2 常用的數據采集組件特性
數據存儲是大數據平臺的核心,運營商大數據平臺按數據分類,可分為結構化數據存儲、非結構化數據存儲和半結構化存儲[3]。
結構化數據存儲:通常使用MPP數據庫存儲運營商大數據平臺采集和整合后的核心數據倉庫數據和分析型數據。
非結構化數據存儲:使用分布式文件系統進行非結構化數據存儲,如運營商大數據平臺采集的圖片、文檔、網絡等非結構化數據,通常基于Hadoop HDFS進行存儲。
半結構化數據存儲:適合使用NoSQL數據庫進行存儲,具有非關系型、分布式、輕量級、支持水平擴展等特點,選型時需結合其特性和應用場景考慮。
根據應用類型不同,大數據平臺數據計算可分為實時、交互式、批處理/非交互式3類,常用的數據計算組件特性比較如表3所示。

表3 常用的數據計算組件特性比較
本文針對運營商大數據問題,探討如何進行運營商大數據平臺選型,主要從平臺架構選型和平臺技術選型方面展開,并給出選型建議。在實際大數據平臺選型時,應考慮運營商當前IT系統架構的復雜性和企業IT人員技術能力和運維能力,根據不同應用場景以及技術的多樣性進行綜合考慮,形成適合運營商本身的大數據平臺方案。