陳斌
【摘要】 本文通過分析大數(shù)據(jù)發(fā)展現(xiàn)狀和主流大數(shù)據(jù)技術架構,研究了大數(shù)據(jù)在電信運營商大數(shù)據(jù)平臺部署策略
【關鍵詞】 大數(shù)據(jù) 電信運營商 4V Hadoop Spark 流計算
一、引言
大數(shù)據(jù)的應用是在互聯(lián)網(wǎng)的高速發(fā)展中誕生的。谷歌提出了一套以分布式為特征的全新技術體系,即分布式文件系統(tǒng)(GFS,Google File System)、分布式并行計算(MapReduce)和分布式數(shù)據(jù)庫(BigTable)等技術。這些技術奠定了當前大數(shù)據(jù)技術的基礎,可以認為是大數(shù)據(jù)技術的源頭。
二、大數(shù)據(jù)發(fā)展現(xiàn)狀
近年大數(shù)據(jù)的發(fā)展呈現(xiàn)以下兩個特征:1)互聯(lián)網(wǎng)公司引領大數(shù)據(jù)發(fā)展?;ヂ?lián)網(wǎng)公司在搜索、廣告領域積極采用大數(shù)據(jù)技術優(yōu)化既有業(yè)務。二是今年以來陸續(xù)推出一系列面向第三方的大數(shù)據(jù)服務。2)傳統(tǒng)企業(yè)大數(shù)據(jù)應用仍處在探索期,發(fā)展?jié)u趨理性。傳統(tǒng)企業(yè)在大數(shù)據(jù)應用的思路上也在糾偏,更加務實。一是更加注重更干凈、結構化小的數(shù)據(jù)。二是更加注重企業(yè)自身沉淀下來的內(nèi)部數(shù)據(jù)的價值挖掘。三是更加注重根據(jù)業(yè)務需求把Hadoop 與傳統(tǒng)數(shù)據(jù)倉庫結合起來用。
三、大數(shù)據(jù)關鍵技術
1)大數(shù)據(jù)存儲管理。傳統(tǒng)的單機文件系統(tǒng)和網(wǎng)絡系統(tǒng)要求一個文件系統(tǒng)的數(shù)據(jù)必須存儲在一臺物理機上,在冗余性、可擴展性和容錯能力和并發(fā)能力上難以滿足大數(shù)據(jù)的需求。2)大數(shù)據(jù)計算能力。傳統(tǒng)的數(shù)據(jù)計算能力的提升依賴于擴容單機的CPU性能、增加內(nèi)存、擴展磁盤等方式,難以支撐平滑擴容。以MapReduce為代表的分布式并行計算技術可以通過低成本的通用服務器搭建系統(tǒng)。通過添加服務器擴展系統(tǒng)的總處理能力。3)大數(shù)據(jù)分析技術。大數(shù)據(jù)分析主要在兩個方面,一是對海量的結構化和半結構化數(shù)據(jù)進行高效率的深度分析,如從文本網(wǎng)頁中進行自然語言分析;二是對非結構化的語音、圖片和視頻進行機器可以識別的分析提取有用的信息。
四、大數(shù)據(jù)的主流技術
1、Hadoop。Hadoop是基于Java語言開發(fā),以分布式文件系統(tǒng)和Mapreduce為核心。其特點如下:1)可擴展性:Hadoop運行在基于X86結構的普通PC服務器或刀片服務器上,硬件和軟件松耦合在一起,可以很方便的增加計算節(jié)點。2)可靠性:Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配,確保能夠針對失敗的節(jié)點重新分布計算。3)低成本:Hadoop架構在廉價的硬件服務器上,不需要昂貴的硬件作支撐。其軟件是開源產(chǎn)品,不需要授權費用。4)高效性:相比傳統(tǒng)并行計算結構,Hadoop的計算和存儲是一體的,實現(xiàn)任務之間無共享,I/O開銷小。
2、Spark。Spark擁有MapReduce的優(yōu)點,但不同于MapReduce的Job中間輸出,其結果可以保存在內(nèi)存中,從而不再需要讀寫HDFS。其有以下特點:1)速度快。Spark支持內(nèi)存計算,對于小數(shù)據(jù)集能達到亞秒級的延遲。2)易于使用。Spark支持Sscala、Java和Python編寫程序。Spark提供了超過80個高級運算符,以便于更容易的構建并行應用程序。3)與HDFS底層兼容。Spark能夠運行在Hadoop 2.x的YARN集群管理器上,并且能夠讀取任何存在Hadoop數(shù)據(jù)。
2、流計算。流式數(shù)據(jù)是指將數(shù)據(jù)看作數(shù)據(jù)流的形式來處理。數(shù)據(jù)流是在時間分布和數(shù)量上無限的一系列動態(tài)數(shù)據(jù)集合體;數(shù)據(jù)記錄是數(shù)據(jù)流的最小組成單元。流計算的技術特點如下:1)實時性。流數(shù)據(jù)是實時產(chǎn)生、實時計算,結果反饋往往也需要保證及時性。2)易失性。在流計算環(huán)境中,數(shù)據(jù)流往往是到達后立即被計算并使用,只有極少數(shù)的數(shù)據(jù)才會被持久化地保存下來,大多數(shù)數(shù)據(jù)往往會被直接丟棄。3)突發(fā)性。在流計算中,數(shù)據(jù)的產(chǎn)生完全由數(shù)據(jù)源確定,由于不同的數(shù)據(jù)源在不同時空范圍內(nèi)的狀態(tài)不統(tǒng)一且發(fā)生動態(tài)變化,導致數(shù)據(jù)流的速率呈現(xiàn)出了突發(fā)性的特征。
五、主流技術方案比較
目前大數(shù)據(jù)平臺建設最常見的是基于Hadoop平臺和MPP數(shù)據(jù)庫的兩種方案。Hadoop、MPP數(shù)據(jù)庫和傳統(tǒng)數(shù)據(jù)庫并非是互相取代的關系。因此,在很多大數(shù)據(jù)解決方案中,單一大數(shù)據(jù)技術無法滿足所有的要求,而是要根據(jù)實際場景采用不同的技術方案或采用混搭架構進行綜合處理。
六、電信運營商大數(shù)據(jù)部署建議
大數(shù)據(jù)平臺建設目前有兩種方式,建議采用第2種方式:1)以現(xiàn)有分析系統(tǒng)BI為基礎,進行擴展,構建統(tǒng)一開放數(shù)據(jù)平臺。2)以統(tǒng)一數(shù)據(jù)管理為契機,通過數(shù)據(jù)統(tǒng)一采集、存儲與處理入手,新建大數(shù)據(jù)平臺。方式2可迅速匯聚數(shù)據(jù),不影響現(xiàn)網(wǎng)各系統(tǒng)的運行,后期可將經(jīng)分,性能管理等系統(tǒng)上移為數(shù)據(jù)集市,專注于專業(yè)分析。各數(shù)據(jù)源僅將數(shù)據(jù)送往大數(shù)據(jù)平臺。
大數(shù)據(jù)技術架構建議按照“松耦合、標準化、分層開放”的標準進行方案選取。而在數(shù)據(jù)層面,運營商面臨數(shù)據(jù)規(guī)模大,數(shù)據(jù)處理復雜,數(shù)據(jù)結構多樣化等多種挑戰(zhàn)。無論是傳統(tǒng)數(shù)據(jù)庫還是分布式數(shù)據(jù)庫,均難以單獨滿足數(shù)據(jù)存儲和分析的需求。大數(shù)據(jù)平臺建議采用Hadoop作為大數(shù)據(jù)的主要存儲平臺,各分析集市、應用系統(tǒng)可根據(jù)數(shù)據(jù)分析的深度,實時性采取Hadoop,Spark或MPP混搭架構。
參 考 文 獻
[1] Tom White.華東師范大學數(shù)據(jù)科學與工程學院譯.Hadoop權威指南(第3版)(修訂版).北京:清華大學出版社.2015.
[2] 工業(yè)和信息化部電信研究院.大數(shù)據(jù)白皮書(2014).2014.