大數據架構關系分析及應用

2017-01-14 04:37:18葉惠仙賈如春

計算機時代 2016年12期

葉惠仙+賈如春

摘要：用哪種平臺能更有效地從海量數據中找到有價值的信息并利用，是現代IT人不斷追求的目標。簡述了大數據的定義與特征，提出大數據的架構模型。從軟件角度對大數據架構平臺進行了分析與研究，分析了大數據架構模型各層次的意義與關系，描述了數據存儲層及計算框架層的技術應用，并對大數據應用進行了展望。

關健詞：大數據；大數據定義；大數據架構；計算框架

中圖分類號：TP393 文獻標志碼：A 文章編號：1006-8228（2016）12-42-04

Abstract： Which platform can be used more effectively to find valuable information from the mass data and to make use of it， is the goal of modern IT people continue to pursue. This paper briefly introduces the definition and characteristics of big data， and puts forward the architecture model of big data. The big data architecture is analyzed and studied from the software point of view， the meaning and relationship of all layers of the big data architecture model are analyzed， the technologies used in the data storage layer and computing framework layer are described， and the application of big data is prospected.

Key words： big data； big data definition； big data architecture； computing framework

0 引言

當前，大數據存儲信息全球所擁有的數據總量已經遠遠超過歷史上的任何時期，且數據量的增加速度呈現倍增趨勢。技術的發展往往不是那么一往無前，而是一直不停的迭代，然后論證，再互相影響。大數據技術也同樣如此，從各種各樣類型的數據中，做到快速獲得有價值信息的能力，主要是大數據技術。

就現今數據分析方法而言，更多傾向于數據的關聯性，精確性。數據種類繁多，在編碼方式、存儲格式和應用特征等多個方面也存在多層次、多方面的差異性，結構化、半結構化、非結構化數據并存；如何處理隱含于生產者和消費者之間產生的數據知識的價值信息延遲，一直是現代計算構架不斷演進的主要動力。

1 大數據的定義

在大數據的快速發展中，各個學者試圖對大數據理論、模型、分析、解決方案等提出自己的見解，并且定義也多種多樣，但是被大多人所認可的是由道格拉斯·蘭尼（Douglas Laney）在2001年提出的經典的3V定義：規模龐大的數據集合（volume），高速（velocity）地累積和變化，以及廣泛（variety）的來源種類[1]。在2012年世界經濟論壇上增加了第四個V：價值（value），將大數據作為一種新的經濟資產。大數具有以下最為重要的五大特征。

⑴ 非競爭性（non-Rival）：它可以被許多消費者同時使用和重復使用。這意味著向個人提供大數據的邊際成本是零。

⑵ 持續增長（Rising）：大數據還呈指數級增長（Rising）。最小的基本單位是Byte，1TB=1，024GB；1PB=1，024TB；1EB=1，024PB；1ZB=1，024EB；1YB=

1，024ZB。在現階段的TB時代，1NB=2的60次方TB=1152921504606846976TB=115292150460684697個1TB硬盤。

⑶ 精煉（Refinable）：這些海量數據很容易處理和精煉（Refinable），一家公司越使用大數據，它的質量和價值就越高。

⑷ 可再生（Renewable）：大數據是可再生的（Renewable），像風能一樣。

⑸ 可轉變用途（Repurposable）：大數據是可延展和轉變用途的（Repurposable）。作為一種資源，大數據是非競爭性、不斷增長、可精煉、可再生以及可轉變用途的。大數據是應用領域一項偉大的資產，它是一種非常真實的現象，是一種對任何組織來說都非常珍貴的資源[2]。

2 大數據架構模型

近年來，世界產生的數據就超過了可用存儲量。已經從思考“存儲什么”轉向了“清除什么”。當下智能手機由于存儲了過多的圖片而變得空間不足，這已經是一個全球性的問題了。經常是存儲后再也沒看過，或是偶爾查閱，這樣就成就了一句話：存儲中的一半數據是垃圾。只有那些知道怎樣提出正確問題的人才知道哪些數據可能會對提問有用和相關，從而值得收集和處理，目的是開發它們的寶貴模式。我們需要更多更好的思路來篩選有價值的數據信息，大數據還會不斷地增長[3]。

對此類技術的需求正在堆積，單位業務、創新和福利都取決與數據科學的價值量，現在是時候開發一套大數據系統的方法論了。圖1為大數據架構關系模型圖。

3 大數據架構模型分析

⑴ 文件系統層：在這一層，分布式文件系統需具備存儲管理、容錯處理、高可擴展性、高可靠性和高可用性等特性。由于文件系統層關注的焦點開始向“低延時處理”方向轉移，所以傳統基于磁盤存儲的文件系統，也開始向基于內存計算的文件系統轉變，這樣可大大降低I/O操作和磁盤序列化帶來的訪問開銷。Tachyon和Spark RDD（彈性分布式數據集（Resilient Distributed Datasets）就是朝這個方向演化的范例，是一種高度受限的共享內存模型。Tachyon是一個高容錯的分布式內存文件系統，其設計的核心內涵是要滿足當下“低延遲”的數據處理要求。tachyon是在內存中處理緩存文件，允許文件以訪問內存的速度在集群框架中進行可靠的共享，類似于Spark。Tachyon的吞吐量比HDFS高100倍。Spark框架雖然也提供了強大的內存計算能力，但其沒有提供內存文件的存儲管理能力，而Tachyon則彌補了Spark的不足之處。如CEPH文件系統，Hadoop文件系統HDFS。Google文件系統GFS（Google File System）是一個可擴展的分布式文件系統，隱藏下層負載均衡，冗余復制等細節，對上層程序提供一個統一的文件系統API接口[4]。Google根據自己的需求對它進行了特別優化，包括超大文件的訪問，讀操作比例遠超過寫操作，PC機極易發生故障造成節點失效等。GFS的新穎之處在于它著眼于幾個重要的目標，如性能、可伸縮性、可靠性和可用性，能利用所提出的方案，采用廉價的商用機器構建高效的分布式文件系統。

⑵ 數據存儲層：由于目前采集到的數據，大部分為非結構化和半結構化數據，數據的表現形式各異，有文本的、圖像的、音頻的、視頻的等，因此常見的數據存儲也要對應有多種形式，有基于鍵值（Key-Value）的，有基于文檔（Document）的，還有基于列（Column）和圖表（Graph）的。如果采用單一數據庫引擎來滿足所有類型的數據存儲需求，通常會嚴重降低數據庫管理的性能。因此，需要多元的（Polyglot）數據庫解決方案。非結構化（NOSQL）數據存儲或可擴展的結構化數據（包括基于鍵值、基于文檔的和面向列的）數據存儲方案是支撐大數據應用的關鍵所在。RCFile文件存儲格式，充分吸取面向列和面向行存儲模式的優點，揚長避短，根據對一致性（consistency）要求的強弱不同，分布式數據存儲策略可分為ACID和BASE兩大陣營。ACID是指數據庫事務具有的四個特性：原子性（Atomicity）、一致性（Consistency）、隔離性（Isolation）、持久性（Durability）。ACID中的一致性要求比較強，事務執行的結果必須是使數據庫從一個一致性狀態變到另一個一致性狀態。而BASE對一致性要求較弱，它的三個特征分別是：基本可用（Basically Available），軟狀態/柔性事務（Soft-state，即狀態可以有一段時間的不同步），最終一致性（Eventual consistency）[5]。BASE還進一步細分基于鍵值的，基于文檔的和基于列和圖形的，細分的依據取決于底層架構和所支持的數據結構。Dynamo是基于鍵值的高可用的分布式存儲系統，該系統放棄了數據建模的能力，所有的數據對象采用最簡單的Key-value模型存儲，可簡單地將Dynamo理解為一個巨大的Map。Dynamo是犧牲了部分一致性，來換取整個系統的高可用性。Cassandra是由Facebook工程師設計的一個離散的分布式結構化存儲系統，采用的是面向多維的鍵值或面向列的數據存儲格式。

⑶ 資源管理層：這一層是為了提高資源的高利用率和吞吐量，以到達高效的資源管理與調度目的。資源協調層需要完成對資源的狀態、分布式協調、一致性和資源實施管理。第一代Hadoop的生態系統，其資源管理是以整體單一的調度器起家的，其代表作品為YARN。而當前的調度器則是朝著分層調度的方向演進，這種分層的調度方式，可以管理不同類型的計算工作負載，從而可獲取更高的資源利用率和調度效率。這些計算框架和調度器之間是松散耦合的，調度器的主要功能就是基于一定的調度策略和調度配置，完成作業調度，以達到工作負載均衡，使有限的資源有較高的利用率。

⑷ 計算框架層：本層的計算框架非常龐雜，有很多高度專用的框架如：流式的，交互式的，實時的，批處理和迭代圖的（Batch and Iterative Graph，BSP）等。為這些計算框架提供支撐的是運行時引擎，如BDAS指“Berkeley Data Analytics Stack”即伯克利數據分析棧，Spark和 Flink等。Spark和Flink都屬于基礎性的大數據處理引擎。Spark是一個基于內存計算的開源的集群計算系統，其目的在于讓數據分析更加快速。適合各種迭代算法和交互式數據分析，能夠提升大數據處理的實時性和準確性，現已逐漸獲得很多企業的支持，如阿里巴巴、百度、網易、英特爾等公司均是其用戶。Flink是一個非常類似于Spark的計算框架，但在迭代式數據處理上比Spark更給力。Pregel采用的是迭代式的計算模型，它被稱之為Google后Hadoop時代的新“三駕馬車”之一，另外兩駕馬車分別是：“交互式”大數據分析系統Dremel和網絡搜索引擎Caffeine）。GraphX 是一個同時采用圖并行計算和數據并行計算的框架[6]。Storm一個大數據實時處理系統，大大簡化了面向龐大規模數據流的處理機制，從而在實時處理領域扮演著重要角色。BlinkDB是一個用于在海量數據上運行交互式 SQL查詢的大規模并行查詢引擎。BlinkDB允許用戶通過適當降低數據精度，對數據進行先采樣后計算，通過其獨特的優化技術，實現了比Hive快百倍的交互式查詢速度，而查詢進度誤差僅降低2～10%。BlinkDB采用的策略，與大數據布道師，維克托·邁爾-舍恩伯格在其著作《大數據時代》中提到的觀點，“要全體，不要抽樣”，恰恰相反，如果要實現在大體量數據上的“快”，就得想辦法減少數據，而減少數據，勢必要適度地降低數據分析精確性。

⑸ 數據分析層：在這一層里，主要包括數據分析（消費）工具和一些數據處理函數庫。這些工具和函數庫，可提供描述性的、預測性的或統計性的數據分析功能及機器學習模塊。數據分析層中的工具，涵蓋范圍很廣，從諸如SQL的聲明式編程語言，到諸如Pig的過程化編程語言，均有涉及。數據分析層中的庫也很豐富，可支持常見的數據挖掘和機器學習算法，這些類庫可拿來即用，甚是方便。Hive是一個建立于 Hadoop上的數據倉庫基礎構架，用于進行數據的提取、轉化和加載（即Extract-Transform-Load，ETL），是一種可以存儲、查詢和分析存儲在Hadoop 中的大規模數據的機制[7]。

⑹ 數據集成層：在這一層里，不僅包括管理數據分析工作流中用到的各種適用工具，還包括對元數據（Metadata）管理的工具。數據集成框架提供了良好的機制，以協助高效地攝取和輸出大數據系統之間的數據。從業務流程線到元數據框架，數據集成層皆有涵蓋，從而提供全方位的數據在整個生命周期的管理和治理。ETL是數據抽取（Extract）、清洗（Cleaning）、轉換（Transform）、裝載（Load）過程，是構建數據倉庫的重要一環[8]。

⑺ 操作框架層：操作性框架用來構建一套衡量標準和測試基準，從而來評價各種計算框架的性能優劣。在這個操作性框架中，還需要包括性能優化工具，借助它來平衡工作負載。包含監測管理框架（Monitoring Frameworks），基準測試（Benchmarking）[9]。Apache HCatalog提供一個共享的模式和數據類型的機制，使用戶不必關心數據怎么存儲，并提供了可操作的跨數據處理工具。

4 大數據的發展應用

大數據這種近乎神奇的新資源，它理應改變和提高商業生命周期的各個方面。一個企業的決策分析，雖然是微小的數據，但卻是非常重要的強大工具，如此多的數據可以非常快速而低成本地產生和處理。日益擴大的大數據海洋中有價值的“潛流”越來越多，但是對于沒有計算能力的人來說是看不到的，因此更多更好的技能和技術極為有用。當IT部門要求更多的資金時，可能是有非常好的理由。然而，僅靠他們一己之力，再多的數字技術和解決方案也依然不夠用。需要有能夠自動從大數據中獲取經濟價值的方式，經濟價值就是從大數據中找到的小但是重要的模式[10]。大數據可被用于以下方面。

⑴ 改善服務、產品或流程，幫助找到企業低效的地方。

⑵ 為用戶或客戶量身定制產品或服務，讓公司更了解他們對客戶需求。

⑶ 預測趨勢發展方向，因為大數據可以表明歷史是如何塑造未來的。

⑷ 激發可能的戰略，比如新產品的設計和發行、時間、方式、目標人口等。

⑸ 規劃并決定替代方案，大數據支持實證選擇。

⑹ 教育行業中，讓師者接近發現“每一個學生的真實”[10]。

⑺ 最后，對產品和服務進行創新或革新，幫助公司預測無法察覺的需要、愿望和需求。

5 結束語

本文以大數據架構為核心，分析了大數據解決方案中的特定的功能組件及關鍵技術。架構技術的演進是一個開放并不斷改進的過程，模型中的操作框架、數據集成與分析、計算框架、數據存儲等技術發展還面臨著問題，減少批處理和交互式分析之間的平衡，實時和低延時處理的計算架構在快速的發展過程中，也不斷推進這種計算架構的演進。大數據需要新處理模式才能具有更強的決策力、洞察力和過程優化能力。加強大數據技術研究，使不同行為特征的行業得以針對性塑造及創新發展，大數據高效有序的利用，有助于推進國民經濟的繁榮發展。

參考文獻（Reference）：

[1] 張鋒軍.大數據技術研究綜述[J].通信技術，2014.11：40-48

[2] 陸云帆，諸振家.大數據數據庫的特點與處理技術分析[J].信

息通信，2014.7：114

[3] 馬建光，姜巍.大數據的概念、特征及其應用[J].國防科技，

2013.2：10-17

[4] 李芬，朱志祥，劉盛輝.大數據發展現狀及面臨的問題[J].西安

郵電大學學報，2013.5：100-103

[5] 王珊，王會舉，覃雄派，周烜.架構大數據：挑戰、現狀與展望[J].

計算機學報，2011.10：41-52

[6] 黃哲學，曹付元，李俊杰，陳小軍.面向大數據的海云數據系統

關鍵技術研究[J].網絡新媒體技術，2012.6：20-26

[7] 夏海元.面向Big Data的數據處理技術概述[J].數字技術與

應用，2012.3：179-180

[8] 楊京，王效岳，白如江，祝娜.大數據背景下數據科學分析工具

現狀及發展趨勢[J].情報理論與實踐，2015.3：134-137，144

[9] 張延松，焦敏，王占偉，王珊，周烜.海量數據分析的

One-size-fits-all OLAP技術[J].計算機學報，2011.10：36-46

[10] 廖建新.大數據技術的應用現狀與展望[J].電信科學，

2015.7：7-18

計算機時代2016年12期

計算機時代的其它文章: 分布式智能交通視頻系統設計; 基于Hadoop平臺的圖像檢索模型; 基于Git的代碼托管平臺JLUCODE; 礫巖球度對礫巖地層電阻率影響的數值模擬研究; 無線傳輸LED十字屏集群控制系統; 圖書推薦算法綜述