999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop生態系統的大數據解決方案

2019-06-26 01:31:56韓朵朵劉會杰許愛雪
關鍵詞:解決方案數據庫

韓朵朵 劉會杰 許愛雪

(石家莊鐵路職業技術學院 河北石家莊 050041)

1 引言

隨著21世紀進入信息化時代,由人類日益普遍的網絡行為伴生的數據信息量呈爆發式增長,大數據概念也應運而生。由于大數據包含了超出傳統數據庫系統處理能力的海量數據,處理這些信息時必須采用與傳統數據處理方式不同的解決方案。目前,圍繞大數據的相關研究已經大量存在,主要集中在對數據的快速捕獲、管理、存儲和分析等關鍵問題的解決上。其中,由Apache軟件基金研發的Hadoop技術在大數據分析處理領域占據了主流地位。

本文介紹了大數據的概念及Hadoop生態系統的組成框架,重點從大數據平臺中面臨的數據存儲、分析、管理及安全等關鍵問題入手,對基于Hadoop生態系統的解決方案進行了分析綜述,并結合實際指出基于Hadoop的大數據平臺的研究和應用發展方向。

1.1 大數據特征

當數據量超過一定規模,致使常規軟件不能在可接受的時長內完成對數據的捕獲、管理和處理工作時,這些數據即可稱為大數據(big data)。大數據是物理世界在數字空間的映射,通過大數據平臺有效組織各類數據,模擬物理世界屬性,即可用來分析和服務現實世界,這也是大數據所追求的最終目的。大數據具有典型的“4V”特征,分別為:

(1)體量(Volume):數據量級高,從TB量級躍增到PB量級,并持續增高。

(2)速度(Velocity):處理速度快,對于時間敏感的數據處理,一般要在秒級給出分析結果,時間太長就失去價值。比如發現詐騙事件,數據就必須要及時反饋給相應機構。

(3)多樣性(Variety):數據結構復雜,包括各種結構化、非結構化和半結構化的數據,類型涵蓋視頻、文本、音頻、圖片和日志數據等。

(4)價值(Value):價值密度低但存在著可觀的商業價值,例同監控視頻,連續不停頓的畫面里,有價值的可能僅有幾秒。

1.2 Hadoop生態系統

目前,遍觀國內外現有的各種模式的大數據解決方案,由Apache軟件基金研發的Hadoop技術迅速崛起,并逐步演化形成了一個生態系統,奠定了其在大數據分析處理領域的主流地位。Hadoop生態系統基本框架如圖1所示[1],其中最核心的是底層的Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)和MapReduce編程框架,除此之外,還包括與之緊密關聯的HBase數據庫集群和ZooKeeper集群。需要指出的是,Hadoop生態系統中有的技術并不是由Apache組織提出的。例如HadoopDB屬于Yale大學,HOP屬于Google,Ganglia屬于UC Berkeley。

圖1 Hadoop生態系統基本框架

2 Hadoop關鍵技術及應用

構建一個能夠有效支撐大數據應用的平臺,需要著重考慮幾個關鍵問題:大數據的存儲、大數據的分析、大數據的管理以及大數據的安全,而Hadoop系統在這些問題的處理上都有著較明顯的優勢。

2.1 大數據的存儲問題

據統計,當前中國的數據量占了全球數據量的約13%,到2020年全球數據將可能達到40ZB,這些數據的類型以半結構化和非結構化為主,而傳統的關系型數據庫系統比如SQL Server、Oracle等僅適于處理結構化數據,對于半結構和非結構化數據的存儲還需要開發尋找其他合適的新系統。這類系統需具有高性價比、高可靠性和容量可橫向擴展等特點,并且滿足分布式計算的需求。為此,Google設計了以GFS為基礎的Bigtable分布式數據存儲系統,并將其應用到公司內部多個項目中,比如存儲網絡爬蟲大數據、用戶Web請求的日志大數據等。HP利用StoreAll解決非結構化大數據的存儲問題,可在單一命名空間內支持文件存儲的同時支持對象存儲,并且總數據量可達16PB。

目前,Hadoop生態系統是大數據研究中最熱門的解決方案之一,其通過HDFS分布式文件系統來解決非結構化數據的存儲,通過HBase項目來解決結構化數據或半結構化數據。HDFS類同于Google的GFS,以Master/Slave形式為架構,以“一次寫入,多次讀取”訪問方式為核心設計思想,將需要存儲的大文件進行分割,形成Block數據塊分別存放,從而完成大數據的存儲。對大數據進行存儲主要依賴于并行數據庫,通過對數據的各個節點并行來實現對數據庫執行的目的,但并行數據庫在讀寫并行上存在一定制約,所以大家一般盡可能采用移動終端對信息進行存儲,而不使用并行數據庫。

2.2 大數據的分析問題

大數據不同于海量數據,簡單來說,大數據=海量數據+復雜類型的數據。在生態系統出現之前,商業并行數據庫是對海量數據進行分析的主要手段,這些并行數據庫主要采用的是shared-nothing架構,獨立設置網絡中每個Slave節點的本地CPU、本地存儲、本地內存和本地數據庫管理系統,保持各個Slave節點間的獨立性。作為所有Slave節點的管理員,Master節點負責將客戶端提交的SQL查詢任務進行透明化分解,分配給多個Slave節點并行執行。

借助數據庫領域成熟領先的優化技術,如索引、數據壓縮等,并行數據庫在結構化數據分析上表現出超強的性能優勢。但是隨著以半結構化和非結構化為主的大數據出現,并行數據庫的先天不足就開始顯現出來,主要表現在可擴展性差,容錯性能低和同構性不足幾個方面。而最初就是針對大數據特征提出的Hadoop生態系統,彌補了在半結構化和非結構化數據處理上的這些不足,并且隨著生態系統性能的不斷優化調整,Hadoop的這種優勢會越來越明顯。

Hadoop主要由兩部分組成:底部是HDFS,負責存儲工作,上部是MapReduce引擎,負責對大數據集進行并行處理。MapReduce是一種簡化的分布式編程模式,核心思想是Map和Reduce,即任務的分解與結果的匯總,該種方式編寫的程序會被分布到一個超大集群中的若干個普通機器上并行執行。作為影響MapReduce執行效率的主要因素,調度算法的研究至關重要。目前常用的調度算法,如MapReduce提供的fair調度、FIFO調度及Chen Quan等人提出的“自適應調度”算法,其主要思想和方法依然局限在分布式系統、操作系統或網格計算中。近些年針對MapReduce的計算模型的改進研究,主要集中在數據集的掃描、分解和歸約等方面的并行性上,通過結合具體應用來比較不同方法適用的數據類型及性能優劣。

2.3 大數據的管理問題

一個Hadoop大數據解決方案只有有了一體化的管理系統才算得上是完備的,因為這個系統解決方案涉及太多方面,比如復雜的數據類型和數據來源、大量機器構成的Hadoop集群和其它小集群、大量參數的配置和優化、多個作業的部署和運行等[5]。離開了專門的管理工具或系統,系統就難以得到提升,系統推廣也就非常受限了。所以企業在利用Hadoop生態系統構建平臺后,均會開發專門的管理工具或系統。

實際上,每個生態系統項目均會帶有一些基本工具,以HDFS和Hadoop MapReduce為例,有Eclipse插件、Web接口和Shell接口,但是功能尚不完善[5]。目前,Hadoop大數據管理工作中應用較為廣泛的是Sqoop和Ganglia兩個項目,Sqoop主要實現的是Hadoop生態系統內外數據轉換的工作,Ganglia可以Web的方式來實現監控Hadoop集群[9]。

2.4 大數據的安全問題

在開發之初,Hadoop優先考慮的是功能,安全問題并未得到過多考慮,而實際上大數據中可能包含大量的用戶敏感數據和隱私信息,隨著Hadoop大數據平臺應用日益廣泛,企業不得不考慮如何保護這些敏感數據,尤其是想將大數據放進公用云上。因此,針對Hadoop平臺可能存在的安全隱患,開發者們通過加強平臺的身份驗證、訪問授權、數據加密和操作審計等管控手段,對應不同應用場景設計出實用化的安全管控產品。

2009年,基于Kerberos的用戶身份驗證方案的提出,正式拉開了Hadoop平臺安全管控研究工作的大幕。2013年,Intel牽頭啟動了開源項目“Project Rhino”,致力于增強Hadoop平臺安全管控能力。到目前為止,通過引入Kerberos、配置防火墻、基礎的HDFS權限和ACLs,已經形成了一套能滿足眾多組件且能橫向擴展的安全管控基本解決方案。但其實,要實現Kerberos與Hadoop服務的完美整合,還需要做一系列復雜的配置工作,導致其易用性表現較差,安全問題依舊有待得到更好地解決。

2.5 Hadoop商業應用與發展

大數據的戰略意義在于從海量的數據中挖掘出有用的價值。譬如企業進行大數據分析,期望從中發現隱含的商業價值,以便更好地提高產品和服務質量。所以目前,Hadoop在商業領域應用較多且取得了很大創新,商業應用更加注重處理的效率和運維的成本。其中,Cloudera CDH,Hortonworks和MapR 3家公司發行的Hadoop商業版本較為流行,通過對Apache的Hadoop進行打包、改進,為確保生態圈的所有軟件協調工作提供技術支持。

在國外,作為大數據市場的積極推動者,Google,IBM,Yahoo等巨頭也都是Hadoop的最大的應用者。藍云Bluemix是IBM構建云框架的基礎設施,基于Apache Hadoop構建的IBM InfoSphere Biginsights可提供大規模的靜態數據分析功能,實時數據則可通過Infosphere Streams采用內存計算方式分析。Amazon基于Hadoop構建了A9.com,以此實現強大的商品搜索索引功能。Facebook使用Hadoop存儲內部日志與多維數據,基于Hive等進行日志分析和數據挖掘。Twitter的微博數據、日志文件和中間數據的存儲依靠Hadoop的HDFS完成,并采用Cloudera's CDH2系統來存儲壓縮數據[12]。

在國內,越來越多的企業加入到應用和研究Hadoop的行列,主要包括傳統企業如百度、淘寶、騰訊、網易等互聯網公司以及中國移動、華為、農業銀行等。阿里巴巴是國內首先使用Hadoop的公司之一,百度是目前Hadoop的最大使用者之一,每天處理的數據量高達9000TB,針對自身需求百度對Hadoop進行了改進,開發了HCE(HadoopC++)系統以及自己的日志分析平臺、數據倉庫系統等,為公司業務提供分析計算和存儲服務[12]。騰訊基于Hadoop和Hive構建了分布式數據倉庫TDW(Tencent distributed Data Warehouse),克服了傳統數據庫可控性差,無法線性擴展的缺陷,目前改進為基于Spark框架。中國移動在通信領域廣泛使用Hadoop,利用HDFS實現數據分布式存儲,利用MapReduce進行分布式數據處理。華為構建了FusionInsight大數據平臺,通過實時數據處理引擎,以事件驅動模式有效地解決了高速事件流的實時計算問題。

3 結語

目前,大數據和Hadoop生態系統都處于一個快速發展的時期,相互影響和促進。而Hadoop生態系統符合大數據本質特點,其成員具有多樣性、靈活性、擴展性,尤其是對中小型用戶具有很大的吸引力,能按企業業務需求進行比較自由的組合,相信利用Hadoop生態系統構建小企業的大數據平臺將會成為一個趨勢。

另外,雖然圍繞大數據平臺的研究已經大量存在,但還有一些問題有待進一步解決:一是技術推廣,二是標準和法規的制定,三是應用系統(平臺)之間的兼容和整合,四是提高數據應用能力,相信隨著研究的不斷深入,這些問題都可以慢慢得到解決或改進。

猜你喜歡
解決方案數據庫
艾默生自動化解決方案
解決方案和折中方案
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
4G LTE室內覆蓋解決方案探討
7大睡眠問題解決方案
母子健康(2015年1期)2015-02-28 11:21:44
Moxa 802.11n WLAN解決方案AWK-1131A系列
主站蜘蛛池模板: 五月婷婷综合网| 色爽网免费视频| 久久久久久久蜜桃| 一边摸一边做爽的视频17国产| 91激情视频| 日本亚洲国产一区二区三区| 国产av无码日韩av无码网站| 不卡的在线视频免费观看| 欧美日韩精品综合在线一区| 狠狠色婷婷丁香综合久久韩国| 成年人免费国产视频| 99这里只有精品6| 久久人与动人物A级毛片| 欧美另类精品一区二区三区| 欧洲亚洲一区| 国产精品亚洲欧美日韩久久| 亚洲综合香蕉| 成人综合在线观看| 日韩在线第三页| 久久网欧美| 中文字幕乱码二三区免费| 国产午夜福利亚洲第一| 国产91丝袜在线观看| 中文字幕无码av专区久久| 久草视频福利在线观看| 亚洲视频免| 日本一区二区三区精品国产| 亚洲一级毛片在线观播放| 日本国产精品一区久久久| 欧美中文字幕在线播放| 极品国产一区二区三区| 国产人成在线视频| 国产精品一区二区无码免费看片| 日韩精品毛片人妻AV不卡| 又粗又大又爽又紧免费视频| 狠狠色婷婷丁香综合久久韩国 | 亚欧乱色视频网站大全| 日韩av高清无码一区二区三区| 国产网友愉拍精品| 国产福利在线观看精品| 亚洲无码一区在线观看| a天堂视频在线| 日韩精品无码免费一区二区三区 | 国产嫩草在线观看| 一区二区三区国产精品视频| 免费观看国产小粉嫩喷水| 成人福利在线观看| 91在线视频福利| 999国内精品视频免费| 国产永久无码观看在线| 色综合天天视频在线观看| 亚洲天堂福利视频| 91亚洲免费视频| 国产人成在线观看| 99这里只有精品在线| 国产18在线播放| 久一在线视频| 永久天堂网Av| 国产福利在线免费| 国产成人福利在线| 91久久精品国产| 丁香婷婷激情综合激情| 中文字幕欧美日韩高清| 免费一级大毛片a一观看不卡| 亚洲一区无码在线| 老汉色老汉首页a亚洲| 国产天天射| 97se亚洲综合| 亚洲开心婷婷中文字幕| 亚洲青涩在线| 国产在线高清一级毛片| 亚洲欧洲日韩综合色天使| 综合色88| 国产精品免费电影| 一区二区在线视频免费观看| 亚洲成人黄色网址| 一级高清毛片免费a级高清毛片| 日本欧美在线观看| 国产情侣一区| 欧美日韩在线亚洲国产人| 免费又爽又刺激高潮网址| 亚洲天堂视频在线观看|