999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop的兩大核心技術HDFS和MapReduce

2018-02-25 02:39:06李港劉玉程
電子技術與軟件工程 2018年7期

李港 劉玉程

摘要 本文主要介紹分布式處理框架Hadoop的兩大核心技術HDFS和MapReduce,使讀者對Hadoop框架有一個基本的了解。

【關鍵詞】Hadoop HDFS MapReduce 分布式數據存儲 分布式數據處理

2008年9月4日《自然》(Nature)雜志刊登了一個名為“Big Data”的專輯,大數據這個詞匯開始逐漸進入大眾的視野,云計算、大數據、物聯網技術的普及人類社會迎來了第三次信息化的浪潮,數據信息也在各行各業中呈現爆炸式的增長。根據全球互聯網中心數據,到2020年底,全球的數據量將達到35ZB,大數據時代正式到來了,大數據的4V特性:多樣化( Variety)、快速化(Velocity)、大量化( Volume)、價值密度低(Value)使得對大數據的存儲和處理顯得格外重要,Google、Microsoft包括國內的阿里巴巴、百度、騰訊等多家互聯網企業的巨頭都在使用分布式處理軟件框架--Hadoop平臺。

1 Hadoop平臺簡述

Hadoop是Apache基金會旗下的開源分布式計算平臺,為用戶提供了系統底層透明的分布式基礎架構。隨著大數據相關技術的發展,Hadoop已發展成為眾多子項目的集合,包括MapReduce. HDFS. HBase. ZooKeeper.Pig、Hive、Sqoop等子項目。

HDFS是Hadoop集群中最基礎的部分,提供了大規模的數據存儲能力;MapReduce將對數據的處理封裝為Map和Reduce兩個函數,實現了對大規模數據的處理;HBase (HadoopDatabase)是一個分布式的、面向列數據的開源數據庫,適合于大規模非結構化數據的存儲

Zookeeper提供協同服務,實現穩定服務和錯誤恢復;Hive作為Hadoop上的數據倉庫;Pig是基于Hadoop的大規模數據分析平臺,提供類似SQL的查詢語言Pig Latin; Sqoop主要用來在Hadoop和關系數據庫之間交換數據。其中最重要的兩大核心技術為:HDFS和MapReduce,下文將對這兩大核心技術做重點介紹。

2 HDFS技術

HDFS (Hadoop Disrributed File System)是Hadoop中的分布式文件系統,是對Google的GFS (Google File System)的開源實現。HDFS的一個最重要的設計思想是“一次寫入,多次讀取”訪問方式,將大規模數據切分成Block數據塊進行存儲,簡單的系統設計使得HDFS只能完成數據的寫入和讀取,不能對數據進行修改,利用大量的廉價硬件設備實現并行讀寫和大規模數據存儲。

HDFS采用主從設計結構,通常一個HDFS集群中包含一個名稱節點(NameNode)和若干個數據節點( DaraNode)。名稱節點負責管理文件系統的命名空間,它保存了Fslmage和EditLog兩個核心的數據結構如圖1所示。

Fslmage記錄了所有數據節點中文件的元數據信息,EditLog作為系統日志文件保存了所有針對文件的各種操作信息。名稱節點記錄了每個數據塊所存儲的數據節點的位置信息,但是每次系統重啟時會重新加載這些信息動態更改和保存這些信息。Fslmage中的信息會在名稱節點啟動時將其加載到內存中,然后執行EditLog中所保存的操作信息使得內存中的元數據信息一直保持最新狀態。

數據節點主要負責對數據的存儲和讀取,根據客戶端或名稱節點的調度完成對數據的存儲和查詢,并定期將自己所保存的數據塊的信息發送給名稱節點。每個數據節點中的數據會被保存在各自節點的本地Linux文件系統中。

3 MapReduce技術

MapReduce是谷歌公司的核心計算模型,Hadoop框架中的MapReduce是對谷歌公司的MapReduce的開源實現,是為了解決大規模數據的高效處理問題,將運行在大規模集群上的并行計算過程高度地抽象成兩個函數:Map和Reduce。MapReduce將存儲在分布式文件系統中的大規模數據集切分成許多獨立的分片( split),這些分片可以被多個Map任務并行處理。MapReduce設計的一個理念就是“計算向數據靠攏”,而不是“數據向計算靠攏”,大大減少了網絡傳輸開銷。

MapReduce分布式并行編程使程序員只關注Map和Reduce函數的實現,而不需要處理分布式存儲、工作調度、負載均衡等問題,這些問題均由MapReduce框架進行處理,Map和Reduce函數都是以鍵值對的形式作為輸入,按照一定的映射規則再通過鍵值對進行輸出。

Map函數的輸入來自分布式文件系統的文件塊,可以是二進制文件也可以是文檔文件,Map函數將其輸入按照規則轉換為鍵值對,鍵和值的類型是任意的,鍵并不能作為唯一標識,一個Map任務也可以生成多個相同鍵的鍵值對。

Reduce函數就是將輸入的具有多個相同鍵的鍵值對以某種方式組合起來,輸出處理后的鍵值對,將輸入結果合并成一個文件。

4 結束語

大數據作為繼云計算、物聯網之后IT行業又一顛覆性的技術,備受人們關注,Hadoop作為存儲處理大規模分布式系統框架提供了分布式存儲的HDFS和分布式處理的MapReduce,也包括其他的子項目,Hadoop的生態國會越來越完善,大數據技術必將引領IT行業走向新的巔峰。

參考文獻

[1]林子雨,大數據技術原理與應用 概念、存儲、處理、分析與應用[M].北京:人民郵電出版社,2016.

[2]夏靖波,云計算中Hadoop技術研究與應用綜述[J].計算機科學,2016 (11):43.

主站蜘蛛池模板: 思思热精品在线8| 国产欧美日本在线观看| 波多野结衣的av一区二区三区| 制服丝袜在线视频香蕉| 午夜一区二区三区| 国产黄网站在线观看| 99国产精品国产| 亚洲欧美日韩另类在线一| 99热亚洲精品6码| 制服丝袜一区| 99在线视频免费观看| 无码一区中文字幕| 2024av在线无码中文最新| 国产精品片在线观看手机版| 国产区在线看| 成人免费网站久久久| 亚洲天堂在线视频| 无码精品国产dvd在线观看9久| 色婷婷亚洲十月十月色天| 国产白浆一区二区三区视频在线| 中文字幕久久波多野结衣| 国产福利免费观看| 欧美乱妇高清无乱码免费| 伊人国产无码高清视频| 亚洲午夜福利精品无码不卡| 亚洲欧洲日韩久久狠狠爱| 一级全免费视频播放| 国产福利小视频高清在线观看| 第一区免费在线观看| 国产丝袜91| 丁香六月激情综合| 欧美成人午夜在线全部免费| 日本三级欧美三级| 国产国产人免费视频成18| 国产成人综合亚洲网址| 97视频在线观看免费视频| 91成人免费观看在线观看| 欧美不卡在线视频| 免费高清毛片| 美女免费黄网站| 97超碰精品成人国产| 她的性爱视频| 色国产视频| 欧美一级高清片久久99| 午夜国产不卡在线观看视频| 欧美中文字幕无线码视频| 91亚洲精选| 97一区二区在线播放| 亚洲视频免费在线| 亚洲国产天堂久久综合| 国产h视频在线观看视频| 一级成人a做片免费| 亚洲乱码精品久久久久..| 伊人成色综合网| 亚洲无码在线午夜电影| 日本亚洲成高清一区二区三区| 国产精品微拍| 看国产毛片| 亚洲人成影院午夜网站| 国产门事件在线| 无码专区在线观看| 精品成人免费自拍视频| 中文字幕亚洲第一| 国产伦片中文免费观看| 国产欧美精品午夜在线播放| 国产99视频精品免费观看9e| 九九九精品成人免费视频7| 成人夜夜嗨| 免费一级毛片不卡在线播放| 亚洲不卡av中文在线| 国产91色在线| 久久www视频| 亚洲Aⅴ无码专区在线观看q| 麻豆精品视频在线原创| 国产一区二区三区在线观看视频 | 九色视频在线免费观看| 重口调教一区二区视频| 国产91成人| 日韩第八页| 国产成人一级| 国产女人在线| 四虎影视库国产精品一区|