999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式計(jì)算平臺Hadoop

2018-01-18 09:13:26柯研馬凱鄭鈺輝
關(guān)鍵詞:大數(shù)據(jù)

柯研 馬凱 鄭鈺輝

摘要:隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)量呈現(xiàn)出了爆炸式的增長,使人類進(jìn)入了大數(shù)據(jù)時(shí)代。面對成千上百的TB或者PB級別的數(shù)據(jù),傳統(tǒng)的計(jì)算機(jī)技術(shù)在數(shù)據(jù)存儲和數(shù)據(jù)分析上已經(jīng)無法滿足人們對數(shù)據(jù)處理的需求了。為了解決大數(shù)據(jù)的存儲、大數(shù)據(jù)的分析和大數(shù)據(jù)的管理問題,研究人員開發(fā)出了Hadoop分布式系統(tǒng)平臺來解決這些問題。本文主要介紹分布式平臺Hadoop的分布式文件系統(tǒng)(HDFS)、并行計(jì)算編程模型(MapReduce)。

關(guān)鍵詞:大數(shù)據(jù);HDFS;MapReduce

中圖分類號:TN911.73 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)09-0070-02

近些年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和數(shù)字化的普及,每天都在產(chǎn)生著大量的數(shù)據(jù),人們也漸漸進(jìn)入了大數(shù)據(jù)時(shí)代。與此同時(shí)大數(shù)據(jù)的出現(xiàn)也引起了學(xué)術(shù)界、互聯(lián)網(wǎng)產(chǎn)業(yè)和各國政府的重視。面對海量數(shù)據(jù)需要存儲、分析和處理的問題,需要一種具有高效性且能并行的編程計(jì)算模型來解決這些問題。

Google在2003-2004年公布了部分Google的分布式文件系統(tǒng)(GFS)、Google的MapReduce開源分布式并行計(jì)算框架和一個(gè)大型分布式數(shù)據(jù)庫(BigTable)的思想細(xì)節(jié)[1]。Doug cutting等人在受到GFS和MapReduce思想的啟發(fā)后,用了兩年時(shí)間實(shí)現(xiàn)了DFS和MapReduce機(jī)制,使的Nutch性能得到顯著的提升,2005年Hadoop作為Nutch的一部分引入了Apache Software Foundation公司開始研發(fā)。然后隨著Hadoop的發(fā)展和完善,Hadoop成為了大數(shù)據(jù)分析處理的主流技術(shù)。

1 分布式計(jì)算平臺Hadoop

Hadoop是一個(gè)Apache Software Foundation公司用Java語言開發(fā)出的開源分布式計(jì)算平臺。Hadoop的設(shè)計(jì)核心是HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)和MapReduce并行計(jì)算編程模型。HDFS主要是用來解決海量數(shù)據(jù)的存儲問題,MapReduce并行計(jì)算編程模型主要是用來解決海量數(shù)據(jù)的計(jì)算和分析問題。Hadoop的工作方式是串行處理和并行處理相結(jié)合,大大提高了數(shù)據(jù)分析的計(jì)算速度。Hadoop首先通過HDFS分布式文件系統(tǒng)將不同節(jié)點(diǎn)上的數(shù)據(jù)進(jìn)行整合,其次提供給用戶一個(gè)標(biāo)準(zhǔn)的接口,將所需要的文件讀寫到HDFS分布式文件系統(tǒng)中,然后再使用MapReduce并行計(jì)算編程模型進(jìn)行計(jì)算,最后可以很快的處理大量的數(shù)據(jù)。

Hadoop分布式計(jì)算平臺的出現(xiàn)解決了大數(shù)據(jù)并行計(jì)算、存儲、管理的問題,普通用戶可以在不了解分布式底層細(xì)節(jié)的情況下來開發(fā)分布式程序,可以充分地利用集群的力量來進(jìn)行海量數(shù)據(jù)的存儲和計(jì)算數(shù)據(jù)并且進(jìn)行分析。Hadoop具有高效性、可靠性、高可擴(kuò)展性、成本低等特點(diǎn)。具體特點(diǎn)總結(jié)如下:

優(yōu)點(diǎn)如下:(1)高可靠性:Hadoop的存儲方式是按位存儲[2],它能處理海量的數(shù)據(jù)。(2)高效性:Hadoop是以并行的方式工作的,通過并行處理加快處理速度。(3)高容錯(cuò)性:Hadoop假設(shè)計(jì)算元素和存儲會失敗,它產(chǎn)生多個(gè)工作數(shù)據(jù)副本,如果有一個(gè)副本丟失或者丟失,確保能夠針對失敗的節(jié)點(diǎn)重新分布處理。(4)高擴(kuò)展性:Hadoop通過在計(jì)算機(jī)集簇間分配數(shù)據(jù)進(jìn)而完成計(jì)算任務(wù),通過軟件配置,這些集簇能夠非常容易擴(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

1.1 HDFS

HDFS是一個(gè)容錯(cuò)性能很高的分布式文件系統(tǒng),可以被廣泛地安置到廉價(jià)的計(jì)算機(jī)器上,HDFS是以流的形式訪問寫入的大型文件,可以大大提高整個(gè)系統(tǒng)的數(shù)據(jù)吞吐量,因此十分適合于數(shù)據(jù)集很大的應(yīng)用場景。

HDFS架構(gòu)主要采用的是主從架構(gòu),一個(gè)十分典型的HDFS集群是含有一個(gè)名稱節(jié)點(diǎn)(NameNode)和多個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)[4]。其中DataNode是存在便宜的計(jì)算機(jī)上,主要是用于保存Block塊文件。Block是對一個(gè)文件進(jìn)行分塊,通常是64M。

NameNode節(jié)點(diǎn)主要負(fù)責(zé)整個(gè)HDFS分布式文件系統(tǒng)中的接收client用戶的請求的任務(wù),同時(shí)要維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu)和管理文件系統(tǒng)與數(shù)據(jù)塊的關(guān)系。通常集群中只有一臺計(jì)算機(jī)上運(yùn)行著NameNode實(shí)例。名稱節(jié)點(diǎn)上存儲著HDFS的名稱空間,對于任何篡改FileSystem原數(shù)據(jù)的操作,名稱節(jié)點(diǎn)都會使用一種稱為EditLog的事務(wù)日志來記錄下篡改FileSystem原數(shù)據(jù)的行為。所有的HDFS分布式文件系統(tǒng)的名稱空間,其中包括Block塊到文件的映射,文件的屬性等都會保存在FsImage文件中,F(xiàn)sImage文件是存放在NameNode所在的本地文件系統(tǒng)上。

DataNode節(jié)點(diǎn)主要負(fù)責(zé)存儲HDFS分布式文件系統(tǒng)中的文件,同時(shí)將數(shù)據(jù)分成大量的數(shù)據(jù)塊,為了保證數(shù)據(jù)的安全性,將數(shù)據(jù)進(jìn)行備份,當(dāng)其中一份數(shù)據(jù)出現(xiàn)的問題時(shí)候,將由其他備份數(shù)據(jù)對數(shù)據(jù)進(jìn)行修復(fù)。數(shù)據(jù)節(jié)點(diǎn)將HDFS的數(shù)據(jù)以文件的形式保存在本地的文件系統(tǒng)中,將每個(gè)HDFS數(shù)據(jù)塊都保存在本地文件系統(tǒng)的一個(gè)單獨(dú)的文件中。當(dāng)一個(gè)數(shù)據(jù)節(jié)點(diǎn)開始運(yùn)行時(shí),它會掃描本地文件系統(tǒng)中所有的文件,同時(shí)會產(chǎn)生一個(gè)與本地所有文件相互對應(yīng)的HDFS數(shù)據(jù)塊的一個(gè)列表,然后發(fā)送給名稱節(jié)點(diǎn)。HDFS讀寫流程如圖1所示。

HDFS文件讀取\寫入過程:首先客戶端向Filesystem發(fā)出讀取或者寫入的請求,然后FileSystem再調(diào)用NameNode來確定文件起始塊的位置。對于每一個(gè)數(shù)據(jù)塊來說,NameNode都會返回存有塊備份的DataNode的地址給客戶端,如果客戶端自己就是一個(gè)名稱節(jié)點(diǎn),而且客戶端上存有相應(yīng)數(shù)據(jù)塊的備份時(shí),該名稱節(jié)點(diǎn)就會直接從本地的數(shù)據(jù)節(jié)點(diǎn)上讀取數(shù)據(jù)。

1.2 MapReduce并行計(jì)算編程模型

Hadoop MapReduce是一個(gè)簡便易用的并行計(jì)算編程模型,在MapReduce基礎(chǔ)上開發(fā)出來的應(yīng)用程序能夠運(yùn)行在由數(shù)以千計(jì)的計(jì)算機(jī)組成的計(jì)算機(jī)集群上,同時(shí)在并行處理海量的數(shù)據(jù)這一功能上有著高可靠性、高容錯(cuò)性的優(yōu)點(diǎn)。

MapReduce并行計(jì)算模型的首要條件是:(1)可以將我們需要進(jìn)行處理的數(shù)據(jù)集劃分成多個(gè)小的數(shù)據(jù)集;(2)我們可以對每一個(gè)小的數(shù)據(jù)集進(jìn)行并行處理。MapReduce并行計(jì)算模型的的主要思想是將需要執(zhí)行的問題拆分成map函數(shù)和reduce函數(shù)兩個(gè)部分。在需要處理的數(shù)據(jù)集被分成多個(gè)小的數(shù)據(jù)集后,map函數(shù)會將待處理的數(shù)據(jù)集映射成不同的block塊,然后將這些小的數(shù)據(jù)集分配給計(jì)算機(jī)群處理,來進(jìn)行分布式并行計(jì)算,最后使用reduce函數(shù)將計(jì)算的結(jié)果整理和傳輸給計(jì)算機(jī),從而輸出開發(fā)者所需要的結(jié)果。

MapReduce并行計(jì)算模型是有一個(gè)單獨(dú)運(yùn)行在主節(jié)點(diǎn)上的作業(yè)追蹤器(JobTracker)和多個(gè)運(yùn)行在每個(gè)集群從節(jié)點(diǎn)上的任務(wù)追蹤器(TaskTracker)組成。

JobTracker又被稱為作業(yè)跟蹤器[5],是運(yùn)行主節(jié)點(diǎn)上的一個(gè)很重要的進(jìn)程,是MapReduce并行計(jì)算模型的調(diào)度器,主要負(fù)責(zé)處理用戶提交代碼的后臺程序。作業(yè)追蹤器將首先選擇處具體的文件去處理作業(yè),其次將作業(yè)切割成一個(gè)個(gè)小的任務(wù),同時(shí)將任務(wù)進(jìn)行分配,把它們到所需要的數(shù)據(jù)所在的子節(jié)點(diǎn)上。其中map 任務(wù)是解析每條數(shù)據(jù)記錄,傳遞給用戶所編寫的map函數(shù)并且執(zhí)行map函數(shù),將輸入的結(jié)果寫入到本地磁盤中;reduce 任務(wù) 是從map 任務(wù)的執(zhí)行結(jié)果中遠(yuǎn)程的讀取需要輸入的數(shù)據(jù),然后將數(shù)據(jù)排序,最后將數(shù)據(jù)按照排序分組,把數(shù)據(jù)傳遞給用戶編寫的reduce函數(shù),reduce函數(shù)負(fù)責(zé)執(zhí)行。主節(jié)點(diǎn)負(fù)責(zé)監(jiān)視從節(jié)點(diǎn)的執(zhí)行情況,并且重新執(zhí)行之前失敗的任務(wù)。JobTracker可以運(yùn)行在任意一臺計(jì)算機(jī)上。

TaskTracker又被稱為任務(wù)跟蹤器,主要是負(fù)責(zé)保持和作業(yè)跟蹤器之間的交互,在分配的block塊上執(zhí)行map的任務(wù)或者reduce的任務(wù),在執(zhí)行任務(wù)的時(shí)候,JobTracker只有一個(gè),但是TaskTracker會有很多個(gè)。

2 結(jié)語

本文首先介紹了分布式計(jì)算平臺Hadoop的起源,Hadoop是受Google共享的關(guān)于分布式文件系統(tǒng)(GFS)、MapReduce開源分布式并行計(jì)算框架和一個(gè)大型分布式數(shù)據(jù)庫的思想啟發(fā)所研究出來,一切都是為了解決海量數(shù)據(jù)的存儲、計(jì)算和分析的問題;其次介紹了Hadoop的整體框架,了解到了Hadoop具有高效性、高擴(kuò)展性、高可靠性和高容錯(cuò)性的特點(diǎn)。最后詳細(xì)介紹了Hadoop的兩個(gè)核心HDFS分布式文件系統(tǒng)和MapReduce并行計(jì)算模型的具體內(nèi)容。

參考文獻(xiàn)

[1]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計(jì)算機(jī)工程與科學(xué),2013,35(10):25-35.

[2]夏靖波,韋澤鯤,付凱,等. 云計(jì)算中Hadoop技術(shù)研究與應(yīng)用綜述[J].計(jì)算機(jī)科學(xué),2016,43(11):6-11.

[3]陳璽,馬修軍,呂欣.Hadoop生態(tài)體系安全框架綜述[J].信息安全研究,2016,2(8):684-698.

[4]王峰,雷葆華.Hadoop分布式文件系統(tǒng)的模型分析[J].電信科學(xué),2010,26(12):95-99.

[5]董新華,李瑞軒,周灣灣,等. Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J].計(jì)算機(jī)研究與發(fā)展,2013,50(s2):1-15.

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時(shí)代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产本道久久一区二区三区| 波多野结衣第一页| 国内精品视频区在线2021| 手机在线看片不卡中文字幕| 亚洲Aⅴ无码专区在线观看q| 国产jizz| 亚洲一区网站| 青青久久91| 手机在线看片不卡中文字幕| 2020精品极品国产色在线观看| 国产91精品久久| 亚洲av无码人妻| 久久精品只有这里有| 国产美女无遮挡免费视频网站 | 亚洲日本中文综合在线| 一级毛片免费高清视频| 欧美午夜在线视频| 亚洲综合一区国产精品| 色窝窝免费一区二区三区| 亚洲最大看欧美片网站地址| 一级毛片无毒不卡直接观看| 漂亮人妻被中出中文字幕久久| 一级成人a做片免费| 色偷偷av男人的天堂不卡| 日韩在线网址| 在线视频97| 色播五月婷婷| 伊人久久婷婷五月综合97色| 国产免费人成视频网| 国产导航在线| 久久精品国产国语对白| 亚洲欧美综合在线观看| 综合社区亚洲熟妇p| 欧美日韩成人在线观看 | 亚洲AⅤ综合在线欧美一区| 国产一区免费在线观看| 欧美在线中文字幕| 91久久夜色精品国产网站| 亚洲va欧美ⅴa国产va影院| 国产香蕉97碰碰视频VA碰碰看| 制服丝袜一区| 91精品久久久无码中文字幕vr| 精品一区二区三区自慰喷水| 亚洲首页在线观看| 国产一区在线视频观看| 欧美精品1区2区| 成人一区专区在线观看| 国产精品一区在线麻豆| 日韩欧美国产另类| 色一情一乱一伦一区二区三区小说| 91成人在线观看| 国产精品亚洲专区一区| 亚洲Av综合日韩精品久久久| 国产在线麻豆波多野结衣| 好久久免费视频高清| 国产激情在线视频| 伊人久久大香线蕉影院| 亚洲男人的天堂在线| 国产一二三区视频| 成人精品免费视频| 在线观看国产精品一区| 久久精品一品道久久精品| 天堂网亚洲综合在线| 国产 在线视频无码| 欧美亚洲另类在线观看| 丁香六月激情综合| 国产91在线|日本| 91久久精品国产| 国产午夜人做人免费视频中文| 国产精品专区第一页在线观看| 色135综合网| 日韩视频福利| 91久久国产热精品免费| 久久www视频| 精品偷拍一区二区| 中文字幕在线观看日本| 国产原创第一页在线观看| 欧美日韩午夜| 亚洲男人在线| 国产成人精品2021欧美日韩| 99在线观看免费视频| 亚洲国产天堂久久综合|