999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop大數據架構技術研究

2019-10-21 09:36:39薛博召
科學與信息化 2019年16期
關鍵詞:大數據

薛博召

摘 要 Hadoop是由Apache基金會開發的分布式計算架構,用戶可以在不了解分布式底層細節的情況下開發分布式程序,充分利用集群的威力進行高速運算和存儲。Hadoop框架最核心的設計就是:HDFS和MapReduce,HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。

關鍵詞 大數據;Hadoop;HDFS;MapReduce

引言

Hadoop是一個能夠對大量數據進行分布式處理的框架,它有可靠、高效、可擴展等特性。可靠是因為它假設計算和存儲元素可能失敗,通過維護多個工作數據副本,確保能夠對失敗節點重新進行分布處理。高效是因為它以并行的方式工作,通過并行處理加快處理速度、提高吞吐量。通過靈活的橫向擴展能夠處理 PB 級數據。

1 Hadoop技術架構研究

HDFS和MapReduce是Hadoop的兩大核心。HDFS被設計成適合運行在通用硬件上的分布式文件系統,是一個高度容錯性的系統,能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。把一個文件存入HDFS,HDFS會把文件分割成多個block,分散存儲在N臺linux機器上,每臺存儲數據的機器稱為datanode,每一個block會在多個datanode上存儲多份副本,默認是3份。一旦文件被切塊存儲, HDFS中就必須有一個機制,來記錄用戶的每一個文件的切塊信息,及每一塊的具體存儲機器,namenode負責管理文件目錄、文件和block的對應關系,以及block和datanode的對應關系。

MapReduce被用于大規模集群計算,每個MapReduce作業主要包含input split、map task、combiner、shuffle和reduce task共5個階段。在進行map計算之前,MapReduce會把輸入的數據切分為若干塊,劃分切片的任務由job客戶端負責,每個輸入分片對應一個map任務。Map task階段會調用相應對象的next()方法,逐行讀取文件,產生key-value值,解析出key-value值后調用定制編寫的業務邏輯代碼,計算輸出新的key-value值后緩存,待后續處理。

Combiner階段是可選的,它是map運算的后續操作,主要是在map計算出中間文件前做合并重復key值的操作。例如對文件里的單詞頻率做統計,map計算時碰到一個”hadoop”的單詞就會記錄為1,但是這篇文章里”hadoop”可能出現多次,那么map輸出文件就會冗余,因此在reduce計算前對相同的key做合并操作,文件會變小,可有效提高寬帶傳輸效率。但是,combiner操作是有風險的,求總數、最大值、最小值可以使用combiner,如果做平均值計算使用combiner,最終reduce計算結果就會出錯。

將map task生成的數據傳輸給reduce task的過程就是shuffle,一般MapReduce計算的都是海量數據,內存空間有限,map輸出時不可能把所有文件都放到內存,因此map過程涉及將數據寫入磁盤。map輸出時會在內存開啟環形緩沖區,默認大小是100MB,配置文件里默認設定為了緩沖區閥值是0.8。map會為輸出操作啟動一個守護線程(Spiller),若緩沖區內存使用達到了80%,這個守護線程就會把內容寫到磁盤,這個過程叫spill。另外20%內存可以繼續寫入數據,寫入磁盤和寫入內存操作互不干擾,如果緩存滿了,那么map作業會阻塞寫入內存的操作,讓寫入磁盤操作完成后再繼續執行寫入內存操作。map task在寫入磁盤前還會執行分區和排序操作,如果我們定義了combiner函數,那么排序前還會執行combiner操作。分區會調用Partitioner的組件,排序則會調用key上的CompareTo()來比大小。每次spill操作時就會寫一個文件,這個文件叫溢出文件,溢出文件里區號小的在前面,同區中按key有序。map輸出全部做完后,map會合并這些輸出文件,這些文件也是分區且有序的。合并過程中會產生一個分區索引文件,用來指明每個分區的起始點以及它的偏移量。Partitioner操作和map階段的輸入分片很像,一個Partitioner對應一個reduce作業。Partitioner就是reduce的輸入分片,這個可以編程控制,主要是根據實際業務場景,達到更好的reduce負載均衡,這是提高reduce效率的關鍵。

map task階段完成后,程序就會退出,那么reduce task要去哪里獲取處理完的數據呢?答案是這些文件會被納入NodeManager web程序的document目錄中,reduce task會通過web服務器下載相應區號的文件,將這些文件合并。處理數據時,首先實現繼承自Reducer的類,里面有一個reduce(k,迭代器,context)方法,通過反射構造出一個對象去調用reduce(),里面的參數k和迭代器會分別去創建一個對象,每迭代一次就會按文件里的順序去讀一次,然后把讀出來的k傳給對象k,然后把v傳給對象values里。這個過程就是從磁盤上把二進制數據讀取出來,然后反序列化把數據填入對象的一個過程。迭代過程中會有一個分組比較器(Grouping Comparator)去判斷迭代的k是否相同,不同則終止迭代。每迭代完一次,context.write()輸出一次聚合后的結果,這個聚合的結果會通過TextOutputFormat類的getRecordWriter()方法拿到一個RecordWriter對象,通過這個對象去調一個write(k,v)方法,將這些數據以文件的方式寫入HDFS[1]。

2 結束語

Hadoop提供了一套久經考驗的批處理模型,適合處理對時間要求不高的大規模數據集。通過低成本組件即可搭建完整功能的Hadoop集群,使得這一廉價且高效的處理技術可以靈活應用在很多案例中。

參考文獻

[1] 張偉.基于Hadoop的大數據分析管理平臺架構設計[J].信息技術與網絡安全,2018,37(11):30-33,57.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 亚卅精品无码久久毛片乌克兰| 亚洲无码精品在线播放| 又大又硬又爽免费视频| 日本色综合网| 又爽又大又黄a级毛片在线视频| 欧美www在线观看| 久久久黄色片| 国产一国产一有一级毛片视频| 国产免费久久精品99re丫丫一| 亚洲精品欧美日本中文字幕| 亚洲日韩精品综合在线一区二区| 色婷婷综合激情视频免费看| 一级看片免费视频| 人与鲁专区| 国产精品亚洲va在线观看| 四虎成人在线视频| 国产精品99r8在线观看| 久久青草精品一区二区三区| 亚洲中文无码av永久伊人| 久久永久精品免费视频| 亚洲一区第一页| 亚洲午夜福利精品无码| 亚洲国产清纯| 一级不卡毛片| 午夜日韩久久影院| 国产人人射| 国产一区二区三区精品欧美日韩| 久久99精品久久久久久不卡| 亚洲人成电影在线播放| 人妻熟妇日韩AV在线播放| 国产在线97| 免费人成视网站在线不卡| 亚洲AⅤ永久无码精品毛片| 亚洲免费福利视频| 国产精品无码AV片在线观看播放| 国产精品美乳| 国产乱人视频免费观看| 久久久久亚洲精品成人网 | 欧美日韩中文国产va另类| 国产乱子伦视频在线播放| 91福利在线观看视频| 亚洲日韩每日更新| 亚洲男人的天堂久久香蕉网| 91久久国产成人免费观看| 久久久精品国产SM调教网站| 国产精品久久久免费视频| 在线视频亚洲欧美| 欧美日韩国产成人在线观看| 亚洲精品va| 亚洲三级片在线看| 色综合久久久久8天国| 无码'专区第一页| 欧美激情第一区| 久久99国产综合精品1| 手机永久AV在线播放| 四虎永久在线精品影院| 毛片免费在线| 国产在线观看精品| 国产国语一级毛片| 无码高潮喷水专区久久| 国产免费怡红院视频| 97精品伊人久久大香线蕉| 91年精品国产福利线观看久久 | 亚洲中文无码h在线观看| 亚洲天堂视频在线观看免费| 国产一级小视频| 都市激情亚洲综合久久| 日本成人在线不卡视频| 亚洲成年人网| 青青草原国产av福利网站| 日本成人福利视频| 欧美97色| 欧美精品一二三区| 国产网站一区二区三区| 久一在线视频| 亚洲精选高清无码| 成人一级黄色毛片| 欧美日韩第三页| 欧美亚洲激情| 亚洲欧美国产视频| 久久激情影院| 久草网视频在线|