999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的小文件分布式存儲(chǔ)技術(shù)研究

2014-02-11 03:47:05袁曉春
機(jī)電工程技術(shù) 2014年12期
關(guān)鍵詞:實(shí)驗(yàn)

袁曉春

(廣東電網(wǎng)有限責(zé)任公司惠州供電局,廣東惠州 516001)

基于Hadoop的小文件分布式存儲(chǔ)技術(shù)研究

袁曉春

(廣東電網(wǎng)有限責(zé)任公司惠州供電局,廣東惠州 516001)

HDFS(Hadoop Distributed File System)以其高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn),允許用戶將Hadoop部署在低廉的硬件上,廣泛適用于大文件存儲(chǔ)。然而對(duì)于海量小文件,因?yàn)閮?nèi)存開銷過高,因此對(duì)數(shù)據(jù)的存儲(chǔ)技術(shù)提出了更高的要求。基于Hadoop分布式文件系統(tǒng)(HDFS)架構(gòu),研究小文件在Hadoop架構(gòu)下的數(shù)據(jù)處理策略,通過實(shí)驗(yàn)將其與傳統(tǒng)的文件系統(tǒng)的讀寫、計(jì)算速度進(jìn)行比較。

分布式存儲(chǔ);HDFS;MapReduce

0 引言

Hadoop是開源的分布式計(jì)算平臺(tái),允許用戶在低廉的硬件上部署分布式集群,所以用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,充分利用計(jì)算機(jī)集群的計(jì)算和存儲(chǔ)能力進(jìn)行海量數(shù)據(jù)處理[1]。HDFS是由Namenode和Datanode組成的,由于Na?menode將文件系統(tǒng)的元數(shù)據(jù)放置于內(nèi)存中,所以文件系統(tǒng)所容納的文件數(shù)目會(huì)受到Namenode內(nèi)存大小的限制[2],不能很好地解決海量小文件存儲(chǔ)問題(例如現(xiàn)實(shí)生活中圖片、音樂、日志等比較零散的數(shù)據(jù)存儲(chǔ),都屬于小文件存儲(chǔ))[3-5]。

1 Hadoop小文件分布式系統(tǒng)

小文件是指文件容量小于HDFS的分塊(block)大小的文件。HDFS是為大文件存儲(chǔ)、讀取而開發(fā)的,若訪問海量小文件則需要在Datanode間不停跳轉(zhuǎn),影響效率。顯然,因?yàn)槿蝿?wù)啟動(dòng)將耗費(fèi)大量時(shí)間在啟動(dòng)和釋放任務(wù)上,系統(tǒng)處理海量小文件總和的速度,顯著低于同等容量下的大文件處理速度。

針對(duì)小文件的解決方案,Hadoop框架提供了幾種解決方案,分別為:Hadoop Archive,Se?quence file和Combine File Input Format[3]。Hadoop Archive簡(jiǎn)稱HAR,它將多個(gè)小文件打包成一個(gè)HAR文件,放入塊中,以減少Namenode內(nèi)存使用。HAR也有缺陷,創(chuàng)建后Archives便不可更改,要增加或刪除其中文件必須重新創(chuàng)建。Se?quence files是由二進(jìn)制的(Key,Value)對(duì)組成的,定義鍵Key為小文件名,值Value為文件內(nèi)容,將海量小文件合并成大文件,并實(shí)現(xiàn)快速查找。Combine File Input Format是則定義了一種新的數(shù)據(jù)格式,可以將多個(gè)文件合并成一個(gè)單獨(dú)的分塊[3]。

圖1 HDFS架構(gòu)

2 小文件分布式文件系統(tǒng)優(yōu)化

2.1 HDFS系統(tǒng)框架

如圖1所示,HDFS是一個(gè)分布式文件系統(tǒng)的超級(jí)大集群。該系統(tǒng)有一個(gè)以上的公共節(jié)點(diǎn)和兩個(gè)服務(wù)器,這可同時(shí)用作服務(wù)器是HDFS文件系統(tǒng)和MapReduce名稱服務(wù)器計(jì)算平臺(tái)作業(yè)調(diào)度器(JobTracker),不僅是作為HDFS文件系統(tǒng)的數(shù)據(jù)節(jié)點(diǎn)的其余節(jié)點(diǎn)(Datanode),而且還作為一個(gè)計(jì)算平臺(tái)的MapReduce任務(wù)執(zhí)行(Task Tracker)。將大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)變成“本地處理”,大大提高海量數(shù)據(jù)處理速度,實(shí)現(xiàn)高效率計(jì)算。存儲(chǔ)在HDFS大量存在于一個(gè)塊的形式的文件,在相同塊中的文件的大小,用不同的塊大小的文件的其他文件只有最后一個(gè)塊。對(duì)于容錯(cuò),屬于文件塊需要復(fù)制保存。復(fù)制該文件的大小的塊的數(shù)目,并可以為每個(gè)文件設(shè)定。HDFS符合一次編寫原則,同一時(shí)刻只允許單個(gè)用戶寫入。Namenode節(jié)點(diǎn)負(fù)責(zé)文件塊復(fù)制管理,將各Na?menode節(jié)點(diǎn)塊復(fù)制的日志反饋,根據(jù)日志判斷復(fù)制目標(biāo)塊。

HDFS與其他分布式文件系統(tǒng)功能不同的是其性能和相關(guān)數(shù)據(jù)塊副本的位置選擇比較大的可靠性。HDFS使用感知機(jī)制(rack-aware)策略以提高數(shù)據(jù)可用性和利用網(wǎng)絡(luò)帶寬的可靠性。一般在大型計(jì)算機(jī)集群系統(tǒng)運(yùn)行的HDFS實(shí)例,不同的服務(wù)器集群可以跨機(jī)柜部署,相異節(jié)點(diǎn)之間通過交換機(jī)相互連通。通常相同機(jī)柜比不同機(jī)柜節(jié)點(diǎn)之間的通信速度更快,因?yàn)闄C(jī)柜內(nèi)失效的概率比機(jī)器故障的概率小得多,這樣部署可以在不降低數(shù)據(jù)的可靠性和可用性的條件下,有效降低機(jī)柜內(nèi)的寫入流量,大大提高寫入性能。

在啟動(dòng)時(shí)不發(fā)生文件塊的復(fù)制稱為Namenode節(jié)點(diǎn)安全模式。每個(gè)數(shù)據(jù)塊記錄副本的某個(gè)最小數(shù)值,當(dāng)Namenode的節(jié)點(diǎn)發(fā)現(xiàn)數(shù)據(jù)庫(kù)有多個(gè)副本的最小數(shù)值時(shí),說明副本已被安全復(fù)制。Nameno?de節(jié)點(diǎn)則自動(dòng)退出安全模式的條件是有足夠的塊來完成副本復(fù)制。

圖2 基于Hadoop的文件系統(tǒng)計(jì)算框架

基于Hadoop的文件系統(tǒng)計(jì)算框架如圖2所示。

文獻(xiàn)[4]針對(duì)WebGIS數(shù)據(jù),將相鄰的小文件合并為大文件,并對(duì)所有小文件建立全局哈希索引,有效提高小文件的存取效率。文獻(xiàn)[5]針對(duì)BlueSky系統(tǒng)中的文檔文件,將同類PPT小文件合并成為一個(gè)大文件,并對(duì)每個(gè)大文件建立局部索引,以上兩種方法充分利用了計(jì)算機(jī)緩存機(jī)制,提高了小文件的存取效率,是目前比較適用的小文件存儲(chǔ)方法。

2.2 小文件處理方法在HDFS框架下的實(shí)現(xiàn)

本節(jié)試圖在系統(tǒng)層面解決HDFS小文件存儲(chǔ),存儲(chǔ)流程如圖3所示。

圖3 基于Hadoop的小文件系統(tǒng)存儲(chǔ)流程

讀取流程如圖4所示。

3 實(shí)驗(yàn)與數(shù)據(jù)

3.1 實(shí)驗(yàn)?zāi)康?/p>

根據(jù)本文設(shè)計(jì)的框架設(shè)計(jì)相關(guān)的實(shí)驗(yàn)來驗(yàn)證本文設(shè)計(jì)框架的可操作性。實(shí)驗(yàn)數(shù)據(jù)被分成兩組,一組是采用傳統(tǒng)的分布式計(jì)算方案,使用Shell腳本處理日志,另一組為使用本文設(shè)計(jì)的系統(tǒng)框架運(yùn)行分布式算法進(jìn)行計(jì)算。

3.2 實(shí)驗(yàn)環(huán)境的配置

實(shí)驗(yàn)建立四個(gè)服務(wù)器的Hadoop集群,一臺(tái)做Namenode,三臺(tái)做Datanode,客戶端通過Na?menode提交數(shù)據(jù)。所述網(wǎng)絡(luò)服務(wù)器內(nèi)用于內(nèi)網(wǎng)系統(tǒng)的24 G實(shí)驗(yàn)數(shù)據(jù)記錄,由10萬(wàn)個(gè)200~250 kB的日志記錄組成。表1是一個(gè)具體的機(jī)器實(shí)驗(yàn)室環(huán)境。

3.3 實(shí)驗(yàn)結(jié)果分析

圖5和圖6是傳統(tǒng)HDFS MapReduce工作和小文件框架下統(tǒng)計(jì)計(jì)算的對(duì)比,從中可以清楚地看到,小文件框架工作運(yùn)行時(shí)間比傳統(tǒng)HDFS運(yùn)行時(shí)間顯著縮短。在內(nèi)存方面?zhèn)鹘y(tǒng)HDFS則明顯耗費(fèi)了大量的內(nèi)存。

圖4 基于Hadoop的小文件系統(tǒng)讀取流程

表1 集群服務(wù)器配置信息

4 總結(jié)

Hadoop中目前還沒有通用的解決HDFS小文件問題的解決框架,現(xiàn)有的框架包括Hadoop Ar?chive,Sequence file和Combine File Input Format,需要用戶按需自定義程序邏輯,比較繁瑣,本文在對(duì)Hadoop集群架構(gòu)研究的基礎(chǔ)上,給出了一個(gè)基于Hadoop的小文件分布式存儲(chǔ)方法。實(shí)驗(yàn)結(jié)果表明,該平臺(tái)可以大大提高小文件在HDFS框架下的讀寫速度。

Research on Storage of Hadoop Distributed Small File System

YUAN Xiao-chun
(Huizhou Power Supply Bureau,Huiizhou516001,China)

HDFS(Hadoop Distributed File System)for its high fault tolerance,high scalability,etc.,allows the user to deploy Hadoop inexpensive hardware,is widely used in large file storage.However,for the mass of small files,because the memory overhead is too high,so the data storage technology put forward higher requirements.Based on Hadoop distributed file system(HDFS)architecture,small file data processing policy in the Hadoop framework,by comparing the read and write test with the traditional file system,the calculation speed.

distributed storage;HDFS;MapReduce

TM73

:A

:1009-9492(2014)12-0159-03

10.3969/j.issn.1009-9492.2014.12.040

2014-11-14

猜你喜歡
實(shí)驗(yàn)
我做了一項(xiàng)小實(shí)驗(yàn)
記住“三個(gè)字”,寫好小實(shí)驗(yàn)
我做了一項(xiàng)小實(shí)驗(yàn)
我做了一項(xiàng)小實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 日韩午夜福利在线观看| 狼友视频一区二区三区| 91无码视频在线观看| 日韩欧美一区在线观看| 久久无码av三级| 欧美精品aⅴ在线视频| 精品欧美视频| 国产精品无码久久久久AV| 麻豆精品久久久久久久99蜜桃| 免费一看一级毛片| 欧美无专区| 亚洲成在人线av品善网好看| 国产理论精品| 国产一区成人| 亚洲精品天堂在线观看| 国产欧美在线观看精品一区污| 欧美午夜网| 免费Aⅴ片在线观看蜜芽Tⅴ| 成人精品亚洲| 国产福利小视频高清在线观看| 国产精品七七在线播放| 久久国产拍爱| 嫩草国产在线| 欧美不卡在线视频| 国产尹人香蕉综合在线电影| 人人妻人人澡人人爽欧美一区| 特级毛片免费视频| 久久精品国产999大香线焦| 国产在线观看一区二区三区| 欧美日本二区| aⅴ免费在线观看| 亚卅精品无码久久毛片乌克兰| 国产成年女人特黄特色毛片免| 99这里精品| 亚洲品质国产精品无码| 成人午夜精品一级毛片| 亚洲成aⅴ人片在线影院八| 午夜视频日本| 亚洲免费福利视频| 欧美国产日产一区二区| 亚洲av片在线免费观看| 老司国产精品视频91| 国产精品丝袜视频| 免费在线国产一区二区三区精品| 最新精品国偷自产在线| 最新亚洲av女人的天堂| 欧美在线黄| 久久黄色影院| www中文字幕在线观看| 欧美无遮挡国产欧美另类| 欧美久久网| AV网站中文| 国产99视频在线| 国产丝袜一区二区三区视频免下载| 免费在线色| 欧美成一级| 全免费a级毛片免费看不卡| 直接黄91麻豆网站| 超薄丝袜足j国产在线视频| 国产偷国产偷在线高清| 日本精品影院| 国产传媒一区二区三区四区五区| 欧美成a人片在线观看| 国产91av在线| 香蕉久久国产超碰青草| 欧美成人区| 99久视频| 一本色道久久88综合日韩精品| 国产一级毛片网站| 欧美黄色a| 久久久黄色片| 国产在线观看91精品亚瑟| 国产永久免费视频m3u8| 免费看一级毛片波多结衣| 色婷婷国产精品视频| 国产精品久线在线观看| 东京热av无码电影一区二区| 国产精品va| 国产又爽又黄无遮挡免费观看| 久久人人妻人人爽人人卡片av| 亚洲日本中文综合在线| 99热这里只有精品国产99|