999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop云存儲(chǔ)策略的研究與優(yōu)化

2016-09-23 01:26:10林穗朱巖楊有科
現(xiàn)代計(jì)算機(jī) 2016年2期
關(guān)鍵詞:策略系統(tǒng)

林穗,朱巖,楊有科

(1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006;2.廣東訊飛啟明科技發(fā)展有限公司,廣州 510530)

Hadoop云存儲(chǔ)策略的研究與優(yōu)化

林穗1,朱巖1,楊有科2

(1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006;2.廣東訊飛啟明科技發(fā)展有限公司,廣州510530)

0 引言

隨著互聯(lián)網(wǎng)的日益普及以及分布式計(jì)算的快速發(fā)展,各種網(wǎng)絡(luò)業(yè)務(wù)生成了海量的數(shù)據(jù)信息,對(duì)于這些數(shù)據(jù)的存儲(chǔ)和處理將成為新時(shí)代的研究難題和研究重點(diǎn)。云計(jì)算的普及恰恰解決了這個(gè)問題,云計(jì)算因?yàn)槠淞畠r(jià)實(shí)用的基礎(chǔ)架構(gòu)成為越來越多公司存儲(chǔ)數(shù)據(jù)的首選。云計(jì)算是分布式計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化等傳統(tǒng)計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物[1]。而作為云計(jì)算的核心技術(shù)之一,海量數(shù)據(jù)的存儲(chǔ)也是在這種背景下得到了很好的研究和發(fā)展。它的存儲(chǔ)方式是采用分布式存儲(chǔ)實(shí)現(xiàn),從而能保證了可靠性、經(jīng)濟(jì)性以及高可用性。現(xiàn)在比較常用的云計(jì)算框架有Amazon的EC2,IBM的智慧云,Google的GFS,Apache的Hadoop云計(jì)算框架[4,6]。因?yàn)镠adoop是開源框架,且已經(jīng)被很多大型的公司應(yīng)用,如Facebook,亞馬遜,雅虎等,其技術(shù)已經(jīng)趨于成熟,其存儲(chǔ)模塊HDFS更是被廣泛的研究和應(yīng)用的熱點(diǎn)。

1 HDFS簡介

Hadoop框架是Apache開源基金組織旗下的一個(gè)在一般商用機(jī)器集群上運(yùn)行分布式并行計(jì)算的開源框架,其核心設(shè)計(jì)思想是MapReduce和HDFS。MapReduce是Google提出的編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。它主要作用于對(duì)數(shù)據(jù)的處理,而它工作過程中會(huì)產(chǎn)生很多的中間數(shù)據(jù),這些中間數(shù)據(jù)就被暫存在Hadoop的另一個(gè)重要組成部分——HDFS中。

HDFS(Hadoop Distributed File System)是一種分布式文件系統(tǒng),有著高容錯(cuò)性(fault-tolerent)的特點(diǎn),并且被設(shè)計(jì)部署在低廉的硬件上,它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù)以適合那些有著大量數(shù)據(jù)集的應(yīng)用程序。HDFS采用了主/從(Master/Slave)結(jié)構(gòu)模型,即一個(gè)Master多個(gè)Slave,前者叫做名字節(jié)點(diǎn)(NameNode),后者叫數(shù)據(jù)節(jié)點(diǎn)(DateNode),在集群系統(tǒng)中一般一個(gè)節(jié)點(diǎn)就是一個(gè)DateNode組成,DataNode管理著該節(jié)點(diǎn)的存儲(chǔ)。HDFS支持傳統(tǒng)的層次文件結(jié)構(gòu),同現(xiàn)有的一些文件系統(tǒng)很類似,你可以創(chuàng)建或刪除一個(gè)文件,把一個(gè)文件從這個(gè)目錄遷移到另一個(gè)目錄,重命名文件等。

對(duì)于具體的文件數(shù)據(jù)來說,一個(gè)文件數(shù)據(jù)其實(shí)是被分割成一個(gè)一個(gè)的塊(HDFS中默認(rèn)是64M)被存儲(chǔ)的。這些塊冗余存儲(chǔ)在DataNode集合數(shù)據(jù)里。NameNode在集群系統(tǒng)中扮演著總管理者的身份,HDFS系統(tǒng)中文件的目錄結(jié)構(gòu)存儲(chǔ)在NameNode上。NameN-ode負(fù)責(zé)執(zhí)行文件系統(tǒng)的Namespace管理工作,同時(shí)負(fù)責(zé)維護(hù)數(shù)據(jù)塊到具體DataNode的映射。客戶機(jī)的讀寫需求是通過DataNode節(jié)點(diǎn)響應(yīng),而DataNode在NameNode的統(tǒng)一管理下對(duì)數(shù)據(jù)塊進(jìn)行創(chuàng)建、刪除、復(fù)制操作。

2 HDFS數(shù)據(jù)默認(rèn)存儲(chǔ)策略分析

可靠而合理的對(duì)大規(guī)模數(shù)據(jù)進(jìn)行存儲(chǔ)是Hadoop框架研究的重點(diǎn)。因?yàn)樵贖DFS中是有許多集群構(gòu)架而成,節(jié)點(diǎn)眾多,而節(jié)點(diǎn)出現(xiàn)故障的可能性一直存在,為了避免個(gè)別節(jié)點(diǎn)失效而導(dǎo)致整個(gè)系統(tǒng)運(yùn)行異常導(dǎo)致數(shù)據(jù)永久性丟失,HDFS采取了副本策略,將數(shù)據(jù)的多個(gè)副本存儲(chǔ)在集群中不同節(jié)點(diǎn)上,這樣當(dāng)有節(jié)點(diǎn)失效時(shí),系統(tǒng)仍然可以讀取數(shù)據(jù)。為了保證數(shù)據(jù)的安全性,數(shù)據(jù)的副本應(yīng)該存儲(chǔ)在距離本節(jié)點(diǎn)較遠(yuǎn)的機(jī)架上,但是由于MapReduce要對(duì)數(shù)據(jù)進(jìn)行頻繁的操作,因而大量數(shù)據(jù)的移動(dòng)會(huì)顯得影響運(yùn)算的性能,所以數(shù)據(jù)存儲(chǔ)應(yīng)當(dāng)遵循本地性,即數(shù)據(jù)應(yīng)存儲(chǔ)在距離運(yùn)算節(jié)點(diǎn)較近的節(jié)點(diǎn)上,以減小數(shù)據(jù)移動(dòng)所帶來的性能損耗。

針對(duì)這一問題,默認(rèn)的HDFS系統(tǒng)采用了機(jī)架感知策略,即將數(shù)據(jù)塊的多個(gè)副本存放在本地機(jī)架的不同節(jié)點(diǎn)上,然后隨機(jī)選取一個(gè)遠(yuǎn)端機(jī)架某一節(jié)點(diǎn)存儲(chǔ)另外一個(gè)副本。這樣當(dāng)客戶發(fā)起讀取數(shù)據(jù)請(qǐng)求時(shí)就可以從本地節(jié)點(diǎn)讀取數(shù)據(jù),且當(dāng)本地節(jié)點(diǎn)失效時(shí),就可以從遠(yuǎn)端節(jié)點(diǎn)恢復(fù)數(shù)據(jù)。但是該策略在選取遠(yuǎn)端節(jié)點(diǎn)所采用的隨機(jī)策略卻可能導(dǎo)致數(shù)據(jù)恢復(fù)時(shí)不必要的性能損失,且所隨機(jī)選取的節(jié)點(diǎn)可能會(huì)因?yàn)閿?shù)據(jù)存儲(chǔ)量不同而導(dǎo)致數(shù)據(jù)負(fù)載不均衡。

在HDFS中系統(tǒng)默認(rèn)的為數(shù)據(jù)存放三個(gè)副本,其默認(rèn)的存放策略如圖1所示。

按照機(jī)架感知策略進(jìn)行存放,保證了數(shù)據(jù)良好的本地性;另外一個(gè)副本存放在隨機(jī)選擇的遠(yuǎn)端機(jī)架的一個(gè)節(jié)點(diǎn)上,保證了數(shù)據(jù)的安全性。如果還有更多的副本,則將其存放于在整個(gè)集群中隨機(jī)選取的節(jié)點(diǎn)。只有當(dāng)整個(gè)本地節(jié)點(diǎn)失效時(shí),HDFS才會(huì)通過復(fù)制遠(yuǎn)端機(jī)架上的數(shù)據(jù)副本來恢復(fù)到標(biāo)準(zhǔn)的副本數(shù)量。

圖1 HDFS默認(rèn)副本存儲(chǔ)示意

在HDFS默認(rèn)的數(shù)據(jù)存放策略中,較好地平衡了數(shù)據(jù)的本地性和平衡性,但由于HDFS的集群框架由大量廉價(jià)設(shè)備所組成,系統(tǒng)中常常存在程序bug,操作系統(tǒng)崩潰,人為操作失誤等不可預(yù)知錯(cuò)誤所導(dǎo)致的節(jié)點(diǎn)失效。這種情況時(shí)有發(fā)生,所以數(shù)據(jù)恢復(fù)是系統(tǒng)運(yùn)行的常態(tài)。而數(shù)據(jù)恢復(fù)所占用的時(shí)間就成了影響整個(gè)系統(tǒng)性能的一個(gè)重要因素。因?yàn)槠洳捎玫氖请S機(jī)選取遠(yuǎn)端機(jī)架節(jié)點(diǎn)的策略,如果副本存放在較遠(yuǎn)的機(jī)架上,當(dāng)數(shù)據(jù)副本恢復(fù)時(shí)就會(huì)因?yàn)楹馁M(fèi)過長的時(shí)間而造成整個(gè)系統(tǒng)的時(shí)間損失。另外,因?yàn)椴捎玫氖请S機(jī)選取遠(yuǎn)端機(jī)架節(jié)點(diǎn),可能在系統(tǒng)運(yùn)行的過程中會(huì)出現(xiàn)有些節(jié)點(diǎn)存儲(chǔ)了很多數(shù)據(jù)而有的節(jié)點(diǎn)卻存儲(chǔ)很少數(shù)據(jù),影響了數(shù)據(jù)的平衡性,當(dāng)新的節(jié)點(diǎn)加入整個(gè)集群時(shí)這種情況尤其明顯。雖然在HDFS中提出了Balancer程序可以對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行相應(yīng)的存儲(chǔ)負(fù)載平衡,但是在調(diào)用Balancer程序的時(shí)候,不會(huì)將數(shù)據(jù)中一個(gè)節(jié)點(diǎn)移動(dòng)到另一個(gè)節(jié)點(diǎn)中,需要手動(dòng)進(jìn)行操作,且占用很大的網(wǎng)絡(luò)帶寬。

針對(duì)默認(rèn)存儲(chǔ)策略的這些問題,對(duì)HDFS系統(tǒng)中數(shù)據(jù)副本個(gè)數(shù)以及節(jié)點(diǎn)的選擇進(jìn)行研究,綜合考慮遠(yuǎn)端網(wǎng)絡(luò)節(jié)點(diǎn)的距離,數(shù)據(jù)節(jié)點(diǎn)的負(fù)載均衡,副本數(shù)量個(gè)數(shù)的優(yōu)化,可以提升HDFS系統(tǒng)的性能。

3 改進(jìn)的HDFS存儲(chǔ)策略

由于HDFS的默認(rèn)數(shù)據(jù)副本存儲(chǔ)是3個(gè),這種策略的使用會(huì)提高數(shù)據(jù)的可靠性同時(shí)也可以實(shí)現(xiàn)數(shù)據(jù)并發(fā)讀性能要求,但是若將全部的數(shù)據(jù)都按照3個(gè)副本的數(shù)量存儲(chǔ)的話,可能會(huì)造成存儲(chǔ)空間的浪費(fèi)、系統(tǒng)性能的損失以及維護(hù)成本的提升。因?yàn)樵谡麄€(gè)集群中各個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)環(huán)境或者是硬件性能都有所差異,因此其各個(gè)節(jié)點(diǎn)的數(shù)據(jù)可用性不盡相同。據(jù)此根據(jù)數(shù)據(jù)節(jié)點(diǎn)的失效率、數(shù)據(jù)塊的可用性提出了一種基于概率模型的數(shù)據(jù)復(fù)制策略。

該策略的核心思想是:建立基于概率的數(shù)據(jù)復(fù)制優(yōu)化模型。綜合考慮以上幾種問題,通過求解模型并在滿足數(shù)據(jù)可用性的要求下優(yōu)化數(shù)據(jù)的復(fù)制個(gè)數(shù)。下面對(duì)這種模型做出具體的描述。

假設(shè)在Hadoop系統(tǒng)中有m個(gè)數(shù)據(jù)塊需要存儲(chǔ)在n個(gè)數(shù)據(jù)節(jié)點(diǎn)中。假設(shè)fi是數(shù)據(jù)節(jié)點(diǎn)的失效概率(0<i<n+1),預(yù)先對(duì)數(shù)據(jù)塊j的設(shè)計(jì)的復(fù)制個(gè)數(shù)為rj(0<j<m+ 1),概率事件P(Ni)表示節(jié)點(diǎn)i的可用性,用概率事件P(Bj)表示數(shù)據(jù)塊j的可用性,則其失效率(Bj),因?yàn)樵谙到y(tǒng)中每個(gè)數(shù)據(jù)塊的復(fù)制份數(shù)為rj,且每個(gè)數(shù)據(jù)塊副本都存在各自獨(dú)立的數(shù)據(jù)節(jié)點(diǎn)上,因此數(shù)據(jù)塊Bj的失效率為:

假設(shè)一個(gè)文件F是由c個(gè)數(shù)據(jù)塊組成,且每個(gè)文件塊的存放相互獨(dú)立。則整個(gè)文件F的失效率為:

則此文件的可用性為:

我們假設(shè)希望數(shù)據(jù)的可用性是E,則理論上E應(yīng)該滿足不等式:

這樣我們就可以提前預(yù)設(shè)一個(gè)數(shù)據(jù)的期望可用性E,并根約束不等式來計(jì)算出優(yōu)化后的數(shù)據(jù)復(fù)制個(gè)數(shù)。為了保證整個(gè)系統(tǒng)數(shù)據(jù)的安全性,數(shù)據(jù)副本個(gè)數(shù)rj∈[2,4]。

根據(jù)HDFS默認(rèn)的數(shù)據(jù)放置策略可知,在默認(rèn)的副本個(gè)數(shù)即3個(gè)情況下,其中有一個(gè)副本是要安置在遠(yuǎn)端機(jī)架上的某個(gè)節(jié)點(diǎn),因?yàn)椴扇〉碾S機(jī)選擇策略,所選擇的遠(yuǎn)端節(jié)點(diǎn)可能會(huì)距離本地節(jié)點(diǎn)較遠(yuǎn),從而影響數(shù)據(jù)復(fù)制或者恢復(fù)的效率。

因此,在選擇遠(yuǎn)端節(jié)點(diǎn)進(jìn)行副本存儲(chǔ)的時(shí)候綜合考慮節(jié)點(diǎn)所在網(wǎng)絡(luò)的帶寬,以及遠(yuǎn)端節(jié)點(diǎn)與本地節(jié)點(diǎn)的距離。雖然根據(jù)公式(1)計(jì)算出的副本個(gè)數(shù)可能低于3,但是還是要確保一個(gè)副本存儲(chǔ)在遠(yuǎn)端節(jié)點(diǎn),這是為了保證數(shù)據(jù)的安全可靠性,這樣在本地機(jī)架發(fā)生故障的時(shí)候,仍然可以確保數(shù)據(jù)恢復(fù)成功。將數(shù)據(jù)存放在距離本地節(jié)點(diǎn)較近的機(jī)架上可以是數(shù)據(jù)的傳輸較快完成,從而提升數(shù)據(jù)存儲(chǔ)或恢復(fù)時(shí)的性能。另外,用來存放數(shù)據(jù)副本的存儲(chǔ)節(jié)點(diǎn)的負(fù)載應(yīng)該保持一定的均衡,防止出現(xiàn)節(jié)點(diǎn)空轉(zhuǎn)或者節(jié)點(diǎn)負(fù)載過重的現(xiàn)象,提高節(jié)點(diǎn)的利用率。

NameNode選擇DataNode存儲(chǔ)數(shù)據(jù)副本的時(shí)候,可以綜合考慮這兩方面的因素,先從集群中選取一定數(shù)量的不同機(jī)架的DataNode,再獲取各個(gè)DataNode距離本地節(jié)點(diǎn)的距離信息和其本身的負(fù)載信息,結(jié)合這兩方面信息從而給出一個(gè)評(píng)價(jià)系數(shù)V,最后NameNode根據(jù)V的值選取合適的DataNode進(jìn)行副本存儲(chǔ),過程如圖2所示。

圖2 DataNode評(píng)價(jià)系數(shù)的選擇

如上面所說,對(duì)于每一個(gè)節(jié)點(diǎn),都會(huì)根據(jù)其當(dāng)前的負(fù)載信息和距離計(jì)算出一個(gè)評(píng)價(jià)系數(shù)V,其具體的計(jì)算公式可表示為:

其中l(wèi)為節(jié)點(diǎn)的負(fù)載系數(shù),與節(jié)點(diǎn)當(dāng)前的存儲(chǔ)狀況成負(fù)比關(guān)系。d為節(jié)點(diǎn)的距離系數(shù),反比與該DataNode與當(dāng)前DataNode的距離。B表示平衡因子,B∈[0,1],反映在系統(tǒng)中與d的權(quán)重。B可由系統(tǒng)管理人員根據(jù)系統(tǒng)的負(fù)載要求和傳輸要求自行設(shè)置。

在Hadoop中距離的計(jì)算是將整個(gè)集群網(wǎng)絡(luò)看成是樹的結(jié)構(gòu),而兩個(gè)節(jié)點(diǎn)之間的距離就是這兩個(gè)節(jié)點(diǎn)分別到共同祖先節(jié)點(diǎn)的距離之和。同一個(gè)機(jī)架上的兩個(gè)節(jié)點(diǎn)距離是2,同一數(shù)據(jù)中心不同機(jī)架上的節(jié)點(diǎn)之間的距離為4,對(duì)于不同數(shù)據(jù)中心之間兩個(gè)節(jié)點(diǎn)之間的距離則要視情況而定。

整個(gè)改進(jìn)放置策略的算法表示:

①當(dāng)有新的數(shù)據(jù)塊到達(dá)要進(jìn)行副本存儲(chǔ)。根據(jù)公式(1)計(jì)算出要存儲(chǔ)的副本個(gè)數(shù)C,根據(jù)副本存儲(chǔ)規(guī)則計(jì)算出所需要選取的遠(yuǎn)端節(jié)點(diǎn)M的個(gè)數(shù)。

②如果已經(jīng)選取的節(jié)點(diǎn)小于指定值N(N≤機(jī)架總數(shù)),并將已經(jīng)選取的節(jié)點(diǎn)加入節(jié)點(diǎn)集nodeList,然后隨機(jī)選取節(jié)點(diǎn)randomNode。

③如果randomNode與nodeList中的任意節(jié)點(diǎn)都不在都一個(gè)機(jī)架上,那么將randomNode加入nodeList。遍歷nodeList,如果在nodeList中存在待評(píng)價(jià)的節(jié)點(diǎn),對(duì)這些節(jié)點(diǎn)逐個(gè)計(jì)算評(píng)價(jià)系數(shù)V。

④將所有節(jié)點(diǎn)的V加入評(píng)價(jià)系數(shù)列表ValueList。

⑤將ValueList按降序排序。選擇V值最高的M個(gè)節(jié)點(diǎn)。其中M是所需要的遠(yuǎn)端節(jié)點(diǎn)的個(gè)數(shù),由C確定。

⑥返回這M個(gè)已經(jīng)選取的節(jié)點(diǎn)。

4 實(shí)驗(yàn)結(jié)果與分析

采用的仿真平臺(tái)由5臺(tái)普通PC以及一臺(tái)客戶端PC組成的,其中一臺(tái)PC作為控制節(jié)點(diǎn),另外四臺(tái)作為數(shù)據(jù)節(jié)點(diǎn),基本配置如表1。整個(gè)仿真平臺(tái)運(yùn)行在千兆內(nèi)網(wǎng)內(nèi)的,操作系統(tǒng)選用 Ubuntu 11.10 server,對(duì)Hadoop中六個(gè)配置文件進(jìn)行配置,完成Hadoop平臺(tái)的整體部署。

表1 平臺(tái)機(jī)器配置

實(shí)驗(yàn)選取不同規(guī)模的數(shù)據(jù)集,比較默認(rèn)存儲(chǔ)策略與優(yōu)化后的策略所需要的存儲(chǔ)時(shí)間。選擇的數(shù)據(jù)集大小是64M,96M,128M,256M,512M,768M,1G,分別設(shè)置評(píng)價(jià)系數(shù)為0.35和0.5,得到存儲(chǔ)時(shí)間綜合對(duì)比如圖3所示。可以看到,當(dāng)存儲(chǔ)數(shù)據(jù)規(guī)模較小時(shí),改進(jìn)策略比默認(rèn)策略的存儲(chǔ)時(shí)間接近,性能改善并不明顯。但隨著存儲(chǔ)大規(guī)模數(shù)據(jù)時(shí),改進(jìn)策略因?yàn)槠錅p少了不必要的數(shù)據(jù)傳輸時(shí)間和有效控制了副本個(gè)數(shù),存儲(chǔ)時(shí)間隨著數(shù)據(jù)塊的增大而減緩增長,存儲(chǔ)性能的優(yōu)勢(shì)逐漸體現(xiàn)。同時(shí),設(shè)置的評(píng)價(jià)系數(shù)小即設(shè)置的網(wǎng)絡(luò)距離的權(quán)重高,存儲(chǔ)的時(shí)間也會(huì)隨之降低。改進(jìn)策略通過用戶可配置的方式,讓用戶根據(jù)實(shí)際需要來設(shè)置評(píng)價(jià)系數(shù),增加了用戶的體驗(yàn)性。

圖3 存儲(chǔ)時(shí)間對(duì)比圖

5 結(jié)語

云計(jì)算環(huán)境下的分布存儲(chǔ)主要研究數(shù)據(jù)在數(shù)據(jù)中心上的組織和管理,數(shù)據(jù)中心通常由百萬級(jí)以上節(jié)點(diǎn)組成,存儲(chǔ)其上的數(shù)據(jù)規(guī)模往往達(dá)到PB級(jí)甚至EB級(jí),數(shù)據(jù)失效將會(huì)極大地限制了云計(jì)算的應(yīng)用和推廣。因此,提高云存儲(chǔ)的可擴(kuò)展性和容錯(cuò)性成為關(guān)鍵。論文重點(diǎn)研究基于復(fù)制的容錯(cuò)技術(shù)中的數(shù)據(jù)復(fù)制策略,包括副本的創(chuàng)建時(shí)機(jī)、副本的數(shù)量、副本的放置等問題。通過對(duì)副本個(gè)數(shù)的靈活性選擇,避免了不必要的數(shù)據(jù)復(fù)制;通過計(jì)算節(jié)點(diǎn)的評(píng)價(jià)系數(shù),避免了數(shù)據(jù)傳輸及恢復(fù)時(shí)因?yàn)榫嚯x過遠(yuǎn)導(dǎo)致的數(shù)據(jù)傳輸時(shí)間損失。實(shí)驗(yàn)表明,隨著數(shù)據(jù)規(guī)模的增加,改進(jìn)后的策略提高了系統(tǒng)的存儲(chǔ)性能。

[1]李喬,鄭嘯.云計(jì)算研究現(xiàn)狀綜述[J].計(jì)算機(jī)科學(xué),2011,38(4):32-37.

[2]Tom Wbite.Hadoop權(quán)威指南[M].周敏奇,王曉玲,金澈清等譯.北京:清華大學(xué)出版社,2011.

[3]張興旺,李晨暉,秦曉珠.構(gòu)建于廉價(jià)計(jì)算機(jī)集群上的云存儲(chǔ)的研究與初步實(shí)現(xiàn)[J].情報(bào)雜志,2011.30(11):166-172.

[4]秦秀磊,張文博,魏峻等.云計(jì)算環(huán)境下分布式緩存技術(shù)的現(xiàn)狀與挑戰(zhàn)[J].軟件學(xué)報(bào).2013,24(1):50-66.

[5]王意潔,孫偉東,周松等.云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)[J].軟件學(xué)報(bào),2012,23(4):962-986.

[6]Dhruba Borthakur,Jonathan Gray,Joydeep Sen Sarma,et al.Apache Hadoop Goes Realtime at Facebook[C].Proceedings of the 2011 International Conference on Management of data,2011:1071-1080.

[7]馮登國,張敏,張妍等.云計(jì)算安全研究[J].軟件學(xué)報(bào),2011,22(1):71-83

HDFS;Storage Strategy;Data Copy;Evaluation Coefficient

Research and Optimization of the Hadoop Cloud Storage Strategy

LIN Sui1,ZHU Yan1,YANG You-ke2
(1.School of Computer,Guangdong University of Technology,Guangzhou 510006;2.Guangdong Moring Star Technology CO.LTD.,Guangzhou 510530)

1007-1423(2016)02-0033-05

10.3969/j.issn.1007-1423.2016.02.008

林穗(1972-),女,廣東人,副教授,研究方向?yàn)樵朴?jì)算、云存儲(chǔ)等

朱巖(1990-),男,山東人,碩士,研究方向?yàn)樵拼鎯?chǔ)

楊有科(1977-),男,廣東人,研究方向?yàn)榇髷?shù)據(jù)與云計(jì)算

2015-12-04

2015-12-30

分布式文件系統(tǒng)(HDFS)是海量數(shù)據(jù)的主要存儲(chǔ)方式。HDFS默認(rèn)的存儲(chǔ)策略中,采用固定的數(shù)據(jù)副本個(gè)數(shù)以及隨機(jī)選擇遠(yuǎn)端節(jié)點(diǎn)的策略來保證數(shù)據(jù)的本地性和安全性,但當(dāng)系統(tǒng)發(fā)生故障需要進(jìn)行數(shù)據(jù)恢復(fù)時(shí),默認(rèn)策略將會(huì)造成系統(tǒng)時(shí)間的損失和節(jié)點(diǎn)存儲(chǔ)負(fù)載的不均衡。提出一種改進(jìn)的HDFS存儲(chǔ)策略,根據(jù)節(jié)點(diǎn)的失效率以及期望的數(shù)據(jù)可用性建立一種概率模型,通過模型來優(yōu)化數(shù)據(jù)副本個(gè)數(shù),并根據(jù)節(jié)點(diǎn)的評(píng)價(jià)系數(shù)來選擇遠(yuǎn)端節(jié)點(diǎn)進(jìn)行副本存儲(chǔ)。實(shí)驗(yàn)結(jié)果表明該策略針對(duì)海量數(shù)據(jù)時(shí)提高系統(tǒng)的存儲(chǔ)性能。

分布式文件系統(tǒng);存儲(chǔ)策略;數(shù)據(jù)副本;評(píng)價(jià)系數(shù)

廣州市科技項(xiàng)目(No.2014XYD-007)

HDFS is the main storage method of massive data.In the default storage strategy,HDFS uses fixed data replica and randomly chooses remote node to ensure data locality and security.However,when system needs data recovery because of system fault,random strategy will cause loss of system time and imbalance of node storage load.In this case,puts forward an improved HDFS storage strategy to generate a probability model based on node failure rate and expected data availability.It can optimize the number of data replica by the model and select remote node as copy storage according to its evaluation coefficient.The experiment result shows the strategy can improve system performance aiming at massive data.

猜你喜歡
策略系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
求初相φ的常見策略
例談未知角三角函數(shù)值的求解策略
基于PowerPC+FPGA顯示系統(tǒng)
我說你做講策略
半沸制皂系統(tǒng)(下)
高中數(shù)學(xué)復(fù)習(xí)的具體策略
主站蜘蛛池模板: 91福利在线观看视频| 国产幂在线无码精品| 国产美女91视频| 国产日本欧美亚洲精品视| 亚洲高清在线播放| 欧美一级黄色影院| 91在线精品麻豆欧美在线| 毛片免费视频| 久久亚洲AⅤ无码精品午夜麻豆| 一级毛片不卡片免费观看| 综合久久五月天| 一级不卡毛片| 国产在线精彩视频二区| 在线欧美一区| 亚洲品质国产精品无码| 久久精品国产免费观看频道| 99九九成人免费视频精品| 国产精品久久久久无码网站| 国产老女人精品免费视频| 中国精品自拍| 国产白浆在线| 精品国产一二三区| 国产91视频免费| 亚洲系列无码专区偷窥无码| 国产欧美亚洲精品第3页在线| 日韩在线观看网站| 在线欧美a| 国产青青操| 欧美在线黄| 亚洲成人播放| 动漫精品啪啪一区二区三区| 国产日本欧美亚洲精品视| 国产99精品久久| 制服丝袜一区| 国产成人一级| 第九色区aⅴ天堂久久香| 乱人伦中文视频在线观看免费| 天堂va亚洲va欧美va国产| 国产精品自拍露脸视频| 色噜噜狠狠狠综合曰曰曰| 精品亚洲欧美中文字幕在线看| 亚洲综合在线网| 亚洲成人精品在线| 欧美专区日韩专区| 91午夜福利在线观看| 激情综合网激情综合| 亚洲床戏一区| 日韩最新中文字幕| 在线无码九区| 久久精品波多野结衣| 欧美不卡二区| 香蕉久久国产超碰青草| aaa国产一级毛片| 日本少妇又色又爽又高潮| 欧美在线伊人| 欧美天堂久久| 亚洲成人在线网| 国产一区二区网站| 国产精品美人久久久久久AV| 在线中文字幕日韩| 亚洲日本www| 精品人妻系列无码专区久久| 91久久夜色精品国产网站 | 久久精品免费国产大片| 精品超清无码视频在线观看| 国产视频大全| 国产美女精品在线| 国产精品久线在线观看| 欧美三级日韩三级| 2020亚洲精品无码| 激情影院内射美女| 国产日本欧美亚洲精品视| 婷婷午夜天| 波多野结衣无码AV在线| 欧美精品1区| 国产69精品久久久久孕妇大杂乱| 国产在线一区视频| 三区在线视频| 伊人久久久大香线蕉综合直播| 女人18毛片久久| 久久动漫精品| 尤物精品国产福利网站|