999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種優化的Hadoop副本放置策略*

2015-10-18 22:39:02蔡燕冬張慶磊華僑大學計算機科學與技術學院福建廈門361021
網絡安全與數據管理 2015年16期
關鍵詞:優化策略

蔡燕冬,劉 艷,張慶磊(華僑大學 計算機科學與技術學院,福建 廈門 361021)

一種優化的Hadoop副本放置策略*

蔡燕冬,劉艷,張慶磊
(華僑大學計算機科學與技術學院,福建廈門361021)

Hadoop分布式文件系統默認采用三副本策略實現較為簡單,未對數據節點負載進行充分考慮。為了改善HDFS中集群負載的均衡性,提高數據節點的資源利用率,提出一種優化的副本放置策略。該策略綜合考慮數據節點的實時負載信息和工作進程數,選擇負載最小的節點存放數據。實驗結果表明,與默認策略相比,優化的Hadoop副本放置策略能使副本分布更加合理,集群的均衡性更加良好,并能減少數據上傳響應時間。

Hadoop;副本放置;實時負載;負載均衡

0 引言

HDFS副本放置策略設計是基于節點硬件性能同構的基礎之上,其采用三副本冗余機制保證數據的安全性。整體的副本存儲策略如圖1所示。HDFS整體的副本放置策略的原則為:盡最大可能將其中兩個數據塊副本存儲在一個機架上,將另一個數據塊副本存儲在另一個機架上,很好地在帶寬資源及可靠性方面做了平衡[1]。然而默認副本放置策略具有一定的局限性,已有不少的研究致力于優化Hadoop的數據塊副本放置策略。參考文獻[2]從數據塊熱度的角度出發,讓經常使用的數據塊擁有更多的副本以達到更高的并行處理效率。參考文獻[3]將數據塊副本更多地放置在性能較好的節點上,有效提升mapreduce的性能。參考文獻[4]從節點的網絡距離和節點負載兩方面進行考慮,為HDFS的遠程數據副本選擇最優的存儲位置。參考文獻[5]則優先讓使用率低的節點被選中作為存儲節點。受這些研究工作的啟發,本文提出一種優化的Hadoop副本放置策略旨在提高集群節點負載的均衡性,最終達到提升數據傳輸效率的目的。

圖1 默認副本放置策略

1 HDFS副本放置優化策略

1.1HDFS副本放置策略的局限性

默認HDFS副本放置策略的局限性主要體現如下:在選取副本存儲節點時采用了隨機方式,HDFS雖然也考慮了數據節點的工作接連數的負載信息,但相對簡單,并且是在隨機選取存儲節點之后才做出判斷。這樣的副本放置方式將導致副本的分布隨意性大,特別在異構環境中很有可能出現分配較多數據副本的節點是性能較差的節點,這些情況將進一步造成有些節點具有很高的負載,有些節點卻處于空閑狀態造成數據傳輸效率的下降。

1.2優化HDFS副本放置策略

從1.1節的分析可以看出,在默認策略中,名字節點對于數據節點的狀態信息缺乏感知,無法做出更為精確的副本位置選取工作。為此,本文的優化策略將重點考慮如下兩個評價指標,增加名字節點副本放置節點選取的準確性、合理性。

(1)節點實時負載:實時負載W由數據節點的多個指標衡量,分別為磁盤IO負載、內存負載、CPU負載、網絡負載。W的計算公式為:

W=λio×wio+λmem×wmem+λcpu×wcpu+λband×wband其中,wio、wmem、wcpu、wband分別代表了磁盤IO負載、內存負載、CPU負載、網絡負載;λio、λmem、λcpu、λband則代表了衡量節點工作負載時的節點磁盤、內存、CPU、網絡帶寬所占的比重,λio+λmem+λcpu+λband=1,λio、λmem、λcpu、λband∈[0,1]。權值的選取采用運籌學中的層次分析法(Analytic Hierarchy Process,AHP)來確定。該方法適用于難以定量分析的決策性問題。

(2)HDFS工作進程:即數據節點HDFS寫入、讀取等工作的連接數。由于這些負載都是比值的關系,在異構環境下有些節點可能由于性能較好,其某些實時負載處于較低水平,在節點性能嚴重不均衡時將導致集群大量副本存儲在個別高性能節點上。該負載信息能控制一個數據節點上進行的HDFS工作進程,抑制某個數據節點進行過多的HDFS服務。

依據上述兩個指標,某數據副本放置位置的選取的主要思想是:從指定的機架位置上隨機選取一定數量的數據節點集,然后從該集合中進一步選取工作連接數低于集群平均工作連接數的數據節點集合,最后在該集合中選擇實時負載最小的節點作為副本位置放置節點。為方便下面的描述,該思想標記為算法1。

整體上副本放置位置的選取依然遵循將副本盡量放在不同機架上以保證可靠性的原則,從最常見的3副本方案出發,其整體副本選取方案如下:

While還需選取的副本數>0

if第一副本選取then

if客戶端節點是數據節點then

選擇該節點

else通過指定所有集群機架通過算法1去選取節點

else if第二副本選取then

指定除去第一副本所在機架外的所有機架通過算法1去選取節點

else if第三副本選取then

if第一、二副本所在節點在同一機架then

指定除去第二副本所在機架外的所有機架通過算法1去選取節點

else指定第二副本所在機架通過算法1去選取節點

1.3層次分析法的權值確定工作

美國運籌學家Saaty教授提出的層次分析法是多屬性決策中的重要方法[6]。對于存在多個影響指標的情況,評價各方案的優劣程度的這類問題可以使用AHP方法來解決。AHP方法的思想是把復雜問題中的各種因素進行分層,分層是有次序的,層次之間也是有聯系的,將每個層次的元素兩兩比較,并定量描述它們的相對重要性。最后使用數學方法計算權值,用權值反映每一層次元素的相對重要性次序。

本文從實時負載的實際情況出發進行建模,如圖2所示。

圖2 實時負載模型

對準則層的各個因素進行兩兩對比,構建判斷矩陣,如表1所示。

表1 判斷矩陣

對表1構成的判斷矩陣通過合法的計算方式,求取其最大特征根λmax和歸一化的特征向量W。得到λmax=4.119,W=(0153,0.072,0.531,0.245)T,最后進行判斷矩陣一致性檢驗,發現其誤差值0.044小于閾值0.10,即通過判斷矩陣的一致性檢驗,因此特征向量W的值是合理的,最終實時負載的權值確定為:λcpu=0.153、λmem=0.072、λio=0.531、λband=0.245。

2 實驗與分析

優化的HDFS副本放置策略的實驗基于Hadoop-1.0.0。集群中存在兩種性能不同的計算機節點,分別標識為性能A節點和性能B節點,其中A節點的主要硬件配置為:3.30GHz的Inter(R)Core(TM)i3-3220CPU,2GB DDR3的內存,7 200rpm的500GB硬盤;B節點的主要硬件配置為:2.93GHz的Inter(R)Core(TM)2Duo(E7500)CPU,GB DDR3的內存,4 500rpm的500GB硬盤。整個集群由1個機架組成,集群配置成1個名字節點、8個數據節點和1個客戶端的形式。其中性能A的數據節點編號為1、2、7、8,性能B的數據節點編號為3、4、5、6。實驗中涉及的數據讀寫操作均通過客戶端發出。

圖3和圖4分別展示了在默認策略和優化策略下通過客戶端寫入1 000個數據塊時的副本分布情況。從圖3可以看出,在默認策略下,副本放置位置是通過隨機算法獲取的,因此副本的分布顯得較為隨意,波動性也比較大。副本的分布不具目的性,例如數據節點1和數據節點5,通過實驗配置可知數據節點1在性能上比數據節點5要更優越,然而數據節點1卻比數據節點5少存儲了100多個副本,這樣的分布顯然不太合理。而優化策略下,副本的分布顯然更具目的性。如圖4所示,性能更好的1、2、7、8數據節點存儲的副本總量要多于性能較差的3、4、5、6數據節點。這是由于考慮了實時負載,性能更好的節點其負載程度相對較輕,存儲副本的概率較大。然而其總量上的區別還算合理,這是因為本文考慮了另一個因素HDFS工作進程,它能有效地限制一個節點進行過量的操作。而且,整體的存儲情況是優化策略要顯得更加均衡,這也是因為考慮了實時負載因素在無形中增加了低負載節點的工作量,減小了高負載節點的工作量,最終使優化策略的副本分布看起來更加平衡。

圖3 默認的副本放置策略副本分布

圖4 優化的副本放置策略副本分布

最后本文通過客戶端寫入200、500、1 000個數據塊,對比數據傳輸的時間,結果如圖5所示。從圖5可以看出由于優化副本策略考慮了節點的實時負載,在一定程度上避開了實時負載繁忙的節點,有效地均衡了節點的負載,并有目的地適當提高了性能較高節點的使用,充分發揮其性能優勢,最終實現了縮短存儲型數據寫入時間的目的。

圖5 數據寫入響應時間對比

3 結論

本文分析了HDFS默認副本放置策略的局限性,并據此提出了一種優化的副本放置策略,該策略綜合考慮了實時負載和HDFS工作進程數,有效提高了副本的合理分布。通過實驗表明,相比于默認策略,優化的副本放置策略具有更明確的目的性,盡量選擇了最低實時負載節點,避開了高負載節點的存儲,最終提升了副本傳輸的時間。本文還通過科學的AHP方法確定了實時負載的權值,更加精確了實時負載的評估準確性。

[1]WHITE T.Hadoop:The definitive guide[M].O′Reilly Media,Inc.,2012.

[2]ABAD C L,Lu Yi,CAMPBELLR H.Dare:adaptive data replication for efficient cluster scheduling[C].Proceedings of the 2011 IEEE International Conference on Cluster Computing,USA:IEEE Computer Society,2011:159-168.

[3]Xie Jiong,Yin Shu,Ruan Xiaojun,etal.Improving mapreduce performance through data placement in heterogeneous hadoop clusters[C].2010 IEEE International Symposium on Parallel Distributes Processing,Workshops and Phd Forum(IPDPSW),Atlanta:IEEE Press,2010:1-9.

[4]林偉偉.一種改進的Hadoop數據放置策略[J].華南理工大學學報(自然科學版),2012,36(1):152-158.

[5]邵秀麗,王亞光,李云龍,等.Hadoop副本放置策略[J].智能系統學報,2013,8(6):489-496.

[6]徐玖平,吳巍.多屬性決策的理論與方法[M].北京:清華大學出版社,2006.

An improved replica placement strategy in Hadoop

Cai Yandong,Liu Yan,Zhang Qinglei
(College of Computer Science& Technology,Huaqiao University,Xiamen 361021,China)

Hadoop distributed file system applies default three copies of the random replica placement strategy without taking into account full load of Datanodes.To improve the cluster load balabcing of HDFS and the resource utilization of Datanodes,an improved replica placement strategy is proposed.The strategy considers real-time load of Datanodes and the number of the work process to select the minimum load Datanode storing data.Experiment shows that compared with default three copies of the random replica placement strategy,the improved strategy optimizes the balancing of cluster load and reduces I/O response time.

Hadoop;replacement of replica;real-time load;load balancing

TP391.41,TP911

A

1674-7720(2015)16-0021-03

蔡燕冬,劉艷,張慶磊.一種優化的Hadoop副本放置策略[J].微型機與應用,2015,34(16):21-23.

2015-03-19)

蔡燕冬(1990-),男,碩士研究生,主要研究方向:計算機存儲、計算機網絡。

劉艷(1976-),女,博士,副教授,主要研究方向:計算機存儲、網絡存儲系統、數據管理。

張慶磊(1989-),男,碩士研究生,主要研究方向:計算機存儲、計算機網絡。

國家自然科學青年基金項目(61202106)

猜你喜歡
優化策略
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
基于“選—練—評”一體化的二輪復習策略
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 欧美精品不卡| 欧美在线伊人| 欧美a在线视频| 亚洲欧美成人综合| 久久亚洲黄色视频| 亚洲成人播放| 欧美日本视频在线观看| 啦啦啦网站在线观看a毛片| 欧美三级视频在线播放| 亚洲三级影院| 亚洲人成网站观看在线观看| 欧美一级99在线观看国产| 亚洲综合片| 波多野结衣视频网站| 伊人色综合久久天天| 日韩欧美在线观看| 91啦中文字幕| 久久99国产乱子伦精品免| 怡春院欧美一区二区三区免费| 91区国产福利在线观看午夜| 国产成人区在线观看视频| 波多野结衣爽到高潮漏水大喷| 青草国产在线视频| 亚洲,国产,日韩,综合一区| 亚洲精品手机在线| 久久久久久午夜精品| 久久99热这里只有精品免费看| AV天堂资源福利在线观看| 国产色婷婷| 精品黑人一区二区三区| 久久国产精品影院| 伊人精品成人久久综合| 一级一毛片a级毛片| 国产日韩久久久久无码精品| 国产69精品久久| 国产福利免费视频| 全部毛片免费看| 日韩麻豆小视频| 久久国产成人精品国产成人亚洲 | 亚洲AV电影不卡在线观看| 小说 亚洲 无码 精品| 亚洲美女一区二区三区| 一级毛片在线免费看| 国产午夜一级淫片| 一级毛片免费播放视频| 精品福利视频网| 22sihu国产精品视频影视资讯| 永久免费AⅤ无码网站在线观看| 精品91视频| 国产一区二区三区在线无码| 久夜色精品国产噜噜| 久久综合丝袜长腿丝袜| 精品国产美女福到在线直播| 午夜福利亚洲精品| 欧美成人亚洲综合精品欧美激情| 成人av手机在线观看| 亚洲色图综合在线| 亚洲91精品视频| 精品国产中文一级毛片在线看| 亚洲国产精品日韩专区AV| 欧美精品亚洲日韩a| 国产午夜小视频| 热九九精品| 极品国产一区二区三区| 妇女自拍偷自拍亚洲精品| 青青青伊人色综合久久| 欧美精品综合视频一区二区| 永久免费av网站可以直接看的 | 午夜日b视频| 日韩一级毛一欧美一国产| a级毛片视频免费观看| 91免费观看视频| 最新无码专区超级碰碰碰| 婷婷在线网站| 99精品这里只有精品高清视频| 3344在线观看无码| 四虎成人精品| 国产精品亚洲欧美日韩久久| 亚洲国产精品无码AV| 成人精品在线观看| 真实国产精品vr专区| 色九九视频|