999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的HDFS副本放置策略

2018-04-25 07:23:03
長春師范大學學報 2018年4期
關鍵詞:策略

陳 偉

(宿州職業技術學院計算機系,安徽宿州 234101)

隨著大數據時代的到來,信息數據呈指數極增長,傳統的文件存儲方式已無法滿足海量數據的存儲需求,分布式文件系統的應用越來越廣泛。HDFS(Hadoop Distribute File System)作為分布式文件系統的典型代表,以其低成本、高可靠性、大數據處理等優勢,成為海量數據存儲的理想方案。HDFS采用副本技術把數據副本存放在集群中多個不同節點上,當某個節點發生故障時,可通過副本進行恢復,不會影響數據的讀取,保證了數據的可靠性。

在HDFS默認副本放置策略中,部分副本存放節點是隨機選擇的,對節點的實時負載和節點間網絡距離沒有充分考慮,容易導致集群系統負載不均衡,節點距離較遠時會降低數據傳輸效率,影響MapReduce的運算性能,集群系統整體性能下降。劉艷[1]通過節點負載與計算性能相匹配原則副本節點的選擇,實現副本放置。邵秀麗[2]選擇集群中存儲使用率較低的節點作為數據副本存放節點。劉黨朋[3]在數據副本存放時綜合考慮磁盤使用情況、節點性能、文件重要性等因素,優先選擇負載較小的數據節點進行存放。林偉偉[4]結合節點負載和網絡距離計算評價值,基于評價值選擇副本放置節點,但是文中節點負載僅表示節點當前存放的數據塊數量,沒有考慮其他各項指標。

本文在已有研究基礎上,綜合考慮磁盤使用率、CPU使用率、內存使用率、網絡距離等各項因素,對HDFS副本放置策略進行改進,以提高集群系統的存儲性能和負載均衡效果。

1 HDFS概述

HDFS是開源云計算平臺Hadoop的核心組件,為海量數據提供存儲。HDFS對硬件的要求較低,可以部署在廉價設備上,采用流式數據訪問,能夠滿足海量數據的處理需求[5]。

圖1 HDFS體系結構

1.1 HDFS架構

HDFS采用主/從(Mater/Slave)體系結構[6],類似傳統文件系統,可以通過目錄路徑執行文件的創建、讀取、刪除等操作。在HDFS集群中有1個主節點(NameNode)和多個從節點(DataNode),NameNode是集群管理者,負責管理元數據等,真正實現數據存儲的是DataNode??蛻舳嗽L問文件先要與NameNode交互獲取文件元數據,然后直接與DataNode建立通訊進行文件操作。HDFS體系結構如圖1所示。

1.2 文件寫入過程

客戶端把要寫入的文件進行分塊(默認大小64M),向NameNode發起文件寫入請求,并把數據塊信息寫入NameNode,NameNode根據集群中節點狀態選擇可用的DataNode,并返回DataNode列表給客戶端用來存放數據塊副本。客戶端得到節點信息后,開始以數據塊形式向第一個DataNode寫入數據,然后以流水線方式依次向其他節點復制數據,最后把各個存放副本的DataNode的最新信息反饋給NameNode。HDFS文件寫入過程如圖2所示。

圖2 HDFS文件寫入過程

2 HDFS副本放置策略

2.1 默認副本放置策略

HDFS分布式文件系統中把文件分為多個數據塊,每個數據塊存在多個副本進行冗余存儲,采用機架感知[7]的副本放置策略,使同一數據塊的多個副本存儲在多個不同的機架上。HDFS中數據塊默認的副本數為3,通常盡可能把2個副本放置在相同機架數據節點上,1個副本在不同機架上,相同機架可獲得較好的網絡傳輸性能,而放置在不同機架可以保證數據的安全性。默認的副本放置策略如圖3所示。

如果客戶端為集群中節點,則把副本1放置在客戶端所在數據節點,副本2放置在和副本1相同機架不同節點,副本3則隨機選擇不同機架中節點進行存放;如果客戶端不在集群中,則在集群中隨機選擇一個節點進行副本1放置。把副本1和副本2放置在同一機架,減少了機架間數據傳輸,提高了文件的讀寫速度,保證了讀寫數據的帶寬;副本3隨機放置在不同遠端機架上,當本地節點失效時,系統會自動從遠端機架副本進行恢復,提高了數據的可靠性和安全性。

2.2 默認副本放置策略缺陷

HDFS默認副本放置策略中,權衡了數據傳輸的帶寬和數據的可靠性,但是由于副本節點的隨機選擇,使得集群系統在負載均衡和傳輸性能等方面仍然存在一些問題,有待進一步改進。(1)由于HDFS大都部署在廉價機器上,各個節點的硬件性能存在差異,而默認策略中認為集群中節點同構,會導致性能高的節點利用率低,性能低的節點負載較高,使得集群系統性能下降。(2)隨機選擇節點進行副本存放,未考慮節點負載情況,會導致副本放置在高負載的節點,而低負載節點可能會閑置,導致集群負載不均衡,影響整體性能。(3)由于存放節點的隨機選擇,未考慮節點間的網絡距離,當本地節點出現故障需要從遠程節點進行恢復時,如果遠程節點網絡距離過遠,則會消耗過多時間進行數據傳輸。

3 改進的HDFS副本放置策略

3.1 基本思想

在進行副本放置時要盡可能保證集群系統負載均衡和數據傳輸性能,因此在改進默認副本放置策略時要注意以下幾個方面:(1)數據可靠性。與默認策略相同,要把副本放置在不同機架,確保節點故障時仍可自動恢復。(2)網絡距離。HDFS中節點失效時常發生,副本恢復是系統運行時常態,為了提高數據傳輸性能,減小數據傳輸的時間消耗,應盡可能地確保副本存放節點距離較近。(3)負載均衡。建立節點負載模型,副本放置時考慮節點負載,盡可能使集群負載均衡。

可見,副本放置時要綜合考慮節點實時負載和節點網路距離。結合節點負載和網絡距離,建立節點綜合評價值,并對評價值進行排序,選擇評價值較高的節點進行副本放置,兼顧系統負載均衡和數據傳輸,盡可能提高集群系統性能。

3.2 節點綜合評價

3.2.1 節點負載

通常情況下,衡量節點負載的指標主要包括CPU使用率、內存使用率、網絡帶寬使用率等。在HDFS集群中,客戶端對節點進行文件的讀取和寫入會給節點造成一定的負載壓力,因此,考慮把磁盤的I/O訪問率作為節點負載指標。另外,磁盤剩余空間較大的節點需存儲較多的數據文件,磁盤剩余空間較小的節點存儲較少的數據,副本隨機放置時如磁盤空間不足則需重新選擇節點進行存放,會造成不必要的開銷,所以,需要把磁盤使用率作為衡量節點負載的首要考慮因素。

綜合考慮,本文使用CPU使用率、內存使用率、網絡帶寬使用率、磁盤空間使用率、磁盤I/O訪問率五項指標來衡量節點的負載情況[8]。第i個節點的負載L(i)可表示為:

(1)

(2)

3.2.2 網絡距離

存放數據的節點與副本節點間網絡距離的大小直接影響了數據傳輸的帶寬,網絡距離越小則帶寬越大,數據傳輸效率越高,數據讀寫時間越短。在Hadoop中,將網絡描述成樹形拓撲結構,葉節點為Data Node,內部節點為路由器、交換機等網絡設備,在網絡拓撲中,子節點與父節點的距離為1,任意兩個Data Node的距離是它們到最近共同祖先的距離總和[10]。

假設節點i與存放數據節點網絡距離為d(i),最大距離為dmax,則可使用式(3)描述網絡距離。

(3)

D(i)表示節點i的網絡距離系數,與實際網絡距離成正比,且D(i)∈[0,1]。

3.2.3 綜合評價值

通過節點的實時負載和網絡距離對節點進行綜合評價,衡量節點是否適合作為存放節點進行副本放置。節點i綜合評價值Eval(i)如式(4)所示。

Eval(i)=αL(i)+βD(i).

(4)

其中,α和β分別用于描述節點負載和網絡距離在評價中的比重,由系統管理員根據系統對負載均衡和數據傳輸性能的需求指定[4],且α+β=1。綜合評價值Eval(i)的值越大,則節點性能越低;反之,則性能越高。

3.3 算法描述

(1)客戶端為集群中節點時,把客戶端所在機架作為本地機架,判斷當前節點磁盤使用率是否超出閾值,未超出則選擇當前節點進行副本放置,超出則說明磁盤剩余空間不足,在本地機架對綜合評價值Eval排序,選擇評價值較低的兩個節點分別作為第一個副本和第二副本的存放節點。

從遠程機架選擇綜合評價值Eval最低的節點作為第三副本存放節點。把三個副本節點保存到目標節點數組。

(2)客戶端為集群外節點時,對集群中節點進行綜合評價值排序,選擇評價值最低的兩個節點作為第一個副本和第二副本的存放節點,并將這兩個節點存入目標節點數組,同時加入到不可選節點列表中,防止其他副本繼續放置在已選擇節點。

判斷第一副本和第二副本是否在同一機架,如果為同一機架,則在遠程機架選擇綜合評價值Eval最低的節點作為第三副本存放節點;否則,在第一副本所在機架,選擇Eval最低的節點作為第三副本存放節點。把第三副本節點加入目標節點數組。

(3)將目標節點數組返回給客戶端,由客戶端與節點進行交互實現副本寫入操作,同時清空目標節點數組和不可選節點列表。

4 實驗分析

4.1 實驗環境

采用VMware虛擬機部署Hadoop集群實驗環境,包含5個機架,分別為R1、R2、R3、R4、R5,每個機架包括5個DataNode,分別為DN1、DN2、DN3、DN4、DN5,集群共由25臺PC構成,所有節點操作系統使用ubuntu14.04LTS并安裝JDK和Hadoop分布式環境,并進行相應配置,如環境變量、IP地址、開發環境等。實驗所用集群中使用機架R1中節點作為客戶端進行數據提交,其他機架與機架R1網絡距離大小排序依次為R2、R3、R4、R5,即R1與R2網絡距離最近,與R5距離最遠。

4.2 結果分析

假設初始狀態集群中各節點都沒有存放數據塊,把機架R1中節點DN1作為客戶端進行文件寫入,該文件大小為20G,默認副本數據塊大小64M,默認副本數為3,可把該文件分為320個數據塊,按照默認副本放置策略,本地機架存放2個副本,遠程機架存放1個副本,則機架R1上存放640個數據塊,遠程機架存放320個數據塊。

4.2.1 副本數量分布

本地機架各節點的數據塊分布如圖4所示。

圖4 本地機架節點副本分布

圖5 默認策略下遠程機架節點副本分布

默認副本放置策略下,本地機架隨機選擇節點進行副本存放,各節點副本分布數量差異較大。改進的策略下,考慮了節點性能以及剩余磁盤空間等因素,根據綜合評價值進行節點選擇,使得各節點副本數分別相對較均勻。

默認副本策略未考慮節點網絡距離對數據傳輸的影響,遠程機架無論網絡距離遠近,其存放副本數量沒有太大差異,一定程度上耗費了更多的帶寬,導致系統傳輸性能下降,如圖5所示。改進策略中,通過網絡距離和節點負載對節點進行性能評價,判斷是否適合存放副本。為了兼顧網絡距離對帶寬的影響和集群系統負載均衡,平衡因子α和β取值均為0.5,改進策略下遠程機架節點副本分布如圖6所示。此時網絡距離所占權重較高,網絡距離較近的機架節點在負載相同情況下優先進行副本存放,提高了數據傳輸帶寬,減少了數據副本放置的時間。

圖6 改進策略下遠程機架節點副本分布

圖7 改進策略前后負載均衡對比

4.2.2 負載均衡測試

利用式(5)計算出Hadoop集群系統節點負載標準差S,用來表示集群系統負載均衡度,S值越小則表明集群中節點間負載差異越小,系統負載均衡效果越好。

(5)

可見,在改進策略下,集群系統負載均衡度相對較低,節點負載差異相對較小,負載均衡效果較默認策略有一定的提高,較好地實現了系統負載均衡。

5 結語

HDFS默認副本放置策略中由于副本存放節點隨機選擇且未考慮節點網絡距離對帶寬的影響,易導致負載集群系統負載不均且影響數據傳輸效率。針對這一問題,本文提出了一種改進的默認副本放置策略,該策略中把節點實時負載、網絡距離作為主要指標對節點進行評價,從而選擇合適節點進行副本放置。實驗分析表明,本文策略可防止高負載節點繼續放置副本,有效地實現集群負載均衡,提高數據傳輸效率,集群系統整體性能得到一定的提升。

[參考文獻]

[1]劉艷,蔡燕冬,謝曉東,等.異構Hadoop集群中數據副本放置策略優化[J].華中科技大學學報:自然科學版,2016(7):63-68.

[2]邵秀麗,王亞光,李云龍,等.Hadoop副本放置策略[J].智能系統學報,2013(6):489-496.

[3]劉黨朋.不均衡環境下面向Hadoop的負載均衡算法研究[D].北京:北京郵電大學,2015.

[4]林偉偉.一種改進的Hadoop數據放置策略[J].華南理工大學學報:自然科學版,2012(1):152-158.

[5]胡銳,胡伏原,陳麗春.基于Hadoop的高校公共數據平臺的構建[J].蘇州科技學院學報:自然科學版,2015(3):52-55.

[6]李明明,李偉.基于HDFS的高可靠性存儲系統的研究[J].西安科技大學學報,2016(3):428-433.

[7]Apache.Rack aware HDFS proposal [EB/OL].(2017-12-04)[2017-12-21].https://issues.apache.org/jira/secure/attachment/12345251/.2017.

[8]康承昆,劉曉潔.一種基于多衡量指標的HDFS負載均衡算法[J].四川大學學報:自然科學版,2014(6):1163-1169.

[9]徐玖平,吳巍.多屬性決策的理論與方法[M].北京:清華大學出版社,2006.

[10]羅鵬,龔勛.HDFS數據存放策略的研究與改進[J].計算機工程與設計,2014(4):1127-1131.

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 国产乱子精品一区二区在线观看| 好吊色国产欧美日韩免费观看| a亚洲视频| 午夜福利免费视频| 亚洲午夜福利在线| 亚洲欧洲日产国产无码AV| 欧美一区二区人人喊爽| 男人天堂亚洲天堂| 欧美视频在线第一页| 亚洲国产无码有码| 亚洲无线一二三四区男男| 成人国产精品网站在线看| 国产精品夜夜嗨视频免费视频| 91精品国产无线乱码在线 | 国产乱人激情H在线观看| 精品久久久久无码| 综合色天天| 天堂亚洲网| 97青草最新免费精品视频| 亚洲中文精品久久久久久不卡| 毛片网站在线播放| 666精品国产精品亚洲| 久久综合伊人77777| 亚洲中文无码h在线观看| 国产尤物jk自慰制服喷水| 亚洲无码高清免费视频亚洲| 亚洲中文无码av永久伊人| 亚洲清纯自偷自拍另类专区| 任我操在线视频| 多人乱p欧美在线观看| 国产99视频精品免费视频7| 国产一级二级在线观看| 青青操国产视频| 久久一色本道亚洲| 亚洲欧美天堂网| 99精品在线看| 夜精品a一区二区三区| 另类专区亚洲| julia中文字幕久久亚洲| 国产Av无码精品色午夜| 香蕉精品在线| 嫩草国产在线| 色综合中文| 美女被躁出白浆视频播放| 久久综合国产乱子免费| 精品无码一区二区三区在线视频| 69av在线| 亚洲人成网线在线播放va| 被公侵犯人妻少妇一区二区三区| 亚洲国产中文在线二区三区免| 高清不卡一区二区三区香蕉| 国产地址二永久伊甸园| 97se亚洲综合在线天天 | 五月丁香在线视频| 国产精品观看视频免费完整版| 欧美一级爱操视频| 四虎在线观看视频高清无码 | 色噜噜在线观看| 天天综合网站| 亚洲看片网| 国产国产人在线成免费视频狼人色| 久久久久久国产精品mv| 国产精品性| 成人国产精品一级毛片天堂| 98超碰在线观看| a亚洲天堂| 国产精品污视频| 国产交换配偶在线视频| 亚洲天堂色色人体| 黄色三级网站免费| 欧美日韩综合网| 亚洲h视频在线| 精品国产网站| 午夜毛片免费观看视频 | 亚洲人成网站在线播放2019| 国产精品一区二区在线播放| 亚洲av片在线免费观看| 国产日韩av在线播放| 波多野结衣一区二区三区四区视频| 欧美午夜网站| 国产中文一区a级毛片视频| 国产成人三级|