999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop集群環(huán)境下本地性調(diào)度算法改進(jìn)

2017-04-14 02:07:20王越峰陳福洪
軟件工程 2016年12期

王越峰+陳福洪

摘 要:Hadoop集群環(huán)境下本地性調(diào)度算法是提高數(shù)據(jù)本地性的算法。算法本質(zhì)是提高數(shù)據(jù)本地性,減少數(shù)據(jù)傳輸時(shí)間,減少集群的網(wǎng)絡(luò)I/O,提高資源利用率。由于調(diào)度算法采用FIFO方式,當(dāng)前作業(yè)數(shù)據(jù)量大時(shí)將影響其他緊急性高的作業(yè)響應(yīng)時(shí)間,降低系統(tǒng)性能。本文提出一種新的調(diào)度策略,即在保證原算法數(shù)據(jù)本地性的前提下,集成靜態(tài)優(yōu)先級的搶占調(diào)度策略。實(shí)驗(yàn)結(jié)果表明,在相同的數(shù)據(jù)集上,采用集成靜態(tài)優(yōu)先級搶占的調(diào)度策略,優(yōu)先級高的作業(yè)響應(yīng)時(shí)間較優(yōu)先級低的作業(yè)響應(yīng)時(shí)間減少。

關(guān)鍵詞:數(shù)據(jù)本地性;靜態(tài)優(yōu)先級搶占;作業(yè)響應(yīng)時(shí)間

中圖分類號:TP316.4 文獻(xiàn)標(biāo)識碼:A

1 引言(Introduction)

在大數(shù)據(jù)持續(xù)發(fā)展的今天Hadoop集群環(huán)境下調(diào)度算法的研究越來越受到重視。對于作業(yè)調(diào)度算法的改進(jìn)一般都是為了減少作業(yè)的完成時(shí)間,在同樣資源的基礎(chǔ)上減少系統(tǒng)消耗。例如大多數(shù)的算法都要研究數(shù)據(jù)本地性,通過減少機(jī)架間的網(wǎng)絡(luò)傳輸減少傳輸時(shí)間,提高系統(tǒng)性能。

本文在對已有的調(diào)度策略改進(jìn)時(shí)不僅注意提高作業(yè)的完成時(shí)間,還注意了系統(tǒng)對作業(yè)需要的優(yōu)先程度,即一般作業(yè)使用FIFO默認(rèn)調(diào)度策略思路。導(dǎo)致一些優(yōu)先級高的作業(yè)沒有在需要的時(shí)間完成,造成系統(tǒng)性能降低。在其他操作系統(tǒng)中遇到類似情況,一般使用優(yōu)先級搶占策略,使優(yōu)先級高的作業(yè)可以搶占正在執(zhí)行的優(yōu)先級低的作業(yè)的資源,達(dá)到可以降低緊急作業(yè)的響應(yīng)時(shí)間。本文沿用了這一思路,提出基于靜態(tài)優(yōu)先級的搶占策略。以解決作業(yè)優(yōu)先級不同時(shí)如何降低緊急作業(yè)的響應(yīng)時(shí)間等問題。

2 Hadoop平臺(Hadoop platform)

Hadoop平臺是Apache基金組織引入[1],受到Google開發(fā)的GPS(Google File System)的啟發(fā),主要由Hadoop分布式文件系統(tǒng)HDFS(Hadoop Distributed Files System)[2]和分布式計(jì)算框架MapReduce[3]計(jì)算架構(gòu)組成。

Hadoop平臺在大數(shù)據(jù)的背景下發(fā)展飛速,在這種背景下大量數(shù)據(jù)出現(xiàn)了中心聚集的問題,每日的數(shù)據(jù)處理、作業(yè)處理在逐步上升。作業(yè)調(diào)度性能是衡量大型Hadoop平臺性能的首要問題,一個(gè)好的調(diào)度策略可以減少作業(yè)的平均完成時(shí)間,減少系統(tǒng)的負(fù)荷,提高作業(yè)的完成效率和準(zhǔn)確性,同時(shí)也可以有效使用平臺資源[4]。在Hadoop平臺中,作業(yè)調(diào)度策略是通過作業(yè)調(diào)度器(HadoopTask Schedule)對作業(yè)進(jìn)行調(diào)度,如圖1所示。那么設(shè)計(jì)、使用好的Task Schedule,對Hadoop集群平臺的性能提高特別主要[5]。Hadoop中MapReduce原有三種調(diào)度器[6]:默認(rèn)的調(diào)度器FIFO Scheduler(先入先出調(diào)度)、計(jì)算能力調(diào)度器(Capacity Scheduler)、公平調(diào)度器(Fair Scheduler)。

默認(rèn)調(diào)度器FIFO是HadoopMap/Reduce計(jì)算架構(gòu)中最早的,JobTracker在進(jìn)行作業(yè)調(diào)度時(shí)使用的是FIFO(First In First Out)算法。所有用戶的作業(yè)都被提交到一個(gè)隊(duì)列中,然后由JobTracker先按照作業(yè)的優(yōu)先級高低,再按照作業(yè)提交時(shí)間的先后順序選擇將被執(zhí)行的作業(yè)。優(yōu)點(diǎn)是調(diào)度算法簡單明了,JobTracker工作負(fù)擔(dān)輕。同樣缺點(diǎn)是忽略了不同作業(yè)的需求差異。例如如果類似對海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的作業(yè)長期占據(jù)計(jì)算資源,那么在其后提交的交互型作業(yè)有可能遲遲得不到處理,從而影響到用戶的體驗(yàn)。計(jì)算能力調(diào)度器使用時(shí),用戶需要了解大量系統(tǒng)信息,才能設(shè)置和選擇隊(duì)列;公平調(diào)度器不考慮節(jié)點(diǎn)的實(shí)際負(fù)載狀態(tài),導(dǎo)致節(jié)點(diǎn)負(fù)載不均勻。所以越來越多的研究者從多個(gè)方面對調(diào)度算法進(jìn)行了深入研究。

為了研究資源調(diào)度策略,研究者通過調(diào)查大量數(shù)據(jù)和不同的方向[9]從其他研究者的工作中,將調(diào)度分成五類:

(1)本地性感知調(diào)度(Data Locality Aware Schedulers)

(2)可靠性感知調(diào)度(Speculative Execution Based Schedulers)

(3)資源競爭感知調(diào)度(Resource Contention Aware Schedulers)

(4)性能管理感知調(diào)度(Performance Management Based Schedulers)

(5)能源與完成時(shí)間感知調(diào)度(Energy and Makespan Aware Schedulers)

MapReduce作業(yè)調(diào)度算法對集群的性能有著至關(guān)重要的影響。通過以下五個(gè)標(biāo)準(zhǔn)來比較Hadoop平臺性能[10]:平均完成時(shí)間(是一個(gè)作業(yè)從開始到結(jié)束的時(shí)間,同時(shí)也是衡量系統(tǒng)性能的最重要的標(biāo)準(zhǔn))、公平性(調(diào)度策略給不同的作業(yè)分配的資源是否一致)、數(shù)據(jù)本地性(研究調(diào)度策略的另一重要指標(biāo),是否在存儲數(shù)據(jù)節(jié)點(diǎn)上處理任務(wù))、調(diào)度時(shí)間(調(diào)度策略的開銷)、調(diào)度策略是否達(dá)到客戶對系統(tǒng)資源的配額。然而,這些性能標(biāo)準(zhǔn)之間又存在互相沖突,即當(dāng)提高一些標(biāo)準(zhǔn)時(shí),會(huì)同時(shí)降低其他一些標(biāo)準(zhǔn)。在通常情況下,作業(yè)的平均完成時(shí)間和數(shù)據(jù)本地性是每個(gè)調(diào)度策略都必須優(yōu)先處理的性能標(biāo)準(zhǔn)

3 本地性調(diào)度算法(Local scheduling algorithm)

數(shù)據(jù)本地性是Hadoop集群平臺下衡量作業(yè)調(diào)度器的重要的標(biāo)準(zhǔn)。大量的數(shù)據(jù)在機(jī)架之間傳輸會(huì)產(chǎn)生較大的網(wǎng)絡(luò)I/O,特別是在多個(gè)不同的機(jī)架之間傳輸時(shí)延遲更大。這會(huì)使作業(yè)的平均完成時(shí)間降低,同時(shí)還會(huì)產(chǎn)生大量的網(wǎng)絡(luò)傳輸開銷。Palanisamy等人提出Purlieus[11]算法,該算法通過將任務(wù)調(diào)度和數(shù)據(jù)放置結(jié)合起來的方式,使Reduce任務(wù)的本地性有較大幅度的提高。他指出,如果不考慮數(shù)據(jù)的放置策略,將會(huì)很難獲得良好的本地性,因?yàn)殡S機(jī)的數(shù)據(jù)放置策略可能會(huì)導(dǎo)致一些節(jié)點(diǎn)變得更加擁塞。一個(gè)有效的數(shù)據(jù)放置策略需要將這些特點(diǎn)考慮進(jìn)去,盡量將長作業(yè)的數(shù)據(jù)放到負(fù)載最小的節(jié)點(diǎn)上。但是這種算法仍然沒有考慮到Reduce任務(wù)的本地性要求。

Hammoud等人提出本地化感知的Reduce任務(wù)調(diào)度算法LARTS[12](Locality-Aware Reduce Tasl Scheduling for MapReduce)以解決Reduce任務(wù)數(shù)據(jù)本地性的問題。LARTS在Map任務(wù)完成到一定的閾值α后啟動(dòng)Early Shuffle機(jī)制。這種調(diào)度策略利用Early Shuffle的優(yōu)點(diǎn)并且兼顧了Reduce任務(wù)的數(shù)據(jù)本地性。但是閥值α的設(shè)定需要根據(jù)不同類型的作業(yè)設(shè)定,而且存在一定的誤差。

4 集成靜態(tài)優(yōu)先級搶占的本地性調(diào)度算法(Local

scheduling algorithm with integrated static priority

preemption)

對于本地性調(diào)度算法來說,優(yōu)先強(qiáng)調(diào)的是數(shù)據(jù)的本地性。但是,無論是單機(jī)調(diào)度還是集群式調(diào)度都會(huì)涉及到任務(wù)的優(yōu)先性問題。尤其是在集群環(huán)境下的作業(yè)調(diào)度,當(dāng)前作業(yè)的Map任務(wù)個(gè)數(shù)多,需要系統(tǒng)利用大量時(shí)間進(jìn)行處理計(jì)算。而后面進(jìn)入的重要任務(wù)一直沒辦法分配到資源,使得任務(wù)無響應(yīng),嚴(yán)重時(shí)會(huì)引發(fā)系統(tǒng)崩潰。這樣正常的本地性調(diào)度并不能處理這些問題,本文提出靜態(tài)優(yōu)先級搶占式本地性調(diào)度算法。

集成靜態(tài)優(yōu)先級搶占的本地性調(diào)度策略,為每一個(gè)提交的作業(yè)都設(shè)置一個(gè)靜態(tài)優(yōu)先級,而被設(shè)置的靜態(tài)優(yōu)先級意味著作業(yè)的緊急程度。按照優(yōu)先級搶占策略,緊急程度高的作業(yè)有著較高的優(yōu)先級,它可以搶占緊急程度低的且優(yōu)先級低的作業(yè)的處理資源。使得調(diào)度策略更加的有針對性,提高調(diào)度策略對高優(yōu)先級任務(wù)的關(guān)注,使計(jì)算資源優(yōu)先分配。確保緊急任務(wù)緊急處理,減少高優(yōu)先級任務(wù)的響應(yīng)時(shí)間。

一般的本地性調(diào)度算法都是使用FIFO算法的調(diào)度方式,也就是先到的作業(yè)先進(jìn)行處理,這樣的調(diào)度算法缺少對任務(wù)緊要程度的關(guān)注。所以集成靜態(tài)優(yōu)先級搶占的本地性調(diào)度策略首先要對優(yōu)先級進(jìn)行定義。每個(gè)作業(yè)在提交時(shí)設(shè)置獨(dú)立的參數(shù)staticpriority,用來表示作業(yè)的緊要程度。作業(yè)越緊要越優(yōu)先staticpriority值越高。

但是如果僅僅考慮到作業(yè)的優(yōu)先性問題,有可能導(dǎo)致作業(yè)優(yōu)先級低且數(shù)據(jù)量很小的作業(yè)一直被優(yōu)先級高數(shù)據(jù)量很大的作業(yè)搶占,導(dǎo)致優(yōu)先級低的作業(yè)一直無法執(zhí)行。所以本文在定義優(yōu)先級的時(shí)候加入新的參數(shù)作業(yè)的等待時(shí)間waittime。

waittime=nowtime-submittime (1)

在公式(1)中nowtime和submittime分別表示系統(tǒng)的現(xiàn)在時(shí)間和作業(yè)的提交時(shí)間,通過兩者做差的方式得出作業(yè)在作業(yè)池中的等待時(shí)間。

為了防止上文中提到的優(yōu)先級低的作業(yè)無法執(zhí)行的問題為作業(yè)的優(yōu)先級加入等待時(shí)間這個(gè)影響因素。但是即使加上了作業(yè)的等待時(shí)間也會(huì)出現(xiàn)等待時(shí)長過長的問題。比如優(yōu)先級較高的作業(yè)數(shù)據(jù)非常大,Map任務(wù)數(shù)量也較多。系統(tǒng)在通過原本地性調(diào)度策略后,作業(yè)的處理時(shí)間也非常大。在處理的過程中可能會(huì)有優(yōu)先級相同且數(shù)據(jù)小,Map任務(wù)個(gè)數(shù)少的作業(yè)等待時(shí)間變長。在Hadoop集群環(huán)境下不能像其他系統(tǒng)一樣直接搶占運(yùn)算資源,因?yàn)槠渲猩娴搅薓ap任務(wù)完成后的中間值問題,和Reduce任務(wù)的中間拷貝等問題。無法直接搶占原有作業(yè)的運(yùn)算資源。所以作業(yè)池中的優(yōu)先級定義就特別重要。在加入等待時(shí)間的基礎(chǔ)上再加入作業(yè)的估計(jì)執(zhí)行時(shí)間estimatetime如公式(2)。

priority=α×staticpriority+β×waittime+γ×estimatetime(2)

α+β+γ=1(α>0,β>0,γ>0) (3)

priority是調(diào)度算法的最終優(yōu)先級。α、β、γ表示其中各項(xiàng)參數(shù)所占比例,對于不同種的數(shù)據(jù)類型和作業(yè)將取不同的數(shù)值,以達(dá)到對作業(yè)優(yōu)先性能的標(biāo)準(zhǔn)。其中estimatetime的確定要根據(jù)不同的本地性調(diào)度算法出發(fā),針對算法的本地性調(diào)度得出估計(jì)時(shí)間。

5 實(shí)驗(yàn)結(jié)果及性能分析(Experimental results and

performance analysis)

本文通過虛擬機(jī)的方式搭建異構(gòu)測試環(huán)境。定義兩個(gè)機(jī)架,每個(gè)機(jī)架5臺虛擬機(jī),每個(gè)虛擬機(jī)分配512MB內(nèi)存。測試作業(yè)為WordCount。通過給不同大小的作業(yè)設(shè)置不同的靜態(tài)優(yōu)先級實(shí)驗(yàn)比較算法間作業(yè)的響應(yīng)時(shí)間。

提交五個(gè)大小為5G的WordCount作業(yè),靜態(tài)優(yōu)先級分別設(shè)置為1、2、3、4、5,作業(yè)編號為1、2、3、4、5。提交五個(gè)大小為10GB的WordCount作業(yè),靜態(tài)優(yōu)先級分別設(shè)置為1、2、3、4、5,作業(yè)編號為6、7、8、9、10。

通過圖2可以觀察出編號為5、10的響應(yīng)最快,其次是編號4、9,響應(yīng)時(shí)間最長的是編號1、6。這樣的結(jié)果可以證明前面的想法,作業(yè)的響應(yīng)時(shí)間和作業(yè)的靜態(tài)優(yōu)先級設(shè)置有關(guān),通過實(shí)驗(yàn)可以發(fā)現(xiàn)編號5、10的作業(yè)優(yōu)先級最高,調(diào)度策略將優(yōu)先處理這些作業(yè),使得調(diào)度算法在實(shí)際上將資源傾斜。而兩種作業(yè)之間比較5GB的作業(yè)處理估計(jì)時(shí)間短,所以響應(yīng)時(shí)間要比10GB的作業(yè)短。這也證明了之前的想法,相同情況下執(zhí)行時(shí)間小的作業(yè)優(yōu)先處理。

6 結(jié)論(Conclusion)

本文分析了Hadoop集群下對數(shù)據(jù)本地性調(diào)度的改進(jìn),在保證原算法的數(shù)據(jù)本地性的前提下,指出可以通過集成靜態(tài)優(yōu)先級搶占的方式提高優(yōu)先級高的作業(yè)響應(yīng)時(shí)間。通過獲得靜態(tài)優(yōu)先級,計(jì)算等待時(shí)間等參數(shù),得到作業(yè)的優(yōu)先級。通過優(yōu)先級分配資源給各個(gè)作業(yè),使得作業(yè)按照優(yōu)先級響應(yīng)。避免高優(yōu)先級的作業(yè)無法執(zhí)行。通過實(shí)驗(yàn)可以發(fā)現(xiàn)這種調(diào)度策略,基本上達(dá)到了要求,即優(yōu)先級高的作業(yè)的響應(yīng)時(shí)間要小于優(yōu)先級低的,等待時(shí)間長的作業(yè)對應(yīng)的等待時(shí)間權(quán)值也會(huì)增加,而執(zhí)行時(shí)間小的作業(yè)在相同優(yōu)先級情況下優(yōu)先執(zhí)行。這個(gè)算法的設(shè)計(jì)使緊急程度較高的作業(yè)能優(yōu)先執(zhí)行,且盡量小的去影響其他作業(yè)。

這種集成了靜態(tài)優(yōu)先級搶占的本地性調(diào)度算法依然存在一些不足,例如添加了搶占機(jī)制后增加了系統(tǒng)開銷。實(shí)驗(yàn)的作業(yè)功能和數(shù)據(jù)類型不全面,在大數(shù)據(jù)情況下的性能測試還不 是很多,實(shí)驗(yàn)在普遍性上還有不足。接下來的工作重點(diǎn)

可以研究如何降低系統(tǒng)開銷,當(dāng)開銷為何值時(shí)可被接受等問題,在更大的實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行改進(jìn)和驗(yàn)證。

參考文獻(xiàn)(References)

[1] Thakkar,Shraddha1,Patel,Sanjay.Scheduling in Big Data Heterogeneous Distributed System Using Hadoop[C].Proceedings of International Conference on ICT for Sustainable Development,Gujaratp,2016:119-131.

[2] Khan,et al.Data Locality in HadoopCluster Systems[C].Proceedings of 11th International Conference on Fuzzy Systems and Knowledge Discovery,2014:720-724.

[3] Xiong,et al.Optimizing Data Placement in Heterogeneous Hadoop Clusters[J].Cluster Computing,2015(18):1465-1480.

[4] Hadoop[EB/OL].http://hadoop.apache.org.

[5] Shvachko K,et al.The hadoop distributed file system[C].Proceedings of the 26th IEEE Symposium on Mass Storage Systems and Technologies,IEEE,2010:1-10.

[6] 董西成.Hadoop技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京:機(jī)械工業(yè)出版社,2013.

[7] 胡丹,于炯.Hadoop平臺下改進(jìn)的LATE調(diào)度算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(4):86-89.

[8] 何文峰.基于任務(wù)特征與公平策略的Hadoop作業(yè)調(diào)度算法研究[D].湖北:華中科技大學(xué),2013.

[9] 燕明磊.Hadoop集群中作業(yè)調(diào)度研究[J].軟件導(dǎo)刊,2015,14

(4):1-2.

[10] 儲雅,馬廷淮.云計(jì)算資源調(diào)度:策略與算法[J].計(jì)算機(jī)科學(xué),2013,40(11):8-13.

[11] 陶昌俊.Hadoop平臺的作業(yè)調(diào)度算法[D].安徽:中國科學(xué)技術(shù)大學(xué),2015.

[12] B.Palanisamy,A.Singh,L.Liu,B.Jain."Purlieus:Locality-Aware Resource Allocation for MapReduce in a Cloud"[C].Proceedings of 2011 International Conference for High Performance Computing,Networking,Storage and Analysis,2011.

[13] Mohammad Hammoud,Majd F.Sakr.Locality-Aware Reduce

Task Scheduling for MapReduce[C].Proceedings of International

Conference on Cloud Computing Technology & Science,

Beijing,2011:570-576.

作者簡介:

王越峰(1990-),男,研究生.研究領(lǐng)域:嵌入式系統(tǒng).

陳福洪(1992-),男,研究生.研究領(lǐng)域:數(shù)據(jù)挖掘.

主站蜘蛛池模板: 久久96热在精品国产高清| 国产在线拍偷自揄观看视频网站| 亚洲成在人线av品善网好看| 久久久国产精品免费视频| 亚洲a级在线观看| 欧美在线三级| 中文字幕日韩丝袜一区| 成人免费一级片| 日韩精品免费在线视频| 国产视频自拍一区| 99精品在线看| 欧美日韩在线成人| 亚洲国产精品日韩av专区| 看你懂的巨臀中文字幕一区二区| 国产超碰在线观看| 青草视频免费在线观看| 国产成在线观看免费视频| 成AV人片一区二区三区久久| 污网站免费在线观看| 亚洲色图欧美一区| 国产中文一区a级毛片视频| 国产成人精品免费av| 在线观看91精品国产剧情免费| 国产成人久久777777| 在线观看免费国产| 久久精品日日躁夜夜躁欧美| 免费在线国产一区二区三区精品| 国产成人1024精品下载| 欧美精品导航| 亚洲国产中文欧美在线人成大黄瓜 | 色欲色欲久久综合网| 国产精品自拍露脸视频| 婷婷色中文| 久久婷婷国产综合尤物精品| 伊人色婷婷| 欧美午夜久久| 欧美97色| 无码精品国产dvd在线观看9久| 98超碰在线观看| 中文字幕在线观| 全部免费毛片免费播放| 亚洲啪啪网| 国产探花在线视频| 91午夜福利在线观看| 精品成人免费自拍视频| 午夜爽爽视频| 欧美一区福利| 国产精品久久久久久搜索| 亚洲天堂网视频| 国产原创自拍不卡第一页| 国产在线精品网址你懂的| 五月婷婷激情四射| 欧美亚洲一区二区三区在线| 国产亚洲欧美日韩在线一区| 国产视频一二三区| 久久久精品无码一二三区| 在线五月婷婷| 久久精品这里只有精99品| 性69交片免费看| 22sihu国产精品视频影视资讯| 天堂亚洲网| 国产电话自拍伊人| 精品无码一区二区三区在线视频| 美女毛片在线| 国产精品午夜福利麻豆| 黄色福利在线| 日韩专区欧美| 欧美精品亚洲精品日韩专区va| 狠狠v日韩v欧美v| 欧美高清国产| 99ri精品视频在线观看播放| 国产毛片高清一级国语| 国产日本欧美亚洲精品视| 国产精品视频a| 亚洲成在人线av品善网好看| 日本精品视频| 色哟哟国产精品一区二区| 国产特级毛片| 日本成人福利视频| 亚洲乱强伦| 日韩欧美网址| 久久人体视频|