999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

調優MapReduce工作負載

2014-07-01 01:13:34馮秋燕
河南科技 2014年4期
關鍵詞:用戶影響

馮秋燕

(河南財經政法大學,河南鄭州 450000)

調優MapReduce工作負載

馮秋燕

(河南財經政法大學,河南鄭州 450000)

大規模的數據密集型計算引起了研究界和工業界的廣泛關注,Hadoop、MapReduce等的開源實現,越來越多地應用于大數據分析。針對MapReduce工作負載的調優問題,通過實驗驗證了參數配置對MapReduce工作性能的影響,從5個方面介紹了調整MapReduce工作負載的常見調優場景。

大數據;MapReduce工作負載;參數配置;調優場景

1 引言

MapReduce是處理大規模數據的一個相對年輕的框架,MapReduce是一個編程模型、一個關聯型運行時系統[1]。Hadoop是奠定在原始基礎上的最流行的MapReduce實現的開源框架之一[2],并應用于大多數公司生產配置階段的應用程序中。IaaS云平臺允許用戶即時的配置集群,用戶僅僅需要為使用時間和所使用的資源付費,這使得Hadoop工作負載運行更為容易。Hadoop有如下優點:較好的容錯能力、本地數據調度、異質環境下的操作能力、錯誤環境下的執行能力、模塊化、可制定的框架等。本文將證明配置參數設置對MapReduce工作的性能影響。然后,列舉日常中出現的各種各樣的優化和調整場景。

2 配置參數設置的影響

Hadoop由190多個配置參數,而本文目前只考慮其中14種對工作性能的影響[3]。本文所使用的實驗對象是WordCount(簡稱為WC)、TeraSort(簡稱為TS)。WC處理由Hadoop’s RandomTextWriter生成的30GB的數據,TSt處理由Hadoop’s TeraGen生成的50GB的數據。圖1(a)、圖1(b)與圖2(a)、圖2(a)分別為測量WC與TS工作執行時間生成的反映面,其中,這些圖中有3個參數產生了變化,而其他的工作配置參數保持常量。

圖1 (a)設置mapred.reduce. tasks時WC反映面

圖1 (b)設置io.sort. mb時WC反映面

圖2 (a)設置mapred. reduce.tasksTS反映面

圖2 (b)設置io.sort.mb 時TS反映面

參數設置對MapReduce工作性能的影響依賴于工作、數據、集群等特征:

2.1 工作特征對工作性能的影響:圖1(a)和圖2(a)展示了mapred.reduce.tasks參數設置從不同程度影響了WC、TS。無論io.sort.record.percent怎樣變,reduce任務數目的增加對WordCount的性能并沒有影響,卻顯著提高了TS的性能。WC工作由map控制,map中的計算包括數據文件的解析、組合函數的使用,而reduce任務只簡單合計了字數。

2.2 數據特征對工作性能的影響:數據特征可以影響有著相同參數設置的、相同MapReduce程序的工作運行時間。圖2(a)包含了一個“谷(valley)”,在該“谷”點,io.sort.record.percent設置為0.15。io.sort.record.percent表示map的頂峰規模的分值,用于描述map輸出的元數據存儲。由map任務產生的每一個記錄要求16字節的元數據及其系列化規模。對于io.sort.record.percent的任何值,平均的map輸出記錄的規模將決定是否由于系列化緩存的耗盡或者元數據緩存的耗盡將數據溢出(spill)至硬盤。

2.3 集群特征對工作性能的影響:當reduce任務T的總數量NT比reduce任務執行槽S的總數目NS低時,所有的reduce任務都將并發運行。當NT≤NS,改變reduce任務的數目將對工作性能有顯著的影響,假設reduce任務的執行時間與map任務的執行時間是可比的。當NT>NS時,reduce任務將在并行reduce波里運行。從圖2(a)中可得,reduce任務數目增加,性能也提升,但是由于每個并行reduce波的有效并發程度的帶寬的限制,提升率卻下降。

2.4 參數間的交互對工作性能的影響:Hadoop中配置參數的子集顯示了一個或多個參數間較強的性能交互。圖1(b)顯示了當io.sort.record.percent設置較低的值時,改變io.sort.mb對工作性能并沒有產生顯著的影響;io.sort.record.percent設置較高的值時,改變io.sort.mb對工作性能產生了很大的影響。圖2(b)顯示了io.sort.record.percent、io.sort.mb間的更強、更復雜的交互。io.sort.record.percent設置不同的值,io.sort.mb變化可能導致性能的變化形式也不同。

3 調整MapReduce工作負載的用戶案例

本文的調優問題是,對于一個給定的分析工作量,確定集群資源和MapReduce工作級配置參數設置,以滿足其執行時間和成本上的要求。本節首先討論一些出現調優問題的常見場景。

3.1 調整工作級配置參數設置

在MapReduce框架中運行單個工作,大量的配置參數必須由用戶或系統管理員設置。MapReduce工作或工作流的性能在反應時間或工作負載的完成時間上不能滿足服務級要求。因此,需要理解工作行為、診斷工作執行期間所用參數設置的瓶頸。

3.2 調整彈性工作負載的集群規模

假設MapReduce工作在m1.large的10-EC2節點的Hadoop集群上花費了3個小時。控制集群的應用程序或用戶可能想知道如果在集群上再增加5個m1.large節點,工作執行時間將減少多少;用戶也可能想知道在集群上再增加多少個m1. large節點運行時間能降至2小時。

3.3 工作負載從發展集群向生產集群過渡

與運行關鍵任務和時間敏感性工作負載的生產集群相比,許多企業為程序開發維持了獨立的(可能多樣的)集群。彈性和現買現付特性簡化了維持多樣集群的任務。開發者首先會在開發集群上測試新的MapReduce工作,可能會使用生產集群中的數據中的少量有代表性的樣本。在工作被調度至生產集群之前(通常作為分析工作負載的一部分定期運行在新數據上),開發者需要識別MapReduce工作級配置,這個工作級配置將提供良好的工作性能。

3.4 多重目標下的集群配置

IaaS云平臺提供了一個集群中所使用節點類型的多種選擇。隨著這些節點上計算、存儲、I/O資源的增加,每個小時的使用費用也增加。圖3(a)、圖3(b)分別顯示了運行在EC2上的Hadoop在不同集群配置下的MapReduce工作負載執行時間、總費用。圖3(a)和圖3(b)中的集群使用EC2節點類型中的5種節點;每小時使用費用,記為cost_ph。計算每個工作負載執行的相關總費用所使用的價格模型是:

這里,num_nodes是集群中的節點數目,exec_time是在大多數云計算平臺上完成工作負載的執行時間(向上舍入到最接近的小時)。用戶可能對工作負載有多種偏好和約束[4],例如,用戶目標可能是最小化工作負載運行的成本費用,以最大化忍耐工作負載執行時間為代價。從圖3(a)、圖3(b)可以看出,用戶想以執行時間小于45分鐘為前提,最小化成本。

圖3 (a)運行時間對比

圖3 (b)成本費用對比

3.5 及時調整工作負載以降低執行成本

公式1的成本模型被用于計算圖3(b)的成本,基于所使用的節點類型收取每小時的費用,其中,這些節點被稱為EC2上的按需實例。Amazon EC2也提供了現場實例。現場實例的價格隨時間變化,通常依賴于云上資源的供求關系,電價時空變化等其他因素也可以導致云資源使用成本的波動。

圖4 現買現付方式成本費用

綜上所述,圖4與圖3(a)、圖3(b)的工作負載是相同的,圖4描述了使用EC2現場實例類型的運行情況。在該案例中,用于計算總成本的定價模式:

其中,cost_ph(i)代表了每個集群中使用的節點類型第i個小時的費用。比較圖3(b)和圖4,顯而易見,如果所使用的集群資源不同,則相同負載的執行費用是不同的。

4 結束語

本文主要首先講述了配置參數設置對MapReduce工作性能的影響,并對云上的MapReduce做簡要介紹,最后以實際用戶案例說明了調整MapReduce工作負載的常見場景。下一步工作是構造合適的成本模型,研究基于數據流系統的成本優化和自動調整技術,期望解決基于成本的優化和自動調整間的差異。

[1]DEANJ,GHEMAWATS.MapReduce:AFlexibleData Processing Tool[J].Communications of the ACM,2010,53(1):72-77.

[2]YAOY,TAIJZ,SHENGB,MINF.Scheduling heterogeneous MapReduce jobs for efficiency improvement in enterprise cluster[C]//IFIP/IEEE International Symposium.Belgium: 2013 IFIP/IEEE,2013:872-875.

[3]HERODOTOU H,LIM H.Star sh:A Self-tuning System for Big Data Analytics[R].Durham:in Proc of the 5th Biennial Conf on Innovative Data Systems Research.2011.

[4]林彬,李姍姍,廖湘科,等.Seadown:一種異構MapReduce集群中面向SLA的能耗管理方法[J].計算機學報,2013,36(5):977-987.

TP311

A

1003-5168(2014)04-0017-02

馮秋燕(1988.7—),女,碩士,助理工程師,研究方向:現代軟件工程技術、數據挖掘。

猜你喜歡
用戶影響
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔當?
當代陜西(2021年2期)2021-03-29 07:41:24
沒錯,痛經有時也會影響懷孕
媽媽寶寶(2017年3期)2017-02-21 01:22:28
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
擴鏈劑聯用對PETG擴鏈反應與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于Simulink的跟蹤干擾對跳頻通信的影響
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 国产国产人在线成免费视频狼人色| 婷婷五月在线| 麻豆精品国产自产在线| a级毛片免费网站| 9久久伊人精品综合| 色偷偷男人的天堂亚洲av| 狠狠色香婷婷久久亚洲精品| 欧美日韩理论| 中文字幕欧美日韩高清| 国产精女同一区二区三区久| 国产高清在线精品一区二区三区| 日韩黄色在线| 欧洲熟妇精品视频| 日韩午夜福利在线观看| 国产人前露出系列视频| 亚洲日韩高清在线亚洲专区| 不卡无码网| 人妻无码AⅤ中文字| 91无码视频在线观看| 高清无码手机在线观看| 911亚洲精品| 国产精品免费电影| 久久久91人妻无码精品蜜桃HD | 日韩在线影院| 香蕉蕉亚亚洲aav综合| 91精品情国产情侣高潮对白蜜| 欧美一区国产| 日韩性网站| 色婷婷丁香| 国产9191精品免费观看| 中文字幕亚洲乱码熟女1区2区| 国产精品一区二区不卡的视频| 午夜影院a级片| 丁香六月激情婷婷| 亚洲欧洲国产成人综合不卡| 国产在线日本| 欧美色丁香| h视频在线观看网站| 日韩大片免费观看视频播放| av一区二区三区在线观看| 91国内视频在线观看| 亚洲一区二区三区在线视频| 国产乱码精品一区二区三区中文| 欧美日韩动态图| 日韩精品久久久久久久电影蜜臀| 99在线观看视频免费| 一本大道无码日韩精品影视 | 毛片基地美国正在播放亚洲| 黄色成年视频| 国产成人无码AV在线播放动漫 | 丝袜亚洲综合| 久久五月视频| 亚洲无线一二三四区男男| 亚洲日韩Av中文字幕无码| 久久免费观看视频| 亚洲欧洲AV一区二区三区| 91视频国产高清| 再看日本中文字幕在线观看| 久久精品嫩草研究院| 热久久国产| 欧美人与牲动交a欧美精品| 国产拍揄自揄精品视频网站| 91口爆吞精国产对白第三集| 在线观看国产精美视频| 亚洲精品卡2卡3卡4卡5卡区| 宅男噜噜噜66国产在线观看| 国产成人免费视频精品一区二区| 无码精品国产VA在线观看DVD| 国产网站免费观看| 亚洲欧美成aⅴ人在线观看| 99国产在线视频| 国产午夜看片| 国产毛片高清一级国语 | 国产理论精品| 国产精品亚欧美一区二区| 天天做天天爱夜夜爽毛片毛片| 精品视频第一页| 伊人久久精品无码麻豆精品| 99在线观看国产| 无码中文AⅤ在线观看| 国产一区二区人大臿蕉香蕉| 国产在线观看99|