999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop云平臺優化策略研究

2015-04-29 16:38:07劉毅
科技尚品 2015年11期
關鍵詞:優化方法研究

劉毅

摘 要:隨著Hadoop平臺的日益完善,其應用范圍越來越普及,但仍然存在諸多影響性能的問題,比如調度算法中Hadoop配置對象開銷大、MapReduce階段中排序對象的序列化及反序列的高開銷問題。本文針對以上問題,提出解決方案。

關鍵詞:Hadoop云平臺;優化策略

1 研究背景

由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數據處理平臺。Hadoop正帶來了新一輪的數據革命。雖然hadoop的應用價值已得到廣泛認可,但其有諸多問題依然制約著hadoop的發展,優化hadoop性能主要可以從以下方面著手:

1.1 應用程序優化

考Hadoop云平臺優化策略研究高效率的應用程序。

1.2 Hadoop參數優化

這種優化方法要結合操作協同層面的調優,對hadoop系統的諸多配置參數進行優化調整,使hadoop作業運行速度更快。

1.3 系統實現優化

這是源碼級的優化,針對hadoop框架及實現機制中不合理的地方進行優化,優化難度大,效果也比較明顯。

本文主要針對hadoop存儲及系統實現中的幾種高開銷問題進行了研究并提出了改進措施。

2 存在的問題

2.1 Hadoop的Configuration開銷大

Hadoop的Configuration的配置需要花費大量的時間,hadoop把對象的信息按照hashmap的方式存在于一個xml的配置文件中,讀取、解壓、分析均來自這一個磁盤的xml文件,這嚴重影響了IO性能,另外當取對象時需要去調用get()方法,而get()方法的參數會也會引起正則表達式計算和變量替換,這也需要耗費資源。如果對多個對象讀取,上面的步驟通過循環語句去實現的話,性能更是將大打折扣。當對象很多的情況下hadoop花費30%用來配置對象。

2.2 中間壓縮結果包含很多無用數據

spill線程中的壓縮和解壓縮操作會消耗消耗了大量時間,并且中間結果是臨時的。如果使用lz4方法取代lzo level 3,可以減少了30%多的中間數據,并使其能被更快地讀取。

2.3 hadoop中對對象序列化和反序列化消耗太高

對對象的序列化和反序列化是Hadoop Job中開銷最高的操作,特別是對于那些進場使用并且復雜、非主鍵的key。在hadoop中需要將兩個對象進行比較,通常的做法是對這些對象反序列化后再進行比較,但是反序列化是一個耗時的工程。下圖1是極端情況下通過java-xprof工具檢測得到的結果。

3 解決方法

傳統的數據讀寫是按照row-oriented方式讀寫,也就是順序讀取存儲,這樣的方式優點是讀寫相對容易速度也相對較快,但缺點也是相當明顯的就是每次讀取都讀寫了一些無用的數據,并且文件的存儲量也相對教大。傳統存儲的抽象圖如圖2和圖3所示。

解決方法是將record順序存儲的方式改為面向列的數據格式。它遵循“先按列劃分,再垂直劃分”的設計理念。當查詢過程中,針對它并不關心的列時,它會在IO上跳過這些列。也就是按需在磁盤上存取,這種面向列的數據讀取方式被稱為Parquet,下圖4和圖5說明了這種存取方式。

對比圖2和圖3由可以看出Parquet是面向列的存儲,它使得同類型的字段被順序排在一起。那么這種存儲有什么好處呢,好處就是按列存儲,可以有效地進行列投影,并且在進行反序列化的時候可以只反序列化需要的列。這樣就大大縮減了因為反序列化消耗的時間,除此之外,存儲的文件也會相應的減小很多,可以達到原來文件的一半。圖6是了采用面向列存儲后對某一列投影的示例圖。

下圖7是采用Parquet技術后,對比傳統存儲方式,使用java-xprof技術對hadoop運行效率做了一個跟蹤對比,從圖中可以看出當只有1字段時,Parquet存儲方式是傳統基礎速度的3倍,當有10字段的時候是傳統技術的1.5倍,速度提高明顯。

4 總結

本文針對hadoop性能調優三種方法中的存儲及系統實現進行了研究分析,提出了將row-oriented存儲改進為Parquet存儲,實驗證明改為面向列的存儲對系統性能的提高是有效的,但是從圖7中可以看出隨著列的增加,這種性能優勢在降低,后續將針對這一情況進行深入的研究,完善這種技術。

參考文獻

[1]劉鵬.云計算(第二版)[M].北京:電子工業出版社,2011.

[2]淺析Hadoop文件格式.[EB/OL].http://www.infoq.com/cn/articles/hadoop-file-format,2012-5-28.

[3]探究提高Hadoop穩定性與性能的方法 [EB/OL].http://dongxicheng.org/mapreduce/how-to-improve-hadoop-stablility-and-performance/,2013-12-29.

[4]王宏宇.hadoop平臺在云計算中的應用[J].軟件,2011,(4):36-39.

[5]黃曉云.基于HDFS的云存儲服務系統研究[D].大連海事大學,2010.

[6]王永洲.基于HDFS的存儲技術的研究[D].南京郵電大學,2013.

[7]高薊超.Hadoop平臺存儲策略的研究與優化[D].北京交通大學,2012.

猜你喜歡
優化方法研究
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
FMS與YBT相關性的實證研究
遼代千人邑研究述論
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 欧美日韩亚洲国产| 成人精品视频一区二区在线| 中文字幕在线视频免费| 中文字幕亚洲另类天堂| 国产免费怡红院视频| 成人韩免费网站| 2021国产精品自拍| 婷婷亚洲最大| 亚洲一区网站| 成人无码区免费视频网站蜜臀| 亚洲成人高清无码| 久久 午夜福利 张柏芝| 天天综合亚洲| 无码区日韩专区免费系列| 天堂av综合网| 欧美不卡视频在线| 中文字幕人成人乱码亚洲电影| 不卡网亚洲无码| 中文字幕乱码二三区免费| 色婷婷电影网| 国产欧美日韩专区发布| 国语少妇高潮| 国产一区成人| 国内精品九九久久久精品| 亚洲欧美日韩久久精品| 亚洲国产日韩欧美在线| 无码在线激情片| 日韩精品亚洲一区中文字幕| 欧美激情第一区| 午夜啪啪网| 久久99这里精品8国产| 在线观看亚洲成人| 国产二级毛片| 久久精品视频亚洲| 91精品国产无线乱码在线| 亚洲性视频网站| 亚洲AV电影不卡在线观看| 日本三级欧美三级| 国产精品白浆无码流出在线看| 成人免费视频一区二区三区| 国产女同自拍视频| 日韩国产综合精选| 四虎成人精品| 超碰91免费人妻| 久久无码av三级| 2020亚洲精品无码| 亚洲欧美成人综合| 激情无码字幕综合| 亚洲成人一区二区| 亚洲成网777777国产精品| 九九热视频在线免费观看| 浮力影院国产第一页| 激情综合网激情综合| 久久精品人妻中文系列| 国产青榴视频在线观看网站| 99re热精品视频中文字幕不卡| 99在线视频免费| 久青草免费在线视频| 国产精品免费p区| 波多野结衣在线se| 亚洲成人网在线观看| 青草视频网站在线观看| 欧美一级在线看| 亚洲全网成人资源在线观看| 日韩资源站| 99在线观看国产| 亚洲午夜福利在线| 视频一本大道香蕉久在线播放| 国产伦精品一区二区三区视频优播 | 黄色污网站在线观看| 日本高清免费不卡视频| 国内精自视频品线一二区| 大乳丰满人妻中文字幕日本| 国产成人1024精品| 国产精品自在在线午夜区app| 日韩欧美综合在线制服| 国产又爽又黄无遮挡免费观看| 国产91精选在线观看| 日韩成人免费网站| 久久国产精品麻豆系列| 成人综合在线观看| 免费无码一区二区|