999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

頻率評估平臺系統(tǒng)優(yōu)化的研究

2018-04-13 03:47:48譚光林
數(shù)字通信世界 2018年2期
關(guān)鍵詞:實驗系統(tǒng)

趙 哲,譚光林

(國家無線電監(jiān)測中心,北京 100037)

1 引言

根據(jù)我中心現(xiàn)有的大數(shù)據(jù)平臺技術(shù)架構(gòu),基于2016年頻率使用評估工作中出現(xiàn)的系統(tǒng)響應(yīng)速度較慢、存儲空間不足等問題,我們希望通過對Hadoop 以及其他大數(shù)據(jù)生態(tài)環(huán)境中的最新技術(shù)進(jìn)行研究,結(jié)合現(xiàn)存的體系架構(gòu),對系統(tǒng)就行改進(jìn),從而提高系統(tǒng)運(yùn)行效率,改善系統(tǒng)計算性能。

2 目前架構(gòu)

現(xiàn)有的頻率使用評估平臺主要采用了Hadoop2.0 大數(shù)據(jù)平臺生態(tài)系統(tǒng)中的組件。數(shù)據(jù)存儲方面采用HDFS+Kudu,系統(tǒng)管理和調(diào)度采用YARN,實時計算方面采用Spark+Kaf ka,數(shù)據(jù)查詢采用Impala 等,相關(guān)的模塊都是較為穩(wěn)定的正式版本。隨著Hadoop2.0的進(jìn)一步發(fā)展,Hadoop3.0版本的推出,在數(shù)據(jù)的存儲,資源調(diào)度等方面陸續(xù)出現(xiàn)了一些更加先進(jìn)的模塊,如用于進(jìn)行數(shù)據(jù)存儲的ORC和Parquet等。

除大數(shù)據(jù)平臺的處理模塊外,頻率使用評估本身數(shù)據(jù)處理的過程中涉及到信道占用度、頻段占用度、信號覆蓋率等性能指標(biāo)的計算和查詢,涉及到大量和SQL相關(guān)的操作。從平臺優(yōu)化的角度出發(fā),我們也在考慮是否可以對這些相關(guān)的數(shù)據(jù)操作進(jìn)行一定程度的優(yōu)化,從而提高系統(tǒng)的響應(yīng)速度。

3 現(xiàn)狀分析

鑒于本身平臺的硬件構(gòu)架方式和硬件采購成本已經(jīng)決定了當(dāng)前的硬件能夠繼續(xù)升級,但系統(tǒng)處理能力無法持續(xù)線性增加,所以平臺優(yōu)化的主要集中在對大數(shù)據(jù)平臺的模塊和相關(guān)指標(biāo)算法方面。

對于大數(shù)據(jù)平臺的模塊,目前的工作思路是考慮對相關(guān)的模塊進(jìn)行替換,搭建實驗環(huán)境,進(jìn)行樣本數(shù)據(jù)運(yùn)算,得出實驗結(jié)果,從而得出是否有更適合頻率使用評估工作采用的數(shù)據(jù)處理模塊。如當(dāng)前的存儲模塊采用的是Kudu,可通過使用ORC和Parquet進(jìn)行相應(yīng)的替換。

對于相關(guān)性能指標(biāo)的算法,可以考慮通過對SQL語句和優(yōu)化,以及對于算法本身的相關(guān)研究,實現(xiàn)性能的提高,具體需要研究的算法,會在隨后的工作中具體明確的提出。

4 最新技術(shù)

頻譜使用評估分析與應(yīng)用系統(tǒng)現(xiàn)由6臺服務(wù)器組成計算機(jī)集群,提供共計84T的存儲容量。通過2016年頻譜評估專項活動,各省上報原始監(jiān)測數(shù)據(jù)約31T,入庫后數(shù)據(jù)量約為62T,大約2億條記錄。采用分布式存儲技術(shù)、海量數(shù)據(jù)傳輸處理技術(shù)、海量數(shù)據(jù)交互式查詢技術(shù)等構(gòu)建系統(tǒng)的大數(shù)據(jù)支撐平臺及各種業(yè)務(wù)應(yīng)用。

通過數(shù)據(jù)校驗、數(shù)據(jù)處理、數(shù)據(jù)分析以及數(shù)據(jù)應(yīng)用及展示這四大子系統(tǒng),實現(xiàn)原始監(jiān)測數(shù)據(jù)從上報到入庫,到計算、分析,再到數(shù)據(jù)展現(xiàn)全過程的信息化,同時根據(jù)專項活動中對公眾移動通信頻段的評估工作的要求,通過統(tǒng)計圖表等方式,直觀、準(zhǔn)確地反映了頻譜使用的實際情況,為頻譜管理精細(xì)化提供決策支持。

綜合頻率評估平臺軟硬件構(gòu)建方式,平臺的優(yōu)化可以從硬件配置、處理模塊和相關(guān)算法等三個方面進(jìn)行入手。

圖1 Hadoop3.0生態(tài)系統(tǒng)

從數(shù)據(jù)存儲和數(shù)據(jù)計算兩個方面入手,我們對Hadoop3.0生態(tài)圈中的最新技術(shù)進(jìn)行了篩選和考察,從中挑選出了部分適合現(xiàn)有平臺采用的技術(shù)。接下來重點介紹我們實驗環(huán)境中會用到的相關(guān)技術(shù)手段,并進(jìn)行初步的對比。

⊙ 在Hadoop3.0中實現(xiàn)的Integrating Erasure Coding備份方式在實現(xiàn)了傳統(tǒng)Erasure Coding 備份的基礎(chǔ)上,提高了磁盤空間的利用率。例如:一個提供3倍冗余的的文件備份,假如每個文件需要6個數(shù)據(jù)塊進(jìn)行存儲的話,那么需要6*3=18個磁盤塊,而如果采用Interating EC的方式,實現(xiàn)相同3倍冗余備份,只需要9個磁盤塊。

⊙ Kudu是Cloudera開發(fā)的存儲系統(tǒng),其整體應(yīng)用模式和HBase比較接近,即支持行級別的隨機(jī)讀寫,并支持批量順序檢索功能。

⊙ Parquet是面向分析型業(yè)務(wù)的列式存儲格式。列存儲可以跳過不符合條件的數(shù)據(jù),只讀取需要的數(shù)據(jù),降低IO數(shù)據(jù)量。壓縮編碼可以降低磁盤存儲空間。

⊙ ORC(OptimizedRC File)存儲源自于RC(Record Columnar File)這種存儲格式,RC是一種列式存儲引擎,對schema演化(修改schema需要重新生成數(shù)據(jù))支持較差,而ORC是對RC改進(jìn),但它仍對schema 演化支持較差,主要是在壓縮編碼,查詢性能方面做了優(yōu)化。

⊙ Storm是一個免費并開源的分布式實時計算系統(tǒng)。利用Storm可以很容易做到可靠地處理無限的數(shù)據(jù)流,像Hadoop批量處理大數(shù)據(jù)一樣,Storm可以實時處理數(shù)據(jù)。

⊙ Spark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng),目的是讓數(shù)據(jù)分析更加快速。Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越。換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。

5 優(yōu)化實驗

接下來我們進(jìn)行了三次模擬環(huán)境下的數(shù)據(jù)存儲和計算實驗。實驗環(huán)境和實驗流程如下:

實驗環(huán)境:

⊙ 主機(jī)數(shù)量 10臺,其中臺式電腦8臺,筆記本2臺。

⊙ 所有主機(jī)統(tǒng)一接入到一臺路由器,配置相應(yīng)的IP網(wǎng)段,進(jìn)行互聯(lián)互通。

實驗流程:

⊙ 試驗環(huán)境搭建。

⊙ 相應(yīng)組件安裝。

⊙ 測試數(shù)據(jù)導(dǎo)入。

⊙ 測試?yán)龍?zhí)行。

⊙ 實驗結(jié)果采集。

5.1 EC校驗

目前我們的頻率評估系統(tǒng)采用了主流的Hadoop2.0中RAID存儲和備份方式,也就是在數(shù)據(jù)保護(hù)方面采取了傳統(tǒng)的Erasure Coding的方式,我們希望通過本實驗,可以達(dá)到未來能夠?qū)⑾到y(tǒng)的存儲備份方式升級提高到Integrat ing Erasure Coding的模式下,從而提高系統(tǒng)的存儲備份率。

5.2 Parquet、Kudu和HBase等的對比實驗

目前我們的頻率評估系統(tǒng)采用了Kudu作為數(shù)據(jù)的存儲系統(tǒng),我們希望通過本實驗,測試在相同數(shù)據(jù)條件下,是否可以通過ORC或者Parquet來進(jìn)一步提高數(shù)據(jù)的查找和計算速度,從而提高系統(tǒng)的整體性能。

5.3 Impala,Kudu,Presto和Spark的計算和對比

目前我們的頻率評估系統(tǒng)采用了Spark+Impala 的方式在進(jìn)行上層的數(shù)據(jù)處理和任務(wù)分解。希望通過本實驗,測試在相同數(shù)據(jù)條件下,未來如果數(shù)據(jù)的采集方式發(fā)生改變,是否可以通過Stream組件提供流式計算處理能力。

6 實驗結(jié)果

6.1 EC實驗分析

經(jīng)過實驗測試,我們得到實驗結(jié)果見表1:

EC技術(shù)的優(yōu)勢確實明顯,但是它的使用也是需要一些代價的,一旦數(shù)據(jù)需要恢復(fù),EC會造成兩大資源的消耗。

表1 存儲實驗

⊙ 網(wǎng)絡(luò)帶寬的消耗,因為數(shù)據(jù)恢復(fù)需要去讀其他的數(shù)據(jù)塊和校驗塊。

⊙ 進(jìn)行編碼,解碼計算需要消耗CPU資源。

綜合考慮,在需要進(jìn)行數(shù)據(jù)恢復(fù)時,EC既耗網(wǎng)絡(luò)又耗CPU,從實際環(huán)境部署的角度來分析,代價也較高。所以將此技術(shù)用于線上服務(wù)可能會不夠穩(wěn)定,最好的選擇是用于冷數(shù)據(jù)集群:

⊙ 冷數(shù)據(jù)集群往往有大量的長期沒有被訪問的數(shù)據(jù),體量確實很大,采用EC技術(shù),可以大大減少副本數(shù)。

⊙ 冷數(shù)據(jù)集群基本穩(wěn)定,耗資源量少,所以一旦進(jìn)行數(shù)據(jù)恢復(fù),將不會對集群造成大的影響。

出于上述二種原因,冷數(shù)據(jù)集群無非是一個很好的選擇。

6.2 Parquet、Kudu和HBase等的對比實驗

6.2.1 空間利用

根據(jù)測量結(jié)果,利用Kudu和Parquet編碼的數(shù)據(jù)提供了最佳的壓縮率。與使用MapFiles的原始數(shù)據(jù)集編碼相比,使用類似Snappy或GZip之類的壓縮算法可以進(jìn)一步顯著減少數(shù)據(jù)量達(dá)10倍。由于HBase存儲數(shù)據(jù)的方式是一個空間效率較低的解決方案,雖然HBase塊的壓縮給出相當(dāng)好的比率,但是與Kudu和Parquet相比差距仍然較大。

6.2.2 提取速度

由于Apache Impala執(zhí)行數(shù)據(jù)重構(gòu)以串行寫入單個HDFS目錄(Hive分區(qū)),因此對于HDFS格式和HBase或Kudu的格式,可以直接比較單個數(shù)據(jù)分區(qū)擷取效率。使用Avro或Parquet編碼寫入的HDFS 文件比存儲引擎(如HBase和Kudu)提供了更好的結(jié)果(至少5倍)。

使用Avro或Parquet編碼寫入的HDFS文件比存儲引擎(例如HBase和Kudu)提供了更好的結(jié)果(至少5倍)。由于Avro具有最輕量的編碼器,因此其實現(xiàn)了最好的擷取性能。

另一方面,在這個測試中HBase非常慢(性能比Kudu差)。這很可能是由于行鍵的長度(6個并置列)引起的,其平均約為60個字節(jié)。HBase必須為一行中的每一列分別編碼一個鍵,這對于長記錄(包含許多列)可能不是最佳的方法。

6.2.3 隨機(jī)數(shù)據(jù)查找延遲

當(dāng)通過記錄鍵訪問數(shù)據(jù)時,因為使用了內(nèi)置索引,Kudu和HBase的訪問速度是最快的。圖上的值都是基于冷緩存(cold cache)進(jìn)行測量。

使用Apache Impala進(jìn)行隨機(jī)查找測試對于Kudu和HBase來說是次優(yōu)選擇,因為在真正執(zhí)行查詢(計劃、代碼生成等)之前耗費了大量的時間—通常大約是200ms。因此,對于低延遲數(shù)據(jù)訪問,建議跳過Impala并使用專用API(我們也嘗試過這種方法,Kudu和HBase的結(jié)果類似:冷緩存小于200ms,預(yù)熱緩存小于80ms)。

與Kudu和HBase相反,檢索以Avro格式存儲的單個記錄中的數(shù)據(jù)只能在對整個數(shù)據(jù)分區(qū)的強(qiáng)力掃描中完成(需要注意的是 – 數(shù)據(jù)由記錄鍵的一部分進(jìn)行分區(qū),因此針對這種情況應(yīng)用分區(qū)修剪技術(shù))。平均分區(qū)的大小為GB級,因此獲取所需的記錄需要耗費幾秒鐘的時間(取決于IO吞吐量),并使用大量的集群資源。這最終減少了必須在集群上全速執(zhí)行的并發(fā)查詢的數(shù)量。

同樣的問題也適用于Parquet,然而,Parquet格式的柱狀特性允許相對快速地執(zhí)行分區(qū)掃描。由于列投影和列謂詞的下推,掃描輸入集的大小最終從數(shù)GB減少到只有幾MB(非常高效,56列經(jīng)過掃描后只剩下3列)。

6.2.4 數(shù)據(jù)掃描速率

由于通過應(yīng)用列投影輸入集數(shù)量減少,Parquet 在此測試中勝過了Avro。Parquet不僅在每內(nèi)核處理速率方面保持了最高效率,同時也在完成處理方面保持最快速度。在Parquet和Avro的情況下,數(shù)據(jù)訪問并行化的單位是HDFS文件塊,其很容易在Hadoop集群上的所有可用資源上均勻分布處理。

在掃描效率方面,Kudu(采用Snappy壓縮)與Parquet相差不大。因為列投影,其受益匪淺。

由于數(shù)據(jù)訪問并行化的單位是表分區(qū),掃描存儲在Kudu和HBase中的數(shù)據(jù)可能不平衡。因此,掃描中涉及的資源量取決于給定表分區(qū)的數(shù)量及其在集群中的分布。

在這個測試案例中,因為Kudu不支持謂詞,所以不可能使用Kudu的本地謂詞下推功能。附加測試結(jié)果證明,當(dāng)使用支持的謂詞時,Kudu掃描速度比Parquet更快。

在使用HBase進(jìn)行測試之前,掃描的列在專用HBase列族中被分離,這就提高了5倍的掃描效率。但仍然與Parquet或Kudu存在較大差距。

6.3 Impala,Kudu,Presto和Spark的計算和對比實驗分析

6.3.1 計算引擎速度對比

表2 計算速度實驗一

表3 計算速度實驗二

表4 計算速度實驗三

表5 計算速度實驗五

表6 計算速度實驗六

6.3.2 存儲格式速度對比

表7 存儲速度實驗一

表8 存儲速度實驗二

表9 存儲速度實驗三

[1] Zikopoulos,Paul,and Chris Eaton.Understanding big data:Analytics for enterprise class hadoop and streaming data.McGraw-Hill Osborne Media,2011.

[2] White,Tom.Hadoop :The definitive guide.” O’Reilly Media,Inc.”,2012.

[3] Gray,S.,et al.”IBM Big SQL 3.0 :SQL-on-Hadoop without compromise.”(2014).

[4] Masur,Rohit G.,and Suzanne K.Mcintosh.”Preliminary performance analysis of Hadoop 3.0.0-alpha3.” Scientific Data Summit(NYSDS),2017 New York.IEEE,2017.

[5] Vidhyavathi,P.“A Review On Hadoop :Privacy For A Multi-Skyline Queries With Map Reduce.” IJSEAT 5.10(2017):1004-1007.

猜你喜歡
實驗系統(tǒng)
記一次有趣的實驗
Smartflower POP 一體式光伏系統(tǒng)
微型實驗里看“燃燒”
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
做個怪怪長實驗
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
主站蜘蛛池模板: 欧美日韩国产在线观看一区二区三区| 凹凸国产分类在线观看| 国产精品美女免费视频大全| 成人免费午夜视频| 2020极品精品国产| 久久狠狠色噜噜狠狠狠狠97视色 | 亚洲第一综合天堂另类专| 亚洲国产成人精品青青草原| 亚洲日本一本dvd高清| 日本成人精品视频| 欧美啪啪视频免码| 狠狠色成人综合首页| 色综合成人| 精品国产美女福到在线直播| 99视频有精品视频免费观看| 亚洲熟女中文字幕男人总站| 激情综合五月网| yy6080理论大片一级久久| 91www在线观看| 一级毛片在线直接观看| 99资源在线| 国产一区二区丝袜高跟鞋| 一级毛片视频免费| 国产在线一区视频| 在线免费无码视频| 麻豆精品在线视频| 在线看片免费人成视久网下载| a级毛片免费网站| 美女无遮挡拍拍拍免费视频| 伊在人亚洲香蕉精品播放| 日韩精品一区二区三区视频免费看| 国内精品视频| 99在线国产| 久久毛片网| 亚洲第一香蕉视频| 亚洲Aⅴ无码专区在线观看q| 九九这里只有精品视频| 综合色区亚洲熟妇在线| 色妞永久免费视频| 欧美亚洲第一页| 亚洲色欲色欲www网| 麻豆精品久久久久久久99蜜桃| 欧日韩在线不卡视频| 国产靠逼视频| 97超爽成人免费视频在线播放| 青青青国产视频| 亚洲啪啪网| 熟女日韩精品2区| 91成人试看福利体验区| 欧美在线综合视频| 伊人久久婷婷五月综合97色| 国产一区二区精品高清在线观看| 九九视频在线免费观看| 欧美在线综合视频| 国产日本视频91| 久久午夜夜伦鲁鲁片无码免费| 亚洲男人天堂2020| 亚洲一级毛片在线观| 国产女同自拍视频| 69国产精品视频免费| 欧美国产综合视频| 免费毛片全部不收费的| 伊人久久福利中文字幕| 亚洲区视频在线观看| 欧美日本在线观看| 88av在线播放| 久久久精品国产亚洲AV日韩| 免费在线a视频| 91在线无码精品秘九色APP| 日本不卡视频在线| 国产成人综合在线视频| 亚洲欧美自拍一区| 成人亚洲国产| 国产精品刺激对白在线| 国产经典在线观看一区| 91麻豆精品国产高清在线| 国产精品网曝门免费视频| 久久综合结合久久狠狠狠97色| 伊人91在线| 成人免费午间影院在线观看| 精品福利一区二区免费视频| 婷婷中文在线|