999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于近鄰回歸的Spark性能優(yōu)化方法

2022-10-08 11:31:22
電視技術(shù) 2022年9期
關(guān)鍵詞:優(yōu)化實(shí)驗(yàn)模型

張 威

(湖北中醫(yī)藥大學(xué),湖北 武漢 430065)

0 引 言

現(xiàn)階段,移動(dòng)互聯(lián)網(wǎng)服務(wù)、電子商務(wù)、感知網(wǎng)絡(luò)等技術(shù)廣泛地應(yīng)用于人們的日常生活,大量的應(yīng)用系統(tǒng)的業(yè)務(wù)以及運(yùn)行過程都產(chǎn)生了海量的數(shù)據(jù)。國(guó)際數(shù)據(jù)中心相關(guān)報(bào)告指出,當(dāng)前人們已經(jīng)處于大數(shù)據(jù)時(shí)代。隨著大數(shù)據(jù)技術(shù)需求的增加,很多大數(shù)據(jù)分布式框架產(chǎn)生,其中Apache Spark因其出色的性能和豐富的應(yīng)用支持成為當(dāng)下最流行的大數(shù)據(jù)分布式計(jì)算框架。

隨著Spark的應(yīng)用越來(lái)越廣泛,一些Spark應(yīng)用的問題也暴露了出來(lái)。其中最為重要的一個(gè)問題就是Spark的性能優(yōu)化問題。由于Spark在運(yùn)行過程中很容易受到不同因素的影響,很難發(fā)現(xiàn)其理論的最佳性能,因此,如何優(yōu)化配置提升Spark的性能,成為一個(gè)熱門的研究問題。

配置分為功能性配置和非功能配置兩種。其中,非功能性配置中有相當(dāng)數(shù)量的配置參數(shù)對(duì)Spark的性能有著非常大的影響。Apache Spark官網(wǎng)提供了很多默認(rèn)配置。這些配置在大多數(shù)情況下可以得到相對(duì)良好且正確的性能表現(xiàn)。但是,GOUNARIS A[1]和PANAGIOTIS P等人[2]提出,有一些參數(shù)會(huì)根據(jù)實(shí)驗(yàn)數(shù)據(jù)規(guī)模的大小和應(yīng)用程序的差異對(duì)性能產(chǎn)生影響。BEI Z D等[3]人主要研究了參數(shù)配置對(duì)Spark工作負(fù)載的影響,研究表明,通過改變默認(rèn)參數(shù)配置,Spark性能的變化可能高達(dá)20.7倍[4]。這個(gè)數(shù)據(jù)也說(shuō)明參數(shù)對(duì)于性能優(yōu)化有著舉足輕重的作用。

1 算法設(shè)計(jì)動(dòng)機(jī)

Spark平臺(tái)有多種優(yōu)化方式,其中,通過調(diào)整Spark的配置參數(shù)值獲得最優(yōu)執(zhí)行時(shí)間的方式最為簡(jiǎn)便有效。通過大量的日常工作實(shí)踐能夠發(fā)現(xiàn),Spark平臺(tái)的執(zhí)行時(shí)間除受到配置參數(shù)影響之外,還與平臺(tái)執(zhí)行的應(yīng)用類型以及處理的數(shù)據(jù)規(guī)模有關(guān)。其中,應(yīng)用類型是按照在Spark平臺(tái)執(zhí)行應(yīng)用程序?qū)τ谄脚_(tái)的系統(tǒng)和硬件資源依賴進(jìn)行分類。

通過實(shí)驗(yàn)觀察發(fā)現(xiàn),Spark集群在運(yùn)行過程中會(huì)受到運(yùn)行環(huán)境動(dòng)態(tài)變化的影響而產(chǎn)生執(zhí)行時(shí)間的波動(dòng)。這種波動(dòng)在某些特殊情況下產(chǎn)生較大的異常波動(dòng),但是經(jīng)過統(tǒng)計(jì),大量的樣本都會(huì)集中在“合理”的運(yùn)行時(shí)間周圍,個(gè)別樣本會(huì)產(chǎn)生離群現(xiàn)象。基于密度的方式可能將小規(guī)模樣本誤判為異常,因此采用基于近鄰的模型構(gòu)建方法一方面可以保證近鄰樣本能夠?yàn)猷徲虻漠惓颖九卸ㄌ峁┬畔ⅲ瑫r(shí)也能夠識(shí)別小規(guī)模樣本,也保證這些數(shù)據(jù)不會(huì)被作為異常數(shù)據(jù)處理。因此,首先通過K最鄰近(K-NearestNeighbor,KNN)分類算法計(jì)算出每一個(gè)樣本的5個(gè)鄰居,近鄰樣本用于訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)構(gòu)建當(dāng)前樣本的近鄰模型,近鄰模型的信息與該樣本通過一同訓(xùn)練全連接網(wǎng)絡(luò)。最終通過粒子群(Particle Swarm Optimization,PSO)算法搜索模型的配置定義域,從而獲得最佳配置,獲得任務(wù)的最佳模型。整體方案如圖1所示。

圖1 基于近鄰的Spark參數(shù)優(yōu)化方案

2 優(yōu)化方案設(shè)計(jì)

為了獲取全面且準(zhǔn)確的工作負(fù)載,本文采用Hibench軟件生成工作負(fù)載。Hibench內(nèi)部集成了6大類、29種工作負(fù)載。為了能夠獲取充足的Spark平臺(tái)的配置性能樣本,本文通過不同的Hibench配置,將各類標(biāo)準(zhǔn)負(fù)載存儲(chǔ)于Hadoop分布式文件系統(tǒng)(HDFS)上。接下來(lái)用改進(jìn)的正交設(shè)計(jì)方法構(gòu)建的出10因素10水平的正交實(shí)驗(yàn)方案。

所謂10因素10水平正交實(shí)驗(yàn),不是用一個(gè)正交實(shí)驗(yàn)設(shè)計(jì)一次完成10水平實(shí)驗(yàn),而是利用10因素3水平實(shí)驗(yàn)方法完成一輪實(shí)驗(yàn),接下來(lái),對(duì)正交結(jié)果進(jìn)行分析。正交分析傾向?qū)嶒?yàn)結(jié)果極差大的情況,所以算法會(huì)保留實(shí)驗(yàn)結(jié)果中的極大值和極小值做下一輪實(shí)驗(yàn),被去掉的中間值樣本會(huì)由沒有試驗(yàn)過新的水平替換,迭代前面的過程直到所有的水平都按照正交組合的方式進(jìn)行了實(shí)驗(yàn)。

因?yàn)樵赟park的配置參數(shù)樣本是含有單位字符串類型的數(shù)據(jù),所以數(shù)據(jù)收集模塊獲取數(shù)據(jù)后首先去掉參數(shù)上的單位,進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。所有的數(shù)據(jù)中包含值域?yàn)門rue或者False的布爾類以及數(shù)值型兩類參數(shù)。為了便于后面構(gòu)建配置性能模型,需要將布爾型參數(shù)轉(zhuǎn)換為1和0。

此歸一化結(jié)果將通過KNN算法計(jì)算樣本集合的5個(gè)近鄰。近鄰計(jì)算結(jié)果分別用來(lái)訓(xùn)練RNN[5]和全連接網(wǎng)絡(luò)。首先用近鄰數(shù)據(jù)對(duì)RNN進(jìn)行訓(xùn)練,RNN模型可以有效描述樣本點(diǎn)的緊鄰信息。其次,RNN輸出結(jié)果與當(dāng)前樣本信息共同對(duì)全連接網(wǎng)絡(luò)進(jìn)行訓(xùn)練。如果只是使用全連接網(wǎng)絡(luò)構(gòu)建模型,模型容易受到異常樣本的影響,而RNN模型中含有的近鄰信息能夠有效降低異常樣本對(duì)于預(yù)測(cè)結(jié)果的影響。最后,通過PSO粒子群算法搜索樣本空間求解預(yù)測(cè)模型的最小值。這個(gè)最小值就是Spark執(zhí)行類似類型應(yīng)用的最短時(shí)間,而對(duì)應(yīng)的配置樣本就是優(yōu)化Spark的配置。

3 基于RNN的近鄰混合設(shè)計(jì)

即使在相同的樣本條件下,Spark應(yīng)用的執(zhí)行時(shí)間仍然有一定的波動(dòng)性。利用算法對(duì)近鄰樣本提取上下文信息,能夠提升模型的質(zhì)量。近鄰算法易于實(shí)現(xiàn),不易受到低概率異常數(shù)據(jù)影響。本文設(shè)計(jì)的混合網(wǎng)絡(luò)模型對(duì)近鄰算法進(jìn)行了改進(jìn)。這種改進(jìn)將克服數(shù)據(jù)對(duì)于模型的負(fù)面影響,同時(shí)利用近鄰算法的優(yōu)勢(shì)降低異常數(shù)據(jù)對(duì)模型訓(xùn)練產(chǎn)生的干擾。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 基于RNN的近鄰混合網(wǎng)絡(luò)結(jié)構(gòu)

由圖2可見,算法由三個(gè)部分構(gòu)成。第一部分是計(jì)算含有n個(gè)樣本的模型訓(xùn)練集Xtrain={x(i)},1≤i≤n中每一個(gè)樣本的5個(gè)近鄰,并將近鄰按照距離由遠(yuǎn)及近的規(guī)則構(gòu)建序列其中1≤t≤5表示x(i)樣本的近鄰元素。第二部分,利用近鄰構(gòu)建的序列對(duì)循環(huán)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,應(yīng)用LeakyRelu激勵(lì)函數(shù)處理數(shù)據(jù)。此部分的更新方程如式(1)所示。

式中:W和U表示連同權(quán)重矩陣,b表示偏置向量,z(t)表示當(dāng)前樣本的第t個(gè)近鄰。h(t)輸出值作為第三部分3層全連接網(wǎng)絡(luò)的輸入,最終計(jì)算獲得回歸結(jié)果。

4 算法評(píng)估

實(shí)驗(yàn)平臺(tái)構(gòu)建在基于Intel(R)Xeon(R) CPU E5-2699的物理服務(wù)器集群上。在集群上創(chuàng)建8個(gè)虛擬機(jī)服務(wù)器,每個(gè)虛擬機(jī)服務(wù)器擁有16核CPU、16 GB內(nèi)存以及256 GB的存儲(chǔ)空間。

實(shí)驗(yàn)方案如表1所示。

表1 實(shí)驗(yàn)方案

Hibench軟件提出的Wordcount負(fù)載負(fù)責(zé)計(jì)算輸入數(shù)據(jù)中單個(gè)單詞出現(xiàn)的頻次,代表了一種比較典型的MapReduce作業(yè)。Hibench中的micro Benchmarks的sort負(fù)載是對(duì)文本輸入數(shù)據(jù)進(jìn)行排序,數(shù)據(jù)是由RandomTextWriter生成的。Hibench提出的PageRank負(fù)載中,數(shù)據(jù)源主要通過Web數(shù)據(jù)獲得,提供了包含數(shù)據(jù)和需要大量迭代計(jì)算的搜索引擎,又提供了用來(lái)測(cè)試大規(guī)模搜索子系統(tǒng)的Nutchindexing,所以這種負(fù)載屬于混合型負(fù)載。

利用本文模型建模后,利用PSO算法對(duì)模型配置空間進(jìn)行搜索,將獲得的最優(yōu)配置作為Spark的配置參數(shù),執(zhí)行所需時(shí)間與Spark默認(rèn)參數(shù)配置的執(zhí)行時(shí)間進(jìn)行對(duì)比,如圖3所示。

圖3 優(yōu)化配置與默認(rèn)配置性能對(duì)比

在Wordcount負(fù)載中,優(yōu)化算法用時(shí)29.7 min,性能提升了約10.5%;在Sort負(fù)載中,優(yōu)化算法用時(shí)29.08 min,執(zhí)行效率提升了約4.6%;在混合型PageRank負(fù)載中,優(yōu)化算法用時(shí)45.45 min,運(yùn)行效率提升了約30%。

5 結(jié) 語(yǔ)

本文利用RNN網(wǎng)絡(luò)對(duì)Spark樣本進(jìn)行性能建模,并采用粒子群算法獲取最佳配置,以此優(yōu)化Spark的執(zhí)行效率。RNN對(duì)近鄰樣本的分析,有效地降低了異常樣本對(duì)于模型的影響,提升了算法的魯棒性。然而,對(duì)于近鄰的分析,增加了模型構(gòu)建過程的算法開銷。在后面的工作中,將對(duì)此進(jìn)行改進(jìn)。

猜你喜歡
優(yōu)化實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产综合在线观看视频| 欧美在线视频不卡| 亚洲不卡av中文在线| 国产视频一二三区| 色网站在线视频| 亚洲欧美一区二区三区蜜芽| 久久久噜噜噜| 国产精品爽爽va在线无码观看| 伊在人亞洲香蕉精品區| 日本91视频| 久久黄色毛片| 日韩欧美国产中文| 98精品全国免费观看视频| 久久国产V一级毛多内射| 亚洲日韩欧美在线观看| 久久久精品国产SM调教网站| 国产成人精品在线1区| 2020国产精品视频| 亚洲 欧美 中文 AⅤ在线视频| 伊大人香蕉久久网欧美| 国产精品3p视频| AV在线天堂进入| h视频在线播放| AV在线天堂进入| 91精品国产综合久久不国产大片| av尤物免费在线观看| 日韩精品毛片人妻AV不卡| 日韩亚洲综合在线| 午夜国产理论| 精品一区二区三区无码视频无码| 四虎精品国产AV二区| 国产自在线拍| 色综合婷婷| 日本精品中文字幕在线不卡 | 无码中字出轨中文人妻中文中| 日韩免费成人| 日韩人妻无码制服丝袜视频| 啪啪免费视频一区二区| 欧美三级不卡在线观看视频| 国产91精选在线观看| 国产v精品成人免费视频71pao| 99热这里只有精品免费| 色婷婷在线影院| 色天堂无毒不卡| 欧美爱爱网| 久久综合伊人77777| 欧美成人影院亚洲综合图| 亚洲成人在线免费| 亚洲一区二区黄色| 一区二区三区国产精品视频| 日韩欧美网址| 女人天堂av免费| 久久久久中文字幕精品视频| 中文字幕亚洲乱码熟女1区2区| 欧美在线导航| 国产福利拍拍拍| 国产在线专区| 国产大片黄在线观看| 一级片一区| 亚洲精品视频在线观看视频| 99这里精品| 香蕉久人久人青草青草| 又大又硬又爽免费视频| 欧洲免费精品视频在线| 国产99视频精品免费观看9e| 在线欧美国产| 国产成人精品三级| 欧美翘臀一区二区三区| 亚洲一级毛片免费观看| 色成人亚洲| 2021无码专区人妻系列日韩| 91精品啪在线观看国产60岁 | 九九热视频精品在线| 天天躁狠狠躁| 久久五月视频| 91毛片网| 91亚洲精品第一| 亚洲日韩久久综合中文字幕| 成人午夜福利视频| 欧美日韩另类国产| 97青草最新免费精品视频| 91在线一9|永久视频在线|