999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Spark 2.0平臺在大數(shù)據(jù)處理中的應(yīng)用研究

2017-05-31 06:31:57周顯春肖衡
軟件導(dǎo)刊 2017年5期
關(guān)鍵詞:效果

周顯春 肖衡

摘要摘要:Spark分布式框架具有利用數(shù)據(jù)集內(nèi)存緩存、啟動任務(wù)的低遲延、迭代類運算、實時計算的支持和強大的函數(shù)式編程接口等特征。描述Spark 集群環(huán)境的搭建過程,將Spark 應(yīng)用到預(yù)測森林植被中,對基于RDD和基于Data Frame接口的Spark隨機森林算法的性能差異進行比較。實驗結(jié)果表明,基于Dataset結(jié)構(gòu)的隨機森林法預(yù)測效果好、執(zhí)行時間短,可以廣泛使用。

關(guān)鍵詞關(guān)鍵詞:Spark 2.0;隨機森林算法;Dataset;集群環(huán)境

DOIDOI:10.11907/rjdk.171184

中圖分類號:TP391

文獻標識碼:A文章編號文章編號:16727800(2017)005014903

0引言

數(shù)據(jù)爆炸式增長和隱藏在這些數(shù)據(jù)之后的商業(yè)價值催生了一代又一代的大數(shù)據(jù)處理技術(shù)。2004年Hadoop橫空出世,由Google公司提出的開源的MapReduces的大數(shù)據(jù)處理框架拉開了其在企業(yè)應(yīng)用的序幕,它被視為解決高性能處理大數(shù)據(jù)的有效方案。但是MapReduces框架不僅存在單點故障,而且對實時數(shù)據(jù)和流式數(shù)據(jù)訪問能力弱,導(dǎo)致基于MapReduces框架的Hadoop平臺應(yīng)用推廣受到較大影響。

Apache Spark是另一種分布式、開源計算框架,目的是簡化基于計算機集群的并行程序的編寫。Spark不僅可以發(fā)揮MapReduces對大數(shù)據(jù)的處理能力[1],還可以充分利用數(shù)據(jù)集內(nèi)存緩存、啟動任務(wù)的低遲延、迭代類運算、實時計算的支持和強大的函數(shù)式編程接口[2]。Spark是Apache的頂級開源項目,功能不斷完善。現(xiàn)在最新版本為Spark 2.10,它集成了基于RDD和DataFrame(Dataset)兩種編程接口。為了簡化編程,方便更多人使用,同時進一步提高數(shù)據(jù)處理速度,Spark 3.0版本會摒棄直接面對用戶的基于RDD編程接口。目前,Spark分布式框架在基于機器學習和迭代處理的大數(shù)據(jù)分析上有廣泛應(yīng)用。

1Spark2.0 基本原理

Spark繼承了MapReduces的線性擴張性和容錯性,同時對它作了一些重量級擴展,主要包括核心數(shù)據(jù)結(jié)構(gòu):RDD(Spark 3.0以后使用Data Frame、Dataset)。

RDD是Spark的核心數(shù)據(jù)結(jié)構(gòu),是一種基于內(nèi)存彈性分布式數(shù)據(jù)集[3]。利用RDD可以把一部分數(shù)據(jù),包括中間結(jié)果緩存在內(nèi)存中,為后續(xù)計算所重復(fù)利用,不需要像其它計算結(jié)構(gòu)需要反復(fù)訪問磁盤,節(jié)省了大量時間。與Hadoop MapReduce相比,其實驗的性能要快100倍,訪問磁盤的性能快10倍[4]。基于DataFrames/Dataset的高層API,利用PipeLine可以方便用戶構(gòu)建和調(diào)試機器學習流水線,完成高效的數(shù)據(jù)處理。RDD(DataFrames、Dataset)數(shù)據(jù)結(jié)構(gòu)解決了MapReduces存在的很多問題。

(1)解決了MapReduces啟動遲緩問題[5]。利用Spark采用的有向無環(huán)圖的任務(wù)調(diào)度機制,可以對多個Stage的Task進行串聯(lián)或并聯(lián)Excutor,無需將每個Stage的中間結(jié)果保存到HDFS,不需要訪問磁盤,因此可以節(jié)省時間。尤其在計算機集群的環(huán)境下,可以避免運算時過量的網(wǎng)絡(luò)和磁盤IO開銷。

(2)支持迭代計算。迭代計算需要訪問相同的數(shù)據(jù)集,采用基于內(nèi)存的RDD/DataFrame/Dataset結(jié)構(gòu)可以避免重新計算和從磁盤加載。

(3)支持實時計算。基于Spark構(gòu)建Spark Straming 是在Spark基礎(chǔ)上的二次開發(fā),主要是將其實時、流水任務(wù)離散化成一系列的DStream的數(shù)據(jù)窗口[6],最小窗口選擇只需要0.5~2s,滿足大多數(shù)的準實時計算場景。

(4)性能優(yōu)化。Dataset API建立在Spark SQL引擎之上,它可以利用Catalyst來優(yōu)化邏輯計劃和物理查詢計劃。而且采用特殊的Encoder,不僅可以有效序列化JVM object,還可以直接被Spark的許多操作,如Filter、Sort、Hash等使用,從而提高執(zhí)行速度。

2Spark2.0在預(yù)測森林植被中的應(yīng)用

目前,Spark支持4種運行模式。本地單機模式、集群模式、基于Mesos、基于YARN、基于EC。本文的Spark分布式集群基于YARN,即Hadoop2。

2.1Spark分布式集群環(huán)境搭建

實驗環(huán)境所需的軟硬件設(shè)備如下:

軟件:操作系統(tǒng)采用Ubuntu Server 16.10 版本,Hadoop 2.7 版本,JDK 1.8 版本,虛擬軟件VMware Station Pro 12;硬件:1 臺聯(lián)想臺式機,CPU 是主頻3.4GHz的Intel的酷睿i7,超頻4.2 GHz,硬盤容量1T,內(nèi)存16GB。

Spark集群環(huán)境的搭建過程如下:

(1) 安裝3臺虛擬機,OS版本ubuntu server 16.10 版本,并通過Hostname、Interfaces、Hosts文件分別設(shè)置主機名(Master、Slave1、Slave2)、IP地址,以及DNS映射關(guān)系,執(zhí)行sudo ufw disable、Ping分別關(guān)閉防火墻以及檢驗3臺虛擬機互通無阻。

(2)在每臺虛擬機上安裝JDK、Scala、Hadoop、Spark并配置相關(guān)的Java環(huán)境變量。

(3)在每臺機器上執(zhí)行安裝openssh-server服務(wù),執(zhí)行ssh-keygen生成SSH 密鑰文件,保證相互直接建立不需要密碼的SSH可信通道。

(4)修改Spark目錄下conf/core-site.xml、mapred -site.xml、 yarn-site.xml、hdfs-site.xml、hdfs-env.sh、masters、slaves文件,確保能夠正常啟動Spark。

2.2隨機森林算法預(yù)測森林植被實現(xiàn)

在Spark機器學習中,用于分類的算法有很多,其中效果較好的有SVM和隨機森林算法。隨機森林(Random Forest,RF)是由 Leo Breiman 將 Bagging 集成學習理論[7]與隨機子空間方法[8]相結(jié)合,于2001年提出的一種機器學習算法[9]。RF利用Bootstrap重抽樣方法從原始樣本中多次隨機抽取不同特征的子集數(shù)據(jù)組成訓練樣本,構(gòu)建多棵、合理、獨立的子樹,然后融合多棵決策樹的預(yù)測結(jié)果。在大數(shù)據(jù)背景下,RF不僅能夠與Spark和Map Reduce的并行處理特征完美結(jié)合,預(yù)測效果好,而且基于Dataset 的執(zhí)行時間要比基于RDD的少。

為了更加深入地了解RF性能,尤其是測試效果,需要在實踐中進行檢驗。本實驗數(shù)據(jù)采用Kaggle大賽的數(shù)據(jù)Forestcover-Type-Prediction,記錄了美國科羅拉多州不同地塊森林植被特征:海拔、坡度、與水源的距離、遮陽情況和土壤類型,并給出了地塊的已知森林植被類型,共54特征,有581012個樣本[10]。本實驗主要比較基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機森林算法的性能差異。關(guān)鍵代碼及參數(shù)如下:

2.3性能分析

通過對決策樹、隨機森林模型的impurity、maxDepth、maxBins、minInfoGain、numTrees(只有隨機森林才有此參數(shù))、maxMemoryInMB等參數(shù)進行調(diào)試,對比其性能,找到最優(yōu)參數(shù)及模型。下面分別從訓練時間、最佳參數(shù)、預(yù)測效果的Accuracy 3個方面進行比較。

2.3.1尋找最佳參數(shù)訓練時間比較

由表1可以發(fā)現(xiàn),隨機森林算法的訓練時間,無論是基于RDD數(shù)據(jù)結(jié)構(gòu)還是基于Datase結(jié)構(gòu),都要比決策樹算法的訓練時間長。實驗過程中的數(shù)據(jù)也顯示,隨著隨機森林算法的樹深度的加大和樹數(shù)量的增加,訓練時間明顯延長。

2.3.2尋找最佳模型參數(shù)

從表2中可以發(fā)現(xiàn),與決策樹的最佳參數(shù)相比較,隨機森林算法的最佳參數(shù)深度相近,桶數(shù)數(shù)量相差很大,該數(shù)據(jù)為調(diào)試最佳參數(shù)有一定的參考意義。

2.3.3預(yù)測效果Accuracy比較

由表3可知,與決策樹的Accuracy相比,隨機森林算法的Accuracy明顯要高(無論是訓練數(shù)據(jù)、交叉數(shù)據(jù),還是測試數(shù)據(jù))。這說明多棵樹的評價效果比單棵樹的預(yù)測效果好。

3結(jié)語

Spark實現(xiàn)了分布式計算框架,它是采用分布式處理大規(guī)模數(shù)據(jù)的最有效途徑。在搭建好的實驗環(huán)境下,對基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機森林算法的性能差異進行了比較,相對而言,基于RDD接口的隨機森林算法的執(zhí)行效率較差。并且將隨機森林算法與決策樹算法比較,更好地體現(xiàn)了隨機森林算法良好的預(yù)測效果,但是訓練的時間進一步延長了。如何在集群環(huán)境中針對數(shù)據(jù)的特性,利用Spark平臺快速找到相應(yīng)的模型并通過調(diào)整模型參數(shù)使預(yù)測效果達到最佳,將是下一步研究的重點。

參考文獻參考文獻:

[1]唐振坤.基于Spark的機器學習平臺設(shè)計與實現(xiàn)[D].廈門:廈門大學,2014.

[2]NICK PENTREATH.Spark機器學習[M].蔡立宇,黃章帥,周濟民,譯.北京:人民郵電出版社,2016:13.

[3]ZAHARIA M,CHOWDHURY M,F(xiàn)RANKLIN M J,et al.Spark:cluster computing with working sets[C].Proceedings of the 2nd USENIX conference on Hot topics in cloud computing,2010.

[4]XIN R S,ROSEN J,ZAHARIA M,et al.Shark:SQL and rich analytics at scale[C].Proceedings of the 2013 international conference on Management of data,2013:1324.

[5]劉軍,林文輝,方澄著.Spark大數(shù)據(jù)處理原理、算法與實例[M].北京:清華大學出版社,2016:2023.

[6]ZAHARIA M,DAS T,LI H,et al.Discretized streams:an efficient and faulttolerant model for stream processing on large clusters[C].Proceedings of the 4th USENIX conference on Hot Topics in Cloud Computing,2012.

[7]BREIMAN L.Bagging predictors[J].Machine Learning,1996,24(2):123140.

[8]HO T.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832844.

[9]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):532.

[10]SANDY RYZA,URIL LASERSON,SEAN OWEN,et al.Spark高級數(shù)據(jù)分析[M].龔少成,譯.北京:人民郵電出版社,2016.

責任編輯(責任編輯:孫娟)

猜你喜歡
效果
按摩效果確有理論依據(jù)
保濕噴霧大測評!效果最驚艷的才20塊!
好日子(2021年8期)2021-11-04 09:02:46
笑吧
迅速制造慢門虛化效果
創(chuàng)造逼真的長曝光虛化效果
四種去色效果超越傳統(tǒng)黑白照
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
期末怎樣復(fù)習效果好
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
3D—DSA與3D—CTA成像在顱內(nèi)動脈瘤早期診斷中的應(yīng)用效果比較
主站蜘蛛池模板: 天天爽免费视频| 国产91导航| 国产成人综合日韩精品无码不卡| 久久久受www免费人成| 国产美女精品一区二区| 喷潮白浆直流在线播放| 国产精品永久在线| 久久中文电影| 青青操视频在线| 91视频青青草| 五月天福利视频| 欧美黄网在线| 国产欧美日韩综合在线第一| 亚欧美国产综合| 精品91在线| 久久亚洲日本不卡一区二区| 99热这里只有免费国产精品 | 亚洲综合狠狠| 精品亚洲欧美中文字幕在线看| a级高清毛片| h视频在线观看网站| 婷婷中文在线| 伊人久久婷婷五月综合97色| 国产精品无码一二三视频| 亚洲人成网站18禁动漫无码| 伊人久久精品无码麻豆精品 | 毛片免费在线| a在线亚洲男人的天堂试看| 婷婷六月激情综合一区| 亚洲第一视频网| 国产精品偷伦视频免费观看国产| 国产精品自在在线午夜| 亚洲日韩精品综合在线一区二区| 91久久夜色精品国产网站| 日韩欧美中文| 欧美日本在线播放| 欧美成人免费一区在线播放| 欧美黄网站免费观看| 国产不卡一级毛片视频| 精品国产一区二区三区在线观看 | 91丨九色丨首页在线播放| 一级一级特黄女人精品毛片| 国产精品视频3p| 国产91高清视频| 看国产毛片| 不卡午夜视频| 国产成人精品一区二区免费看京| 人人爱天天做夜夜爽| 亚洲日韩AV无码一区二区三区人| 中国特黄美女一级视频| 日本精品影院| 日本成人不卡视频| 国产精品永久不卡免费视频| 青草视频网站在线观看| 在线看片免费人成视久网下载| 无码中文字幕精品推荐| 亚洲码在线中文在线观看| 8090成人午夜精品| 欧美视频免费一区二区三区| 欧美一级特黄aaaaaa在线看片| 亚洲第一黄色网址| 99热亚洲精品6码| 高清久久精品亚洲日韩Av| 天天综合网色| 国产一级一级毛片永久| 国产一二三区在线| 国产免费网址| 国产91高跟丝袜| 国产麻豆aⅴ精品无码| 五月婷婷综合网| 在线观看欧美国产| 9966国产精品视频| 亚洲欧洲国产成人综合不卡| 香蕉久人久人青草青草| 性色生活片在线观看| 亚洲视频色图| 亚洲国产欧美自拍| 天堂av高清一区二区三区| 九九视频在线免费观看| 国产97视频在线观看| 欧美v在线| 综合色在线|