Spark 2.0平臺(tái)在大數(shù)據(jù)處理中的應(yīng)用研究

2017-05-31 06:31:57周顯春肖衡

軟件導(dǎo)刊 2017年5期

關(guān)鍵詞：效果

周顯春　肖衡

摘要摘要：Spark分布式框架具有利用數(shù)據(jù)集內(nèi)存緩存、啟動(dòng)任務(wù)的低遲延、迭代類運(yùn)算、實(shí)時(shí)計(jì)算的支持和強(qiáng)大的函數(shù)式編程接口等特征。描述Spark 集群環(huán)境的搭建過程，將Spark 應(yīng)用到預(yù)測(cè)森林植被中，對(duì)基于RDD和基于Data Frame接口的Spark隨機(jī)森林算法的性能差異進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明，基于Dataset結(jié)構(gòu)的隨機(jī)森林法預(yù)測(cè)效果好、執(zhí)行時(shí)間短，可以廣泛使用。

關(guān)鍵詞關(guān)鍵詞：Spark 2.0；隨機(jī)森林算法；Dataset；集群環(huán)境

DOIDOI：10.11907/rjdk.171184

中圖分類號(hào)：TP391

文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)文章編號(hào)：16727800（2017）005014903

0引言

數(shù)據(jù)爆炸式增長(zhǎng)和隱藏在這些數(shù)據(jù)之后的商業(yè)價(jià)值催生了一代又一代的大數(shù)據(jù)處理技術(shù)。2004年Hadoop橫空出世，由Google公司提出的開源的MapReduces的大數(shù)據(jù)處理框架拉開了其在企業(yè)應(yīng)用的序幕，它被視為解決高性能處理大數(shù)據(jù)的有效方案。但是MapReduces框架不僅存在單點(diǎn)故障，而且對(duì)實(shí)時(shí)數(shù)據(jù)和流式數(shù)據(jù)訪問能力弱，導(dǎo)致基于MapReduces框架的Hadoop平臺(tái)應(yīng)用推廣受到較大影響。

Apache Spark是另一種分布式、開源計(jì)算框架，目的是簡(jiǎn)化基于計(jì)算機(jī)集群的并行程序的編寫。Spark不僅可以發(fā)揮MapReduces對(duì)大數(shù)據(jù)的處理能力[1]，還可以充分利用數(shù)據(jù)集內(nèi)存緩存、啟動(dòng)任務(wù)的低遲延、迭代類運(yùn)算、實(shí)時(shí)計(jì)算的支持和強(qiáng)大的函數(shù)式編程接口[2]。Spark是Apache的頂級(jí)開源項(xiàng)目，功能不斷完善。現(xiàn)在最新版本為Spark 2.10，它集成了基于RDD和DataFrame（Dataset）兩種編程接口。為了簡(jiǎn)化編程，方便更多人使用，同時(shí)進(jìn)一步提高數(shù)據(jù)處理速度，Spark 3.0版本會(huì)摒棄直接面對(duì)用戶的基于RDD編程接口。目前，Spark分布式框架在基于機(jī)器學(xué)習(xí)和迭代處理的大數(shù)據(jù)分析上有廣泛應(yīng)用。

1Spark2.0 基本原理

Spark繼承了MapReduces的線性擴(kuò)張性和容錯(cuò)性，同時(shí)對(duì)它作了一些重量級(jí)擴(kuò)展，主要包括核心數(shù)據(jù)結(jié)構(gòu)：RDD（Spark 3.0以后使用Data Frame、Dataset）。

RDD是Spark的核心數(shù)據(jù)結(jié)構(gòu)，是一種基于內(nèi)存彈性分布式數(shù)據(jù)集[3]。利用RDD可以把一部分?jǐn)?shù)據(jù)，包括中間結(jié)果緩存在內(nèi)存中，為后續(xù)計(jì)算所重復(fù)利用，不需要像其它計(jì)算結(jié)構(gòu)需要反復(fù)訪問磁盤，節(jié)省了大量時(shí)間。與Hadoop MapReduce相比，其實(shí)驗(yàn)的性能要快100倍，訪問磁盤的性能快10倍[4]。基于DataFrames/Dataset的高層API，利用PipeLine可以方便用戶構(gòu)建和調(diào)試機(jī)器學(xué)習(xí)流水線，完成高效的數(shù)據(jù)處理。RDD（DataFrames、Dataset）數(shù)據(jù)結(jié)構(gòu)解決了MapReduces存在的很多問題。

（1）解決了MapReduces啟動(dòng)遲緩問題[5]。利用Spark采用的有向無環(huán)圖的任務(wù)調(diào)度機(jī)制，可以對(duì)多個(gè)Stage的Task進(jìn)行串聯(lián)或并聯(lián)Excutor，無需將每個(gè)Stage的中間結(jié)果保存到HDFS，不需要訪問磁盤，因此可以節(jié)省時(shí)間。尤其在計(jì)算機(jī)集群的環(huán)境下，可以避免運(yùn)算時(shí)過量的網(wǎng)絡(luò)和磁盤IO開銷。

（2）支持迭代計(jì)算。迭代計(jì)算需要訪問相同的數(shù)據(jù)集，采用基于內(nèi)存的RDD/DataFrame/Dataset結(jié)構(gòu)可以避免重新計(jì)算和從磁盤加載。

（3）支持實(shí)時(shí)計(jì)算。基于Spark構(gòu)建Spark Straming 是在Spark基礎(chǔ)上的二次開發(fā)，主要是將其實(shí)時(shí)、流水任務(wù)離散化成一系列的DStream的數(shù)據(jù)窗口[6]，最小窗口選擇只需要0.5～2s，滿足大多數(shù)的準(zhǔn)實(shí)時(shí)計(jì)算場(chǎng)景。

（4）性能優(yōu)化。Dataset API建立在Spark SQL引擎之上，它可以利用Catalyst來優(yōu)化邏輯計(jì)劃和物理查詢計(jì)劃。而且采用特殊的Encoder，不僅可以有效序列化JVM object，還可以直接被Spark的許多操作，如Filter、Sort、Hash等使用，從而提高執(zhí)行速度。

2Spark2.0在預(yù)測(cè)森林植被中的應(yīng)用

目前，Spark支持4種運(yùn)行模式。本地單機(jī)模式、集群模式、基于Mesos、基于YARN、基于EC。本文的Spark分布式集群基于YARN，即Hadoop2。

2.1Spark分布式集群環(huán)境搭建

實(shí)驗(yàn)環(huán)境所需的軟硬件設(shè)備如下：

軟件：操作系統(tǒng)采用Ubuntu Server 16.10 版本，Hadoop 2.7 版本，JDK 1.8 版本，虛擬軟件VMware Station Pro 12；硬件：1 臺(tái)聯(lián)想臺(tái)式機(jī)，CPU 是主頻3.4GHz的Intel的酷睿i7，超頻4.2 GHz，硬盤容量1T，內(nèi)存16GB。

Spark集群環(huán)境的搭建過程如下：

（1）安裝3臺(tái)虛擬機(jī)，OS版本ubuntu server 16.10 版本，并通過Hostname、Interfaces、Hosts文件分別設(shè)置主機(jī)名（Master、Slave1、Slave2）、IP地址，以及DNS映射關(guān)系，執(zhí)行sudo ufw disable、Ping分別關(guān)閉防火墻以及檢驗(yàn)3臺(tái)虛擬機(jī)互通無阻。

（2）在每臺(tái)虛擬機(jī)上安裝JDK、Scala、Hadoop、Spark并配置相關(guān)的Java環(huán)境變量。

（3）在每臺(tái)機(jī)器上執(zhí)行安裝openssh-server服務(wù)，執(zhí)行ssh-keygen生成SSH 密鑰文件，保證相互直接建立不需要密碼的SSH可信通道。

（4）修改Spark目錄下conf/core-site.xml、mapred -site.xml、 yarn-site.xml、hdfs-site.xml、hdfs-env.sh、masters、slaves文件，確保能夠正常啟動(dòng)Spark。

2.2隨機(jī)森林算法預(yù)測(cè)森林植被實(shí)現(xiàn)

在Spark機(jī)器學(xué)習(xí)中，用于分類的算法有很多，其中效果較好的有SVM和隨機(jī)森林算法。隨機(jī)森林（Random Forest，RF）是由 Leo Breiman 將 Bagging 集成學(xué)習(xí)理論[7]與隨機(jī)子空間方法[8]相結(jié)合，于2001年提出的一種機(jī)器學(xué)習(xí)算法[9]。RF利用Bootstrap重抽樣方法從原始樣本中多次隨機(jī)抽取不同特征的子集數(shù)據(jù)組成訓(xùn)練樣本，構(gòu)建多棵、合理、獨(dú)立的子樹，然后融合多棵決策樹的預(yù)測(cè)結(jié)果。在大數(shù)據(jù)背景下，RF不僅能夠與Spark和Map Reduce的并行處理特征完美結(jié)合，預(yù)測(cè)效果好，而且基于Dataset 的執(zhí)行時(shí)間要比基于RDD的少。

為了更加深入地了解RF性能，尤其是測(cè)試效果，需要在實(shí)踐中進(jìn)行檢驗(yàn)。本實(shí)驗(yàn)數(shù)據(jù)采用Kaggle大賽的數(shù)據(jù)Forestcover-Type-Prediction，記錄了美國科羅拉多州不同地塊森林植被特征：海拔、坡度、與水源的距離、遮陽情況和土壤類型，并給出了地塊的已知森林植被類型，共54特征，有581012個(gè)樣本[10]。本實(shí)驗(yàn)主要比較基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機(jī)森林算法的性能差異。關(guān)鍵代碼及參數(shù)如下：

2.3性能分析

通過對(duì)決策樹、隨機(jī)森林模型的impurity、maxDepth、maxBins、minInfoGain、numTrees（只有隨機(jī)森林才有此參數(shù)）、maxMemoryInMB等參數(shù)進(jìn)行調(diào)試，對(duì)比其性能，找到最優(yōu)參數(shù)及模型。下面分別從訓(xùn)練時(shí)間、最佳參數(shù)、預(yù)測(cè)效果的Accuracy 3個(gè)方面進(jìn)行比較。

2.3.1尋找最佳參數(shù)訓(xùn)練時(shí)間比較

由表1可以發(fā)現(xiàn)，隨機(jī)森林算法的訓(xùn)練時(shí)間，無論是基于RDD數(shù)據(jù)結(jié)構(gòu)還是基于Datase結(jié)構(gòu)，都要比決策樹算法的訓(xùn)練時(shí)間長(zhǎng)。實(shí)驗(yàn)過程中的數(shù)據(jù)也顯示，隨著隨機(jī)森林算法的樹深度的加大和樹數(shù)量的增加，訓(xùn)練時(shí)間明顯延長(zhǎng)。

2.3.2尋找最佳模型參數(shù)

從表2中可以發(fā)現(xiàn)，與決策樹的最佳參數(shù)相比較，隨機(jī)森林算法的最佳參數(shù)深度相近，桶數(shù)數(shù)量相差很大，該數(shù)據(jù)為調(diào)試最佳參數(shù)有一定的參考意義。

2.3.3預(yù)測(cè)效果Accuracy比較

由表3可知，與決策樹的Accuracy相比，隨機(jī)森林算法的Accuracy明顯要高（無論是訓(xùn)練數(shù)據(jù)、交叉數(shù)據(jù)，還是測(cè)試數(shù)據(jù)）。這說明多棵樹的評(píng)價(jià)效果比單棵樹的預(yù)測(cè)效果好。

3結(jié)語

Spark實(shí)現(xiàn)了分布式計(jì)算框架，它是采用分布式處理大規(guī)模數(shù)據(jù)的最有效途徑。在搭建好的實(shí)驗(yàn)環(huán)境下，對(duì)基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機(jī)森林算法的性能差異進(jìn)行了比較，相對(duì)而言，基于RDD接口的隨機(jī)森林算法的執(zhí)行效率較差。并且將隨機(jī)森林算法與決策樹算法比較，更好地體現(xiàn)了隨機(jī)森林算法良好的預(yù)測(cè)效果，但是訓(xùn)練的時(shí)間進(jìn)一步延長(zhǎng)了。如何在集群環(huán)境中針對(duì)數(shù)據(jù)的特性，利用Spark平臺(tái)快速找到相應(yīng)的模型并通過調(diào)整模型參數(shù)使預(yù)測(cè)效果達(dá)到最佳，將是下一步研究的重點(diǎn)。

參考文獻(xiàn)參考文獻(xiàn)：

[1]唐振坤.基于Spark的機(jī)器學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D].廈門：廈門大學(xué)，2014.

[2]NICK PENTREATH.Spark機(jī)器學(xué)習(xí)[M].蔡立宇，黃章帥，周濟(jì)民，譯.北京：人民郵電出版社，2016：13.

[3]ZAHARIA M，CHOWDHURY M，F(xiàn)RANKLIN M J，et al.Spark：cluster computing with working sets[C].Proceedings of the 2nd USENIX conference on Hot topics in cloud computing，2010.

[4]XIN R S，ROSEN J，ZAHARIA M，et al.Shark：SQL and rich analytics at scale[C].Proceedings of the 2013 international conference on Management of data，2013：1324.

[5]劉軍，林文輝，方澄著.Spark大數(shù)據(jù)處理原理、算法與實(shí)例[M].北京：清華大學(xué)出版社，2016：2023.

[6]ZAHARIA M，DAS T，LI H，et al.Discretized streams：an efficient and faulttolerant model for stream processing on large clusters[C].Proceedings of the 4th USENIX conference on Hot Topics in Cloud Computing，2012.

[7]BREIMAN L.Bagging predictors[J].Machine Learning，1996，24（2）：123140.

[8]HO T.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，1998，20（8）：832844.

[9]BREIMAN L.Random forests[J].Machine Learning，2001，45（1）：532.

[10]SANDY RYZA，URIL LASERSON，SEAN OWEN，et al.Spark高級(jí)數(shù)據(jù)分析[M].龔少成，譯.北京：人民郵電出版社，2016.

責(zé)任編輯（責(zé)任編輯：孫娟）