摘 要:Hadoop是當(dāng)前非常流行的大數(shù)據(jù)分布式處理基礎(chǔ)架構(gòu),通過HDFS和Mapredue實(shí)現(xiàn)了對海量數(shù)據(jù)的高速運(yùn)算和存儲。R軟件是具有完善數(shù)據(jù)統(tǒng)計(jì)分析功能且被廣泛使用的開源系統(tǒng)。文章敘述了基于R 和Hadoop構(gòu)建大數(shù)據(jù)統(tǒng)計(jì)分析平臺的過程,藉此實(shí)現(xiàn)對大數(shù)據(jù)的統(tǒng)計(jì)分析。
關(guān)鍵詞:RHadoop;數(shù)據(jù)統(tǒng)計(jì);平臺
1 RHadoop簡介
R是開源免費(fèi)的統(tǒng)計(jì)軟件平臺,很多統(tǒng)計(jì)模型和數(shù)據(jù)分析方法都能方便地在R中實(shí)現(xiàn)。R分析數(shù)據(jù)之前必須先將數(shù)據(jù)加載到內(nèi)存中,因此無法有效處理當(dāng)今GB、TB甚至PB級的大數(shù)據(jù)集和實(shí)時(shí)數(shù)據(jù)流。而Hadoop的HDFS和Mapreduce能夠?qū)崟r(shí)地讀取、存儲并處理大數(shù)據(jù)集。聯(lián)合R和Hadoop構(gòu)建的大數(shù)據(jù)統(tǒng)計(jì)分析平臺能夠充分融合兩者在大數(shù)據(jù)集實(shí)時(shí)處理和統(tǒng)計(jì)分析的優(yōu)勢,為海量數(shù)據(jù)的統(tǒng)計(jì)分析提供有效工具。另外,國內(nèi)許多高校都開設(shè)了《大數(shù)據(jù)統(tǒng)計(jì)分析》課程,旨在培養(yǎng)學(xué)生處理大數(shù)據(jù)的能力,以適應(yīng)大數(shù)據(jù)時(shí)代對人才的需求。但是,由于缺乏實(shí)用的大數(shù)據(jù)實(shí)驗(yàn)平臺,課程講授內(nèi)容駐足于理論,未能有效付諸于實(shí)踐,造成理論與應(yīng)用脫節(jié),搭建大數(shù)據(jù)統(tǒng)計(jì)分析軟件實(shí)驗(yàn)平臺將為開展《大數(shù)據(jù)統(tǒng)計(jì)分析》課程的實(shí)驗(yàn)教學(xué)創(chuàng)造條件。文章基于開源軟件Hadoop和R組合搭建平臺,使軟件的實(shí)用性、兼容性較強(qiáng),并且與昂貴的商業(yè)軟件(如SAS JMP)相比,幾乎零成本。
Hadoop的安裝分為三種模式:單節(jié)點(diǎn)安裝、偽分布式安裝和完全分布式安裝[1]。文章著重介紹偽分布式安裝,這種安裝方式更適應(yīng)個(gè)人電腦網(wǎng)絡(luò)環(huán)境以及大數(shù)據(jù)統(tǒng)計(jì)分析教學(xué)環(huán)境。通常R和Hadoop聯(lián)合地方式主要包括兩種,一種是使用RHIPE(R and Hadoop Intergrated Programming Environment)編程環(huán)境進(jìn)行編程,另外一種就是RHadoop。下面詳細(xì)介紹RHadoop大數(shù)據(jù)統(tǒng)計(jì)分析平臺的搭建過程,主要安裝流程分為如下四個(gè)步驟流程。
第一步,創(chuàng)建虛擬機(jī)(vmware)->安裝R軟件;
第二步,安裝配置JDK和SSH->Hadoop偽分布安裝;
第三步,R依賴庫安裝->RHadoop軟件包安裝;
第四步,平臺運(yùn)行與調(diào)試。
2 RHadoop實(shí)驗(yàn)平臺的搭建
2.1 環(huán)境準(zhǔn)備
由于Hadoop分布式系統(tǒng)架構(gòu)主要基于Linux操作系統(tǒng),因此需要?jiǎng)?chuàng)建搭載ubuntu(linux的一種衍生系統(tǒng))操作系統(tǒng)的虛擬機(jī)來實(shí)現(xiàn)Hadoop的運(yùn)行環(huán)境。在Ubuntu官網(wǎng)下載Ubuntu 14.04系統(tǒng)鏡像文件,在電腦中安裝VMware Player軟件,并創(chuàng)建一臺新的虛擬機(jī),搭載Ubuntu 14.04操作系統(tǒng)。然后在虛擬機(jī)中安裝R軟件,可以在終端通過以下命令完成安裝:
若以上命令均能運(yùn)行,無報(bào)錯(cuò),且運(yùn)行結(jié)果最后一行顯示“Output:(/…)”(此處“/…”代表運(yùn)行結(jié)果的存儲路徑),表示RHadoop大數(shù)據(jù)統(tǒng)計(jì)分析平臺搭建成功,利用函數(shù)form.dfs(/…)即可查看輸出結(jié)果。
3 結(jié)束語
以寬帶化、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、云計(jì)算為代表的信息通信技術(shù)變革催生大數(shù)據(jù),其顯著特征為\"大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)\"。數(shù)據(jù)本身就是可以與物質(zhì)資產(chǎn)和人力資本相提并論的重要的生產(chǎn)要素,毫無疑問,大數(shù)據(jù)的使用將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及創(chuàng)造消費(fèi)者盈余的關(guān)鍵要素,同時(shí)為商業(yè)和消費(fèi)者創(chuàng)造價(jià)值方面具有巨大的發(fā)展?jié)摿ΑR虼舜髷?shù)據(jù)統(tǒng)計(jì)分析迅速地成為當(dāng)前信息科技領(lǐng)域的前沿?zé)狳c(diǎn)和最為實(shí)用的技術(shù)。隨著“大數(shù)據(jù)”時(shí)代的來臨,利用Hadoop分布式系統(tǒng)架構(gòu)對大數(shù)據(jù)進(jìn)行讀取、存儲和計(jì)算已經(jīng)成為一種必然。R與Hadoop的聯(lián)合更是極大地提高了對大數(shù)據(jù)集的統(tǒng)計(jì)分析能力,從而能夠更加有效地利用數(shù)據(jù),從數(shù)據(jù)中獲得有用的信息。文章介紹的RHadoop大數(shù)據(jù)統(tǒng)計(jì)分析平臺搭建方法,為個(gè)人以及大數(shù)據(jù)統(tǒng)計(jì)分析教學(xué)實(shí)驗(yàn)提供了低成本、高兼容性和通用性的軟件環(huán)境。
參考文獻(xiàn)
[1]陸嘉恒.Hadoop實(shí)戰(zhàn)第2版[M].北京:機(jī)械工業(yè)出版社,2012,11:23-35.
[2]http://cos.name/2013/03/rhadoop1-hadoop/ (2014/12/10).
[3]http://cos.name/2013/03/rhadoop2-rhadoop/ (2014/12/15).
[4]Vignesh Prajapati. Big Data Analytics with R and Hadoop[M]. Livery Place 35 Livery Street, Birmingham B3 2PB, UK:Packt Publishing Ltd,2013:77-80.
*通訊作者:張輝國(1978-),男,山東萊西人,博士,講師,研究方向:空間統(tǒng)計(jì)、非參數(shù)統(tǒng)計(jì)及大數(shù)據(jù)統(tǒng)計(jì)分析方法。