基于RHadoop搭建大數(shù)據(jù)統(tǒng)計分析平臺

2015-01-01 00:00:00岳宗勝李敬改周磊張輝國

科技創(chuàng)新與應(yīng)用 2015年4期

摘要：Hadoop是當(dāng)前非常流行的大數(shù)據(jù)分布式處理基礎(chǔ)架構(gòu)，通過HDFS和Mapredue實現(xiàn)了對海量數(shù)據(jù)的高速運(yùn)算和存儲。R軟件是具有完善數(shù)據(jù)統(tǒng)計分析功能且被廣泛使用的開源系統(tǒng)。文章敘述了基于R 和Hadoop構(gòu)建大數(shù)據(jù)統(tǒng)計分析平臺的過程，藉此實現(xiàn)對大數(shù)據(jù)的統(tǒng)計分析。

關(guān)鍵詞：RHadoop；數(shù)據(jù)統(tǒng)計；平臺

1 RHadoop簡介

R是開源免費(fèi)的統(tǒng)計軟件平臺，很多統(tǒng)計模型和數(shù)據(jù)分析方法都能方便地在R中實現(xiàn)。R分析數(shù)據(jù)之前必須先將數(shù)據(jù)加載到內(nèi)存中，因此無法有效處理當(dāng)今GB、TB甚至PB級的大數(shù)據(jù)集和實時數(shù)據(jù)流。而Hadoop的HDFS和Mapreduce能夠?qū)崟r地讀取、存儲并處理大數(shù)據(jù)集。聯(lián)合R和Hadoop構(gòu)建的大數(shù)據(jù)統(tǒng)計分析平臺能夠充分融合兩者在大數(shù)據(jù)集實時處理和統(tǒng)計分析的優(yōu)勢，為海量數(shù)據(jù)的統(tǒng)計分析提供有效工具。另外，國內(nèi)許多高校都開設(shè)了《大數(shù)據(jù)統(tǒng)計分析》課程，旨在培養(yǎng)學(xué)生處理大數(shù)據(jù)的能力，以適應(yīng)大數(shù)據(jù)時代對人才的需求。但是，由于缺乏實用的大數(shù)據(jù)實驗平臺，課程講授內(nèi)容駐足于理論，未能有效付諸于實踐，造成理論與應(yīng)用脫節(jié)，搭建大數(shù)據(jù)統(tǒng)計分析軟件實驗平臺將為開展《大數(shù)據(jù)統(tǒng)計分析》課程的實驗教學(xué)創(chuàng)造條件。文章基于開源軟件Hadoop和R組合搭建平臺，使軟件的實用性、兼容性較強(qiáng)，并且與昂貴的商業(yè)軟件（如SAS JMP）相比，幾乎零成本。

Hadoop的安裝分為三種模式：單節(jié)點安裝、偽分布式安裝和完全分布式安裝[1]。文章著重介紹偽分布式安裝，這種安裝方式更適應(yīng)個人電腦網(wǎng)絡(luò)環(huán)境以及大數(shù)據(jù)統(tǒng)計分析教學(xué)環(huán)境。通常R和Hadoop聯(lián)合地方式主要包括兩種，一種是使用RHIPE（R and Hadoop Intergrated Programming Environment）編程環(huán)境進(jìn)行編程，另外一種就是RHadoop。下面詳細(xì)介紹RHadoop大數(shù)據(jù)統(tǒng)計分析平臺的搭建過程，主要安裝流程分為如下四個步驟流程。

第一步，創(chuàng)建虛擬機(jī)（vmware）->安裝R軟件；

第二步，安裝配置JDK和SSH->Hadoop偽分布安裝；

第三步，R依賴庫安裝->RHadoop軟件包安裝；

第四步，平臺運(yùn)行與調(diào)試。

2 RHadoop實驗平臺的搭建

2.1 環(huán)境準(zhǔn)備

由于Hadoop分布式系統(tǒng)架構(gòu)主要基于Linux操作系統(tǒng)，因此需要創(chuàng)建搭載ubuntu（linux的一種衍生系統(tǒng)）操作系統(tǒng)的虛擬機(jī)來實現(xiàn)Hadoop的運(yùn)行環(huán)境。在Ubuntu官網(wǎng)下載Ubuntu 14.04系統(tǒng)鏡像文件，在電腦中安裝VMware Player軟件，并創(chuàng)建一臺新的虛擬機(jī)，搭載Ubuntu 14.04操作系統(tǒng)。然后在虛擬機(jī)中安裝R軟件，可以在終端通過以下命令完成安裝：

若以上命令均能運(yùn)行，無報錯，且運(yùn)行結(jié)果最后一行顯示“Output：（/…）”（此處“/…”代表運(yùn)行結(jié)果的存儲路徑），表示RHadoop大數(shù)據(jù)統(tǒng)計分析平臺搭建成功，利用函數(shù)form.dfs（/…）即可查看輸出結(jié)果。

3 結(jié)束語

以寬帶化、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、云計算為代表的信息通信技術(shù)變革催生大數(shù)據(jù)，其顯著特征為\"大量化（Volume）、多樣化（Variety）、快速化（Velocity）、價值密度低（Value）\"。數(shù)據(jù)本身就是可以與物質(zhì)資產(chǎn)和人力資本相提并論的重要的生產(chǎn)要素，毫無疑問，大數(shù)據(jù)的使用將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及創(chuàng)造消費(fèi)者盈余的關(guān)鍵要素，同時為商業(yè)和消費(fèi)者創(chuàng)造價值方面具有巨大的發(fā)展?jié)摿?。因此大?shù)據(jù)統(tǒng)計分析迅速地成為當(dāng)前信息科技領(lǐng)域的前沿?zé)狳c和最為實用的技術(shù)。隨著“大數(shù)據(jù)”時代的來臨，利用Hadoop分布式系統(tǒng)架構(gòu)對大數(shù)據(jù)進(jìn)行讀取、存儲和計算已經(jīng)成為一種必然。R與Hadoop的聯(lián)合更是極大地提高了對大數(shù)據(jù)集的統(tǒng)計分析能力，從而能夠更加有效地利用數(shù)據(jù)，從數(shù)據(jù)中獲得有用的信息。文章介紹的RHadoop大數(shù)據(jù)統(tǒng)計分析平臺搭建方法，為個人以及大數(shù)據(jù)統(tǒng)計分析教學(xué)實驗提供了低成本、高兼容性和通用性的軟件環(huán)境。

參考文獻(xiàn)

[1]陸嘉恒.Hadoop實戰(zhàn)第2版[M].北京：機(jī)械工業(yè)出版社，2012，11：23-35.

[2]http：//cos.name/2013/03/rhadoop1-hadoop/ （2014/12/10）.

[3]http：//cos.name/2013/03/rhadoop2-rhadoop/ （2014/12/15）.

[4]Vignesh Prajapati. Big Data Analytics with R and Hadoop[M]. Livery Place 35 Livery Street， Birmingham B3 2PB， UK：Packt Publishing Ltd，2013：77-80.

*通訊作者：張輝國（1978-），男，山東萊西人，博士，講師，研究方向：空間統(tǒng)計、非參數(shù)統(tǒng)計及大數(shù)據(jù)統(tǒng)計分析方法。

科技創(chuàng)新與應(yīng)用2015年4期

科技創(chuàng)新與應(yīng)用的其它文章: 高校附屬學(xué)校子弟招生報名工作的信息化探索; GPS協(xié)同全站儀在印尼工程測量中的應(yīng)用; 基于核磁共振測井的儲層分類方法研究; 對礦山測量中新型測繪技術(shù)的應(yīng)用分析; 數(shù)字化土地測量技術(shù)分析; 淺談火災(zāi)調(diào)查中物證損壞防范措施