蔡文濤
【摘要】 本文簡述了大數據產生的原因及背景,并對大數據的4個特點進行了說明:數據體量巨大,數據種類繁多,流動速度快,價值密度低。由此引出對大數據處理平臺的需求,針對當前最為流行的Spark處理平臺,介紹了環境平臺的搭建過程及可能的相關分析應用,為相關人員開展大數據分析處理工作提供一定參考。
【關鍵字】 大數據分析 Hadoop Spark 內存計算
一、引言
近年來,大數據成為工業界與學術界關注的熱點,因為隨著存儲設備容量的快速增長、CPU處理能力的大幅提升、網絡帶寬的不斷增加,也為大數據時代提供了強有力的技術支撐。從web1.0到web2.0,每個用戶都成為一個自媒體,一個互聯網內容的提供者,這種數據產生方式的變革更是推動著大數據時代的到來。
二、相關研究
什么是大數據呢?大數據是由結構化與非結構化數據組成的,其中10%為結構化數據,存儲于各類數據庫中,90%為非結構化數據,非結構化數據如圖片、視頻、郵件、網頁等,現如今,大數據應用以滲透到各行各業,數據驅動決策,信息社會智能化程度大幅提高。目前,國內相關技術主要集中在數據挖掘相關算法、實際應用及有關理論方面的研究,涉及行業比較廣泛,包括零售業、制造業、金融業、電信業、網絡相關專業、醫療保健及科學領域,單位集中在部分高等院校、研究所和公司,特別是在IT等新興領域,阿里巴巴、騰訊、百度等巨頭對技術發展推動作用巨大,而這些互聯網巨頭們在大數據處理中,又紛紛采用了Hadoop、Spark這一處理框架。
三、基于spark的大數據處理平臺
3.1大數據平臺搭建
環境說明:3臺裝有Ubuntu14.04操作系統的PC機,Hadoop 2.6.0,Spark1.6.0。
Hadoop環境的搭建首先從apache官網下載合適版本的Hadoop代碼,本文中安裝的Hadoop版本為Hadoop 2.6.0。首先需要在各臺實驗PC機之間設置SSH免密碼登錄,無密碼登錄的原理:用戶在 master上生成一個密鑰對,包括一個公鑰和一個私鑰,并將公鑰復制到所有的 slave上。然后當 master 通過 SSH 連接 slave 時, slave 就會生成一個隨機數并用 master 的公鑰對隨機數進行加密,并發送給 master ,master用自己的私鑰進行解密得到解密數,并將解密數回傳給slave,slave確認解密數無誤之后就允許master不輸入密碼進行連接了,通過免密碼登錄主節點于從節點之間即可進行數據計算結果的快速交互。隨后確認本機上是否安裝了jdk,如未安裝需要先安裝Java的jdk,本環境中使用的是jdk1.8.0版本。
然后將下載的Hadoop文件解壓到某個目錄下,進行Hadoop的配置過程,涉及的配置文件有7個,分別為hadoop-env.sh,yarn-env.sh,slaves,core-site.xml,hdfs-site. xml,mapred-site.xml,yarn-site.xml,具體配置參數可查看相關教程。在主節點(master)配置完畢后,將整個Hadoop文件夾依次拷貝到各個slave節點。Hadoop安裝完畢后,即可啟動驗證,首先格式化Hadoop節點,執行以下命令,只需格式一次:
$hadoop namenode -format
進入Hadoop目錄下的sbin文件夾,啟動Hadoop,
$./start-all.sh
檢查Hadoop進程,
$jps
master節點上有如下進程,如圖1:
slave節點上有如下進程,如圖2:
表明Hadoop集群已配置完成。
安裝完Hadoop后,即可進行Spark安裝文件的配置,基本同Hadoop的配置相似,將Spark安裝完畢后,可以啟動spark-shell查看安裝是否成功。
3.2大數據平臺分析
spark集群處理環境搭建完畢后,我們可以使用其進行簡單的數據分析,spark1.6.0中也為我們提供了示例代碼,涵蓋流計算、圖計算、機器學習、sql查詢處理等程序,用戶可以方便的參考學習,從而進行自己的開發應用。
參 考 文 獻
[1]王珊,王會舉,覃雄派,周烜. 架構大數據:挑戰、現狀與展望[J]. 計算機學報. 2011(10)
[2]樊嘉麒. 基于大數據的數據挖掘引擎[D]. 北京郵電大學 2015