郭建磊



[摘 ? ? ? ? ? 要] ?如今,我國已從互聯網時代進入大數據時代,在這個時代背景下,人們的一切活動都可以用數據來體現、分析。Hadoop大數據平臺為海量數據的存儲和分析提供了基礎。基于Apache基金會下的Hadoop開源框架,講解并演示大數據平臺分布式集群的搭建方法和詳細搭建步驟。以大數據技術與應用專業教學為例,總結和展示了Hadoop集群部署搭建的教學方法探索和應用實踐,為大數據相關專業開展大數據平臺集群搭建的教學提供借鑒經驗。
[關 ? ?鍵 ? 詞] ?Hadoop;開源框架;教學方法;實踐
[中圖分類號] ?G712 ? ? ? ? ? ? ? ? ? [文獻標志碼] ?A ? ? ? ? ? ? ? ? ? ?[文章編號] ?2096-0603(2019)14-0144-02
一、引言
隨著云計算、大數據、人工智能技術的快速發展,社會進入了大數據時代。大數據人才的需求量越來越大,大數據專業人才的缺口也越來越大。大數據技術與應用專業是高職院校的新興專業方向,專業核心課程的教學和實踐方法在不斷探索實踐中。Hadoop2是目前大數據領域應用最廣泛的大數據存儲和處理平臺之一,是大數據專業學生必須掌握的核心專業知識。本文討論的是基于開源框架的大數據平臺集群搭建方法,以及如何這種集群搭建方法應用到學生的教學中,采取怎樣的教學措施與方法,也是本文討論的問題。
二、Hadoop集群搭建及教學實踐
(一)Hadoop介紹
Hadoop是一個由Apache基金會開發的分布式系統基礎架構。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。
(二)Hadoop分布式集群規劃
Hadoop分布式集群搭建課程內容在機房授課,能讓學生更深入地體會大數據平臺集群搭建和部署的過程,從而充分掌握大數據平臺部署、維護和應用的方法和步驟。在開展教學內容前,先將學生劃分學習小組,可以3~5位同學一組,每小組內部進行集群規劃。例如,下表是一個小組的集群規劃,本小組有3名同學,搭建3個節點的集群,每個成員負責一個節點,完成集群的搭建任務。
(三)“六步法”搭建Hadoop集群及教學過程
為方便學生搭建集群,將Hadoop集群搭建劃分為六個步驟,總結為“六步法”。學生以小組為單位按照“六步法”實施搭建,規范大數據平臺搭建過程,便于發現集群搭建過程中產生的問題并有利于快速解決問題。“六步法”的具體步驟如下:
1.集群中每個節點關閉selinux
關閉selinux的方法有兩種,一種是臨時關閉selinux,不用重啟機器,命令為:setenforce 0;第二種是在配置文件中永久關閉selinux,編輯文件/etc/sysconfig/selinux,將文件中的元素SELINUX修改為disabled,即:SELINUX=disabled,即可永久關閉,重啟機器生效。
2.修改三個節點主機名分別為node1、node2和node3,并配置主機名和ip地址的映射
以node1為例介紹過程。修改主機名的命令為:hostnamectl set-hostname node1。接下來需要在node1節點的/etc/hosts文件中配置集群中所有主機與IP地址的映射。node2和node3節點的配置過程和node1相同。
3.配置SSH免密碼登錄
首先實現每個節點免密碼登錄本機,然后集群中多個節點兩兩實現免密碼登錄,使用ssh-copy-id 命令,將其他節點公鑰拷貝到其中一個節點(例如node1),使該節點的authorized_keys文件中包含其他各節點的公鑰。使用scp命令將node1節點的authorized_keys拷貝到其他節點,最后執行測試命令:#ssh主機名,可以實現集群各節點兩兩之間ssh免密碼登錄,表示操作成功。
4.每個節點安裝配置JDK1.8
將下載好的jdk安裝包拷貝到/usr/local目錄下,然后執行解壓:tar zxvf jdk-8u112-linux-x64.tar.gz;為配置環境變量的方便,將解壓后的安裝包改為短名:mv jdk1.8.0_112 jdk,然后在/etc/profile文件中配置jdk環境變量JAVA_HOME,并在Path路徑上添加JAVA_HOME/bin路徑。
5.每個節點安裝配置Hadoop
將下載好的Hadoop安裝包hadoop-2.7.3.tar.gz拷貝到/usr/local目錄下,然后進入此目錄解壓安裝包:tar zxvf hadoop-2.7.3.tar.gz;將解壓后的目錄修改為短名并配置HADOOP_HOME環境變量。mv hadoop-2.7.3 hadoop,在/etc/profile文件中配置環境變量。
接下來需要修改Hadoop的配置文件,主要有以下幾個配置文件需要修改:
(1)修改hadoop目錄下etc/hadoop/core-site.xml文件,配置HDFS的主節點及端口號等,具體配置信息如下所示:
(2)修改hadoop目錄下etc/hadoop/hdfs-site.xml文件,配置數據塊副本,具體配置信息如下所示:
(3)修改hadoop目錄下etc/hadoop/mapred-site.xml配置文件,配置MapReduce框架,具體配置信息如下:
(4)修改hadoop目錄下etc/hadoop/yarn-site.xml配置文件,配置yarn屬性和端口等參數。
(5)修改主機點的hadoop安裝目錄下etc/hadoop/slaves文件,將從節點主機名配置到此文件。
6.初始化并啟動Hadoop
可以對Hadoop的兩大核心HDFS和MapReduce分別執行啟動。首先是格式化HDFS,執行hadoop namenode-format命令格式化,執行start-dfs.sh命令啟動HDFS,通過jps命令查看java進程:如果主節點的學生機器上上啟動了NameNode、Secon-dary NameNode兩個進程,從節點的學生機器上啟動了DataNode進程,說明HDFS啟動成功。
接下來執行start-yarn.sh命令啟動Yarn+MapReduce2,然后通過jps命令查看java進程:如果主節點的學生機器上啟動了ResourceManager進程,從節點學生機器上啟動了NodeManager進程,說明Yarn+MapReduce2啟動成功。
(四)常見問題及解決辦法
在學生分組搭建Hadoop集群的過程中,最容易出現的問題有:(1)在ssh免密碼實現集群內任意兩個節點ssh免密登錄不成功;(2)集群內所有節點主機名和ip地址映射配置不全;(3)每個節點安裝配置Hadoop時,配置文件的參數配置有誤;(4)主節點或從節點進程啟動不全等。最有效的解決辦法是要求學生嚴格按照“六步法”的步驟搭建集群,便于問題查找和追溯。讓學生掌握通過分析啟動log日志找到問題原因,并掌握解決辦法。提高學生分析問題解決問題的能力。
三、總結
本文研究的是Hadoop大數據平臺集群搭建及教學方法的探索,通過研究大數據平臺集群搭建的原理和方法,確定科學規范的搭建步驟,分小組制定集群規劃,進行教學實踐,總結規律。“六步法”Hadoop集群搭建已應用到教學中,提高了學生的學習興趣和教學質量。今后將進一步在其他大數據平臺教學過程中總結應用,進一步提高學生學習的積極性和學習效果。
參考文獻:
[1]秦杰儀,曾志,孫蕾,等.基于Hadoop的大數據平臺架設探討[J].現代工業經濟和信息化,2018(8).
[2]游會迪,張振友.基于Hadoop大數據平臺的搭建及其測試研究[J].電腦知識與技術,2017(19).
[3]劉雍潛,楊現民.大數據時代區域教育均衡發展新思路[J].電化教育研究,2014(5).
[4]教育部辦公廳關于印發《2014年教育信息化工作要點》的通知[EB],2014-03-12.
編輯 趙瑞峰