基于開源框架的大數據平臺集群搭建及教學方法探索實踐

2019-07-23 22:35:01郭建磊

現代職業教育·中職中專 2019年5期

郭建磊

[摘 ? ? ? ? ? 要] ?如今，我國已從互聯網時代進入大數據時代，在這個時代背景下，人們的一切活動都可以用數據來體現、分析。Hadoop大數據平臺為海量數據的存儲和分析提供了基礎。基于Apache基金會下的Hadoop開源框架，講解并演示大數據平臺分布式集群的搭建方法和詳細搭建步驟。以大數據技術與應用專業教學為例，總結和展示了Hadoop集群部署搭建的教學方法探索和應用實踐，為大數據相關專業開展大數據平臺集群搭建的教學提供借鑒經驗。

[關 ? ?鍵 ? 詞] ?Hadoop;開源框架;教學方法;實踐

[中圖分類號] ?G712 ? ? ? ? ? ? ? ? ? [文獻標志碼] ?A ? ? ? ? ? ? ? ? ? ?[文章編號] ?2096-0603（2019）14-0144-02

一、引言

隨著云計算、大數據、人工智能技術的快速發展，社會進入了大數據時代。大數據人才的需求量越來越大，大數據專業人才的缺口也越來越大。大數據技術與應用專業是高職院校的新興專業方向，專業核心課程的教學和實踐方法在不斷探索實踐中。Hadoop2是目前大數據領域應用最廣泛的大數據存儲和處理平臺之一，是大數據專業學生必須掌握的核心專業知識。本文討論的是基于開源框架的大數據平臺集群搭建方法，以及如何這種集群搭建方法應用到學生的教學中，采取怎樣的教學措施與方法，也是本文討論的問題。

二、Hadoop集群搭建及教學實踐

（一）Hadoop介紹

Hadoop是一個由Apache基金會開發的分布式系統基礎架構。Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，而MapReduce則為海量的數據提供了計算。

（二）Hadoop分布式集群規劃

Hadoop分布式集群搭建課程內容在機房授課，能讓學生更深入地體會大數據平臺集群搭建和部署的過程，從而充分掌握大數據平臺部署、維護和應用的方法和步驟。在開展教學內容前，先將學生劃分學習小組，可以3～5位同學一組，每小組內部進行集群規劃。例如，下表是一個小組的集群規劃，本小組有3名同學，搭建3個節點的集群，每個成員負責一個節點，完成集群的搭建任務。

（三）“六步法”搭建Hadoop集群及教學過程

為方便學生搭建集群，將Hadoop集群搭建劃分為六個步驟，總結為“六步法”。學生以小組為單位按照“六步法”實施搭建，規范大數據平臺搭建過程，便于發現集群搭建過程中產生的問題并有利于快速解決問題。“六步法”的具體步驟如下：

1.集群中每個節點關閉selinux

關閉selinux的方法有兩種，一種是臨時關閉selinux，不用重啟機器，命令為：setenforce 0;第二種是在配置文件中永久關閉selinux，編輯文件/etc/sysconfig/selinux，將文件中的元素SELINUX修改為disabled，即：SELINUX=disabled，即可永久關閉，重啟機器生效。

2.修改三個節點主機名分別為node1、node2和node3，并配置主機名和ip地址的映射

以node1為例介紹過程。修改主機名的命令為：hostnamectl set-hostname node1。接下來需要在node1節點的/etc/hosts文件中配置集群中所有主機與IP地址的映射。node2和node3節點的配置過程和node1相同。

3.配置SSH免密碼登錄

首先實現每個節點免密碼登錄本機，然后集群中多個節點兩兩實現免密碼登錄，使用ssh-copy-id 命令，將其他節點公鑰拷貝到其中一個節點（例如node1），使該節點的authorized_keys文件中包含其他各節點的公鑰。使用scp命令將node1節點的authorized_keys拷貝到其他節點，最后執行測試命令：#ssh主機名，可以實現集群各節點兩兩之間ssh免密碼登錄，表示操作成功。

4.每個節點安裝配置JDK1.8

將下載好的jdk安裝包拷貝到/usr/local目錄下，然后執行解壓：tar zxvf jdk-8u112-linux-x64.tar.gz;為配置環境變量的方便，將解壓后的安裝包改為短名：mv jdk1.8.0_112 jdk，然后在/etc/profile文件中配置jdk環境變量JAVA_HOME，并在Path路徑上添加JAVA_HOME/bin路徑。

5.每個節點安裝配置Hadoop

將下載好的Hadoop安裝包hadoop-2.7.3.tar.gz拷貝到/usr/local目錄下，然后進入此目錄解壓安裝包：tar zxvf hadoop-2.7.3.tar.gz;將解壓后的目錄修改為短名并配置HADOOP_HOME環境變量。mv hadoop-2.7.3 hadoop，在/etc/profile文件中配置環境變量。

接下來需要修改Hadoop的配置文件，主要有以下幾個配置文件需要修改：

（1）修改hadoop目錄下etc/hadoop/core-site.xml文件，配置HDFS的主節點及端口號等，具體配置信息如下所示：

（2）修改hadoop目錄下etc/hadoop/hdfs-site.xml文件，配置數據塊副本，具體配置信息如下所示：

（3）修改hadoop目錄下etc/hadoop/mapred-site.xml配置文件，配置MapReduce框架，具體配置信息如下：

（4）修改hadoop目錄下etc/hadoop/yarn-site.xml配置文件，配置yarn屬性和端口等參數。

（5）修改主機點的hadoop安裝目錄下etc/hadoop/slaves文件，將從節點主機名配置到此文件。

6.初始化并啟動Hadoop

可以對Hadoop的兩大核心HDFS和MapReduce分別執行啟動。首先是格式化HDFS，執行hadoop namenode-format命令格式化，執行start-dfs.sh命令啟動HDFS，通過jps命令查看java進程：如果主節點的學生機器上上啟動了NameNode、Secon-dary NameNode兩個進程，從節點的學生機器上啟動了DataNode進程，說明HDFS啟動成功。

接下來執行start-yarn.sh命令啟動Yarn+MapReduce2，然后通過jps命令查看java進程：如果主節點的學生機器上啟動了ResourceManager進程，從節點學生機器上啟動了NodeManager進程，說明Yarn+MapReduce2啟動成功。

（四）常見問題及解決辦法

在學生分組搭建Hadoop集群的過程中，最容易出現的問題有：（1）在ssh免密碼實現集群內任意兩個節點ssh免密登錄不成功;（2）集群內所有節點主機名和ip地址映射配置不全;（3）每個節點安裝配置Hadoop時，配置文件的參數配置有誤;（4）主節點或從節點進程啟動不全等。最有效的解決辦法是要求學生嚴格按照“六步法”的步驟搭建集群，便于問題查找和追溯。讓學生掌握通過分析啟動log日志找到問題原因，并掌握解決辦法。提高學生分析問題解決問題的能力。

三、總結

本文研究的是Hadoop大數據平臺集群搭建及教學方法的探索，通過研究大數據平臺集群搭建的原理和方法，確定科學規范的搭建步驟，分小組制定集群規劃，進行教學實踐，總結規律。“六步法”Hadoop集群搭建已應用到教學中，提高了學生的學習興趣和教學質量。今后將進一步在其他大數據平臺教學過程中總結應用，進一步提高學生學習的積極性和學習效果。

參考文獻：

[1]秦杰儀，曾志，孫蕾，等.基于Hadoop的大數據平臺架設探討[J].現代工業經濟和信息化，2018（8）.

[2]游會迪，張振友.基于Hadoop大數據平臺的搭建及其測試研究[J].電腦知識與技術，2017（19）.

[3]劉雍潛，楊現民.大數據時代區域教育均衡發展新思路[J].電化教育研究，2014（5）.

[4]教育部辦公廳關于印發《2014年教育信息化工作要點》的通知[EB]，2014-03-12.

編輯趙瑞峰