韋堯,陳子陽,程靜文,高聰碩,張正艷,呂震宇
(華北理工大學 管理學院,河北 唐山 063000)
?
基于CubieBoard的大數據實驗平臺設計
韋堯,陳子陽,程靜文,高聰碩,張正艷,呂震宇
(華北理工大學 管理學院,河北 唐山 063000)
實驗平臺;大數據;Hadoop
針對傳統(tǒng)大數據實驗平臺部署成本高、網絡環(huán)境配置復雜等問題,將CubieBoard引入大數據實驗平臺架構,搭建了五節(jié)點的大數據實驗環(huán)境,完成了Hadoop集群部署、MapReduce應用開發(fā)部署和Mahout大數據分析挖掘實驗。該平臺搭建成本低,部署容易,非常適合高校本科生和研究生作為大數據學習的入門實驗平臺。
“大數據”是近些年來國內外關注的熱點,目前在眾多大型企業(yè)中廣泛應用。然而大數據教育,特別是本科生大數據教育卻明顯落后于企業(yè)發(fā)展,使得目前技術市場上掌握大數據技術的人才嚴重短缺。早在2012年,美國國家教育部就已經頒布了《通過教育數據挖掘和學習分析促進教與學》報告,已經將大數據融入學習變革當中[1];我國CCF大數據專家委員會在《2015年大數據發(fā)展趨勢預測》中發(fā)布了2015年大數據十大發(fā)展趨勢,其中一項就是“大數據技術課程體系建設和人才培養(yǎng)是需要高度關注的問題”[2]。然而大數據人才培養(yǎng)一方面需要加快將業(yè)界應用技術向高校轉移,但另外一方面卻受制于大數據高昂的硬件建設成本。一套大數據平臺硬件設備動輒需要數十萬元到上百萬,大多被用于科研[3-5],很難大規(guī)模用于本科生教學工作。因此,目前很多大數據實驗轉而尋求在虛擬機上完成,但受到計算機硬件能力限制,目前基于虛擬機的大數據實驗多以單機實驗為主,很難完成多機集群部署。
隨著嵌入式設備的發(fā)展,2012年以樹莓派為代表的迷你主機逐漸成為計算機硬件發(fā)展的一條強大的支流[6-7]。樹莓派在硬件和軟件上都采取了開源的形式,相比單片機具備更完備的元件、接口以及操作系統(tǒng),在普通電腦上可以實現的功能,在樹莓派上基本都可以實現。國內珠海方糖科技(CubieTech)2013年推出了CubieBoard,在性能不低于樹莓派的情況下成本要低于樹莓派[8],該產品一經推出迅速得到了眾多軟、硬件廠商的支持,包括Android以及Ubuntu等。法國的NanoXion IT公司2014年2月與法國電信部門簽訂了合作協議,提供基于CubieBoard硬件平臺的托管服務,這標志著基于ARM架構的面向服務器的Linux Debian專用托管優(yōu)化解決方案的出現[9]。泰國蘇蘭拉工業(yè)大學的Chanwit和他的團隊使用Cubietruck作為硬件平臺,基于Apache的Spark和Hadoop搭建了跨平臺混合云[10]。國內基于迷你主機的實驗平臺建設剛剛起步,2014年3月16日杭州熾鳥集團采用CubieTruck作為云終端,建立了一套以CubieTruck為平臺的嵌入式實踐教學體系,但主要是培養(yǎng)學員對Linux系統(tǒng)和硬件外設的理解[11]。
該項研究將CubieBoard作為大數據實驗底層硬件平臺,并以此開發(fā)了Hadoop集群部、MapReduce應用開發(fā)與部署、大數據分析與挖掘等實驗項目[12, 13],不但可以解決大數據硬件平臺成本問題,還可以將大數據課程體系及實驗體系迅速普及到高校本科生、研究生,為培養(yǎng)大數據技術人才奠定低成本實驗平臺基礎。
1.1硬件選擇
計算節(jié)點使用CubieBoard2平臺,該平臺擁有ARM cortex A7雙核CPU;1GB DDR3 960 MHz內存;4GB Nand Flash固態(tài)存儲,還可通過Sata接口連接外部硬盤擴充存儲容量;提供2個USB接口、1個100 M網卡接口和1個HDMI 1080p高清輸出接口;平臺還提供紅外接口、Micro SD卡槽和音頻輸出接口。
輔助硬件包括8口交換機1個、5口USB電源1個、以及鍵盤、鼠標、顯示器各1個。
1.2軟件選擇
軟件使用專門為CubieBoard提供的ubuntu 13.06作為底層操作系統(tǒng)平臺,使用Phonenix Suit作為刷機工具,Putty作為終端連接工具。
在CubieBoard上部署好ubuntu操作系統(tǒng)后,安裝ARM版JDK 8u33。Hadoop版本為2.5.0(CDH5.2.0),Mahout版本為0.10.2。MapReduce應用開發(fā)使用ideaIC。
由于CubieBoard默認只提供20 M的/tmp存儲空間,會導致mahout在執(zhí)行時出現 “No space left on device”錯誤,因此需要刪除該配置選項。
1.3整體結構設計
基于CubieBoard的大數據實驗平臺由1臺交換機、5臺CubieBoard組成的Hadoop集群和1臺電腦終端構成。如圖1所示:

圖1基于CubieBoard的大數據實驗平臺結構
如果需要在機房部署,可增加1個DHCP服務器,以便CubieBoard能夠自動獲得IP地址,避免IP沖突影響其它同學實驗進程。
實驗設備實物照片如圖3所示:

圖3 基于CubieBoard的大數據實驗平臺實物照片
1.4五節(jié)點大數據實驗集群設計
五節(jié)點大數據實驗集群設計如圖4所示,每臺CubieBoard設備被分別賦予了NameNode、DataNode、JournalNode、Resource Manager和Node Manager等不同角色。

圖4 五節(jié)點大數據實驗集群設計
2.1實驗結果
該平臺上的實驗包括Hadoop集群部署、MapReduce應用程序開發(fā)與部署以及Mahout數據分析挖掘。
使用MapReduce算法以“pi 4 500”為參數計算PI值,任務完成時間為1min38s(如圖5所示)。由圖6可以看出Node05充當了Application Master節(jié)點,而使用Node02、Node03、Node04充當了4個Task節(jié)點(Node02上部署了2個Task)。
圖7演示了在該實驗平臺上使用Mahout進行kmeans算法測試時的界面。完成10次迭代外加輸入、輸出12個MapReduce應用共用時32 min。

圖5計算PI的任務完成界面(圖像經裁剪)

圖6 計算PI時YARN任務分派(圖像經裁剪重組)

圖7 使用Mahout進行kmeans算法測試界面
2.2成本性能分析
盡管基于CubieBorad的大數據實驗平臺在性能上不占優(yōu)勢,不適合完成大規(guī)模數據分析與挖掘,然而卻具有成本低、易部署的特點。表1對基于服務器、虛擬機和CubieBoard的五節(jié)點大數據實驗平臺進行了對比。

表1 不同硬件環(huán)境部署五節(jié)點大數據實驗平臺對比
基于CubieBoard的大數據實驗平臺具有成本低,部署簡單的特點,還可以兼顧用于嵌入式開發(fā)實驗和Android開發(fā)實驗。基于CubieBoard的大數據實驗平臺非常適合作為高校本科生和研究生學習大數據的入門實驗平臺。
[1]徐鵬,王以寧,劉艷華,等.大數據視角分析學習變革——美國《通過教育數據挖掘和學習分析促進教與學》報告解讀及啟示[J].遠程教育雜志,2013,(6):11-17.
[2]CCF大數據專家委員會.2015年大數據發(fā)展趨勢預測[J].中國計算機學會通訊,2015,11(1):48-52.
[3]張倩怡.百度和聯合國機構共建大數據實驗室[N].北京日報,2014-08-19.
[4]邱燕娜.中青云大數據聯合實驗室在京掛牌[N].中國計算機報,2015-02-02.
[5]劉珍意,劉艷貴.貴陽大數據戰(zhàn)略重點實驗室揭牌[N].中國質量報,2015-06-04.
[6]李文勝.基于樹莓派的嵌入式Linux開發(fā)教學探索[J].電子技術與軟件工程,2014,(09):219-220.
[7]于志強,溫志渝,謝瑛珂,等.基于樹莓派的多參數水質檢測儀控制系統(tǒng).儀表技術與傳感器,2015,(06):20-27.
[8]鄭浩榕,魏天翼.Cubieboard:追趕樹莓派[EB/OL].2013-07-29.http://www.yicai.com/news/2013/07/2897708.html.
[9]The NanoXion Team. CubieBoard colocation service Named Cubiebox first launched in France[EB/OL]. http://cubieboard.org/2014/02/18/cubieboard-colocation-service-named-cubiebox-first-launched-in-france/,2014-2-18.
[10]ahha lee. Cross-Platform Hybrid Cloud with Docker based on Cubietruck[EB/OL]. http://cubieboard.org/2015/06/05/cross-platform-hybrid-cloud-with-docker-based-on-cubietruck/,2015-6-5.
[11]ahha lee. ChirdTeam First Use CubieTruck as i-cloud Embedded Training Platform in Hangzhou[EB/OL]. http://cubieboard.org/2014/03/26/chird-team-frist-use-cubietruck-as-i-cloud-embedded-technology-education-platform-in-hangzhou/, 2014-3-26.
[12]王珊,王會舉,覃雄派,等.架構大數據:挑戰(zhàn)、現狀與展望[J].計算機學報,2011,34(10):1741-1752.
[13]程學旗,靳小龍,王元卓,等.大數據系統(tǒng)和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.
Big Data Experimental Platform Design Base on CubieBoard
WEI Yao, CHEN Zi-yang, CHENG Jing-wen, GAO Cong-shuo, ZHANG Zheng-yan, LYU Zhen-yu
(College of Management, North China University of Science and Technology, Tangshan Hebei 063000, China)
experimental platform; big data; Hadoop
The traditional big data experimental platform has the problems of high cost and complex network configuration. CubieBoard is introduced and a five nodes big data experimental environment is built. Hadoop cluster deployment, MapReduce application development and Mahout data-mining experiment are complete on this platform. It has low cost and easy to deploy features, and very suitable for college students and graduate students as the entry experimental platform for big data learning.
2095-2716(2016)03-0098-05
TP368.2
A