基于Hadoop的對俄貿易大數據分析系統研究

2018-02-02 05:36:40王麗紅劉平于光華

電腦知識與技術 2018年1期

王麗紅+劉平+于光華

摘要：大數據時代下，進出口企業發展出了跨境電子商務或在線國際貿易的新型虛擬網絡貿易平臺，需要對海量的貿易數據進行收集并完成處理。為了處理這些海量貿易數據，基于Hadoop 大數據分析工具設計并實現了對俄貿易大數據分析處理系統，通過它提供的強大的分布式數據處理能力，高效快捷地分析對俄貿易的各種數據。實驗表明該系統能夠有效地完成對俄貿易數據處理分析，從海量數據中挖掘到有用信息，從而可靠地、高效地對貿易數據進行存儲和分析，幫助企業制訂營銷計劃。

關鍵詞：對俄貿易大數據；大數據分析；hadoop；MapReduce

中圖分類號：TP319 文獻標識碼：A 文章編號：1009-3044（2018）01-0020-03

Abstract： In the era of big data， import and export enterprises have developed a new virtual network trading platform for cross-border e-commerce or online international trade， which requires the collection and processing of massive trade data.. In order to deal with the massive trade data， Large data analysis and processing system for Russian trade was was designed and implemented Based on the Hadoop， through which provide powerful distributed data processing capabilities， efficient and quick analysis on Russia's trade all kinds of data. Experiments show that the system can effectively complete analysis on Russia's trade data processing to the useful information from huge amounts of data mining， so as to reliably and efficiently for trade data for storage and analysis， to help enterprises make the marketing plan.

Key words： Big Data of russian trade； Big Data Analysis； hadoop； MapReduce

大數據時代下，信息數據化的同時，更多的企業利用電子商務開展貿易活動。在更少的時間里獲取豐富且具有時效性的數據信息，可以提高企業業務處理能力和貿易交易率，為客戶和企業帶來雙贏的便利。黑龍江省的對俄貿易一直引領全國，在“一帶一路”發展戰略影響下，我省的對俄經貿合作必將進入新一輪峰值期，如何存儲、處理海量的貿易數據并監測市場需求使我們面臨的新問題。就當前實際情況引入Hadoop來對海量數據進行分析存儲[1]。

Hadoop 是 Apache 基金的一個開源的大數據處理框架，核心部分由HDFS（分布式文件系統）和MapReduce（并行計算模型）兩大模塊組成[2]，HDFS可以高效地完成大規模數據集的高效存儲，MapReduce將應用程序要處理的工作分成若干小塊，是開發人員輕松實現分布式應用程序員。二者的集合使用戶可以在上層編寫分布式程序而不需要了解其底層的細節情況。可以讓使用者充分利用集群的優勢進行分布式的高速的存儲和運算。HDFS與MapReduce的結合使得Hadoop變得更加強大[3]。

本文設計并實現了基于Hadoop的大數據分析系統，用以處理和分析海量的對俄貿易數據，并通過結果為企業提供相關信息。

1 基于Hadoop的大數據分析系統架構設計

1.1 系統基本架構

基于Hadoop的大數據分析系統按照邏輯分層的方法劃分為以下3層[4]，分別是“數據存儲層”、“數據處理層”和“應用層”。大數據分析系統架構如圖1所示。

數據存儲層：利用 Hadoop分布式文件系統 HDFS，根據數據特點和具體業務需求將數據分類存儲。大量歷史數據經過HIVE管理存儲[5]，需要快速查詢并響應的數據交給 HBASE 進行存儲劃分。將整理后的數據保存成文件存放在 HDFS 分布式文件系統上，方便數據的處理。

數據處理層：這一層是大數據分析系統的核心層，在這一層，主要應用 MapReduce編程框架構建分布式處理程序，利用Hadoop 的組件執行對應的工作完成大型數據的各種需求分析。數據處理層中的業務邏輯分析模型用以識別業務功能，識別后被分解成相應的任務對 HBase 進行操作。利用模型庫把一些常用的模型和分析結果數據進行固化。中間件通過相應參數對應用層具體需求做出判斷，并根據判決結果決定把任務送給 Hive 處理還是 HBase處理。

應用層：將數據處理層得到的數據用相關圖或表進行表示，通過圖表用戶能夠直觀地研究對俄貿易數據的商機及存在的問題，促進對俄貿易的發展。

1.2 Hadoop 集群硬件架構設計

Hadopp集群是由5臺服務器和10臺PC機組成的集群，服務器集群上安裝linux操作系統，在10臺PC機上安裝虛擬Linux Cont OS 系統，并在每臺機器上安裝 JDK、SSH、Hadoop 和HBase。一臺服務器作為Hadoop集群的client，負責數據進行Hbase和Hive入庫。一臺服務器作為Namenode，剩余3臺服務器和10臺PC機作為Hadoop集群的datanode，其中兩臺datanode作為中間件服務器。endprint

2 基于Hadoop的大數據分析系統實現

2.1 數據統計實現

大數據分析系統需要針對對俄貿易數據進行分析和統計，而應用MapReduce算法框架需要使用者自己編寫程序，這對于使用該分析系統的員工來講難以實現。Hive所提供的數據庫語言HiveQL，可以將類sql語言轉化為在Hadoop中執行的MapReduce任務。使得數據庫操作人員上手簡單且功能強大。Hive與普通關系數據庫比較如表1所示。

由表1可知，Hive由于利用 Map Reduce 進行并行計算，因此可以支持很大規模的數據，在處理的數據規模和可擴展性上有相當大的優勢。

2.2 數據存儲實現

為了提高存儲效率和減少硬盤的訪問次數，先將數據放到內存里，達到一定數目時寫入本地文件，在將數據通過 Hadoop 提供的 API上傳到 HDFS。而HDFS 的設計是每個文件占用整個數據塊時存儲效率最高，為了提高存儲效率，減少Name Node 的元數據，因此將本地文件控制在 64M 大小，再上傳到 HDFS[1]。

2.3 數據查詢實現

對于在海量數據中迅速定位到幾條或幾十條符合條件的數據，就猶如大海撈針。在大數據分析系統中應用HBase這個分布式數據庫，可以實現高速的寫入和讀取。HBase表由行和列組成，查詢時，都是通過行鍵來進行搜索的，因此行鍵的規劃尤為重要。根據行表可以將HBase分成多個Region，HBase的所有數據保存在HDFS中，由Region負責完成數據的讀取。某個Region內的數據只能保存在一個主機上。為了解決讀寫矛盾，在行鍵前添加一個hash值，即可使數據寫入不同的Region，可以充分發揮分布式系統的優勢。

2.4 數據處理實現

Hadoop 對數據處理是通過 MapReduce 來完成的。系統將數據劃分為若干數據塊， Map 節點對數據塊分析處理后會返回一個中間結果集，并對中間結果使用一定的策略進行適當的劃分處理，保證相關數據傳送到Reduce節點。Reduce節點所處理的數據可能來自多個Map節點，為了減少數據通信開銷，中間結果在進入Reduce節點前會進行一定的合并處理，Reduce節點將接收到的數據進行歸納總結。Map節點和 Reduce節點在數據處理時可能會并行運行，即使不是在同一系統的同一時刻。因此MapReduce 為并行系統的數據處理，提供了一個簡單優雅的解決方案。

2.5 復雜數據模型分析實現

除了大部分應用進行統計查詢就可以滿足，但還有很重要的一部分任務需要進行復雜的數據建模來進行分析。算法步驟如下：

1）數據提取。

2）判斷提取數據是否在Hadoop中，若在，提取Hadoop中已有數據，若不在，則導入外部數據。

3）數據處理，選擇復雜算法。

4）算法是否包含在Mahout中或者已導入，若是轉步驟5，否則導入所需算法轉步驟5。

5）設置算法參數。

6）進行算法迭代并判斷是否完成迭代，若完成輸出最終結果，否則繼續步驟6。

3 結果分析

文中程序是在搭建的Hadoop并行計算平臺上運行的，平臺有15個節點，15個節點包括一臺client，一臺Namenode，13臺Datanode。其中5臺服務器配置八核 CPU、內存64G、硬盤400G、千兆以太網；另外10臺 PC 機配置雙核 CPU、內存 8G、百兆以太網、硬盤 300G。

在數據量比較小時，HDFS的性能體現并不明顯，當文件數據量比較大時，HDFS的性能優勢可以充分體現出來。運行文件大小為100M不變，但是文件數量從1個到10個增加，運行總時間和平均運行時間如圖2所示。

根據對比圖可知，文件數量的增加導致運行總體時間在增加，但是平均處理時間呈下降趨勢。同時若運行文件數量相同，文件大小從10M增加到500M，隨著文件大小增加，總體時間是成上漲趨勢的，但是平均時間是呈下降趨勢的。

4 結束語

對于對俄貿易數據海量的特點，設計并實現了基于Hadoop 的大數據分析系統。應用 HDFS 設計實現了數據的分布式存儲，使用Hive組件來完成大數據分析的統計任務，應用HBase分布式數據庫，可以實現高速的寫入和讀取文件。將文件合理的分布到每個節點，并對文件進行了 3 節點備份，保證了系統的安全；基于Hadoop的Map Reduce 模型實現數據并行儲存與處理，隨著數據量的增大，集群處理數據的優勢越來越明顯。因此基于 Hadoop 的對俄貿易大數據處理是非常安全有效的。

參考文獻：

[1] 張國棟. 基于 Hadoop 技術的電信大數據分析平臺設計與實現[D]. 上海：上海交通大學， 2014.

[2] Apache Hadoop Next Gen Map Reduce （YARN） [EB/OL]. 2013.

http：//hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-site/YARN.html.

[3] 陳浩. 基于Hadoop的農業電子商務數據平臺構建關鍵技術研究[D]. 武漢：華中師范大學， 2015.

[4] Hadoop 官方網站[EB/OL]. http：//hadoop.apache.org.

[5] Edward Capriolo， Dean Wampler， Jason Rutherglen.Programming Hive[M]. O'Reilly Media， 2012.

[6] 李偉. 基于Hadoop 的電網大數據處理探究[J]. 電子測試， 2014（1）.endprint

電腦知識與技術2018年1期

電腦知識與技術的其它文章: 一種改進的RDF數據k—hop劃分算法; 嵌入式系統中操作系統調度算法講解探討; 云計算下大數據均衡調度方法研究; 大數據分析的分布式MOLAP技術要點; 關于Hadoop中HDFS的研究; 基于高校圖書館數字資源推介的大學生信息素養教育