基于Hadoop的陶瓷行業信息聚合平臺設計

2018-01-09 13:23:13羅新

軟件導刊 2017年12期

羅新

摘要：

在陶瓷行業信息聚合網站的基礎上，通過Web日志分析可以獲取網站用戶的訪問情況，但是隨著Web服務器上日志的劇增，在單機上運行日志分析或挖掘程序變得越來越不可行。采用Hadoop并行計算平臺對日志進行預處理，然后對頁面訪問量、用戶訪問量、網站流量等指標進行統計，還應用Apriori算法對日志進行挖掘，對群集在不同節點數、不同數據集以及不同最小支持度的情形下的性能進行比較。實驗結果表明，在Hadoop平臺上，隨著集群節點的增加，大數據集處理性能會得到較大提升。應用Hadoop 平臺構建的日志分析平臺可以為陶瓷行業信息聚合平臺的管理者提供各種有價值的信息。

關鍵詞：Hadoop；Apriori；陶瓷信息系統

DOIDOI：10.11907/rjdk.173070

中圖分類號：TP319

文獻標識碼：A 文章編號：1672-7800（2017）012-0128-03

Abstract： Based on the development of the ceramic industry information aggregation website， User's access informationcan be obtained through Web log analysis. However， with the rapid increase of the logs on the Web server， it becomes more and more impossible to run log analysis or mining programs on a single computer Row. In this paper， Hadoop parallel computing platform for log pretreatment， and then page views， user traffic， website traffic and other indicators statistics， but also Apriori algorithm to log mining， the cluster in different nodes， different data sets and different Minimum support in the case of performance comparison. Experimental results show that the processing of large data sets on the Hadoop platform will be greatly enhanced with the increase of cluster nodes. The log analysis platform built using the Hadoop platform can provide valuable information to managers of the ceramic industry information aggregation platform.

Key Words：Hadoop； Apriori； ceramic information system

0 引言

Hadoop[1-2]平臺實現了HDFS分布式文件系統，它具有高容錯性的特點，而且可以部署在低端硬件上，提供高吞吐量的處理能力，適合處理超大數據集的應用程序。Hadoop框架最核心的設計是HDFS和MapReduce，HDFS為海量數據存儲提供了物質基礎，MapReduce為大數據提供了計算技術。

本文在一個陶瓷行業信息聚合平臺的基礎上，應用Hadoop技術，實現了網站訪問日志的預處理、統計、挖掘等功能，為網站管理者提供了改進依據。

1 研究背景

陶瓷行業信息聚合平臺網站是一個前端采用BootStrap框架，應用HTML5、AJAX、JQuery等相關技術，后臺采用Struts+Hiberate+Spring框架技術的網站。系統功能包括用戶注冊與管理、陶瓷產品上架與展示、供求信息發布、各類信息搜索等功能。網站布局如圖1所示。

系統后臺數據庫采用MySQL框架，數據庫設計了business_chances， product， news， category等表，分別對應供需信息、產品、新聞、產品類別等信息。

為了更深入了解網站訪客的使用習慣，可以對網站訪問日志進行分析。例如tomcat服務器上記錄的訪問日志的信息。

通過這些字段的統計分析，可以得到每個頁面的訪問、IP訪問量與用戶某個時段的訪問量、用戶來源，用戶訪問瀏覽器（設備）等指標的統計。通過對日志進行預處理后，形成一個用戶訪問事務文件，在Hadoop平臺上應用并行化的挖掘算法[3-6]，實現關聯、聚類等分析。

2 Hadoop平臺處理網站日志

2.1 日志處理模塊

對于海量日志數據，如果用單機來進行統計分析、挖掘，處理效率將會降低。此時可以采用Hadoop平臺[2]，在集群上完成日志的分布式處理。日志分析/挖掘模塊框架如圖2所示。

日志分析及挖掘處理可以分為3個子模塊。第一個模塊是日志收集模塊。日志收集模塊主要負責定期把日志文件從Web應用服務器上傳到集群的HDFS系統；然后在NameNode節點上啟動Hadoop Job，完成日志文件的分片、分配Mappe及Reducer節點，執行完Job之后，把結果導出到MySQL，用戶可以在陶瓷信息聚合網站上查看統計或挖掘的結果。

日志收集模塊可以采用Java編寫GUI程序，然后用Socket定期完成日志的上傳。這種方式需要開發服務器端及客戶端軟件。日志上傳客戶端的界面如圖3所示。

日志上傳客戶端運行在各個Web應用服務器上，可以進行服務器地址/端口、日志上傳時間間隔、日志文件所在位置等參數的設置。日志上傳服務器端具有帳戶管理、日志預處理、Hadoop挖掘算法設置等功能。服務器端如圖4所示。

2.2 日志統計分析

通過MapReduce進行日志統計的原理如下：在Mapper階段進行每行日志的讀取，以空格作為分隔符進行字段分割，再找到需要進行統計的字段。如統計一個頁面的訪問量，就應該找到request字段，然后獲取里面的URL，最后以URL作為Key值，以1作為value值，向Context寫入。在Reducer階段，則以URL為key，對傳進的value值集合的元素進行求和操作。最后就可以得到一個頁面的總訪問次數。代碼如下所示：

Apriori算法[7-12]通常用于關聯分析。對于陶瓷行業信息聚合平臺網站，首先對日志進行預處理，刪除用戶訪問無關數據；然后執行用戶識別、會話識別；最后形成用戶訪問網站記錄的事務集合。通過對事務集合的挖掘，可以得到關聯規則，為用戶提供產品或者頁面推薦。

在開發Hadoop版本的Aprioir算法時，由于算法要進行迭代，每次迭代時會產生大量候選項集。在Hadoop平臺上，每一次迭代運行都以一個Job任務形式進行，Job之間不能進行進程間的數據共享。所以應該把中間結果緩存到HDFS文件系統中，每一次新的迭代開始時，就把上一次迭代生成的候選項集讀取到Job中，然后再計算頻繁項集。下面代碼解決了Apriori算法迭代中結果的存儲問題。

3 實驗結果分析及結果展示

如表2所示，從日志中截取2個數據集DataSet_8M和DataSet_80M，經過預處理后，每一行數據代表一個事務。其中DataSet_8M中有1萬條事務記錄，DataSet_80M有10萬條記錄。實驗平臺是Hadoop2.5.2，節點處理機Intel I7-4790 3.6G，內存5G。表2的數據是在Hadoop群集下運行Apriroir算法[3]，在數據集大小、最小支持度、節點數的3個維度下，運行時間的比較。從運行時間來看，由于NameNode與DataNode的之間通信會消耗算法處理時間，所以算法在多節點群集下運行并無優勢。但隨著數據集的增大和最小支持度的降低（產生的候選項集會急劇增加），此時隨著節點數增加，算法處理時間明顯減少，從而達到較好的并行計算結果。

在網頁上可以使用ECHARTS模塊對統計數據用圖表進行可視化顯示，便于用戶分析。IP訪問量的排行榜如圖5所示。

4 結語

本文在一個陶瓷行業信息聚合平臺網站的基礎上，引入Hadoop并行計算技術，對網站的日志進行分析及挖掘。在日志數據量不斷增加的情況下，云計算技術處理優勢會越來越明顯。通過Hadoop技術對日志進行離線處理，將經過分析處理的數據存入數據庫，從而方便用戶使用。

參考文獻：

[1] TOM WHITE. Hadoop權威指南[M]. 華東師范大學數據科學與工程學院.譯.北京：清華大學出版社，2013.

[2] 陳吉榮.基于Hadoop生態系統的大數據解決方案綜述[J].計算機工程與科學，2013，35（10）：25-35.

[3] 程苗.基于Hadoop的Web日志挖掘[J].計算機工程，2011，37（11）：37-39.

[4] 許抗震，吳云.基于Hadoop的網絡日志挖掘方案的設計[J].現代電子技術，2017，40（9）：115-120.

[5] 楊鋒英，劉會超.基于Hadoop的在線網絡日志分析系統研究[J].計算機應用與軟件，2014（8）：311-316.

[6] 姜開達，章思宇，孫強.基于Hadoop的校園網站日志系統的設計與實現[J].華東師范大學學報：自然科學版，2015（S1）：126-131.

[7] 魏玲.基于Bigtable與MapReduce的Apriori算法改進[J].計算機科學，2015，42（10）：208-210.

[8] 肖強，朱慶華.Hadoop環境下的分布式協同過濾算法設計與實現[J].現代圖書情報技術，2013（1）：83-89.