999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop平臺的用戶行為挖掘

2015-09-09 18:13:05曾志浩姚貝張瓊林孫琪
計算技術與自動化 2015年2期
關鍵詞:數據庫用戶實驗

曾志浩+姚貝+張瓊林+孫琪

摘?要:隨著互聯網發展帶來的數據爆炸,使得Web日志的數據量也越來越大,如何從海量的Web日志中挖掘有價值的信息成為了目前研究的熱點。本文提出了基于Hadoop集群框架對Web日志進行挖掘。實驗結果表明,該集群系統既可以處理海量的web日志,同時也能夠挖掘出有價值的信息,并證實了利用sqoop在Hive倉庫和傳統數據庫之間數據遷移的可行性。

關鍵字:Web日志;Hadoop;Sqoop;Hive;數據遷移

中圖分類號:TP391?????????????????????????文獻標識碼:A

User?Behavior?Mining?Based?on?Hadoop?platform

Zeng?Zhihao,Yao?Bei,?Zhang?Qionglin,Sun?Qi

(School?of?Computer?and?Communication,?Hunan?University?of?Technology,?HuNan?Zhuzhou??412000,?China)

Abstract:?As?rapid?development?of?Internet?brings?the?data?explosion,make?web?log?data?is?becoming?bigger?and?bigger,?How?from?huge?amounts?of?Web?log?mining?valuable?information?become?the?focus?of?the?present?study.This?paper?presents?based?on?the?Hadoop?cluster?framework?for?Web?log?mining.Experimental?results?show?that,?this?cluster?system?can?processing?massive?web?log?data?,Also?its?can?be?mining?valuable?information.?And?confirmed?the?feasibility?the?data?migration?between?Hive?warehouse?and?traditional?database?by?use?sqoop.

Key??words?:?Web?log?;?Hadoop?;?Sqoop?;?Hive?;?Data?migration

1?引言

互聯網的快速發展,使得Web日志數據呈現出爆炸式的增長,這些海量的Web數據中蘊含了大量的信息,這些信息對企業而言是一筆巨額的財富,企業的發展需要這些數據提供更好的戰略決策支持,因此對這些數據具有極大地挖掘需求;這使得從海量的Web數據中挖掘有用的信息成為了目前研究的熱點,同時大規模的計算能力成為Web數據挖掘技術能否有效實現的外部需求[1]。

針對海量數據處理出現的技術問題,以Hadoop[2]為代表的新技術得到了國內外科技工作者的極大關注;Hadoop平臺的最大優勢是它實現了“計算靠近存儲”的思想[3],此思想省去了海量數據網絡傳輸的這一大開銷,大大減少了數據處理時間,同時其并行化的數據處理方式非常適用于處理海量數據。

針對Hadoop分布式處理海量數據的優勢,國內外一些學者紛紛對Hadoop平臺進行了相關研究,文獻[4]基于Hadoop平臺,實現了對Web數據的并行化處理,提高了數據運行處理時間;文獻[5]通過基于Hadoop平臺,設計了一個用于處理海量搜索日志的分析平臺;文獻[1,?6]基于Hadoop平臺進行了Web日志挖掘實驗,并證實了Hadoop平臺的可用性。

本文基于Hadoop平臺首先對Web日志進行了數據清洗,根據數據挖掘的具體需要,過濾冗余、異常或者與挖掘目的無關的信息,然后通過HIVE數據倉庫分析用戶行為的關鍵指標,對Web日志數據進行用戶行為挖掘,利用MySQL進行挖掘結果展示,同時利用了sqoop[7]組件在關系型數據庫與非關系型數據庫進行了數據遷移。

2?相關技術介紹

Hadoop是Apache軟件基金會旗下的一個分布式計算平臺。以Hadoop分布式文件系統(Hadoop?Distributed?File?System,HDFS)和MapReduce[8](Google?MapReduce的開源實現)為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構[2]。

對于Hadoop的文件系統HDFS具有高容錯性的特點,它可以設計部署在低廉的硬件上,同時它可以通過提供高吞吐率來訪問應用程序的數據。

MapReduce是一種編程模型,用于大規模數據集的并行運算,它主要以對數據進行映射(Map)、化簡(Reduce)來實現計算,即MapReduce在執行時先指定一個Map(映射)函數,把輸入鍵值對映射成一組新的鍵值對,經過一定處理后交給Reduce,Reduce對相同Key下的所有value進行處理后再輸出鍵值對作為最終的結果。

Hive[9]是一個基于Hadoop文件系統之上的數據倉庫架構,它為數據倉庫的管理提供了許多功能:數據ETL(抽取、轉換和加載)工具、數據存儲管理和大型數據集的查詢和分析能力;同時Hive定義了類SQL的語言—Hive?QL。

HBase是一種NoSQL存儲數據庫,它可以用來快速隨機讀寫大規模數據,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價機器上搭建起大規模結構化存儲集群[10]。HBase利用HDFS作為其文件存儲系統,利用MapReduce來處理HBase中的海量數據,利用Zookeeper作為協調工具。

Zookeeper是Google的Chubby一個開源的實現,是一個為分布式應用所設計的開源協調服務,它包含一個簡單的原語集,分布式應用程序可以基于它實現同步服務、配置維護和命名服務等;用戶可以使用Zookeeper提供的接口方便地實現一致性、組管理、leader選舉及某些協議,同時Zookeeper不僅可以為單機提供服務,同時也支持多機組成集群來提供服務。

Sqoop[7]是“SQL?to?Hadoop”的縮寫,是一款用于在Hadoop系統和結構化數據存儲系統間進行數據交換的軟件,它可以用于將傳統數據庫(如MySQL、Oracle)中的數據導入HDFS由MapReduce程序或Hive工具使用,并支持將處理后的結果數據導出到傳統關系型數據庫中[11]。

3用戶行為挖掘的關鍵指標介紹

瀏覽量PV:頁面瀏覽量即為PV(Page?View),是指所有用戶在該網站瀏覽頁面的總和,一個獨立用戶每打開一個頁面就被記錄1次;對于網站總瀏覽量,其可以作為考核用戶對于網站的興趣。同時對于網站運營者來說,更重要的是網站每個欄目下的瀏覽量。

注冊用戶數:每一天網站新注冊的用戶人數;運營者通過對注冊用戶數分析可以查看出網站推廣狀況。

IP數:一天之內,訪問網站的不同的獨立IP?個數總和;其中同一IP無論訪問了幾個頁面,獨立IP?數均為1。

跳出率:只瀏覽了一個頁面便離開了網站的訪問次數占總的訪問次數的百分比,即只瀏覽了一個頁面的訪問次數?/?全部的訪問次數匯總;跳出率是非常重要的訪客黏性指標,它顯示了訪客對網站的興趣程度,即跳出率越低說明流量質量越好,訪客對網站的內容越感興趣,這些訪客越可能是網站的有效用戶、忠實用戶;該指標也可以衡量網絡營銷的效果,指出有多少訪客被網絡營銷吸引到宣傳產品頁或網站上之后,又流失掉的人數。

4用戶行為挖掘的平臺設計

日志采集模塊:負責將各個前端web服務器中的日志傳送到日志接收節點上。這里可以采用每天定時的將各個服務器中的日志傳送到接收節點。對于日志服務器數據較小時,接收節點可以通過shell命令直接將日志數據上傳到HDFS中;如果日志服務器非常多,數據量大時,可使用flume進行數據處理。

日志清洗模塊:通過Hadoop的編程框架MapReduce對上傳到HDFS的原始數據進行清洗;具體工作可分為兩個階段:Map階段和Reduce階段。這兩個階段分別用兩個函數來表示,即Map函數和Reduce函數。Map函數接收一個<key,value>形式的輸入,然后產生同樣為<key,value>形式的中間輸出,Hadoop會負責將所有具有相同中間key值的value集合到一起傳遞給Reduce函數,Reduce函數接收一個如<key,(list?of?values)>形式的輸入,然后對這個value集合進行處理并輸出結果,Reduce的輸出也是<key,value>形式的。

分別將三個<key,value>對標記為<k1,v1>、<k2,v2>、<k3,v3>,以上數據處理流程可用圖1表示:

圖1??MapReduce程序數據變化的基本模型

查詢分析模塊:將清洗后的數據導入到Hive中,使用Hive對清洗后的數據進行多維分析;并且將Hive返回的查詢結果以某種形式表現出來,供用戶查看。用戶可在瀏覽器客戶端上輸入或選擇需要查詢的內容。

結果顯示模塊:使用Sqoop將Hive中產生的分析結果導出到MySQL數據庫中;如果用戶需要查看詳細數據,可以使用HBase數據庫進行展示。

圖2所示的是整個系統的架構圖。

圖2??系統架構圖

5實驗結果分析

為了測試系統,我們在測試平臺上做了實驗,分別利用幾組大小不同的數據分別在單機情況下和在集群情況下進行了數據清洗時間消耗測試。

1?實驗環境。本測試平臺實驗環境中,單機配置為:處理器類型,Intel(R)?Core(TM)2?Duo?CPU?E7500?@2.93GHz,內存容量為2GB。集群配置是由三臺與單機配置相同的服務器組成,其中,一臺服務器是主節點,另外兩臺服務器是從節點;同時使用了Zookeeper組件對集群進行了協調服務管理。在集群中所有的服務器都運行在CentOS-6.4操作系統上,同時每臺服務器均安裝了hadoop-1.1.2和jdk-6u24-linux-i586和zookeeper-3.4.5,在三臺服務器中,主節點安裝了Hive-0.9.0、MySQL數據庫和Sqoop-1.4.3.bin_hadoop-1.0.0。本實驗通過配置Eclipse的Hadoop應用開發環境進行程序開發的。

2?實驗數據及內容。本實驗的數據來自于某論壇服務器上的日志數據。實驗通過對論壇日志數據處理分析,來計算論壇關鍵指標,即瀏覽量、注冊用戶數、IP數、跳出率,最后通過對關鍵指標分析,進行用戶行為挖掘,將挖掘結果提供給運營者運營決策。

實驗一 通過五組不同數據量大小的日志作為輸入,并統計出每組分別在Hadoop集群和傳統的基于單機模式下的數據清洗所消耗的時間,其結果如圖3所示。

圖3??單機與集群對比

實驗二 分別在集群計算節點為1、2、3時對同一個Web日志進行數據清洗處理,并分別統計數據清洗所消耗的時間;其結果如圖4所示。

圖4??節點個數不同對執行時間的影響

3?實驗結果分析。通過實驗一結果分析,我們可以知道,如果數據量小于40M時,Hadoop集群無法發揮其分布式處理海量數據的優勢,甚至其所消耗的時間大于單機處理所消耗的時間。但是,當要處理的日志數據達到50M以上時,Hadoop集群的并行化處理優勢會隨著數據量的增加而顯示出來。通過實驗二結果分析可知,對于同一數據量,隨著集群中計算節點的數量增加,數據清洗所消耗的時間明顯減少。

6結論

針對目前單機環境下無法處理海量Web數據的問題,本文提出了基于Hadoop平臺的集群環境下處理海量Web數據的問題,利用Hadoop集群的并行化處理海量數據的優勢,解決了單機模式下數據處理效率低下且無法解決海量數據的問題。本文通過利用Hadoop集群環境,對Web日志數據進行了相關數據清洗,得到運營者需求的關鍵指標;同時利用sqoop組件在Hive數據倉庫和Mysql數據庫中進行數據遷移,大幅度提高了數據遷移效率,同時對處理關系型數據庫中的數據向非關系型數據庫中的數據遷移提供了一定參考價值。

參考文獻

[1]?李彬,劉莉莉.基于?MapReduce?的?Web?日志挖掘[J].計算機工程與應用,2012,48(22):?95-98.

[2]?陸嘉恒.?Hadoop?實戰[M].北京:機械工業出版社,2012:2-7.

[3]?朱湘,金松昌,賈焰.?一種基于?Hadoop?平臺的海量?Web?數據挖掘系統研究與實現[C]//張新生.中國通信學會--第九屆中國通信學會學術年會論文集.?北京:北京郵電大學出版社,2012:72-76.

[4]?顧濤.?基于?Hadoop的Web信息提取和垃圾信息過濾研究與實現[D].?成都:電子科技大學,2012.

[5]?趙龍.?基于hadoop的海量搜索日志分析平臺的設計和實現[D].?大連:大連理工大學,2013.

[6]?程苗,陳華平.基于Hadoop的Web日志挖掘[J].計算機工程,2011,37(11):37-39.

[7]?Ting?K,?Cecho?J?J.?Apache?Sqoop?Cookbook[M].?"?O'Reilly?Media,?Inc.",?2013.

[8]?Dean?J,?Ghemawat?S.?MapReduce:?simplified?data?processing?on?large?clusters[J].?Communications?of?the?ACM?,2008,?51(1):?107-113.

[9]?Thusoo?A,?Sarma?J?S,?Jain?N,?et?al.?Hive:?a?warehousing?solution?over?a?map-reduce?framework[J].?Proceedings?of?the?VLDB?Endowment,?2009,?2(2):?1626-1629.

[10]?George?L.?HBase:?the?definitive?guide[M].?"?O'Reilly?Media,?Inc.",?2011.

[11]?陸嘉恒.?大數據挑戰與NoSQL數據庫技術[M].?北京:電子工業出版社,2013.

猜你喜歡
數據庫用戶實驗
記一次有趣的實驗
做個怪怪長實驗
數據庫
財經(2017年2期)2017-03-10 14:35:35
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數據庫
財經(2016年15期)2016-06-03 07:38:02
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 成人毛片免费观看| 亚洲乱码视频| 成人午夜久久| 亚洲成人福利网站| 国产成人综合网| 亚洲成人黄色在线| 国产美女精品在线| 国产视频a| 国产成人综合亚洲欧洲色就色| 亚洲欧美一区二区三区麻豆| 久久青青草原亚洲av无码| 91美女视频在线| 欧美成一级| 激情视频综合网| 免费毛片视频| 97视频免费看| 久久成人免费| www.91在线播放| 亚洲中文久久精品无玛| 亚洲精品欧美日韩在线| 找国产毛片看| 久久成人免费| 欧美激情网址| 五月天久久综合国产一区二区| 国产资源站| 欧美午夜网| 国产精品爆乳99久久| jizz在线免费播放| 亚洲欧美国产五月天综合| 国模极品一区二区三区| 国产成人免费观看在线视频| 亚洲男人天堂2020| 免费人成网站在线观看欧美| 国产精品一区二区在线播放| 日韩A∨精品日韩精品无码| 国产chinese男男gay视频网| 91免费片| 六月婷婷精品视频在线观看| 亚洲综合色婷婷| 国产精品嫩草影院视频| 亚洲人成色77777在线观看| 精品人妻系列无码专区久久| 无码啪啪精品天堂浪潮av| 精品91视频| 亚洲国产成人麻豆精品| 亚洲免费播放| 久久性视频| 亚洲人成网站色7777| 免费人成在线观看成人片| 91福利国产成人精品导航| 国产在线拍偷自揄观看视频网站| 日本三级精品| 国产成人精品无码一区二| 免费在线a视频| 国产尤物jk自慰制服喷水| 亚洲无码高清免费视频亚洲 | 国产午夜看片| 国产色伊人| 91亚洲视频下载| 亚洲无码视频一区二区三区| 日本亚洲成高清一区二区三区| 97久久精品人人做人人爽| 毛片久久网站小视频| 人人爽人人爽人人片| 99热这里只有精品2| 国产欧美视频综合二区| 在线视频精品一区| 一本大道香蕉高清久久| 欧美亚洲欧美| av在线5g无码天天| 国产亚洲精久久久久久无码AV| 九一九色国产| 在线a视频免费观看| 国产成人精品一区二区三区| 在线毛片网站| 国产精品久久久久久久久kt| 97se亚洲综合在线韩国专区福利| 狠狠色综合网| 亚洲国产成人久久精品软件| 国产精品区网红主播在线观看| 国产91色在线| 超清无码一区二区三区|