999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop實(shí)現(xiàn)點(diǎn)擊流日志的數(shù)據(jù)清洗

2018-05-09 02:52:16
無線互聯(lián)科技 2018年9期
關(guān)鍵詞:排序用戶

趙 鑫

(遼寧行政學(xué)院人事處,遼寧 沈陽 110161)

1 數(shù)據(jù)倉庫和Web

互聯(lián)網(wǎng)極大地促進(jìn)了商業(yè)的發(fā)展,每個(gè)電子商務(wù)企業(yè)都有自己的Web入口和后臺系統(tǒng),用戶在網(wǎng)站頁面上產(chǎn)生一個(gè)訂單時(shí),Web和后臺系統(tǒng)就發(fā)生一次交互,交易請求數(shù)據(jù)被存在后臺數(shù)據(jù)庫中,對于這類結(jié)構(gòu)化的數(shù)據(jù),使用Hadoop Hive的HQL即可實(shí)現(xiàn)數(shù)據(jù)的清洗。每當(dāng)用戶在頁面進(jìn)行點(diǎn)擊而跳轉(zhuǎn)到另外一個(gè)頁面時(shí),一條點(diǎn)擊流日志就產(chǎn)生了,如圖1所示。點(diǎn)擊流日志是了解用戶心理傾向的關(guān)鍵,通過它企業(yè)能夠更好地理解產(chǎn)品及營銷,但點(diǎn)擊流日志是非結(jié)構(gòu)化數(shù)據(jù),不能直接被用于分析,它記錄了很多不需要的信息,將這些信息裝載到數(shù)據(jù)倉庫前,必須對點(diǎn)擊流日志進(jìn)行數(shù)據(jù)清洗,粒度管理器能夠完此項(xiàng)任務(wù),粒度管理器主要完成清除無關(guān)數(shù)據(jù),清除錯(cuò)誤數(shù)據(jù),記錄合、匯總與聚集。經(jīng)過這些處理,80%~90%的數(shù)據(jù)被粒度管理器拋棄,清洗后的數(shù)據(jù)被傳遞給數(shù)據(jù)倉庫[1]。其工作流程如圖2所示。

圖1 Web和點(diǎn)擊流

2 點(diǎn)擊日志流數(shù)據(jù)清洗處理流程

點(diǎn)擊流日志由日志收集服務(wù)器每天定期上傳至分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)的指定目錄,經(jīng)過MapReduce作業(yè)清洗后輸出至HDFS指定的目錄,最后再由Hive將清洗后的數(shù)據(jù)加載到Clickstream_log表中指定的分區(qū),完成點(diǎn)擊流日志的數(shù)據(jù)清洗工作[2]。其流程如3所示。

圖2 粒度管理器工作流程

圖3 點(diǎn)擊流日志的數(shù)據(jù)清洗處理流程

3 從點(diǎn)擊流日志獲取重要信息的字段構(gòu)成

點(diǎn)擊流日志數(shù)據(jù)的體量巨大,但價(jià)值密度很低,下面為一條標(biāo)準(zhǔn)的Apache服務(wù)器日志信息[3]。

Clickstream_log表中主要字段如表1所示,其字段對map reduce任務(wù)產(chǎn)生影響。

表1 Clickstream_log表中主要字段

在Clickstream_log表中,除Csvp字段外,其他的字段可以在map函數(shù)中直接獲取,但Csvp必須經(jīng)過reduce函數(shù)才能獲得,如同一個(gè)用戶在同一個(gè)session中有兩條點(diǎn)擊流記錄,receive Time分別是1413482169623和1413482169642,那么這兩條記錄的Csvp分別為1和2,有了這個(gè)字段,才能完整得到用戶在網(wǎng)站的點(diǎn)擊行為[4-6]。

4 Csvp排序流程

為了對Csvp進(jìn)行排序,首先對map的key進(jìn)行了重構(gòu),session id 由unqiue id和session time合成而成,其中經(jīng)典的流程如圖4所示。

圖4 將session id作為鍵值輸出的mapreduce排序流程

5 Reducer重要代碼部分解釋

其執(zhí)行代碼為map/reduce/partion/二次排序等,主要部分如下:

6 結(jié)語

點(diǎn)擊流日志的數(shù)據(jù)清洗,代表了一種非結(jié)構(gòu)化數(shù)據(jù)清洗的方式。當(dāng)擁Clickstream_log表后,意味著數(shù)據(jù)倉庫又多了一份寶貴資產(chǎn),可以通過Clickstream_log表進(jìn)行網(wǎng)站的分析,更好地維護(hù)網(wǎng)站,增加網(wǎng)站瀏覽量。網(wǎng)站運(yùn)營商根據(jù)不同用戶的瀏覽行為和習(xí)慣可以對現(xiàn)有網(wǎng)站進(jìn)行改進(jìn)和優(yōu)化,尤其對從事電子商務(wù)的企業(yè),通過點(diǎn)擊流日志可以更多地了解用戶的消費(fèi)心理,深刻地理解產(chǎn)品、營銷和廣告是如何對用戶產(chǎn)生影響的。日志分析在企業(yè)發(fā)展中將越來越重要,從日志中將挖掘出大量重要信息。

[參考文獻(xiàn)]

[1]楊丕仁.基于Hadoop下利用Hive進(jìn)行網(wǎng)絡(luò)日志存儲和分析[J].電子技術(shù)與軟件工程,2017(2):163-165.

[2]蔣煥亮.基于hive的日志倉庫構(gòu)建研究[J].計(jì)算機(jī)時(shí)代,2016(11):21-24.

[3]張俊瑞,代洋.基于Hadoop平臺的Web日志業(yè)務(wù)分析[J].山西電子技術(shù),2017(6):71-73.

[4]宋夢馨,繆紅萍,王溯,等.基于Hadoop平臺的網(wǎng)站日志分析[J].信息系統(tǒng)工程,2015(12):35-36.

[5]陸嘉恒.大數(shù)據(jù)挑戰(zhàn)NoSQL數(shù)據(jù)庫技術(shù)[M].北京:電子工業(yè)出版社,2013.

[6]范東來.Hadoop海量數(shù)據(jù)處理技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn)[M].北京:人民郵電出版社,2016.

猜你喜歡
排序用戶
排排序
排序不等式
恐怖排序
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 亚洲国内精品自在自线官| 亚洲欧美在线综合图区| 在线精品自拍| 亚洲国产成人综合精品2020 | 精品久久久久久久久久久| 久久国产高清视频| 国产九九精品视频| 在线免费亚洲无码视频| 中文国产成人久久精品小说| 四虎影视国产精品| 99精品热视频这里只有精品7| 欧美亚洲综合免费精品高清在线观看| 亚洲va视频| 亚洲欧洲自拍拍偷午夜色无码| 2020极品精品国产| 亚洲精品视频免费看| 88国产经典欧美一区二区三区| 欧美一区二区福利视频| 国产精品v欧美| 久久人妻xunleige无码| 无码中文字幕加勒比高清| 激情综合网址| 久久国产毛片| 亚洲91精品视频| 欧美成人看片一区二区三区| 亚洲国产成人精品无码区性色| 2020国产精品视频| 免费精品一区二区h| 久久精品国产国语对白| 亚洲成人精品在线| 国产制服丝袜91在线| 免费AV在线播放观看18禁强制| 日本道综合一本久久久88| 激情五月婷婷综合网| 日韩少妇激情一区二区| 亚洲第一区精品日韩在线播放| 日本一本在线视频| 欧美日本在线播放| 成年人视频一区二区| 99精品伊人久久久大香线蕉| 国产在线自乱拍播放| 欧美日一级片| 永久免费无码日韩视频| 国产亚洲高清视频| 亚洲综合中文字幕国产精品欧美 | 视频在线观看一区二区| 亚洲天堂在线免费| 91精品国产情侣高潮露脸| 国产激爽大片高清在线观看| 国产毛片基地| 亚洲第一色网站| 亚洲欧美成人在线视频| 国产成人AV大片大片在线播放 | 91成人试看福利体验区| 国产99视频免费精品是看6| 九色免费视频| 久久精品波多野结衣| 国产亚洲精品97在线观看| 2048国产精品原创综合在线| 欧美日本一区二区三区免费| 国产高清在线精品一区二区三区| 丁香六月激情综合| 无码国产偷倩在线播放老年人 | 久久狠狠色噜噜狠狠狠狠97视色 | 国产一级毛片在线| 国产h视频免费观看| 久久亚洲黄色视频| 欧美一道本| 国产欧美日韩综合在线第一| 99热这里只有精品5| 国产午夜在线观看视频| 国产亚洲男人的天堂在线观看 | 亚洲天堂2014| 日本欧美成人免费| 日韩二区三区无| 国产一区成人| 国产精品成人一区二区不卡| 福利视频一区| 三上悠亚一区二区| 国产探花在线视频| 欧美精品三级在线| 草逼视频国产|