999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的網(wǎng)站流量日志數(shù)據(jù)分析系統(tǒng)的設計

2021-12-05 09:02:03來學偉
新一代信息技術 2021年17期
關鍵詞:頁面可視化分析

來學偉

(三門峽職業(yè)技術學院 信息傳媒學院,河南 三門峽 472000)

0 引言

近年來,隨著社會的不斷發(fā)展,海量數(shù)據(jù)的挖掘和運用越來越引起人們的重視,而互聯(lián)網(wǎng)是面向全社會的公眾平臺,逐漸成為了最便捷最有效的信息收集的渠道,隨著大數(shù)據(jù)技術越來越受到人們的關注,從互聯(lián)網(wǎng)平臺上收集到的信息為基于大數(shù)據(jù)的統(tǒng)計和挖掘提供了極大的便利[1]。

基于大數(shù)據(jù)技術進行的數(shù)據(jù)挖掘在企業(yè)決策中越來越受到重視。比如可以通過對某網(wǎng)站平臺的日志信息進行統(tǒng)計分析,進而獲得該平臺的每日訪問數(shù)量,進一步分析出該網(wǎng)站平臺受廣大網(wǎng)民的歡迎程度;也可以對某APP應用在某段時間內的下載次數(shù)進行統(tǒng)計分析,得到該APP所受歡迎的程度。甚至可以對其進行更深一步的分析挖掘,比如對下載的方式、時間段以及區(qū)域做進一步的數(shù)據(jù)分析挖掘,這樣就可以為企業(yè)的推廣、運營、分析及決策給予有效、可靠的參考數(shù)據(jù)[2]。

1 系統(tǒng)架構設計

在大數(shù)據(jù)開發(fā)中,首要任務是明確分析目的,即想要從大量數(shù)據(jù)中得到什么類型的結果,并進行展示說明[3]。明確了分析目的后,我們才能準確根據(jù)具體的需求去過濾數(shù)據(jù),并通過大數(shù)據(jù)技術進行數(shù)據(jù)分析和處理,最后把經(jīng)過分析的結構以圖表文字各種可視化的形式展示給客戶,利于客戶做出正確的決策。

我們使用Flume來采集網(wǎng)站平臺的Nginx服務器上的日志數(shù)據(jù)文件到分布式文件系統(tǒng) HDFS中去,接著依據(jù)采集到的數(shù)據(jù)日志文件的格式來開發(fā)設計MapReduce程序對數(shù)據(jù)進行預處理,然后使用Hive對數(shù)據(jù)進行分析,使用Sqoop工具把分析的結果導出到關系型的數(shù)據(jù)庫MySql中去,最終使用Web系統(tǒng)來實現(xiàn)可視化的數(shù)據(jù)。

2 數(shù)據(jù)采集

一般情況下,使用比較流行的Flume框架便可以滿足我們采集日志文件的需求,搭建 Flume采集系統(tǒng)也比較簡單[4],通過把 Agent節(jié)點部署在服務器上,來實現(xiàn)把采集來的日志數(shù)據(jù)匯集到分布式文件系統(tǒng)HDFS上來。核心參數(shù)的配置如下,通過Flume采集系統(tǒng)采集后的網(wǎng)站流量日志數(shù)據(jù)將會匯總到HDFS上進行保存。由于采集的日志數(shù)據(jù)內容較多,且樣式基本類似,用戶每訪問一次網(wǎng)站,就會留下一條訪問信息。

3 數(shù)據(jù)預處理

3.1 分析預處理的數(shù)據(jù)

一般情況下,不能直接對收集的日志文件進行數(shù)據(jù)分析,原因是有很多不合法的數(shù)據(jù)存在在日志文件之中,清洗掉無意義的、不合法的數(shù)據(jù)是數(shù)據(jù)預處理階段最重要的任務,其次就是把日志數(shù)據(jù)中的數(shù)據(jù)格式轉變成有利于后面數(shù)據(jù)分析時的規(guī)范的格式,依據(jù)需求,快速找出各種主題的相關數(shù)據(jù)。在數(shù)據(jù)預處理階段[5],主要目的就是對收集的原始數(shù)據(jù)進行清洗和篩選,使用MapReduce技術就可以輕松實現(xiàn)。在實際開發(fā)中,數(shù)據(jù)預處理過程通常不會直接把不合法的數(shù)據(jù)直接刪除,而是對每條數(shù)據(jù)添加標識字段,從而避免其他業(yè)務使用時丟失數(shù)據(jù)。除此之外,這次數(shù)據(jù)預處理僅僅是清洗無意義的數(shù)據(jù)和篩選不合法的數(shù)據(jù),并且會讀取每一行日志文件數(shù)據(jù)并且最后輸出一條數(shù)據(jù)信息,而不會再進行其他的操作,這樣在使用MapReduce進行處理時,只會涉及到Map階段。而不會涉及Reduce階段。在一般情況下,我們都默認ReduceTask值為1,因此在主運行函數(shù)中,我們必須設置 Job.setNumReduce-Tasks(0)。

3.2 實現(xiàn)數(shù)據(jù)的預處理

在數(shù)據(jù)處理環(huán)節(jié),需要使用MapReduce技術進行數(shù)據(jù)預處理,作用是將復雜且沒有具體格式的數(shù)據(jù)進行規(guī)范化[6]。因此我們使用Eclipse開發(fā)工具來創(chuàng)建一個Maven項目,添加相關的依賴,創(chuàng)建 JavaBean對象,封裝日志記錄,編寫MapReduce程序,執(zhí)行數(shù)據(jù)預處理,日志文件被最終采集到 HDFS上,我們需要將編寫好的MapReduce程序部署在 Hadoop集群所在的操作系統(tǒng)中,并定時執(zhí)行該程序,以及FileInputFormat要執(zhí)行的文件路徑也必須是HDFS文件路徑。程序執(zhí)行成功以后,需要到與之相對應的output目錄中去查找觀察part-m-00000結果文件。數(shù)據(jù)預處理是根據(jù)業(yè)務需求,生成符合業(yè)務邏輯的結果文件,因此不存在標準的程序代碼,我們可以根據(jù)自身需求去擴展MapReduce程序以解決實際的業(yè)務問題。

4 系統(tǒng)實現(xiàn)

4.1 數(shù)據(jù)倉庫的開發(fā)

(1)設計數(shù)據(jù)倉庫

通過對分析網(wǎng)站流量的項目的分析,我們把數(shù)據(jù)倉庫設計為星狀模型,把MapReduce清洗過的數(shù)據(jù)存儲到一張事實表ods_weblog_origin中,該表和原始數(shù)據(jù)的表產生對應關系,每個字段和數(shù)據(jù)也產生映射關系[7],盡管這個表記錄了所有的數(shù)據(jù),但是對于數(shù)據(jù)進行分析并不方便,為了把分析的數(shù)據(jù)進行細化,通常會對該表的數(shù)據(jù)進行加工,即分割原來的表中融合各種信息的數(shù)據(jù),得到新的字段,把這個表分接為寬表,這樣信息就更加完備,我們把事實表設計好以后,就可以根據(jù)需求來設計維度表了。因為該項目只設計了兩個字段,一個是日期,一個是平均 PV值。也可以根據(jù)需求對其進行擴展。比如訪客的地域維度、終端維度等多角度來實現(xiàn)數(shù)據(jù)分析。

(2)實現(xiàn)數(shù)據(jù)倉庫

ETL是將業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉換之后加載到數(shù)據(jù)倉庫維度建模后的表中的過程,目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。數(shù)據(jù)分析過程是在Hadoop集群上實現(xiàn)[8],主要通過Hive數(shù)據(jù)倉庫工具來實現(xiàn),因此需要將采集的日志數(shù)據(jù)經(jīng)過預處理后,加載到 Hive數(shù)據(jù)倉庫中,從而進行后續(xù)的分析過程。首先我們創(chuàng)建數(shù)據(jù)倉庫,然后創(chuàng)建表,導入數(shù)據(jù),生成明細表。

4.2 數(shù)據(jù)分析

數(shù)據(jù)倉庫建設好以后,用戶就可以編寫Hive SQL語句進行數(shù)據(jù)分析。在開發(fā)中需要哪些統(tǒng)計指標通常是由產品經(jīng)理提出,而且會不斷有新的統(tǒng)計需求產生,數(shù)據(jù)分析時常見的指標如下。

流量分析,指的是頁面點擊量,是衡量網(wǎng)站質量的主要指標,流量分析是指所有訪問者在指定時間內瀏覽網(wǎng)頁的次數(shù),在日志記錄中,一條數(shù)據(jù)就代表了一次點擊量。統(tǒng)計每一天的流量分析是較為常見的需求[9]。

人均瀏覽量分析,即人均瀏覽頁面數(shù),該指標具體反映了網(wǎng)站對用戶的黏性程度,簡單地說是用戶對該網(wǎng)站的興趣程度,頁面信息越吸引用戶,那么用戶就會跳轉更多的頁面。計算人均瀏覽量是通過總頁面請求數(shù)量除以去重人數(shù)得出。

4.3 數(shù)據(jù)導出

使用 Hive完成數(shù)據(jù)分析過程后,就要運用Sqoop將Hive中的數(shù)據(jù)導出到關系數(shù)據(jù)庫中,方便后續(xù)進行數(shù)據(jù)可視化處理。

4.4 日志分析系統(tǒng)報表展示

隨著數(shù)據(jù)分析流程的結束,接下來就是將關系數(shù)據(jù)庫中的數(shù)據(jù)展示在Web系統(tǒng)中,將抽象的數(shù)據(jù)圖形化便于非技術人員的決策與分析,我們可以采用ECHarts來輔助實現(xiàn)。

ECHarts是一款商業(yè)級數(shù)據(jù)圖表,基于JavaScript的數(shù)據(jù)可視化圖標庫,且兼容大部分瀏覽器,底層是基于Zrender,它包含了許多組件,如坐標系、圖例和工具箱等,并在此基礎上構建出折線圖、柱狀圖、散點圖、餅圖和地圖等,同時支持任意維度的堆積和多圖表混合展現(xiàn),展現(xiàn)效果功能強大。日志分析系統(tǒng)報表展示是一個純粹的JavaEE項目,我們采用SSM框架搭建,步驟如下:

Step.1創(chuàng)建項目,添加依賴。

Step.2編寫配置文件。

Step.3實現(xiàn)報表展示功能

Step.4創(chuàng)建持久化類,實現(xiàn) DAO層,實現(xiàn)Service層,實現(xiàn)Controller層,實現(xiàn)頁面功能,最后運行,查看效果。

5 結論

本文講解利用 Hadoop生態(tài)體系的技術解決實際問題,實現(xiàn)介紹系統(tǒng)框架流程,然后逐個講解各個模塊之間的實現(xiàn)方式[10],從數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)倉庫的設計、數(shù)據(jù)分析、數(shù)據(jù)導出以及最后可視化處理,詳細講解了系統(tǒng)的環(huán)境架構以及業(yè)務流程,使用 Hadoop生態(tài)體系相關技術完善本項目其他功能。對于大數(shù)據(jù)應用程序的開發(fā)有一定的借鑒意義。

猜你喜歡
頁面可視化分析
大狗熊在睡覺
刷新生活的頁面
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
隱蔽失效適航要求符合性驗證分析
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 亚洲国产天堂久久综合226114| 亚洲视频a| 爆操波多野结衣| 欧美成人二区| 国产成人91精品| 福利在线一区| v天堂中文在线| 日本道综合一本久久久88| 国产免费久久精品99re丫丫一| 日韩视频免费| 婷婷综合色| 国产成人一二三| 欧美在线黄| 91在线丝袜| 日韩色图区| 国产一区二区三区在线无码| 亚洲色图欧美视频| 少妇精品在线| 国产麻豆va精品视频| 亚洲综合婷婷激情| 欧美笫一页| 久久久久国色AV免费观看性色| 免费又爽又刺激高潮网址| 国产欧美网站| 久久影院一区二区h| 色哟哟国产精品一区二区| 国产国产人在线成免费视频狼人色| 一级不卡毛片| 国产超薄肉色丝袜网站| 波多野衣结在线精品二区| 一级毛片在线播放| 538国产在线| 中文国产成人久久精品小说| 免费Aⅴ片在线观看蜜芽Tⅴ | 2019年国产精品自拍不卡| 91精品最新国内在线播放| 久久香蕉国产线看观看精品蕉| 色婷婷在线影院| 九九热精品视频在线| 欧美激情伊人| 丁香亚洲综合五月天婷婷| 伊人天堂网| 欧美a在线视频| 久久人人爽人人爽人人片aV东京热 | 久久精品66| 国产h视频在线观看视频| 国产极品美女在线观看| 日本精品视频| 99一级毛片| 制服丝袜一区二区三区在线| 91麻豆精品国产高清在线| 中文无码毛片又爽又刺激| 欧美天堂在线| 熟妇无码人妻| 99在线观看国产| 2048国产精品原创综合在线| 欧美在线国产| 日韩高清中文字幕| 在线国产综合一区二区三区| 中文字幕人妻av一区二区| 最新痴汉在线无码AV| 亚洲天堂高清| 黄色污网站在线观看| 亚洲色图欧美| 久久精品丝袜| 国产精品午夜福利麻豆| 五月婷婷亚洲综合| 亚洲开心婷婷中文字幕| 欧美午夜在线观看| 中文字幕资源站| 国产情侣一区二区三区| 91麻豆精品国产91久久久久| 午夜日本永久乱码免费播放片| 亚洲91精品视频| 欧美伦理一区| 97视频免费看| 国产欧美又粗又猛又爽老| 国产精品综合色区在线观看| 亚洲欧美另类色图| 亚洲美女视频一区| 在线另类稀缺国产呦| 九月婷婷亚洲综合在线|