999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的網(wǎng)站流量日志數(shù)據(jù)分析系統(tǒng)的設計

2021-12-05 09:02:03來學偉
新一代信息技術 2021年17期
關鍵詞:頁面可視化分析

來學偉

(三門峽職業(yè)技術學院 信息傳媒學院,河南 三門峽 472000)

0 引言

近年來,隨著社會的不斷發(fā)展,海量數(shù)據(jù)的挖掘和運用越來越引起人們的重視,而互聯(lián)網(wǎng)是面向全社會的公眾平臺,逐漸成為了最便捷最有效的信息收集的渠道,隨著大數(shù)據(jù)技術越來越受到人們的關注,從互聯(lián)網(wǎng)平臺上收集到的信息為基于大數(shù)據(jù)的統(tǒng)計和挖掘提供了極大的便利[1]。

基于大數(shù)據(jù)技術進行的數(shù)據(jù)挖掘在企業(yè)決策中越來越受到重視。比如可以通過對某網(wǎng)站平臺的日志信息進行統(tǒng)計分析,進而獲得該平臺的每日訪問數(shù)量,進一步分析出該網(wǎng)站平臺受廣大網(wǎng)民的歡迎程度;也可以對某APP應用在某段時間內的下載次數(shù)進行統(tǒng)計分析,得到該APP所受歡迎的程度。甚至可以對其進行更深一步的分析挖掘,比如對下載的方式、時間段以及區(qū)域做進一步的數(shù)據(jù)分析挖掘,這樣就可以為企業(yè)的推廣、運營、分析及決策給予有效、可靠的參考數(shù)據(jù)[2]。

1 系統(tǒng)架構設計

在大數(shù)據(jù)開發(fā)中,首要任務是明確分析目的,即想要從大量數(shù)據(jù)中得到什么類型的結果,并進行展示說明[3]。明確了分析目的后,我們才能準確根據(jù)具體的需求去過濾數(shù)據(jù),并通過大數(shù)據(jù)技術進行數(shù)據(jù)分析和處理,最后把經(jīng)過分析的結構以圖表文字各種可視化的形式展示給客戶,利于客戶做出正確的決策。

我們使用Flume來采集網(wǎng)站平臺的Nginx服務器上的日志數(shù)據(jù)文件到分布式文件系統(tǒng) HDFS中去,接著依據(jù)采集到的數(shù)據(jù)日志文件的格式來開發(fā)設計MapReduce程序對數(shù)據(jù)進行預處理,然后使用Hive對數(shù)據(jù)進行分析,使用Sqoop工具把分析的結果導出到關系型的數(shù)據(jù)庫MySql中去,最終使用Web系統(tǒng)來實現(xiàn)可視化的數(shù)據(jù)。

2 數(shù)據(jù)采集

一般情況下,使用比較流行的Flume框架便可以滿足我們采集日志文件的需求,搭建 Flume采集系統(tǒng)也比較簡單[4],通過把 Agent節(jié)點部署在服務器上,來實現(xiàn)把采集來的日志數(shù)據(jù)匯集到分布式文件系統(tǒng)HDFS上來。核心參數(shù)的配置如下,通過Flume采集系統(tǒng)采集后的網(wǎng)站流量日志數(shù)據(jù)將會匯總到HDFS上進行保存。由于采集的日志數(shù)據(jù)內容較多,且樣式基本類似,用戶每訪問一次網(wǎng)站,就會留下一條訪問信息。

3 數(shù)據(jù)預處理

3.1 分析預處理的數(shù)據(jù)

一般情況下,不能直接對收集的日志文件進行數(shù)據(jù)分析,原因是有很多不合法的數(shù)據(jù)存在在日志文件之中,清洗掉無意義的、不合法的數(shù)據(jù)是數(shù)據(jù)預處理階段最重要的任務,其次就是把日志數(shù)據(jù)中的數(shù)據(jù)格式轉變成有利于后面數(shù)據(jù)分析時的規(guī)范的格式,依據(jù)需求,快速找出各種主題的相關數(shù)據(jù)。在數(shù)據(jù)預處理階段[5],主要目的就是對收集的原始數(shù)據(jù)進行清洗和篩選,使用MapReduce技術就可以輕松實現(xiàn)。在實際開發(fā)中,數(shù)據(jù)預處理過程通常不會直接把不合法的數(shù)據(jù)直接刪除,而是對每條數(shù)據(jù)添加標識字段,從而避免其他業(yè)務使用時丟失數(shù)據(jù)。除此之外,這次數(shù)據(jù)預處理僅僅是清洗無意義的數(shù)據(jù)和篩選不合法的數(shù)據(jù),并且會讀取每一行日志文件數(shù)據(jù)并且最后輸出一條數(shù)據(jù)信息,而不會再進行其他的操作,這樣在使用MapReduce進行處理時,只會涉及到Map階段。而不會涉及Reduce階段。在一般情況下,我們都默認ReduceTask值為1,因此在主運行函數(shù)中,我們必須設置 Job.setNumReduce-Tasks(0)。

3.2 實現(xiàn)數(shù)據(jù)的預處理

在數(shù)據(jù)處理環(huán)節(jié),需要使用MapReduce技術進行數(shù)據(jù)預處理,作用是將復雜且沒有具體格式的數(shù)據(jù)進行規(guī)范化[6]。因此我們使用Eclipse開發(fā)工具來創(chuàng)建一個Maven項目,添加相關的依賴,創(chuàng)建 JavaBean對象,封裝日志記錄,編寫MapReduce程序,執(zhí)行數(shù)據(jù)預處理,日志文件被最終采集到 HDFS上,我們需要將編寫好的MapReduce程序部署在 Hadoop集群所在的操作系統(tǒng)中,并定時執(zhí)行該程序,以及FileInputFormat要執(zhí)行的文件路徑也必須是HDFS文件路徑。程序執(zhí)行成功以后,需要到與之相對應的output目錄中去查找觀察part-m-00000結果文件。數(shù)據(jù)預處理是根據(jù)業(yè)務需求,生成符合業(yè)務邏輯的結果文件,因此不存在標準的程序代碼,我們可以根據(jù)自身需求去擴展MapReduce程序以解決實際的業(yè)務問題。

4 系統(tǒng)實現(xiàn)

4.1 數(shù)據(jù)倉庫的開發(fā)

(1)設計數(shù)據(jù)倉庫

通過對分析網(wǎng)站流量的項目的分析,我們把數(shù)據(jù)倉庫設計為星狀模型,把MapReduce清洗過的數(shù)據(jù)存儲到一張事實表ods_weblog_origin中,該表和原始數(shù)據(jù)的表產生對應關系,每個字段和數(shù)據(jù)也產生映射關系[7],盡管這個表記錄了所有的數(shù)據(jù),但是對于數(shù)據(jù)進行分析并不方便,為了把分析的數(shù)據(jù)進行細化,通常會對該表的數(shù)據(jù)進行加工,即分割原來的表中融合各種信息的數(shù)據(jù),得到新的字段,把這個表分接為寬表,這樣信息就更加完備,我們把事實表設計好以后,就可以根據(jù)需求來設計維度表了。因為該項目只設計了兩個字段,一個是日期,一個是平均 PV值。也可以根據(jù)需求對其進行擴展。比如訪客的地域維度、終端維度等多角度來實現(xiàn)數(shù)據(jù)分析。

(2)實現(xiàn)數(shù)據(jù)倉庫

ETL是將業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉換之后加載到數(shù)據(jù)倉庫維度建模后的表中的過程,目的是將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。數(shù)據(jù)分析過程是在Hadoop集群上實現(xiàn)[8],主要通過Hive數(shù)據(jù)倉庫工具來實現(xiàn),因此需要將采集的日志數(shù)據(jù)經(jīng)過預處理后,加載到 Hive數(shù)據(jù)倉庫中,從而進行后續(xù)的分析過程。首先我們創(chuàng)建數(shù)據(jù)倉庫,然后創(chuàng)建表,導入數(shù)據(jù),生成明細表。

4.2 數(shù)據(jù)分析

數(shù)據(jù)倉庫建設好以后,用戶就可以編寫Hive SQL語句進行數(shù)據(jù)分析。在開發(fā)中需要哪些統(tǒng)計指標通常是由產品經(jīng)理提出,而且會不斷有新的統(tǒng)計需求產生,數(shù)據(jù)分析時常見的指標如下。

流量分析,指的是頁面點擊量,是衡量網(wǎng)站質量的主要指標,流量分析是指所有訪問者在指定時間內瀏覽網(wǎng)頁的次數(shù),在日志記錄中,一條數(shù)據(jù)就代表了一次點擊量。統(tǒng)計每一天的流量分析是較為常見的需求[9]。

人均瀏覽量分析,即人均瀏覽頁面數(shù),該指標具體反映了網(wǎng)站對用戶的黏性程度,簡單地說是用戶對該網(wǎng)站的興趣程度,頁面信息越吸引用戶,那么用戶就會跳轉更多的頁面。計算人均瀏覽量是通過總頁面請求數(shù)量除以去重人數(shù)得出。

4.3 數(shù)據(jù)導出

使用 Hive完成數(shù)據(jù)分析過程后,就要運用Sqoop將Hive中的數(shù)據(jù)導出到關系數(shù)據(jù)庫中,方便后續(xù)進行數(shù)據(jù)可視化處理。

4.4 日志分析系統(tǒng)報表展示

隨著數(shù)據(jù)分析流程的結束,接下來就是將關系數(shù)據(jù)庫中的數(shù)據(jù)展示在Web系統(tǒng)中,將抽象的數(shù)據(jù)圖形化便于非技術人員的決策與分析,我們可以采用ECHarts來輔助實現(xiàn)。

ECHarts是一款商業(yè)級數(shù)據(jù)圖表,基于JavaScript的數(shù)據(jù)可視化圖標庫,且兼容大部分瀏覽器,底層是基于Zrender,它包含了許多組件,如坐標系、圖例和工具箱等,并在此基礎上構建出折線圖、柱狀圖、散點圖、餅圖和地圖等,同時支持任意維度的堆積和多圖表混合展現(xiàn),展現(xiàn)效果功能強大。日志分析系統(tǒng)報表展示是一個純粹的JavaEE項目,我們采用SSM框架搭建,步驟如下:

Step.1創(chuàng)建項目,添加依賴。

Step.2編寫配置文件。

Step.3實現(xiàn)報表展示功能

Step.4創(chuàng)建持久化類,實現(xiàn) DAO層,實現(xiàn)Service層,實現(xiàn)Controller層,實現(xiàn)頁面功能,最后運行,查看效果。

5 結論

本文講解利用 Hadoop生態(tài)體系的技術解決實際問題,實現(xiàn)介紹系統(tǒng)框架流程,然后逐個講解各個模塊之間的實現(xiàn)方式[10],從數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)倉庫的設計、數(shù)據(jù)分析、數(shù)據(jù)導出以及最后可視化處理,詳細講解了系統(tǒng)的環(huán)境架構以及業(yè)務流程,使用 Hadoop生態(tài)體系相關技術完善本項目其他功能。對于大數(shù)據(jù)應用程序的開發(fā)有一定的借鑒意義。

猜你喜歡
頁面可視化分析
大狗熊在睡覺
刷新生活的頁面
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
隱蔽失效適航要求符合性驗證分析
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 日韩精品成人在线| 毛片免费观看视频| 国产在线观看人成激情视频| 狠狠ⅴ日韩v欧美v天堂| 欧美区一区二区三| 91色老久久精品偷偷蜜臀| 欧美性猛交一区二区三区| 日韩精品毛片人妻AV不卡| 国产成人精品三级| 亚洲综合久久成人AV| 国产精品一线天| 怡红院美国分院一区二区| 亚洲第一综合天堂另类专| 99re视频在线| 在线观看视频99| 国产精品永久在线| 国产精品页| 日本三区视频| 国产无码精品在线播放| 国产成人1024精品下载| 一级毛片免费高清视频| 国产农村妇女精品一二区| 不卡午夜视频| 国产成人无码播放| 制服丝袜一区二区三区在线| 精品视频在线一区| 欧美 亚洲 日韩 国产| 九月婷婷亚洲综合在线| 天天婬欲婬香婬色婬视频播放| 国产精品自在线天天看片| 伊人色综合久久天天| 亚洲欧美另类专区| 欧洲成人免费视频| 色偷偷一区二区三区| 拍国产真实乱人偷精品| 亚洲色图欧美在线| 国模极品一区二区三区| 亚洲精品日产AⅤ| 国产亚洲美日韩AV中文字幕无码成人 | 美女毛片在线| 青草精品视频| 亚洲精品无码人妻无码| YW尤物AV无码国产在线观看| 一级做a爰片久久免费| 日韩欧美国产三级| 国产91小视频在线观看| 伊人AV天堂| 亚洲男人天堂网址| 不卡网亚洲无码| JIZZ亚洲国产| 在线视频一区二区三区不卡| 麻豆国产原创视频在线播放| 欧美在线三级| 永久天堂网Av| 欧美色综合久久| 欧美日韩成人在线观看| 99999久久久久久亚洲| 国产精品性| 欧美成人综合视频| 久久大香香蕉国产免费网站| 国产成人免费观看在线视频| 91色国产在线| 伊人成人在线视频| 色成人亚洲| 亚洲国产综合自在线另类| 人人91人人澡人人妻人人爽| 亚洲精品视频免费看| 日韩视频免费| 超清人妻系列无码专区| 久久午夜影院| 久久亚洲精少妇毛片午夜无码| 日本三区视频| 中文字幕一区二区视频| 欧美日韩亚洲国产主播第一区| 国产自在自线午夜精品视频| 欧美有码在线| 欧美日韩北条麻妃一区二区| 午夜免费小视频| 色综合天天综合| 激情综合婷婷丁香五月尤物 | 国产精品第| 狠狠色丁香婷婷|