999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分布式Web應用的大數據日志分析方法研究

2019-03-25 08:01:52孫魯淼
電腦知識與技術 2019年3期
關鍵詞:數據分析

孫魯淼

摘要:該文首先研究并使用了Flume集群將Web應用集群所產生的日志進行匯總,使用Flume內部組員Source來關聯Web應用所產生的原始日志文件,并通過設計Channel管道供其進行數據傳輸,使用Sink來綁定其輸出目的地;其次,搭建Hadoop集群并使用其內部組件HDFS來持久化Flume集群所匯總的日志數據,最后設計并搭建了基于Hive的數據倉庫,依據Web應用所產生日志的數據格式,將HDFS中的原始日志數據灌入到原始數據表中,使用HiveQL對其進行分析。對網站的多維度PageView、訪客的來源統計、用戶關鍵路徑轉化進行了多維度且詳細的數據分析。通過該文所設計并實現的數據分析實例,證明了大數據日志分析平臺的可用性,解決了一般Web應用集群數據分析所難以克服的問題。

關鍵詞:Flume;Hadoop;Hive;數據分析

中圖分類號:TP311? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2019)03-0016-04

Abstract: Firstly, this paper researched and used Flume cluster to aggregate the logs generated by Web application cluster, using Flume internal group member Source to correlate the original log files generated by Web application, and design Channel pipeline for data transmission, use Sink to bind its output destination; secondly, this paper builded a Hadoop cluster and used its internal component HDFS to persist the log data collected by the Flume cluster, HDFS is a distributed file storage system, so it can support the massive log data generated by the Web application cluster of the system. Finally, a Hive-based data warehouse is designed and built according to the log generated by the web server, and was analyzed by HiveQL. the multi-dimensional PageView of the website, the source statistics of visitors, and the transformation of user critical path are analyzed in detail. Through the data analysis example designed and implemented in this paper, the usability of the large data log analysis platform is proved, and the problems that cannot be overcome by the general Web application cluster data analysis are solved.

Key words: Flume; Hadoop; Hive; data analysis

1 引言

近幾年來,各種類型的網站涌現出來,包括互動網站、內容網站、個人網站、電子商務網站等。其中有多種類型的擁有獨立數據中心的網站,這些網站是獨立的信息系統,增長的速度非常快[1]。該龐大的信息系統的特點是持續增加的信息量和不斷變化的內容,它是由訪問信息、超鏈接和各種文檔構成。

當用戶彼此交互時,經常有不同的關于信息及內容的選擇。人們都期待著基于自己的愛好定制個性化的服務,依據自己的興趣確定網站內容和網站風格。因而,人們開始思考研究,怎么樣提升網站的管理和設計水平,怎么樣知道用戶的愛好,統計用戶想知道的信息,并定制各用戶信息[2-4]。要想解決此類問題,數據挖掘技術[5]成為較為常用的方法之一,由于信息網絡非常龐大,人們想了解的知識及內容可以由分析人員通過信息挖掘獲得。并且,信息挖掘是一個非常具有挑戰性的工作,因為信息擁有動態性、龐大性、非結構化等特性[6-7]。

互聯網上的信息眾多,超出用戶所需,據統計,用戶所產生的大部分信息是無用的,日志挖掘需要重視的關鍵在于如何解決此項問題。挖掘內容的方向是以用戶瀏覽的網頁為基礎,提取出數據分析師所需要的文本信息。結構挖掘的目的是從用戶所訪問的超鏈接結構中提取出數據分析所必要的信息。使用挖掘的目標是指從日志內搜索出用戶的訪問模式,這種模式或可測,或固定[8-9]。挖掘互聯網應用日志的數據,是本文研究的重點,Web應用日志內包含了大量可進行分析的數據,其包含了網站相關的所有訪問數據[10]。因此,對Web應用日志進行數據挖掘可以更加深入的理解用戶的需求。

2 大數據日志分析平臺的設計與實現

2.1 平臺需求分析

大數據分析平臺功能主要需求如下:

(1)對于平臺的分析和計算功能,以及對其儲存數據空間而言,日志數據的快速上升是極具挑戰性的。

(2)如果平臺服務器的日志采用不同的格式,當下平臺采用的分析方法無法發揮價值。

(3)隨著社會需求的增加,網頁工程師要編寫的有關數據分析的程序越來越多。這一大的工作量導致平臺的分析程序面臨調度,操作和維護等多方面的挑戰。

本文中所提出的方案基于Hadoop和Hive架構,功能如圖1所示。解析日志數據通常是由四個層面組成,分別是收集層、儲存層、解析層和調度操作層。其中,收集層是一種引擎,其形成的前提條件有兩種,即必須要具備Flume的數據收集和MapReduce數據處理引擎。而儲存層的主要作用時啟動shell,同時其發揮作用也需要有HDFS所收集的日志數據和文件。解析層就是指對Hive的日志進行解釋和說明的引擎。調度操作層,其主要的功能是能夠讓用戶發出的任務信號得到及時的回應,順利進行操作。

2.2 日志采集與存儲模塊設計與實現

Flume作為一個分布式收集日志信息的系統,不僅可以借助Hadoop來完成有關數據的各類發送器的完善工作,還可以在對所采集到的數據進行初步處理后,順利的發送給有需要的接收者。在Flume的收集某一確定日志數據的工作中,Agent代理發揮著輔助性作用。而它的內部結構主要是由以下三個組件形成,即Source、Channel和Sink。其中第一個組件主要發揮收集數據源的作用;第二個則發揮臨時性的存儲作用;第三個則主要是用來將數據發送到確定的數據庫。三者的相互關系詳見圖2。

在規模文件的處理上,Flume具有顯著的優勢。第一、因為系統內部是一個并行式的構造,其可靠性強。如果某一個節點上發生問題,它可以快速地將數據傳輸到其他節點,保留現有數據。除此之外,由三個級別內在結構為系統提供保障,包括end-to-end、store-on-failure和best-effort。第二、Flume內部采用了由Agent、Collector和Storag組成的體系結構,因此,其控制性較強。

2.3 數據分析模塊設計與實現

數據的查詢、處理以及儲存模塊均在集群系統當中。但在實際的部署過程中,Hive往往是處在Hadoop的主節點上,即在NameNode上。

查詢模塊的作用以下三種:第一,對所獲取的日志數據進行結構化處理發送至儲存系統,同時在數據庫表中反映出相關數據。第二、接收用戶請求,為其進行查詢提供幫助。第三、把對所得到的結果進行反映和返回。

Hive在進行數據導入工作時,往往將其已有的數據按照HiveQL的邏輯對數據進行處理。例如,如何將表或分區映射到實際的目錄或文件中。同時,保障元存儲數據的高效率查詢以及其可信性也十分重要。如前所述,元數據信息中含有很多重要的信息因素,包括表格、英文字母、行列等。而這些信息在訪問Hive的過程中發揮關鍵性作用,即元數據在Hive中的起等同于目錄的作用。所以,如果元數據具有強大的可靠性和準確性,對提高系統查詢和儲存效率具有至關重要的作用。

Hive的運作非常依賴元存儲信息,只有元存儲信息的基礎上,Hive才能將文件發送到HDFS。因此,必須要對該類信息進行備份。我們在系統中設計了備份器。由于系統處理的是大規模的數據,我們要充分考慮備份服務器的空間大小。在設計時需要保持備份服務器的空間與集群中的主節點的相對應。除此之外,因為備份服務器不參與節點操作過程,因此在計算集群大小時,我們不考慮該服務器。

當用Hive來處理所有數據時,它會將數據發送到/user/hive/warehouse中進行儲存,形式各不相同。表作為基本模型,一般情況下會被存儲到user/hive/warehouse目錄中。比如說,如果創建一個新的表,命名為test,表中的數據將存儲在/user/hive/warehousr/test目錄下。

關系數據庫的索引極為重要,它可以提高效率,節約時間。而對Hive而言,與索引發揮相同作用的是前面所述的劃分。在實際操作中,“分區”的保存形式是以目錄的形式存儲的。分區根據表的值將表的內容劃分為不同的部分。每個部分都存儲在相應的目錄中。如果表的內容按日期分區,則表的存儲格式與以下類似:

使用Hive數據庫的主要優勢是能夠明顯提高數據查詢的效率,主要是因為Hive在進行查詢檢索時不是對全部庫表進行掃描,這一機制在數據量龐大時,對于查詢效率的提升尤為顯著。例如,當客戶向數據庫發起查詢特定一天的數據時,Hive無需進行全庫掃描,而是可以定位到所需目錄下進行檢索,提供所需內容。在Hive中,數據的分區設置同傳統關系型數據庫中設置索引原理類似。

我們將存儲網站站點生成的日志到HDFS中,以減輕站點的存儲壓力,為了存儲網站站點生成的日志,我們將為網站生成的日志創建一個表,表名格式是:服務器名_ori。此表用于存儲由站點生成的未處理日志文件。例如,我們為主機my_server創建一個表來存儲由它生成的日志:

到目前為止,完成了將站點生成的日志內容存儲到Hive數據倉庫中的過程,但是,如前所述,原始的、未處理的日志適合于處理。對于我們的系統,我們只對用戶訪問的頁面感興趣,對于用戶在訪問過程中點擊了哪些內容并不關注,因而需要將系統中我們不關注的信息進行清理。在去除不關注信息后,將剩余數據結果存儲到Hive數據倉庫內已經建好的數據庫表中。

3數據倉庫建設

3.1 創建原始數據表

大數據日志分析需要在Hadoop集群上運行任務,依賴的數據分析工具是Hive。因此,需要將原始數據線加載到Hive數據殘酷中,之后才能夠進行真正的數據分析。

1)在hive倉庫中建立原始數據表:

3.2 導入數據

3.3 ODS層明細寬表構建

3.3.1 需求概述

對于所有的數據,其分析均是分階段進行的,階段的劃分以數據倉庫層次為標準。分析首先從ODS原始數據提取重要的或相關的數據并將其形成表格,例如將字段信息做細化處理,以明細表形式給出或時間等非結構化的參數值作結構化處理,最后通過對這些表格進行深入分析和統計,得出所需的指標及其相關參數。

3.3.2 ETL實現

4 結束語

本論文所研發的Web日志分析系統基于Hadoop平臺。首先闡述了目前日志數據解析的必要性和分布式技術的發展現狀。隨后提出現有日志數據解析方案在分析大量數據時的局限性,并指出可以結合分布式技術、數據挖掘主要技術以及普通技術,在此基礎上再進行數據解析。本文在Hadoop這一平臺上提出一個具有日志收集、數據存儲、預處理、信息統計以及深度挖掘功能的Web日志分析系統。利用HIVE數據倉庫的HQL腳本對數據實施索引統計并基于統計結果解析網站運行狀況。本文最終構建出囊括Hive和Hadoop部署安裝在內的Hadoop平臺,用于收集儲存數據。

實驗結果表明,本論文提出的方案不僅可以存儲分析海量數據,還能夠提高數據分析和管理的效率,基本完成設計目標。

參考文獻:

[1] 朱珠. 基于Hadoop的海量數據處理模型研究和應用[D]. 北京郵電大學, 2008.

[2] Srinivasan S, Krishna V, Holmes S. Web-log-driven business activity monitoring[J]. Computer, 2005, 38(3):61-68.

[3] 周則順, 水俊峰, 夏紅霞, et al. 基于Web日志挖掘的智能站點體系[J]. 武漢理工大學學報(信息與管理工程版), 2003, 25(6):72-75.

[4] Kolari P ,? Joshi A . Web mining: research and practice[J]. Computing in Science & Engineering, 2004, 6(4):49-53.

[5] 凌志泉. Web日志挖掘技術的研究與自適應Web站點的構建[D]. 天津大學, 2003.

[6] Sharma K ,? Shrivastava G ,? Kumar V . Web mining: Today and tomorrow[C]// International Conference on Electronics Computer Technology. IEEE, 2011.

[7] Singh B ,? Singh H K . Web Data Mining research: A survey[C]// IEEE International Conference on Computational Intelligence & Computing Research. IEEE, 2011.

[8] Nasraoui O ,? Soliman M ,? Saka E , et al. A Web Usage Mining Framework for Mining Evolving User Profiles in Dynamic Web Sites[J]. IEEE Transactions on Knowledge & Data Engineering, 2012, 3(4):202-215.

[9] Hussain T ,? Asghar S ,? Masood N . Web usage mining: A survey on preprocessing of web log file[C]// International Conference on Information & Emerging Technologies. 2010.

[10] 郝璇. 基于Apache Flume的分布式日志收集系統設計與實現[J]. 軟件導刊, 2014(7):110-111.

[11] 霍夫曼, 佩雷拉張龍. Flume日志收集與MapReduce模式 : Apache Flume : distributed log collection for hadoop instant MapReduce patterns-hadoop essentials how-to[M]. 機械工業出版社, 2015.

[12] Xhafa F ,? Naranjo V ,? Barolli L , et al. On Streaming Consistency of Big Data Stream Processing in Heterogenous Clutsers[C]// International Conference on Network-based Information Systems. IEEE, 2015.

【通聯編輯:王力】

猜你喜歡
數據分析
電子物證檢驗的數據分析與信息應用研究
基于matlab曲線擬合的數據預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 国产爽爽视频| 欧美日韩一区二区在线播放| 伊人久久大香线蕉aⅴ色| 成人福利免费在线观看| 在线亚洲精品福利网址导航| 欧美精品影院| 国产另类视频| 在线播放精品一区二区啪视频| 91黄色在线观看| 熟妇无码人妻| 国产高清免费午夜在线视频| 国产精品久久久久无码网站| 久久久久亚洲AV成人人电影软件 | 国产永久免费视频m3u8| 国产精品久久久久久久伊一| 国产精品男人的天堂| 欧美精品v| 国产成人亚洲日韩欧美电影| 色婷婷国产精品视频| 国产综合欧美| 亚洲系列中文字幕一区二区| 亚洲毛片网站| 亚洲色图欧美视频| 精品久久久久久成人AV| 毛片视频网| 久草视频中文| 1级黄色毛片| 欧美精品H在线播放| 亚洲无码高清免费视频亚洲| 日韩经典精品无码一区二区| 特级aaaaaaaaa毛片免费视频| 中字无码精油按摩中出视频| 99精品福利视频| 成人在线观看不卡| 国产理论精品| 在线观看亚洲人成网站| 日韩欧美国产区| 一级片一区| 亚洲视频在线网| 天堂在线www网亚洲| 午夜精品久久久久久久2023| 天天综合色天天综合网| 香蕉久久国产超碰青草| 啪啪永久免费av| 国产福利一区在线| 毛片一级在线| 91伊人国产| 欧美色亚洲| 黄色成年视频| 亚洲精品色AV无码看| 就去吻亚洲精品国产欧美| 特级精品毛片免费观看| 伊人久久福利中文字幕| 亚洲第一成网站| 女人一级毛片| 欧美成人免费午夜全| 真人高潮娇喘嗯啊在线观看| 日韩无码精品人妻| 特级毛片免费视频| 91福利一区二区三区| 国产乱子伦视频在线播放| 免费国产无遮挡又黄又爽| 国产香蕉一区二区在线网站| 日本久久网站| 欧美一级视频免费| 日韩中文无码av超清| 国产十八禁在线观看免费| 女人18毛片一级毛片在线 | AV不卡无码免费一区二区三区| 久久久亚洲国产美女国产盗摄| 精品一区国产精品| 97视频免费在线观看| 人妻无码中文字幕第一区| 精品国产成人三级在线观看| 欧美成人综合视频| 99热这里只有精品2| 国产综合色在线视频播放线视| 亚洲精品动漫| 国产成人福利在线| 97久久人人超碰国产精品| 亚洲精品中文字幕无乱码| 香蕉精品在线|