999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下分布式數據抓取策略的研究與應用

2019-12-07 08:37:22段玉風
網絡安全技術與應用 2019年12期
關鍵詞:策略系統

◆段玉風

大數據環境下分布式數據抓取策略的研究與應用

◆段玉風

(運城廣播電視大學 山西 044000)

隨著網絡技術與移動通信技術的飛速發展,互聯網已經進入了大數據時代,傳統的數據抓取技術已經很難適應當前海量數據的應用需求,為了能夠有效改善這一現狀,本文提出了基于Hadoop的分布式網絡爬蟲改進策略,以滿足大數據環境下用戶對互聯網信息的應用需求。

大數據;Hadoop;分布式網絡爬蟲

1 Hadoop大數據平臺

Hadoop是一種分布式架構的數據處理系統,其技術優勢主要體現在兩個方面:一是硬件兼容性方面,Hadoop系統對網絡集群設備的性能要求較低,這大大較低了系統構建的設備購置成本;二是應用軟件兼容性方面,Hadoop系統提供有標準統一的程序接口,可為第三方應用軟件開發提供穩定的運行環境[1]。Hadoop系統底層架構主要由海量數據存儲和并行數據處理兩個大核心功能組件構成,分別是HDFS、MapReduce[2]。其中HDFS(分布式文件系統)采用主從節點結構建立了分布式網絡集群的數據管理模式,該模式下,主節點負責元數據的存儲管理,從節點直接面向客戶端對象,完成數據的讀寫操作,大大提高了數據的響應效率和數據管理的安全性;MapReduce(并行數據處理)提供了高效的分布式數據并行處理模型,通過HDFS系統創建對應的MapReduce任務,并在多個主節點間調度分配,使得多個節點設備之間能夠協同工作,完成數據的分析處理。

Hadoop系統是當前最為主流的大數據管理平臺,在數據存儲與并行處理方面有著明顯的技術優勢,但在有效數據的抓取方面還有所欠缺,由于傳統的網絡數據抓取方式難以適用于Hadoop的分布式系統環境,因此如何快速、準確獲取到用戶需要的數據是當下大數據平臺發展急待解決的問題。

2 分布式網絡數據抓取策略

2.1 網絡爬蟲

數據抓取指的是依據用戶需求,通過搜索引擎在大數據平臺中檢索到相關數據并反饋至請求客戶端。這種網絡數據抓取技術主要采用了一種叫作網絡爬蟲的排序算法作為核心算法。基于網絡爬蟲技術的數據抓取過程主要有五個步驟組成:

(1)構建數據抓取的檢索連接庫,用于管理能夠提供適合需求的網站URL,這些URL為數據抓取的提供了對應的數據檢索范圍,被稱為URL種子;

(2)依據用戶請求,選取適合的URL種子建立并更新數據檢索隊列;

(3)通過URL種子檢索,從相應的網頁中獲取到所需數據,并保持到本地文件系統當中;

(4)對已抓取數據當中的URL進行檢測、去重,將重復數據結果刪除;

(5)結束數據抓取,將結果響應至網絡客戶端。

網絡爬蟲技術的數據抓取策略主要有深度遍歷、廣度遍歷與最優路徑遍歷等[3],前兩種策略,主要是通過已鎖定的任一URL種子,對其進行縱向或橫向遍歷,最優路徑策略是需要先在相關的URL間繪制路徑,通過預先設定的條件對路徑進行優先選擇,并沿選擇的路徑進行遍歷。無論哪種策略,在面向海量的網絡數據時,其復雜的數據關系都使得數據遍歷的時間開銷在成倍增加,每抓取一次數據,都會涉及對上億的URL進行遍歷。為了進一步提高海量數據抓取的時效性與準確性,基于Hadoop分布式數據平臺的網絡爬蟲技術的應用研究受到了極大的關注,并提出了分布式網絡爬蟲概念。

2.2 分布式網絡爬蟲

分布式網絡爬蟲,簡單講就是部署在分布式集群設備上的數據抓取策略,借助網絡集群并行完成海量數據的抓取工作。其核心問題涉及兩個方面,一是各個集群節點間的任務協調問題,二是各個節點間的任務分配問題。目前這兩類問題主要是通過建立節點間的通信模式來解決,分布式網絡爬蟲提供了三種通信模式:

主從模式:在節點間建立主從關系,主節點負責維護和管理URL種子列表,以及各個從節點之間通信和任務分配;從節點負責完成具體的檢索任務,并將產生的結果反饋至從節點。該模式實現較為復雜,適用于復雜的數據處理環境。

自治模式:不設置專門的控制節點,各節點之間直接進行通信,協調任務管理,常見的有單向環形通信和全連通通信兩種結構。單向環形通信中所有節點單向環形連接在一起,每個節點只能單向發送和接收信息;全連通通信中所有節點均可雙方發送和接收信息。該模式實現較為簡單,適用于數據處理量較少的分布式網絡環境。

混合模式:即以上兩種模式主要特點的結合,節點間直接進行通信,在通信過程中的錯誤信息、失敗的任務分配等,會通過特定節點進行收集和整理,并予以糾正。

由于Hadoop平臺的分布式文件管理模式也采用的是主從模式,因此數據抓取策略中也將重點針對主從模式的分布式網絡爬蟲技術展開研究。

3 基于Hadoop平臺的網絡爬蟲系統框架設計

基于Hadoop平臺的網絡爬蟲系統的基本設計架構如圖1所示:

圖1 分布式網絡爬蟲系統的設計架構

如圖所示,分布式網絡爬蟲系統的功能框架包括URL數據庫、抓取網頁、解析數據、數據去重四個功能模塊。其中抓取網頁、解析數據和數據去重模塊構建在Hadoop的MapReduce并行處理系統當中,以主從通信模式完成任務分配與執行,URL數據庫內置于Hadoop的HDFS文件管理系統當中,用于存儲URL網頁數據。其工作流程如下:

首先通過抓取網頁模塊對URL數據庫中的URL列表進行檢索,并將檢索過程中采集到的數據存儲在URL數據庫的DATA數據表中。

再通過解析數據模塊對采集到的網頁數據信息進行解析,將解析后取得的數據連接信息回存至DATA數據表中。

最后由數據去重模塊對DATA數據表中的重復數據進行檢索與刪除。整個工作流程中所涉及的數據存儲由Hadoop的HDFS進行統一管理。

分布式網絡爬蟲系統借助了Hadoop的分布式平臺架構優勢,在傳統的數據抓取策略中加入了分布式通信概念,大大提高了網絡爬蟲系統的執行效率、運行穩定性和易擴展性,有效緩解了大數據環境中數據自動采集的時延、系統開銷大、準確率低等問題。但這一改進策略主要針對的是靜態網頁設計中的數據抓取,針對動態網頁的數據采集功能尚有欠缺,本研究還將就這一問題展開深入的研究與探討,通過爬蟲算法的策略改進,實現動態頁面中海量數據的快速采集。

[1]陳新. Hadoop平臺中作業調度算法分析與改進研究[J].微型機與應用,2016,35(11):80-82.

[2]馬梅,劉東蘇,李慧.基于大數據的網絡輿情分析系統模型研究[J].情報科學,2016,34(3):25-28.

[3]翟周偉.Hadoop核心技術[M].北京:機械工業出版社,2015.

猜你喜歡
策略系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
基于“選—練—評”一體化的二輪復習策略
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
求初相φ的常見策略
例談未知角三角函數值的求解策略
基于PowerPC+FPGA顯示系統
我說你做講策略
半沸制皂系統(下)
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 在线播放国产99re| 91美女视频在线| 素人激情视频福利| 蜜桃视频一区二区| 中文字幕乱码二三区免费| 色香蕉影院| 欧美一区中文字幕| 欧美午夜久久| 亚洲日韩精品无码专区97| 伊人色天堂| 中文字幕欧美成人免费| 国产午夜无码片在线观看网站 | 日韩少妇激情一区二区| 色婷婷视频在线| 欧美成人精品在线| 国产成人资源| 美女免费黄网站| 老司机午夜精品网站在线观看| 国产国产人成免费视频77777 | 免费亚洲成人| 国产99精品视频| 久久久久青草线综合超碰| 亚洲中文字幕av无码区| 亚洲国模精品一区| 国产乱人乱偷精品视频a人人澡| 国产精品不卡永久免费| 精品视频福利| 国产白浆一区二区三区视频在线| 99精品欧美一区| 亚洲成人精品| 亚洲天堂网站在线| 国产高清无码麻豆精品| 国产二级毛片| 亚洲欧州色色免费AV| 色成人亚洲| 成年人福利视频| 无码中字出轨中文人妻中文中| 中文字幕 欧美日韩| 午夜久久影院| 自偷自拍三级全三级视频| 91精品综合| 一级看片免费视频| 成人午夜福利视频| 国产凹凸视频在线观看| 日本一区中文字幕最新在线| 亚洲男人的天堂久久香蕉网 | 国产女人18水真多毛片18精品| 国产亚洲成AⅤ人片在线观看| 在线日本国产成人免费的| 亚洲天堂区| 无码专区在线观看| 高潮爽到爆的喷水女主播视频 | 国产精品男人的天堂| 日韩美毛片| 日本一本正道综合久久dvd| 色婷婷天天综合在线| 欧美成人免费午夜全| 九九热视频精品在线| 国内精品小视频福利网址| av在线手机播放| 精品一区二区久久久久网站| 成年人视频一区二区| 九九热精品在线视频| 无码AV日韩一二三区| 亚洲二三区| aⅴ免费在线观看| 麻豆国产精品| 亚洲第一网站男人都懂| 国内精品免费| 一区二区影院| 日韩高清欧美| AV网站中文| 六月婷婷激情综合| yjizz国产在线视频网| 亚洲一区二区三区在线视频| 亚洲中文字幕无码爆乳| 狠狠色丁香婷婷| 天天躁日日躁狠狠躁中文字幕| AV在线天堂进入| 女同国产精品一区二区| 国产精品成人久久| 日韩福利在线观看|