999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下爬蟲技術應用與研究

2018-02-23 15:19:09黃文杰,姚庚梅
科技創新與應用 2018年6期

黃文杰,姚庚梅

摘 要:隨著互聯網快速發展和大數據時代的來臨,Web數據逐漸龐大,如何有效并快速地從互聯網上獲取到用戶自身需要的信息是亟需解決的問題,網絡爬蟲技術應運而生,它是搜索引擎抓取系統的重要組成部分。文章是以標訊快車項目為研究目標,依托本學院在大數據方面的研究優勢,結合該院IT特色,具有較強的實際意義和社會意義。

關鍵詞:JavaScript;網絡爬蟲;Web信息抓取

中圖分類號:TP391.3 文獻標志碼:A 文章編號:2095-2945(2018)06-0037-03

Abstract: With the rapid development of the Internet and the advent of big data era, it is urgent to solve the problem of how to get the information needed by users from the Internet effectively and quickly. Network crawler technology emerges as the times require, it is an important part of search engine grab system. This paper is based on the standard express project as the research goal, relying on the research advantage of big data in this college, combined with the IT characteristics of the institute, has a strong practical and social significance.

Keywords: JavaScript; WebCrawler; Web information scraping

1 網絡爬蟲的研究現狀與分析

搜索引擎的原理是根據用戶提交的關鍵詞返回一組URL地址,通過關鍵詞相似度進行優先級排序,用戶通過瀏覽Web頁面來尋找所需信息。但這種利用人工的方式來定位信息,仍然有缺乏統一管理的缺點,而且搜索結果精確度不高。此時,網絡爬蟲(Web crawler)技術的出現至關重要,網絡爬蟲是目前搜索引擎的重要組成部分,它的基本原則是在不影響服務器執行效率和不造成致命沖擊的前提下,提高爬蟲的爬行速度,擴大數據下載量以及提升抓取信息的準確率,這項技術的關鍵點為消除任何影響爬蟲爬行效率的障礙,令爬蟲達到高效且準確無誤。

1.1 網絡爬蟲效率瓶頸分析

網絡爬蟲效率受到制約的主要因素有:網絡延時和爬蟲運行效率;爬蟲系統功能模塊設計不良;爬蟲算法和功能模塊之間協同工作效率低;網頁服務器適應性差等。

1.2 動態網頁的信息抓取

首先,動態網頁是通過更新網站后臺數據庫,從服務器中傳遞參數而生成的網頁。本爬蟲采用的方法是通過對動態網頁進行解析,對網頁數據中進行信息處理并建立索引數據庫,重新定義一個自定義標準接口,當爬蟲開始對該網頁進行抓取前,對網頁的URL地址進行判斷,若判斷該動態網頁符合自定義標準接口,爬蟲方可開始通過HTTPS的方法下載網頁,并建立和導入數據庫。

1.3 網頁的更新

本項目在更新網頁數據庫時,通過判斷網頁屬性是否改變來進行更新,利用JavaScript在任何時候都能對任何對象的屬性進行動態的增、刪、查、改的特性,無需修改爬蟲代碼而直接進行網頁數據的更新抓取。

1.4 JavaScript算法實現

JavaScript語言是一種基于對象的編程語言,本作品使用JavaScript語言進行編程的原因是:JavaScript與其他面向對象的語言不一樣,它只有對象的概率,并沒有類,它的對象來源于其自身內部的對象,主機環境中的對象和用戶創建的對象。本爬蟲構建出JavaScript程序的對象層,方法層和語句層,逐層利用語句之間的數據依賴關系。利用函數對JavaScript程序控制全局變量的賦值語句中的左右值,參與語句中的謂詞的影響和對象多態繼承。利用JavaScript 動態進行時定義對象,實現對網頁數據的統一封裝。

2 系統設計與應用

2.1 項目設計原理

整個Internet互聯網就像一張龐大而有向的蜘蛛網,每個網頁就像蜘蛛網里的節點,網頁相互有向指向其他網站頁面的地址,從而構成了互聯網。如圖1所示,矩形A、B、C、D、E代表網站的頁面,箭頭代表網頁間相互指向URL地址的關系,所以,當爬蟲在抓取網頁的時候,將會使用有向遍歷的算法進行遍歷(即下文提出的深度優先策略和廣度優先策略)。本作品的主要研究方法在于依據客戶要求,對標訊快車平臺實施爬蟲技術,在抓取網頁的時候,使用廣度和深度并行的抓取策略,提高其抓取速度。當使用廣度和深度優先策略時,其時間復雜度與圖的節點與邊的數量成正相關關系,即與網頁的規模直接相關。(如圖2所示)。網絡爬蟲最理想的設計模型是高速、準確、有針對性地遍歷網站中所有網頁信息,而要達到這樣的設計標準往往使用單一算法是無法實現的,需要對網頁數據資源進行針對性的評估后合理地調度,然后對該網絡資源設定優先值,優先處理價值高的資源,滯后處理價值低或冷門的資源,再對其進行組合運用算法和爬蟲策略。

2.2 項目實現方式

本作品研究的基本思路是針對大數據應用,通過對海量詞匯的對比,使用爬蟲技術獲取到目標客戶關注的內容,下載到云平臺,再通過程序分析,將所需的數據提取分離出來,提供給目標客戶,幫助目標客戶進行多維度檢索、資質精準匹配、招標代理監測、詢價采購、甲方監測等。本研究項目在訪問一個站點時,會首先判斷URL地址和網頁屬性,確定需要訪問的范圍,若判斷不超時,則判定該站點為可用網頁,繼續進行解析,若判斷為超時,則將該站點視為無效網頁。本爬蟲通過初始化客戶提供的URL種子,利用HTTP通信下載的方式訪問URL對應的頁面和下載XML文檔,然后解釋網頁所有的URL提取網頁信息并保存網頁上的所有數據。爬行循環從解析出的URL挑選出其中一個進行爬行,一個鏈接一個鏈接跟蹤下去,直到把網頁所有的URL爬完為止。本爬蟲在讀取URL頁面時,會首先對URL地址和網頁屬性進行判斷,若程序判斷該網頁為動態網頁,則會自定義接口對其進行適配;若判定超時或出錯則默認為該URL頁面數據丟失或過期失效,將無效鏈接URL加入到錯誤隊伍中。反之,就繼續讀取和解析網頁的信息內容。

2.3 項目應用

標訊快車是為了配合公共招投標市場、優化采購商和供應商進行全球性貿易的權威電子媒體機構,響應《中華人民共和國招標投標法》而應運而生的專業平臺。標訊快車可及時發布國內3000家招投標代理網站保證項目信息,覆蓋了大部分國家財政性投資項目和社會投資項目。到目前為止,項目組成員已經通過該公司提供的虛擬桌面,完成了標訊快車平臺超過2000個代理網站的爬蟲,對抓取的數據進行分析處理,并建立了相應的云項目,為用戶極大地減輕了招投標的時間成本,使用戶可根據自己的需求精準定制行業信息。獨特性方面,由于是針對具體大數據應用項目標訊快車來實施爬蟲策略,能讓團隊成員更及時的對代碼優化的結果進行測試和調試。消除重復處理。消除重復處理的主要目的是避免爬蟲在遇到頁面相互形成環路的網站上反復執行而死循環的情況。因此,本爬蟲在訪問頁面時會進行判斷處理,并對已經訪問過的URL隊列進行base標記,對未訪問的URL隊列不進行標記。受限范圍。當爬蟲在訪問一般網站時,經常會遇到加密數據或權限的問題,加密數據是無法抓取下來的,有些網頁則需要管理員權限才能訪問,但本爬蟲是針對政府招標網頁進行數據抓取,所以一般不存在以上受限問題。無效或過期鏈接。檢查過期或無效的鏈接也是一個很重要的過程,這樣做不僅能提高網頁數據的使用率,還可以保證搜索文件的成功率。爬蟲效率分析。本項目系統是在實驗室的硬件、軟件環境下完成的,基本情況如表1所示。本爬蟲在進行信息抓取時會構造四個不同的棧堆,分別是等待棧堆,運行棧堆,錯誤棧堆,完成棧堆。一個初始URL從抓取開始到結束要經歷4個過程,為了避免爬蟲重復爬行陷入死循環,每一次URL從等待棧堆轉送到運行棧堆前,都會先與完成棧堆進行比較,進行消除重復的處理。

2.4 項目成果

使用普通爬蟲與本研究項目進行比較,本次采用的比較方法為控制變量法,抓取的網頁保護華中,華北,東北,華南四個區域超過600個縣級市的政府采購網頁,總網頁數目2500個。通過比較發現,普通爬蟲在12小時處理的網頁總數為1407個,本研究爬蟲在12小時處理的網頁總數為2132個,效率提升超過15%,所有網頁并未全部下載的主要原因有讀取網頁數據超時,系統判斷發現無效網頁而被舍棄。在爬行過程的最后階段,爬蟲的抓取效率開始下降,其中原因主要是隨著時間的推移,爬蟲程序開始占用系統資源;硬件環境由于發熱開始降頻。除了在標訊快車項目實施本項目研究的爬蟲技術外,我們還力求與其他行業的公司合作,為互聯網的爬蟲技術作出貢獻,把有效的數據檢索、數據匹配、數據監測等信息提供給目標客戶手中。

3 結束語

通過改進網絡爬蟲自身結構設計和調整策略選擇來提高爬蟲系統的效率,從而消除目前爬蟲工作效率低的瓶頸。目前越來越多的科研人員投入到網絡爬蟲的研究中,針對爬蟲策略和爬蟲方式的改進方案也逐漸被提出并廣泛采用。

參考文獻:

[1]李應.基于Hadoop的分布式主題網絡爬蟲研究[J].軟件導刊,2016(03).

[2]劉紅梅.垂直搜索引擎主題爬蟲搜索策略研究[J].科技信息,2013(08).

主站蜘蛛池模板: 亚洲欧美日韩成人在线| 国产迷奸在线看| 亚洲美女一区二区三区| 五月天福利视频| 国产综合精品一区二区| 国产一二视频| 九九热视频精品在线| 伊人久综合| 国产一区二区三区夜色| 精品欧美日韩国产日漫一区不卡| 色妞www精品视频一级下载| 99热这里只有精品5| 伊人AV天堂| 亚洲精品成人片在线观看 | WWW丫丫国产成人精品| 国产理论一区| 国产成人久久综合777777麻豆| 亚洲性日韩精品一区二区| 自慰网址在线观看| 国产91无码福利在线| 精品国产成人国产在线| 国产高清国内精品福利| 亚洲日韩日本中文在线| 亚洲免费三区| 九九九久久国产精品| 国产一级做美女做受视频| 91久久精品日日躁夜夜躁欧美| 欧美成人国产| 国产成人高清精品免费5388| 又粗又大又爽又紧免费视频| 精品国产欧美精品v| 中文无码日韩精品| 国产一级毛片网站| 高清无码手机在线观看| 欧美国产日韩在线| 亚欧成人无码AV在线播放| AV无码无在线观看免费| 亚洲综合中文字幕国产精品欧美| 欧美va亚洲va香蕉在线| 四虎精品黑人视频| 国产亚洲精品va在线| 久久人妻xunleige无码| 一级在线毛片| 天天综合天天综合| 国产精品亚洲专区一区| 亚洲AV无码乱码在线观看裸奔| 日韩精品毛片| 亚洲一区二区无码视频| 孕妇高潮太爽了在线观看免费| 国产自在线播放| 中文字幕久久波多野结衣| 欧美亚洲欧美| 欧美A级V片在线观看| 国产内射一区亚洲| 欧美区一区| 亚洲精选无码久久久| 日韩欧美国产成人| 亚洲va视频| 日本日韩欧美| 亚洲熟妇AV日韩熟妇在线| 99视频精品全国免费品| 99久久精品国产麻豆婷婷| 欧美a在线看| av午夜福利一片免费看| 一本大道无码高清| 亚洲综合色婷婷| 又爽又黄又无遮挡网站| 四虎影视8848永久精品| 永久成人无码激情视频免费| 日韩欧美国产中文| 久久国产乱子| 制服丝袜一区| 麻豆精品视频在线原创| 无码粉嫩虎白一线天在线观看| 91视频首页| 丁香婷婷激情网| 亚洲精品第五页| 99久久免费精品特色大片| 国产在线拍偷自揄观看视频网站| 国产成人综合在线视频| 午夜福利在线观看成人| aa级毛片毛片免费观看久|