999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Scrapy的個性化推送系統的設計與實現

2018-10-21 04:29:40王爽
裝飾裝修天地 2018年19期

王爽

摘 要:隨著互聯網技術的快速發展,搜索平臺和搜索引擎在許多領域得到廣泛使用,它被視為一種工具,人們可以在網上找到他們需要的信息,但是隨著技術的發展,人們發現現在的搜索引擎并不能夠滿足自己的特定需求,大眾的搜索引擎也很難實現一個域范圍內全面快速的搜索,為了向用戶提供有效可用的信息,我們通過爬蟲技術,只對特定網站的內容進行爬取,從而避免垃圾網站信息和廣告的推送。本論文設計和實現分布式的爬蟲系統,采用了Scrapy架構,并通過Redis作為URL緩存隊列進行分布式擴展,使爬蟲的效率大大的提升,對Redis進行高可用配置,提升系統高可用性,并能夠完成增量爬取,系統共分為調度器模塊、URL爬取模塊、流水線模塊、監控模塊等幾個主要模塊的內容。

關鍵詞:Scrapy框架;分布式;爬蟲系統;Redis

1 研究意義背景及內容介紹

1.1 研究背景

隨著信息科技的進步和互聯網的日益普及,人類正在進行信息史上最巨大的一項工程,即將現實世界現有的信息,諸如報紙、期刊、書籍、專利文獻等,都放到網絡上去,同時也不停地在網絡上生產出數不勝數的新信息。整個網絡正在堆積成一個前所未有的超級大型數據庫。在近幾年里,WWW更是得到了長足的發展。隨著Internet的快速發展,Web上的網頁數據量正在呈指數增長,據有關機構估計每18個月網絡上的信息量就會翻倍,網頁的更新速度甚至更快,有人估計每6個月網頁數量就會翻倍。如何能夠更大限度的找到滿足用戶需求的網頁信息呢?我想我們可以通過個性化的方式來為用戶量身打造屬于其自身的搜索服務,即我們可以通過爬蟲技術來對特定網頁內容進行信息的爬取,針對不同需求的用戶,進行不同網站內容的爬取來為用戶進行推送。

1.2 爬蟲介紹

爬蟲是搜索引擎中不可缺少的一部分,它通過一定的規則,實現對網頁信息的爬取,爬蟲將互聯網中的數據爬取到本地,能夠讓搜索引擎對本地數據進行檢索,爬蟲可以分為通用爬蟲、聚焦爬蟲以及增量式爬蟲。實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。

1.3 傳統搜索引擎和垂直搜索引擎對比

鑒于現在網絡信息資源的海量規模,網絡資源采用自動獲取的方式,并且隨著Web技術的發展,我們越來越多的使用搜索引擎來幫助我們解決問題,查詢資料,尋找解決方法,現在搜索引擎已經成為了我們生活中必不可少的一部分,根據數據的搜索范圍,我們將搜索引擎分為兩類:傳統搜索引擎和垂直搜索引擎。傳統的搜索引擎,它的資源覆蓋面非常的廣,當我們在檢索欄輸入關鍵字時,它對互聯網上的所有信息進行檢索,得到任何主題,任何類型的資源,其中也存在許多無關資源以及無法打開的鏈接。由于傳統的搜索引擎存在死鏈太多,數據的相關度較低等缺點,人們提出了垂直搜索引擎,垂直搜索引擎也被稱為專業或者專用搜索引擎,就是為查詢某一學科或領域而提出的一種的搜索工具,我們采用這種垂直搜索的思想,針對特定網站即達到只針對某一領域搜索的目標。傳統搜索引擎和垂直搜索引擎對比傳統搜索引擎和垂直搜索引擎對比傳統搜索引擎和垂直搜索引擎對比雙擊上一行的“1”“2”試試,J(本行不會被打印,請自行刪除)。

1.4 個性化推送系統結合爬蟲技術的意義

隨著互聯網技術的快速發展,搜索平臺和搜素引擎在許多領域得到廣泛使用,它被視為一種工具,人們可以在網上找到他們需要的信息,但是隨著技術的發展,人們發現現在的搜索引擎并不能夠滿足自己的特定需求,大眾的搜索引擎也很難實現一個域范圍內全面快速的搜索,且現在越來越多的數據信息參差不齊,搜索推送的內容中含有許多垃圾網站的內容以及廣告等,為了向用戶提供有效可用的信息,我們通過爬蟲技術以及垂直搜索技術,只對特定網站的內容進行爬取,從而過濾不需要的網站內容和廣告,大大減少了人們獲得所需數據的時間,并且數據的可用性也大大增強,“基于Scrapy的個性化推送系統”可以很好地滿足人們對特定領域、特定網站信息的需求;且基于用戶個性化的爬行器是一種輕量級的采集系統,它的目標就是通過用戶興趣制導或與用戶交互等手段來采集信息,給用戶提供個性化服務。

2 爬蟲系統設計概要

2.1 系統總體功能結構

根據我們對基于Scrapy的個性化推送系統的分析,我們可以將整個系統分為四個功能模塊,分別是調度器模塊,URL爬取模塊,流水線模塊和監控模塊。系統的功能模塊說明圖如圖1所示。其中,調度模器塊分為URL去重,URL調度兩個子模塊分別完成URL的去重和調度工作;URL爬取模塊分為頁面下載,頁面內容解析兩個子模塊完成所分配URL對應頁面下載和內容的解析;水線模塊分為詳細信息流水線模塊實現提取內容整理和把提取內容存儲到數據庫中,監控模塊分為爬蟲監控子模塊以及設備監控子模塊來完成對本系統的監控。

2.2 系統技術實現框架

系統的主要任務是爬取特定網站中的網頁,包括網頁中的標題、內容以及發表時間等等,并將有效數據存儲下來主節點維護一個待爬取的URL隊列。當爬蟲從節點空閑時,會向主節點發出請求以獲取爬取任務,主節點則依據某種優先級策略,從待爬取URL隊列中提取一個任務,將其交由爬蟲從節點負責爬取。爬蟲從節點完成爬取任務后,可能會提取到新的爬取請求,此時也需要將其轉交給主節點,再由主節點將其放入待爬取的URL隊列。如此循環,主節點作為其他爬蟲從節點之間相互通信的媒介,同時也其起到了負載均衡的作用,避免有的爬蟲從節點處于空閑狀態,而有的爬蟲從節點處于異常繁忙狀態。本系統采用主從式架構。采用Redis作為Master,每個爬蟲會和Redisserver和SQLserver進行連接,架構圖如圖2所示。

參考文獻:

[1] 郭一峰.分布式在線圖書爬蟲系統的設計與實現[D].北京交通大學,2016.

[2] 習楊定中,趙剛,王泰.網絡爬蟲在Web信息搜索與數據挖掘中應用[J].計算機工程與設計,2009(24):5658~5662.

[3] 劉瑋瑋.搜索引擎中主題爬蟲的研究與實現[D].南京理工大學,2006.

[4] 劉漢興,劉財興.主題爬蟲的搜索策略研究[J].計算機工程與設計,2008(12):3160~3162.

[5] 夏亮.主題搜索引擎網絡爬蟲搜索策略的研究與實現[D].北京化工大學,2010.

主站蜘蛛池模板: 国产精品无码一二三视频| 91欧美在线| 欧美福利在线播放| 色天天综合久久久久综合片| 97久久人人超碰国产精品| 日韩国产一区二区三区无码| 国产精品成人啪精品视频| 亚洲一级色| 色婷婷成人| 精品久久久久成人码免费动漫| 国产人成乱码视频免费观看| 國產尤物AV尤物在線觀看| 天堂亚洲网| 国产av一码二码三码无码 | 国产真实乱人视频| 最新亚洲人成无码网站欣赏网| 国产精品综合久久久| 美女一区二区在线观看| 高清欧美性猛交XXXX黑人猛交| 国产精品自在拍首页视频8| 丁香六月激情婷婷| 91国内视频在线观看| 久久伊人操| 日本欧美一二三区色视频| 激情成人综合网| 无码'专区第一页| 国产精品冒白浆免费视频| 色综合天天娱乐综合网| 国产成人精彩在线视频50| 日韩成人在线一区二区| 亚洲欧美精品日韩欧美| 这里只有精品在线| 久无码久无码av无码| 亚洲经典在线中文字幕| 国产69精品久久久久妇女| 一级毛片免费观看久| 中文字幕亚洲精品2页| 亚洲天堂视频在线免费观看| 日韩国产黄色网站| 国内精自视频品线一二区| 四虎影视永久在线精品| 欧美激情视频一区二区三区免费| 亚洲精品制服丝袜二区| 久久免费视频播放| 鲁鲁鲁爽爽爽在线视频观看| 免费啪啪网址| 国产十八禁在线观看免费| 国产成人a毛片在线| 亚洲 欧美 中文 AⅤ在线视频| 亚洲成aⅴ人在线观看| 最新国产你懂的在线网址| 91尤物国产尤物福利在线| 婷婷午夜影院| 色视频久久| 九九久久精品免费观看| 亚洲成aⅴ人在线观看| 久久亚洲中文字幕精品一区| 亚洲日本韩在线观看| 欧美日韩国产一级| 国产成年无码AⅤ片在线| 亚洲欧美不卡中文字幕| a在线亚洲男人的天堂试看| 亚洲天堂日韩在线| 亚洲经典在线中文字幕| 国产国产人免费视频成18| 亚洲综合亚洲国产尤物| 国产成人禁片在线观看| 韩国福利一区| 中文字幕无码制服中字| 精品一区二区久久久久网站| 亚洲IV视频免费在线光看| 国产精品亚洲va在线观看| 国产欧美精品专区一区二区| a国产精品| 97国产在线视频| 免费亚洲成人| 日本三级精品| 亚洲妓女综合网995久久| 成人国产精品2021| 91原创视频在线| 97av视频在线观看| 亚洲精品成人福利在线电影|