999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎中的網絡爬蟲搜索對策分析

2018-05-14 09:06:08魏茂
絲路視野 2018年12期
關鍵詞:搜索引擎對策

【摘要】進入互聯網時代之后,網絡融入到了現代人生活的各個方面,而搜索引擎之運用為人們的工作、學習與生活帶來了非常大的好處。因此,實施對基于搜索引擎的網絡爬蟲技術的探究,對進一步提高搜索引擎的效率來說很有必要。本文在闡述網絡爬蟲原理的基礎上,列舉了網絡爬蟲的基本類別,并提出了搜索引擎中應用網絡爬蟲搜索的主要對策。

【關鍵詞】搜索引擎;網絡爬蟲;對策

隨著互聯網技術的迅猛發展,網絡為人們提供了極大的便利。然而,因為網絡中的信息非常分散和無序,因此極難被充分運用。怎樣在網絡這一信息大海中迅速而又精準地找到最有效的信息,是用戶們迫切需要解決的問題,而搜索引擎的產生很好地破解了該難題。搜索引擎主要是運用諸多網絡站點中的信息,便于為用戶們找到需要的信息。在搜索引擎當中,網絡爬蟲發揮了非常大的作用,是引擎全部數據之源頭。爬蟲設計之優劣將直接影響到引擎系統內容的豐富性與更新的及時性。

一、網絡爬蟲原理闡述

所謂網絡爬蟲,是指一種能夠自動提取相關網頁的程序,能夠為搜索引擎從網絡中下載所需要的網頁,也是搜索引擎中極為重要的構成部份。爬蟲從一個或者數個初始網頁URL上起步,再分析這一URL的源文件,從而提取到新網頁的鏈接,其后再運用新鏈接去找別的新鏈接,如此循環往復,一直到抓取與分析完全部網頁。這可以說是一種理想的狀態,然而事實上不可能抓取到網絡中的全部網頁。依據一項統計,最優秀的搜索引擎只能夠抓取到40%的網頁。原因是網絡爬蟲的抓取技術還存在著瓶頸,難以顧及到全部網頁。同時,存儲技術也存在一定的問題。依據每一網頁平均為20K來計算,100億個網頁的規模為大小就是20萬G,目前的存儲技術還無法達到。

二、網絡爬蟲的基本類別

一是通用爬蟲。其爬取的范圍太大,而且對于爬取的順序要求比較低,但對爬取的速度以及存儲空間的要求相對較高。二是限定爬蟲。主要是一種能夠爬取使用者有興趣的某類網頁的程序。它并不需要爬取全部網頁,只要爬取部分特定網頁即可。工作原理是運用樸素貝葉斯法來訓練文本分類器,其后使用該分類器以指導爬蟲之偏好,在諸多爬蟲隊列中為用戶選出其最有興趣的那部分網頁。三是主題爬蟲。先明確一個或者多個不同的主題,再依據相關分析算法過濾出和主題沒有關系的URL,并保留和主題存在關聯的URL,并且把其放進等待隊列之中,其后再用搜索策略從諸多等待的隊列當中選取下一個需要進行抓取的URL,并且循環操作,一直到達成停止條件為止。

三、搜索引擎中應用網絡爬蟲搜索的主要對策

運用網絡爬蟲,應當盡量搜集和主題有關的網頁,并且減少下載沒有關聯的網頁。主題爬蟲和通用爬蟲比較起來,尚需解決如何進行主題描述與定義、如何判斷網頁內容和主題的關聯、如何判斷鏈接的重要性以及如何提升爬蟲資源的覆蓋率等。下面,從四個方面對實施網絡爬蟲搜索的主要對策進行討論。

一是選擇合適的主題集。在網絡爬蟲之中,為了進行科學的剪枝與過濾,應當對主題加以定義或者描述,從而明確采集之方向。主題集之優劣將直接影響到最后的成效。主題既可以是某些關鍵詞,也可以是某種自然語言。使用者可立足于定制主題對此進行深入描述。

二是提取所需Web信息。自采集起點起,網絡爬蟲即開始爬取Web中的相關信息資源,運用相關Web協議自動爬取各個站點的相關信息。為了能夠更好地獲取相關信息,爬蟲系統當中主要是運用多線程形式來提取其中的Web信息。

三是對頁面進行預處理,實現主題爬蟲所抓取Web頁面的規范化,主要涵蓋了對頁面語法的闡述,對頁面實施去噪等,從中可以提取到網頁當中的各類有效信息,其后再判定網頁信息主題具有的相關性,過濾和主題沒有關聯的頁面,以增加爬蟲獲取主題信息的精準性。因為HTML網頁的內容可從正文、標題、標記信息以及鏈接信息等諸多方面加以體現。所以,在提取網頁信息時只需要提取以上特征信息即可。在讀取頁面過程中,應當找到標記,并把標記中間內容當中的全部標記加以去除,以獲取頁面的正文,而標記為的內容即為網頁標題,其顯示于標題欄之中。即便提取出來的URL能夠通過主題相關性的判定,所提取到的頁面內容和設定主題之間可能也會有比較大的差距。因此,在提取頁面以后還需對頁面信息加以判別,并且刪除和主題沒有關聯的頁面。</p><p>四是對鏈接進行過濾。要進一步提升對主題Web信息提取的速率以及精確性,系統應當對采集到的UI實施URL與主題之間的關系判定。鏈接過濾中最為常用的算法為EPR算法。應當在鏈接關系的前提下增加有關主題之權重,再引入鏈接網頁主題所具有的權重,如此一來,就產生了EPR算法。</p><p>四、結語</p><p>總之,網絡爬蟲技術的應用,為搜索引擎的發展打下了良好基礎。但是,隨著網絡技術的快速發展,現代人對搜索引擎所具有的需求愈來愈大,信息檢索服務朝著個性化與規范化、精細化的趨向加以發展,自然也就對網絡爬蟲的深化設計提出了新的要求。鑒于網絡爬蟲具備了重復性的特點,所以怎樣實現頁面動態變化之規律和原來的搜索統計結果的密切結合,以提升爬取工作的效率,值得下一步繼續深入加以探究。</p><p>參考文獻</p><p>[1]楊文剛,韓海濤.大數據背景下基于主題網絡爬蟲的檔案信息采集[J].蘭臺世界,2015(20).</p><p>[2]盛亞如,魏振鋼,劉蒙.基于主題網絡爬蟲的信息數據采集方法的研究與應用[J].電子技術與軟件工程,2016(07).</p><p>[3]祁忠琪,呂曉聰.基于網絡爬蟲的搜狐網新聞搜索引擎系統的實現[J].數字通信世界,2017(07).</p><p>作者簡介:魏茂(1980.11—),男,漢族,四川梓潼人,學士,講師,研究方向:可視化和人工智能方向。

猜你喜歡
搜索引擎對策
診錯因 知對策
對策
面對新高考的選擇、困惑及對策
關于職工隊伍穩定的認識和對策
活力(2019年22期)2019-03-16 12:47:28
防治“老慢支”有對策
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
主站蜘蛛池模板: 中文毛片无遮挡播放免费| 天堂成人av| 91啪在线| 亚洲国产成人精品一二区| 午夜老司机永久免费看片| 在线国产毛片手机小视频| 久久永久免费人妻精品| 婷婷色中文| 亚洲无码在线午夜电影| 91在线视频福利| 亚洲日本中文综合在线| 日韩欧美中文在线| 最新国产你懂的在线网址| 在线亚洲天堂| jizz国产在线| 久久综合亚洲鲁鲁九月天| 国产精品亚欧美一区二区| 国产精品九九视频| 欧美中文字幕在线播放| 色综合日本| 亚洲丝袜中文字幕| 亚洲aⅴ天堂| 国产主播在线一区| 青青青国产精品国产精品美女| 日韩区欧美区| 欧美成人午夜在线全部免费| 国产自在线拍| 天堂中文在线资源| 亚洲国产无码有码| 午夜视频在线观看免费网站| 国产成人一二三| 亚洲国产成人精品青青草原| 国产成人a在线观看视频| 国产在线观看第二页| 国产精品黄色片| 国产精品亚洲综合久久小说| 老司机久久99久久精品播放| 女人18一级毛片免费观看| 午夜国产小视频| 五月婷婷伊人网| 久久亚洲国产一区二区| 在线一级毛片| 色综合激情网| 久久大香伊蕉在人线观看热2 | 九九视频免费在线观看| 亚洲男人的天堂在线观看| 中文纯内无码H| 国产成人精品视频一区视频二区| 国产成熟女人性满足视频| 夜夜拍夜夜爽| 国产91视频观看| 999国产精品| a毛片在线播放| 一级片一区| 亚洲国产天堂在线观看| 亚洲综合欧美在线一区在线播放| 97人妻精品专区久久久久| 精品天海翼一区二区| 日韩AV无码免费一二三区| 国产激情第一页| 午夜欧美在线| 伦伦影院精品一区| 日韩 欧美 小说 综合网 另类| 国产精品妖精视频| 欧美亚洲日韩不卡在线在线观看| 欧美亚洲另类在线观看| 国产精品无码AV中文| 深爱婷婷激情网| 亚洲第一福利视频导航| 亚洲国产精品无码AV| 国产精品香蕉在线| 91视频首页| 伊人无码视屏| 国产乱子伦无码精品小说| 国产91小视频在线观看| 中文字幕在线日本| 欧美日韩第二页| 午夜影院a级片| 夜夜爽免费视频| 国产99在线| 国内毛片视频| 国产一区亚洲一区|