999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎中的網絡爬蟲搜索對策分析

2018-05-14 09:06:08魏茂
絲路視野 2018年12期
關鍵詞:搜索引擎對策

【摘要】進入互聯網時代之后,網絡融入到了現代人生活的各個方面,而搜索引擎之運用為人們的工作、學習與生活帶來了非常大的好處。因此,實施對基于搜索引擎的網絡爬蟲技術的探究,對進一步提高搜索引擎的效率來說很有必要。本文在闡述網絡爬蟲原理的基礎上,列舉了網絡爬蟲的基本類別,并提出了搜索引擎中應用網絡爬蟲搜索的主要對策。

【關鍵詞】搜索引擎;網絡爬蟲;對策

隨著互聯網技術的迅猛發展,網絡為人們提供了極大的便利。然而,因為網絡中的信息非常分散和無序,因此極難被充分運用。怎樣在網絡這一信息大海中迅速而又精準地找到最有效的信息,是用戶們迫切需要解決的問題,而搜索引擎的產生很好地破解了該難題。搜索引擎主要是運用諸多網絡站點中的信息,便于為用戶們找到需要的信息。在搜索引擎當中,網絡爬蟲發揮了非常大的作用,是引擎全部數據之源頭。爬蟲設計之優劣將直接影響到引擎系統內容的豐富性與更新的及時性。

一、網絡爬蟲原理闡述

所謂網絡爬蟲,是指一種能夠自動提取相關網頁的程序,能夠為搜索引擎從網絡中下載所需要的網頁,也是搜索引擎中極為重要的構成部份。爬蟲從一個或者數個初始網頁URL上起步,再分析這一URL的源文件,從而提取到新網頁的鏈接,其后再運用新鏈接去找別的新鏈接,如此循環往復,一直到抓取與分析完全部網頁。這可以說是一種理想的狀態,然而事實上不可能抓取到網絡中的全部網頁。依據一項統計,最優秀的搜索引擎只能夠抓取到40%的網頁。原因是網絡爬蟲的抓取技術還存在著瓶頸,難以顧及到全部網頁。同時,存儲技術也存在一定的問題。依據每一網頁平均為20K來計算,100億個網頁的規模為大小就是20萬G,目前的存儲技術還無法達到。

二、網絡爬蟲的基本類別

一是通用爬蟲。其爬取的范圍太大,而且對于爬取的順序要求比較低,但對爬取的速度以及存儲空間的要求相對較高。二是限定爬蟲。主要是一種能夠爬取使用者有興趣的某類網頁的程序。它并不需要爬取全部網頁,只要爬取部分特定網頁即可。工作原理是運用樸素貝葉斯法來訓練文本分類器,其后使用該分類器以指導爬蟲之偏好,在諸多爬蟲隊列中為用戶選出其最有興趣的那部分網頁。三是主題爬蟲。先明確一個或者多個不同的主題,再依據相關分析算法過濾出和主題沒有關系的URL,并保留和主題存在關聯的URL,并且把其放進等待隊列之中,其后再用搜索策略從諸多等待的隊列當中選取下一個需要進行抓取的URL,并且循環操作,一直到達成停止條件為止。

三、搜索引擎中應用網絡爬蟲搜索的主要對策

運用網絡爬蟲,應當盡量搜集和主題有關的網頁,并且減少下載沒有關聯的網頁。主題爬蟲和通用爬蟲比較起來,尚需解決如何進行主題描述與定義、如何判斷網頁內容和主題的關聯、如何判斷鏈接的重要性以及如何提升爬蟲資源的覆蓋率等。下面,從四個方面對實施網絡爬蟲搜索的主要對策進行討論。

一是選擇合適的主題集。在網絡爬蟲之中,為了進行科學的剪枝與過濾,應當對主題加以定義或者描述,從而明確采集之方向。主題集之優劣將直接影響到最后的成效。主題既可以是某些關鍵詞,也可以是某種自然語言。使用者可立足于定制主題對此進行深入描述。

二是提取所需Web信息。自采集起點起,網絡爬蟲即開始爬取Web中的相關信息資源,運用相關Web協議自動爬取各個站點的相關信息。為了能夠更好地獲取相關信息,爬蟲系統當中主要是運用多線程形式來提取其中的Web信息。

三是對頁面進行預處理,實現主題爬蟲所抓取Web頁面的規范化,主要涵蓋了對頁面語法的闡述,對頁面實施去噪等,從中可以提取到網頁當中的各類有效信息,其后再判定網頁信息主題具有的相關性,過濾和主題沒有關聯的頁面,以增加爬蟲獲取主題信息的精準性。因為HTML網頁的內容可從正文、標題、標記信息以及鏈接信息等諸多方面加以體現。所以,在提取網頁信息時只需要提取以上特征信息即可。在讀取頁面過程中,應當找到標記,并把標記中間內容當中的全部標記加以去除,以獲取頁面的正文,而標記為的內容即為網頁標題,其顯示于標題欄之中。即便提取出來的URL能夠通過主題相關性的判定,所提取到的頁面內容和設定主題之間可能也會有比較大的差距。因此,在提取頁面以后還需對頁面信息加以判別,并且刪除和主題沒有關聯的頁面。</p><p>四是對鏈接進行過濾。要進一步提升對主題Web信息提取的速率以及精確性,系統應當對采集到的UI實施URL與主題之間的關系判定。鏈接過濾中最為常用的算法為EPR算法。應當在鏈接關系的前提下增加有關主題之權重,再引入鏈接網頁主題所具有的權重,如此一來,就產生了EPR算法。</p><p>四、結語</p><p>總之,網絡爬蟲技術的應用,為搜索引擎的發展打下了良好基礎。但是,隨著網絡技術的快速發展,現代人對搜索引擎所具有的需求愈來愈大,信息檢索服務朝著個性化與規范化、精細化的趨向加以發展,自然也就對網絡爬蟲的深化設計提出了新的要求。鑒于網絡爬蟲具備了重復性的特點,所以怎樣實現頁面動態變化之規律和原來的搜索統計結果的密切結合,以提升爬取工作的效率,值得下一步繼續深入加以探究。</p><p>參考文獻</p><p>[1]楊文剛,韓海濤.大數據背景下基于主題網絡爬蟲的檔案信息采集[J].蘭臺世界,2015(20).</p><p>[2]盛亞如,魏振鋼,劉蒙.基于主題網絡爬蟲的信息數據采集方法的研究與應用[J].電子技術與軟件工程,2016(07).</p><p>[3]祁忠琪,呂曉聰.基于網絡爬蟲的搜狐網新聞搜索引擎系統的實現[J].數字通信世界,2017(07).</p><p>作者簡介:魏茂(1980.11—),男,漢族,四川梓潼人,學士,講師,研究方向:可視化和人工智能方向。

猜你喜歡
搜索引擎對策
診錯因 知對策
對策
面對新高考的選擇、困惑及對策
關于職工隊伍穩定的認識和對策
活力(2019年22期)2019-03-16 12:47:28
防治“老慢支”有對策
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
主站蜘蛛池模板: 国产午夜精品鲁丝片| 亚洲最猛黑人xxxx黑人猛交| 欧美日韩高清| 亚洲热线99精品视频| 亚洲AV无码久久精品色欲| 国产一线在线| 国产成人av大片在线播放| 欧美五月婷婷| 成·人免费午夜无码视频在线观看 | 57pao国产成视频免费播放| 最新痴汉在线无码AV| 粉嫩国产白浆在线观看| 97成人在线观看| 欧美一区二区精品久久久| 久久国产精品77777| 成人伊人色一区二区三区| 韩国福利一区| 色婷婷综合在线| 亚洲激情99| 欧美不卡在线视频| 91九色最新地址| 久久中文电影| 久久99热这里只有精品免费看| 久久国产V一级毛多内射| 亚洲精品桃花岛av在线| 亚洲三级色| 91美女在线| 91精品国产自产在线老师啪l| 国产女人在线观看| 91精选国产大片| 午夜精品影院| 国产福利免费在线观看| 亚洲—日韩aV在线| 一本综合久久| 亚洲综合色在线| 国产精品丝袜在线| 国产网站免费看| 自慰网址在线观看| 亚洲制服中文字幕一区二区| 国产女主播一区| 国产欧美精品午夜在线播放| 亚洲男人的天堂在线| 国产极品嫩模在线观看91| 国产一级在线观看www色| 色网站在线免费观看| 久久久四虎成人永久免费网站| 亚洲天堂久久新| 国产亚洲欧美日韩在线一区| 波多野结衣在线se| 亚洲精品777| 亚洲an第二区国产精品| 欧美日韩免费在线视频| 99re免费视频| 欧洲精品视频在线观看| 色精品视频| 亚洲日韩高清在线亚洲专区| 综合色亚洲| 亚洲国产中文欧美在线人成大黄瓜| 亚洲欧美激情小说另类| 免费看av在线网站网址| 亚洲精品国产自在现线最新| 国产精品香蕉在线| 婷婷久久综合九色综合88| 午夜福利视频一区| 黄色在线不卡| 久热re国产手机在线观看| 被公侵犯人妻少妇一区二区三区 | 亚洲午夜综合网| 婷婷午夜天| 国产综合另类小说色区色噜噜| 日本高清有码人妻| 高清色本在线www| 国产成人狂喷潮在线观看2345| 夜夜拍夜夜爽| 露脸国产精品自产在线播| 国产在线观看一区精品| 18禁影院亚洲专区| 国产精品片在线观看手机版 | 草逼视频国产| 国产成人夜色91| 亚洲欧美国产五月天综合| 亚洲全网成人资源在线观看|