【摘要】進入互聯網時代之后,網絡融入到了現代人生活的各個方面,而搜索引擎之運用為人們的工作、學習與生活帶來了非常大的好處。因此,實施對基于搜索引擎的網絡爬蟲技術的探究,對進一步提高搜索引擎的效率來說很有必要。本文在闡述網絡爬蟲原理的基礎上,列舉了網絡爬蟲的基本類別,并提出了搜索引擎中應用網絡爬蟲搜索的主要對策。
【關鍵詞】搜索引擎;網絡爬蟲;對策
隨著互聯網技術的迅猛發展,網絡為人們提供了極大的便利。然而,因為網絡中的信息非常分散和無序,因此極難被充分運用。怎樣在網絡這一信息大海中迅速而又精準地找到最有效的信息,是用戶們迫切需要解決的問題,而搜索引擎的產生很好地破解了該難題。搜索引擎主要是運用諸多網絡站點中的信息,便于為用戶們找到需要的信息。在搜索引擎當中,網絡爬蟲發揮了非常大的作用,是引擎全部數據之源頭。爬蟲設計之優劣將直接影響到引擎系統內容的豐富性與更新的及時性。
一、網絡爬蟲原理闡述
所謂網絡爬蟲,是指一種能夠自動提取相關網頁的程序,能夠為搜索引擎從網絡中下載所需要的網頁,也是搜索引擎中極為重要的構成部份。爬蟲從一個或者數個初始網頁URL上起步,再分析這一URL的源文件,從而提取到新網頁的鏈接,其后再運用新鏈接去找別的新鏈接,如此循環往復,一直到抓取與分析完全部網頁。這可以說是一種理想的狀態,然而事實上不可能抓取到網絡中的全部網頁。依據一項統計,最優秀的搜索引擎只能夠抓取到40%的網頁。原因是網絡爬蟲的抓取技術還存在著瓶頸,難以顧及到全部網頁。同時,存儲技術也存在一定的問題。依據每一網頁平均為20K來計算,100億個網頁的規模為大小就是20萬G,目前的存儲技術還無法達到。
二、網絡爬蟲的基本類別
一是通用爬蟲。其爬取的范圍太大,而且對于爬取的順序要求比較低,但對爬取的速度以及存儲空間的要求相對較高。二是限定爬蟲。主要是一種能夠爬取使用者有興趣的某類網頁的程序。它并不需要爬取全部網頁,只要爬取部分特定網頁即可。工作原理是運用樸素貝葉斯法來訓練文本分類器,其后使用該分類器以指導爬蟲之偏好,在諸多爬蟲隊列中為用戶選出其最有興趣的那部分網頁。三是主題爬蟲。先明確一個或者多個不同的主題,再依據相關分析算法過濾出和主題沒有關系的URL,并保留和主題存在關聯的URL,并且把其放進等待隊列之中,其后再用搜索策略從諸多等待的隊列當中選取下一個需要進行抓取的URL,并且循環操作,一直到達成停止條件為止。
三、搜索引擎中應用網絡爬蟲搜索的主要對策
運用網絡爬蟲,應當盡量搜集和主題有關的網頁,并且減少下載沒有關聯的網頁。主題爬蟲和通用爬蟲比較起來,尚需解決如何進行主題描述與定義、如何判斷網頁內容和主題的關聯、如何判斷鏈接的重要性以及如何提升爬蟲資源的覆蓋率等。下面,從四個方面對實施網絡爬蟲搜索的主要對策進行討論。
一是選擇合適的主題集。在網絡爬蟲之中,為了進行科學的剪枝與過濾,應當對主題加以定義或者描述,從而明確采集之方向。主題集之優劣將直接影響到最后的成效。主題既可以是某些關鍵詞,也可以是某種自然語言。使用者可立足于定制主題對此進行深入描述。
二是提取所需Web信息。自采集起點起,網絡爬蟲即開始爬取Web中的相關信息資源,運用相關Web協議自動爬取各個站點的相關信息。為了能夠更好地獲取相關信息,爬蟲系統當中主要是運用多線程形式來提取其中的Web信息。
三是對頁面進行預處理,實現主題爬蟲所抓取Web頁面的規范化,主要涵蓋了對頁面語法的闡述,對頁面實施去噪等,從中可以提取到網頁當中的各類有效信息,其后再判定網頁信息主題具有的相關性,過濾和主題沒有關聯的頁面,以增加爬蟲獲取主題信息的精準性。因為HTML網頁的內容可從正文、標題、標記信息以及鏈接信息等諸多方面加以體現。所以,在提取網頁信息時只需要提取以上特征信息即可。在讀取頁面過程中,應當找到標記
,并把標記中間內容當中的全部標記加以去除,以獲取頁面的正文,而標記為四是對鏈接進行過濾。要進一步提升對主題Web信息提取的速率以及精確性,系統應當對采集到的UI實施URL與主題之間的關系判定。鏈接過濾中最為常用的算法為EPR算法。應當在鏈接關系的前提下增加有關主題之權重,再引入鏈接網頁主題所具有的權重,如此一來,就產生了EPR算法。
四、結語
總之,網絡爬蟲技術的應用,為搜索引擎的發展打下了良好基礎。但是,隨著網絡技術的快速發展,現代人對搜索引擎所具有的需求愈來愈大,信息檢索服務朝著個性化與規范化、精細化的趨向加以發展,自然也就對網絡爬蟲的深化設計提出了新的要求。鑒于網絡爬蟲具備了重復性的特點,所以怎樣實現頁面動態變化之規律和原來的搜索統計結果的密切結合,以提升爬取工作的效率,值得下一步繼續深入加以探究。
參考文獻
[1]楊文剛,韓海濤.大數據背景下基于主題網絡爬蟲的檔案信息采集[J].蘭臺世界,2015(20).
[2]盛亞如,魏振鋼,劉蒙.基于主題網絡爬蟲的信息數據采集方法的研究與應用[J].電子技術與軟件工程,2016(07).
[3]祁忠琪,呂曉聰.基于網絡爬蟲的搜狐網新聞搜索引擎系統的實現[J].數字通信世界,2017(07).
作者簡介:魏茂(1980.11—),男,漢族,四川梓潼人,學士,講師,研究方向:可視化和人工智能方向。