燕 苗
石家莊計算機職業學院,河北 石家莊 050061
隨著科技與時代的發展,Internet目前的用戶已經遍及全球,有超過幾億人在使用Internet,并且它的用戶數還在以等比級數上升。根據中國互聯網絡信息中心(CNNIC)最新發布的《第22次中國互聯網絡發展狀況統計報告》。截至2008年6月底,我國網民數量達到2.53億,網民規模量位居世界第一位,比去年同期增長了9100萬人,同比增長了56.2%。中國網民中接入寬帶比例為84.7%,寬帶網民數已達到2.14億人。
人們要在海量的網頁中找到自己感興趣的內容變得非常困難,據統計即使經常上網的用戶能夠記住的網站名稱一般不超過十個。因此,人們越來越依賴于搜索引擎來查找各種信息。如何能夠更有效、更準確地找到自己感興趣的內容,關系到用戶能否充分利用這個巨大的信息資源,這已經成為網絡信息獲取的熱點問題。搜索引擎的出現在很大問題上解決了廣大用戶的這一問題。
引擎的核心是文檔索引與檢索模型的建立,按照文本信息檢索模型搜索引擎可分為:全文搜索引擎和目錄搜索引擎。
是真正的搜索引擎,全文檢索系統是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統。全文搜索引擎是計算機索引程序通過從互聯網上提取每個網站的信息,掃描文章中的每一個詞,對每一個詞建立一個索引建立索引數據庫,當用戶查詢時通過檢索查詢與之匹配的相關記錄,并將查找的結果反饋給用戶的檢索方式,因此他們是真正的搜索引擎。最常用的全文搜索引擎有百度、谷歌(Google)等。
顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找,目錄搜索引擎雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按一定的分類規則或分類體系,對網站進行分類而已。對比全文搜索引擎來說,它們結構清晰、錯誤較少,比較符合人們的閱讀習慣的優點,缺點是需要人工介入、維護量大、信息量少、信息更新不及時,不能適應Web資源的規模發展,另外如果查找的信息沒有對應的分類項,則無法進行搜索。目錄搜索引擎的代表是國內搜狐、新浪、網易等;還有非常著名的Yahoo。
此外,搜索引擎按主要技術來分類,又分以下幾類:
1)目錄式搜索引擎
目錄式搜索引擎(Yahoo等)以人工方式搜集信息,由編輯員查看信息之后,以某種分類形式形成信息摘要,并將信息置于事先確定的分類框架中,按時間先后或這些方法的組合,組織WWW信息資源。
2)基于網絡爬蟲的搜索引擎
基于網絡爬蟲的搜索引擎(Google,Altavista,WebCrawler,Lycos等)又稱索引式搜索引擎,是一種最常見的搜索引擎。網絡爬蟲是一種功能很強的自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。
爬蟲首先會從若干初始的已知的URLs開始,獲得網頁的url,依次在Web上抓取這些網頁并不斷從當前頁面抽取新的url,獲取這些網頁中的其他鏈接并將鏈接加入待爬URLs隊列中,直到滿足系統的一定停止條件,然后,索引器將相應信息存入本地索引數據庫中。
3)元搜索引擎元搜索引擎
這類搜索引擎沒有自己的數據,將現有的多個搜索引擎作為一個整體,為用戶提供一個統一的查詢界面,并將用戶的查詢請求同時向多個搜索引擎遞交,最后元搜索引擎再把從各個搜索引擎返回的結果收集起來,重復排除、重新排序等處理后,作為自己的結果返回給用戶將返回的結果進行,這類搜索引擎兼集多個搜索引擎的信息,并且加入新的排序和信息過濾,可以很好的提高用戶滿意度,它的優秀代表是萬緯搜索引擎[6]、vivisino[7]等
4)分布式搜索引擎
分布式搜索引擎按區域、主題、IP地址或其它標準創建分布式索引服務器,索引服務器之間相互可以交換中間信息,且查詢可以被重新定向。信息搜索機器人負責本區域內的信息搜索,并建立索引信息存入索引數據庫。
網上的信息浩如煙海,網絡資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網絡信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直搜索引擎(Vertical Seareh Engine)以其高度的目標化和專業化在各類搜索引擎中占據了一席之地。垂直搜索引擎,是針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。是搜索引擎的細分和延伸,也是對網頁庫中的某類專門的信息進行一次整合,其特點就是“專、精、深”,且具有行業色彩。它是與通用搜索引擎截然不同的引擎類型。垂直搜索引擎專注具體、深入的縱向服務,致力于某一特定領域內信息的全面和內容的深入,可以簡單的說成是搜索引擎領域的行業化分工。
目前,國內外的搜索引擎的發展趨勢是通用型搜索引擎向特色垂直搜索引擎轉變。下面介紹一些較具有代表性的系統。
職脈網是2006年初成立的網絡招聘網站,是一家由知名風險投資機構投資的人力資源招聘服務公司,它融合了web2.0的概念,通過人才相互之間的推薦達到更有效的找到合適的人才。
房老大是一個專業的,提供純粹的房源信息的搜索平臺。該搜索引擎涉及二手房、租房、新房、別墅、寫字樓、商鋪以及廠房等七種不同的房源,涵蓋100多個城市。
搜索技術是一個比較復雜,難度比較大的科目,其中涉及到網頁的搜索算法,倒排索引技術,中文分詞技術,以及網頁的排序算法等諸多問題。本文簡單介紹了搜索引擎的分類,及通用搜索引擎的體系結構,在最后簡單介紹了垂直搜索引擎的主要特點隨著網絡的發展,用戶需求的不斷增加,搜索引擎也將步入一個高速增長的時期。
[1]中國互聯網絡信息中心.第22次中國互聯網絡發展狀況統計報告,2008,7:4-9.
[2]梁斌.走進搜索引擎.北京:電子工業出版社,2007.