摘要:分析了當前通用搜索引擎的原理和體系結構,研究了通用搜索引擎在應用于校園網信息檢索時無法完整準確的不足之處以及校園Web信息的特點,總結了校園網搜索引擎應該具有特性以及建設的必要性。
關鍵詞:校園內網搜索 搜索引擎
中圖分類號:TN915 文獻標識碼:A 文章編號:1672-3791(2012)01(b)-0013-02
隨著我校的不斷發展,學校越來越重視數字化校園的建設,并迅速步入了信息化高速發展的階段。隨著學校校園網的不斷完善,這就要求給廣大師生提供一個良好的信息化教學、科研和管理平臺。目前,校園網資源正變得日益豐富,如何更全面、更準確地獲取最新、最有效的信息已經成為我們把握機遇、迎接挑戰和獲取成功的重要條件。通用搜索引擎如百度、谷歌(google)雖然都提供了大學搜索的服務來實現對部分高校校園網范圍內的網頁搜索,但是其存在一些問題,如更新周期過長,對校園內網信息無能為力等,因此,設計高校信息資源的專業搜索引擎,對于高校信息資源的共享以及提高信息資源的利用率就顯得非常有必要。
1 通用搜索引擎的體系結構及現狀分析
在互聯網發展初期,網站相對較少,信息查找比較容易。然而伴隨互聯網爆炸性的發展,普通網絡用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業搜索網站便應運而生了。
1.1 搜索引擎的體系結構
搜索引擎技術是由信息檢索IR(Information Retrieval)技術發展而來,是IR技術在Web上的擴展,信息檢索技術研究信息的表示、存儲、組織和查詢。現代意義上的全文搜索引擎是指以一定的策略搜集互聯網上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統。它具備三大特點:事先下載信息,對信息進行事先組織,實時進行檢索。搜索引擎也是信息檢索(Information Retrieval)這門學科的典型應用。搜索引擎主要由搜索器、索引器、檢索器和用戶接口四部分組成,其體系結構如圖1所示。

1.2 通用搜索引擎的發展現狀
目前按照信息搜集方法和工作方式的不同,搜索引擎系統分為三大類。
(1)目錄式搜索引擎:以人工方式進行主體歸納和分類,由人工形成信息摘要,并將信息歸類于事先確定的分類目錄中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務,用戶可將查詢限定在某一目錄范圍下進行。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、信息不全面、信息更新不及時。這類搜索引擎的代表是:早期的Yahoo、Magellan等。
(2)機器人搜索引擎:是面向網頁的全文檢索服務。由一個稱為爬蟲(spider)的機器程序以深度優先(或廣度優先)策略自動地在Internet中搜集信息,將搜集到的信息存入數據庫并由索引器為其建立索引,由檢索器根據用戶的查詢請求檢索索引庫,將相對應的查詢結果返回給用戶。該類搜索引擎的優點是不需人工干預、信息量大、更新及時,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是Google、Baidu等。
(3)元搜索引擎:元搜索引擎不對Web進行遍歷分析,也沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,然后將各搜索引擎返回的結果進行合并、去重,重新排序統一處理后,返回給用戶。這類搜索引擎的優點是能夠在短時間內提供相對全面和準確的信息,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類索引擎的代表是MetaCrawler、InfoMarket等。
2 校園內網搜索引擎構建的必要性分析
校園網可以看作以學校為單位的內聯網(intranet),它與互聯網(internet)是同質的。但是由于應用環境、網站構建以及鏈接結構方面的不同,對搜索引擎來說,校園網與公用互聯網有著多方面的區別。對于校園網的搜索引擎而言,其目標是關注校園網信息的所有用戶,校園網搜索引擎的目的是盡可能的收集本校園網的信息,區別與通用的搜索引擎要搜索整個互聯網的目的,校園網搜索引擎需要做到對信息收集的“小而全”。而且校園網搜索引擎應該做到易于開發,部署簡單,實現成本低。在功能需求上,無論是在校的師生還是想了解校園信息的其他人員可以通過校園網WWW服務器進行信息的檢索,從而迅速的通過網絡得到校內各部門提供的各種信息。
2.1 校園網Web信息的特點
隨著校園網建設的迅速發展、信息化管理時代的到來以及共享網絡信息資源的快速增長,校園網內的信息正在以驚人的速度增加著。截止目前,我校網絡中心存儲的信息量至少在200G左右,這還不包括分散在各個校區各個學院的信息量。雖然校園網有如此之多的好處,但是,網上資源分布在校園網的各個角落里,用戶無法及時準確的找到自己需要的信息,這使得校園網上的資源被孤立了起來,全校師生在茫茫網海中迅速定位有價值的信息變得比較困難。
構建校園內網搜索引擎的必要性分析。
(1)通用搜索引擎信息量大,信息更新緩慢,采用競價排名機制。
(2)對于校園內網的某些信息無法檢索。
(3)隨著學校的不斷發展,學校越來越重視信息化建設,校園網信息量的急速增長,也使得全校師生迅速獲取到有價值的信息越來越困難。
2.2 校園網搜索引擎的特性
(1)網站集中校園網網站一般集中在一個或幾個IP地址段內,網站之間的鏈接稀疏,由于分射由不同機構和個人進行維護和管理,有些網站很難從其它網站的鏈接到達;網站的重要性與網站規模不成正比,例如新聞和論壇類網站的網頁數量多并且鏈接較密,而教學和管理部門的網站則相反。
(2)信息二義性少校園網網站中的信息,基本上是描述本學校的內容,對于某些特殊的詞語,不像在互聯網上,有其自己的語境,不會出現二義性。
(3)異構文本格式的網頁比例高互聯網上常見的網頁通常有靜態網頁(文件后綴為