摘 要:中文搜索引擎的出現,提高了我們檢索信息的速度。但是,現在它的發展還并不健全,存在著不少的問題。本文通過闡述中文搜索引擎發展現狀,進而分析如何解決這些瓶頸的對策。
關鍵詞:搜索引擎 查準率 查全率
中圖分類號:TP3 文獻標識碼:A 文章編號:1672-3791(2012)12(c)-0022-01
搜索引擎在國外發展的較早,比較著名的有:Google,Yahoo,Excit,Lycos等。其中根據ComScore公司近兩年的統計,全球近75%的網民使用過谷歌搜索引擎或其提供的各種衍生服務。而我國主要從1997年開始發展面向中文信息檢索的中文搜索引擎。到現在,國內搜索行業已被百度所統領。
雖然搜索引擎的出現確實為人們在網上查找信息提供了強有力的手段和有效的工具,但是目前,屬于某個領域的各種中文搜索引擎的數量越來越多,從而使搜索引擎產生了一定的局限性。并且在信息維護、網絡站點負載,管理及服務等方面暴露了一些問題與不足。
1 搜索效率
搜索引擎的兩個主要指標是查準率(precision)和查全率(recall)。查準率從一個方面描述了搜索引擎系統的查詢開銷。如果某次查詢的查準率是85%,則15%的文獻是不相關文獻,但用戶瀏覽其中的內容以確定它們是否包含所需信息。對于實際系統,索引速度和檢索速度也是重要指標。事實上,在測試中,絕大多數系統的平均查準率都在0.1~0.5之間,最好的測試結果平均查準率也不到0.6。根據直觀估計當前Internet上的著名搜索引擎,如yahoo,google等,它們的平均查準率小于0.2。這說明搜索引擎系統的性能還有很大的提高空間,但提高系統性能是非常困難的。
2 站點和網絡負載
這也是目前網絡搜索引擎存在的最大問題。網絡搜索機器人快速地讀取文檔,必然會導致了大量的網絡流量和站點負載,傳輸大量的數據時,某些站點很有可能會因為機器人要讀取文檔而一直處于繁忙狀態。機器人所造成的負載很大程度上是由于機器人為了對相應數據建立索引,需要讀取整個文檔造成的。另外,當機器人沿鏈接作深度優先搜索時,WEB服務器的負載往往也很重。
3 搜索引擎間的數據重復
常用的搜索引擎很少能夠與其它的搜索引擎共享它們的數據。其結果就是多個搜索引擎檢索相同的資源和文檔,多個機器人搜索訪問同樣的WEB站點,無疑帶來了不必要的網絡和服務器負載。當用戶使用多個搜索引擎尋找信息時,也給用戶造成不必要的麻煩。
4 鏈接和數據的易變性
這是搜索引擎所面臨的一個重要問題。對搜索引擎的影響是,索引數據庫存儲的文檔和鏈接信息很有可能已經改變了位置或己經被刪除。當用戶查詢某些信息時,搜索引擎給出文檔和鏈接的列表,而當用戶試圖沿著鏈接到遠程站點訪問這些信息時,他們也許會收到這樣的出錯信息,“沒有找到服務器”。
5 缺乏統一的規劃、協調與合作
目前國內搜索行業百度已是一方霸主。然而,搜狗也在推出搜索引擎開放平臺,中搜更是強力打造自己的第三代搜索引擎,包括一淘網、網易有道等垂直搜索也漸成“氣候”。搜索是互聯網產品中的高科技產品,企業間的競爭不應局限于與同業者的橫向競爭,更應該在自身的技術深度上勤加耕耘。同時相互協作,取長補短,為用戶提供更好的搜索產品和體驗。
6 網絡知識產權立法落后
我國對網絡中的侵權行為,沒有成型的法律進行規定。目前大多采用《著作權法》的相關規定來解決,但是在網絡環境下,知識產權的客體得到了拓展,網絡知識產權侵權的類型也呈現多樣化。因此傳統的著作權法有著其局限性,為適應網絡知識產權保護范圍擴大化的要求,必須揭示和分析存在的問題并加強和完善保護措施,以保證權利人的權益得到切實的保護。
針對中文搜索引擎存在的種種問題,結合國外搜索引擎發展過程中的經驗,筆者認為中文搜索引擎可采取以下對策。
(1)建立垂直化、專業化搜索引擎。
垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式。
它是針對性的為某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。可以簡單的說成是搜索引擎領域的行業化分工。市場需求多元化決定了搜索引擎的服務模式必將出現細分,針對不同行業提供更加精確的行業服務模式。通用搜索引擎的發展為垂直搜索引擎的出現提供了良好的市場空間,勢必將出現垂直搜索引擎在互聯網中占據部分市場的趨勢,也是搜索引擎行業細分化的必然趨勢。
(2)建立搜索引擎協調機制,制定網站的有關標準。
隨著中文搜索引擎的日益增多,各類搜索引擎開發與資源建設的重復現象也越來越嚴重。因此,建立統一的機構,協調各搜索引擎網站之間的開發設計與資源建設也就提上了日程。
(3)發展中文搜索引擎的個性化信息服務。
個性化搜索是以用戶為中心的搜索技術,它獲取以多種形式表達的用戶需求,并綜合利用這些用戶信息,提高搜索引擎滿足用戶需求的能力。個性化服務通過收集和分析用戶信息來學習用戶的興趣和行為,從而實現主動推薦的目的。
目前的技術發展過程中,搜索引擎逐漸更加注重對于用戶群體的個性化使用習慣的培養,百度推出的“個性化首頁”產品就為用戶提供登錄后推薦信息和應用的極大便利,以此鼓勵用戶提供個性化信息,提升搜索效果并增加用戶黏性。隨著搜索引擎在網絡應用環境中的更深層次參與,這類個性化產品的數量和應用規模也有繼續擴大的趨勢,而個性化搜索技術的發展也呈現出更加積極的前景。
(4)多媒體搜索技術。
隨著多媒體信息處理技術在近年來的發展,搜索引擎的部分多媒體搜索產品開始越來越多的依靠媒體內容提升搜索服務水平。2011年,谷歌、百度和搜狗搜索都提供了以圖片作為查詢需求表示的“以圖搜圖”的圖片搜索功能,滿足用戶對于圖片獲取的信息訴求。
(5)健全有關的網絡法規。
法律法規不健全會為搜索引擎的發展帶來一定的阻礙。所以,我們要制定并健全現有的法律法規。
隨著互聯網的飛速發展,各類中文信息資源的日益豐富,賦予了中文搜索引擎無限的生機,同時也給中文搜索引擎的發展帶來了嚴峻挑戰。各類中文搜索引擎只有切實研究用戶信息需求的特點,不斷完善和發展搜索技術,走適合自己發展的商業化道路,才能在眾多的搜索引擎中獲得屬于自己的發展空間,才能在激烈的競爭過程中立于不敗之地。
參考文獻
[1]劉奕群.中文搜索引擎發展研究報告[R].中國人工智能學會通訊,2012(5).
[2]孫宏,李戴維,董旭陽,等.搜索引擎技術與發展綜述[J].計算機光盤軟件與應用,2012(14).
[3]陳俊杰.中文搜索引擎現狀與發展研究[J].佳木斯教育學院學報,2011(3).