王 鵬
(山東廣播電視大學,山東 濟南 250014)
截至2008年底,中國網民數達2.98億,搜索引擎使用率從2007年的72.4%下降為68.0%,但用戶增長5100萬人,高于電子郵件(56.8%),僅次于即時通信(75.3%)。迄今已有超過兩億人從搜索引擎中獲益[1]。
搜索引擎成為備受歡迎的網絡服務,因為它解決了在浩瀚的互聯網信息海洋中快速定位信息的瓶頸問題。但隨著互聯網迅速發展,Web信息資源呈“爆炸式”增長,出現了“信息過剩”現象,通用搜索引擎面臨信息收集冗余與精確定位的雙重挑戰。垂直搜索引擎應運而生,以專業化的視角,細致化的信息處理方式,為用戶提供更有效的服務。
本文從搜索引擎的體系結構出發,針對通用搜索引擎存在的問題,探索垂直搜索引擎的工作流程,分析了其優勢,并且引入一款實際應用中的垂直搜索引擎進行分析。然后以滿足用戶個性化需求為導向,設計實現了一個垂直搜索引擎的個性化信息檢索及推薦算法,并進行了驗證。
搜索引擎并不真正搜索互聯網,它搜索的實際上是經過預處理的網頁索引數據庫。無論是通用搜索還是垂直搜索,在這一點上是一致的。
真正意義上的搜索引擎,通常指的是收集了因特網上幾千萬到幾十億個網頁并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數據庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。
在體系結構上,現代大規模通用搜索引擎基本都遵循三段式的工作流程,即網頁搜集、預處理、查詢服務。……