對互聯網搜索引擎的初步認識

2009-07-02 08:36:00陳春陽

新媒體研究 2009年10期

陳春陽

中圖分類號：TP3文獻標識碼：A文章編號：1671－7597（2009）0520039－01

有人說，會搜索才叫會上網，搜索引擎在我們日常生活中的地位已是舉足輕重?；ヂ摼W是一個紛繁浩帙無邊無際的海洋，怎樣才能從這無窮的寶藏中去偽存真，找到自己所想要找的東西，那這就得仰仗搜索引擎了。下面是筆記在多年的工作、學習過程中形成的對搜索引擎一些初步認識，不妥之處還望指正。

一、搜索引擎基本工作原理

搜索引擎按其工作方式主要可分為兩種，一種是全文搜索引擎，另一種是目錄索引類搜索引擎。

（一）全文搜索引擎。全文搜索引擎是名副其實的搜索引擎，是通過從互聯網上提取的各個網站的信息（以網頁文字為主）而建立的數據庫中，檢索與用戶查詢條件匹配的相關記錄，然后按一定的排列順序將結果返回給用戶，因此他們是真正的搜索引擎。

從搜索結果來源的角度，全文搜索引擎又可細分為兩種，一種是擁有自己的檢索程序，俗稱“蜘蛛”程序或“機器人”程序，并自建網頁數據庫，搜索結果直接從自身的數據庫中調用，如百度、谷歌等；另一種則是租用其他引擎的數據庫，并按自定的格式排列搜索結果，如騰訊。

（二）QQ的搜索引擎。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索，即每隔一段時間，搜索引擎主動派出“蜘蛛”程序，對一定IP地址范圍內的互聯網站進行檢索，一旦發現新的網站，它會自動提取網站的信息和網址加入自己的數據庫。另一種是提交網站搜索，即網站擁有者主動向搜索引擎提交網址，它在一定時間內定期向你的網站派出“蜘蛛”程序，掃描你的網站并將有關信息存入數據庫，以備用戶查詢。由于近年來搜索引擎索引規則發生了很大變化，主動提交網址并不保證你的網站能進入搜索引擎數據庫，因此目前最好的辦法是多獲得一些外部鏈接，讓搜索引擎有更多機會找到你并自動將你的網站收錄。

當用戶以關鍵詞查找信息時，搜索引擎會在數據庫中進行搜尋，如果找到與用戶要求內容相符的網站，便采用特殊的算法通常根據網頁中關鍵詞的匹配程度，出現的位置、頻次、鏈接質量等計算出各網頁的相關度及排名等級，然后根據關聯度高低，按順序將這些網頁鏈接返回給用戶。

（三）目錄索引。與全文搜索引擎相比，目錄索引有許多不同之處。

首先，全文搜索引擎屬于自動網站檢索，而目錄索引則完全依賴手工操作。用戶提交網站后，目錄編輯人員會親自瀏覽你的網站，然后根據一套自定的評判標準甚至編輯人員的主觀印象，決定是否接納你的網站。

其次，全文搜索引擎收錄網站時，只要網站本身沒有違反有關的規則，一般都能登錄成功。而目錄索引對網站的要求則高得多，有時即使登錄多次也不一定成功。此外，在登錄全文搜索引擎時，我們一般不用考慮網站的分類問題，而登錄目錄索引時則必須將網站放在一個最合適的目錄。

最后，全文搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的，所以用戶的角度看，我們擁有更多的自主權；而目錄索引則要求必須手工另外填寫網站信息，而且還有各種各樣的限制。更有甚者，如果工作人員認為你提交網站的目錄、網站信息不合適，他可以隨時對其進行調整，當然事先是不會和你商量的。

目錄索引，顧名思義就是將網站分門別類地存放在相應的目錄中，因此用戶在查詢信息時，可選擇關鍵詞搜索，也可按分類目錄逐層查找。如以關鍵詞搜索，返回的結果跟全文搜索引擎一樣，也是根據信息關聯程度排列網站，只不過其中人為因素要多一些。如果按分層目錄查找，某一目錄中網站的排名則是由標題字母的先后順序決定（也有例外）。

目前，全文搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現在也提供目錄搜索，如谷歌就借用Open Directory目錄提供分類查詢。而像雅虎這些老牌目錄索引則通過與谷歌等搜索引擎合作擴大搜索范圍。在默認搜索模式下，一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站，如國內搜狐、新浪、網

易等；而另外一些則默認的是網頁搜索，如雅虎。

二、搜索引擎的常用使用技巧

如果會搜索才叫會上網，那么只會搜索也只是停留在上網的初級階段，要快速、準確地找到自己想要的信息，還需要掌握一定的技巧。

1．使用邏輯詞輔助查找。比較大的搜索引擎都支持使用邏輯詞進行更復雜的搜索界定，常用有：AND（和）、OR（或）、NOT（否，有些是ANDNOT）及NEAR（兩個單詞的靠近程度），恰當應用它們可以使結果非常精確。

2．使用雙引號進行精確查找。如果查找的是一個詞組或多個漢字，最好的辦法就是將它們用雙引號括起來，實現精確搜索，這樣得到的結果最少、最精確。例如在搜索引擎的查詢框中輸入"searchengine"，這會比輸入searchengine得到更少、更好的結果。如果按上述方法查不到任何結果，可以去掉雙引號試試。

3．使用加減號限定查找。很多搜索引擎都支持在搜索詞前冠以加號（+）限定搜索結果中必須包含的詞匯，用減號（-）限定搜索結果不能包含的詞匯。

4．有針對性地選擇搜索引擎。用不同的搜索引擎進行查詢得到的結果常常有很大的差異，這是因為它們的設計目的和發展走向存在著許多的不同，比如：Dejanews是專用于USENET的搜索引擎，而Liszt則是針對郵遞列表、IRC等的搜索引擎。

5．根據要求選擇查詢方法。如果需要快速找到一些相關性比較大的信息，可以使用目錄式搜索引擎的查找功能，如使用雅虎。如果想得到某一方面比較系統的資源信息，可以使用目錄一級一級地進行查找。

6．使用多元搜索引擎。多元搜索引擎是一種只需輸入一次關鍵詞就可以對多個搜索引擎進行查詢的搜索代理網站，如全能搜索（http：//s.k369.com/）就可以同時對多個搜索引擎進行查詢。

7．使用更特定的詞匯。比如，不用“服裝”，而用“西服”；不用“flower”而用“rose”。但要盡可能刪去一些同義詞或近義詞。

上面所述技巧只是一些常用、通用的技巧，每個搜索引擎都有各自的特點，也有各自的搜索技巧。掌握它們，就需要我們在日常的應用中不斷的積累和總結。

三、搜索引擎技術發展趨勢

1．個性化。搜索引擎個性化的核心是通過跟蹤分析用戶的搜索行為，充分地利用這些信息來提高用戶的搜索效率。這種搜索行為分析技術是一種正在發展中的很有前途的搜索引擎人機界面技術。

通過搜索行為分析技術提高搜索效率的途徑主要有兩種：“群體行為分析”（比如“熱門關鍵詞”就是這種分析的運用結果）和“個性化搜索”。后者通過積累用戶的搜索個性化數據，將使用戶的搜索更加精確。

2．智能化。傳統的搜索引擎使用方法是被動搜索，將來也可利用智能代理技術進行主動信息檢索。研究智能檢索系統已為形勢所迫而成為眾所關注的焦點。其中通過對用戶的查詢計劃、意圖、興趣方向進行推理、預測并為用戶提供有效的答案是這種系統的支柱技術。它使用自動獲得的知識進行信息搜集過濾，并自動地將用戶感興趣的信息通過電子郵件或其它方式，提交給用戶。

自然語言搜索能力也是智能化的一個體現，是目前相對易于開發的技術，這會給搜索引擎增加競爭的砝碼。

另外，由于漢語里同義詞很多的特性（比如電腦和計算機就是一個同義詞），網頁檢索時要注意這個問題。因此，建立一個同義詞詞庫并應用在關鍵字搜索中很必要。這也是搜索引擎智能化的一點小小的體現吧。