譚凱文
(湖南長沙麓山濱江實驗學校 410000)
搜索引擎技術的原理與分類
譚凱文
(湖南長沙麓山濱江實驗學校 410000)
在互聯網的發展下,網絡中的信息資源也呈現出爆炸式的增長趨勢,給人們帶來了海量的信息,同時也對信息的搜索提出新的要求,搜索引擎技術的應用即可解決這一問題。本文主要針對搜索引擎技術的原理與分類進行分析。
搜索引擎技術;原理;分類
網絡時代的到來拉近了人與人之間,人與世界之間的距離,改變了人們獲取信息的方式。在當今世界,面對紛雜而繁亂的信息世界,要想快速、高效而精準地獲取自己想要的信息,我們需要高效的搜索技術和工具的支持。搜索引擎的出現有效地解決了信息獲取困難的問題。
搜索引擎是一種技術,也是一種信息檢索的工具,還是存儲有大量信息的數據庫,也可以被稱之為可以對信息進行查詢的網站。因為搜索引擎其實就是人們可以在互聯網上使用網絡的搜索軟件,根據設定的要求進行大量相關信息的檢索、收集、分析,并形成相關信息數據庫、索引數據庫,一旦出現信息的檢索,則提供相應的信息服務或指引。搜索引擎的信息采集是網絡機器人掃描一定IP地址范圍內的網站,通過鏈接遍歷Web空間,來采集網頁資料。為保證采集的資料最新,網絡機器人還會回訪已抓取過的網頁。
搜索引擎技術的應用首先是利用所謂的爬蟲軟件對web頁面進行抓取,也就是頁面的鏈接和讀取,在固定時間內會有重復的動作以查看頁面的變化和更新。只有對抓取過的頁面進行拷貝和建立索引以后才有可能完成搜索引擎的搜索和信息的實時更新。搜索引擎技術的使用還需要有分析軟件,進行信息檢索的時候才會查找并搜索出與要求相互匹配的信息和數據并進行某一屬性的升降的排序。
為了更快捷高效地得到自己想要的信息,必須保證運用搜索引擎進行信息檢索的時候,搜索出的網頁排序靠前。這就需要人們在用搜索引擎進行信息檢索的時候注意關鍵詞的位置排列和出現的頻率的高低。要根據所搜索的信息找出最重要的作為關鍵詞,它必須有具體的含義和指向并且在檢索信息中應該位置靠前。如要買睡衣,不能用衣服做關鍵詞,否則我們就會看到褲子、裙子、甚至是鞋子很多可選頁面;我們可以用睡衣甚至是男式或女式睡衣來作為關鍵詞進行檢索,這樣搜出的頁面就更符合我們的要求,我們只需注意款式、材質甚至價格就行。如果再加上“棉”字來作為關鍵詞,那么就更接近我們所要的東西的要求了。搜索引擎對網頁進行檢索的時候,關鍵詞出現的頻率越高,越容易被查找出來,這也是我們要高效得到搜索內容的途徑之一。
搜索引擎可以分為全文搜索引擎、目錄搜索引擎和元搜索引擎三種類型。
全文搜索引擎是真正意義上的搜索引擎。全文搜索引擎是通過搜索引擎的爬蟲軟件對互聯網的網頁進行抓取,分析并提取相關網站的信息,建立記錄并創建索引數據庫,一旦用戶查詢條件符合記錄的信息和數據,就會自動執行返回操作。
目錄索引僅僅是能在信息檢索的時候按目錄分類提供相應的網站站點的鏈接,需要人工的信息摘要和分類以便進行目錄的瀏覽和直接的信息檢索。所以說目錄搜索引擎只是具備了搜索的功能而名不副實。
元搜索引擎沒有建立自己的數據庫,所以需要向多個搜索引擎遞交用戶的查詢請求,對返回的結果進行分析排序然后提供給用戶。
在用全文搜索引擎的時候,所有的操作是自動的,其搜索的信息量大而全面,并且更新及時,不會出現落伍和過時的信息。但由于信息量的龐大,用戶需要自己篩選有用的信息,摒棄那些沒用的記錄和結果,比較浪費時間,不能實現查找的精確性。而目錄搜索引擎需要進行手動的人工操作,雖然比較麻煩,提供的可用信息量小,但可以實現信息查找的分類和逐層的目錄檢索,查找的準確度要優于全文搜索引擎。元搜索因為同時對多個搜索引擎進行查詢的申請,所提供的信息量最大,但同樣需要用戶進行更多的精確篩選,費時尤甚。
搜素引擎給人們提供了信息查找和檢索的方便,但隨著互聯網的應用領域的日益拓展和人們要求的不斷提高,顯現出很多應用上的問題。各種搜素引擎的檢索規則不統一,人們使用起來并不方便;同時搜素引擎技術也應該與時俱進,對搜素的空間和信息查詢結果的精確度上應該有更大的提高。搜素引擎目前的檢索速度還不夠快,搜素出來的結果不僅單一,達不到用戶個性化服務的要求。而搜索引擎技術隨著人們對信息檢索的要求,對數據庫的信息儲存提出更高的要求,這種大容量的數據庫需要大量的帶寬和中央處理器的空間,在一定程度上影響了計算機運行的速度。
搜索引擎技術的發展深刻地影響著人們的生活。隨著未來網絡的發展和信息技術的進步,搜索引擎技術的研究與發展也將出現新的契機。
[1]王濤,田濤,李昌林.云電視關鍵技術——云計算搜索引擎技術專利分析[J].電視技術,2013(S2).
[2]陳楚云,李麗霞,周蔚林.用搜索引擎技術開發和利用針灸古文獻[J].世界科學技術(中醫藥現代化),2011(05).
[3]祁延莉,張揚揚.搜索引擎技術專利的統計分析[J].中國發明與專利,2010(07).
[4]張煥武.搜索引擎技術研究的現狀與展望[J].科技情報開發與經濟,2009(03).
TP391.3
A
1004-7344(2016)35-0249-01
2016-12-4