海南大學 李俊頡 李為民
基于自然語言檢索的網頁快照技術研究
海南大學 李俊頡 李為民
隨著互聯網技術的飛速發展,信息的發布與共享超越了時空的限制,互聯網信息的極速發展給用戶帶來海量的信息資源的同時,也帶來了尋找有效信息的困難.本文通過現有搜索引擎的比較研究,提出一套基于自然語言檢索的網頁快照技術.舉例Google的PageRank算法優化網頁排名、自然檢索和網頁快照技術相結合的檢索方式,提高了用戶檢索體驗。
搜索引擎;自然語言檢索;網頁快照;搜索引擎排序
自然語言檢索包括自然語言標引和自然語言提問查詢。自然語言是以源文檔中的內容作為源檢索標示,之后會提供給用戶接口使得用戶可以使用自然語言作為檢索內容并進行提問,完成檢索。
自然語言的檢索方法符合人們日常查找信息的思維模式。用戶無需學習布爾檢索式,拋開了有關關鍵詞和詞組的種種限制,不需牢記繁瑣的檢索規則,只要像平時提問一樣即可。
目前在中國,網絡信息資源總量呈爆炸式增長,且在全球信息檢索中的比例不斷提高,Google的圖書數字化計劃開展以來也使得數字化信息成為了愈來愈重要的資源形式。與此同時,用戶的結構也發生了變化,越來越多的普通用戶代替了原來專業技術用戶,隨之而來的檢索需求也趨向多元化發展,目前,大多數用戶即使不了解專業術語,也可以使用自然語言來對他們所需要的信息進行描述來達到二次檢索的效果。自然語言相對于受控語言具有以下特點:
(1)符合用戶思考習慣,不必使用特定語法;
(2)可以進行概念控制,提高查準率。
自然語言研究處理所使用的語言都是以自己的母語為主(大部分為英語)。雖然在研究中發現自然語言處理的有些思想理論可以脫離于具體語種,具有很大程度上的普適性,但在一些具體的研究項目中,許多處理方法都是與所使用的語言緊密相連的,例如英語與漢語的側重點具有很大的差異。因此,自然語言檢索的研究仍處于探索階段,一些方法理論僅僅只適用于特殊設定的情況,同時,在漢語方面的研究還是要落后于國外,缺乏一些深層次的研究[1]。
2.1 網頁快照技術的提出
在通過國內外搜索引擎對比分析之后發現,目前大多數Internet搜索引擎都主要是對Web信息資源進行抓取收集,并對用戶提供檢索服務這類模式,在日漸發展中,都在向綜合搜索引擎靠攏。這些搜索引擎在提供與用戶搜索內容相關聯的網頁內容之后,雖然根據一定的算法進行了排序工作,但搜索結果仍然魚龍混雜,更為主觀的決定還是在于用戶本身,需要用戶自己判定結果中那些是正確的,哪些是不正確的。而對于一些客觀存在的,具有唯一答案的問題,在參雜了網民主觀因素之后,也會出現不同的答案,這些帶有主觀色彩檢索結果不但降低了檢索問題所需要的準確性,而且耗費了很多用戶的時間。下面舉例說明(Baidu Search):
古詩詞:在對關鍵字“床前明月光”進行檢索時,除了出現“床前明月光,疑是地上霜”正確答案之外,在靠前的網頁中還有“床前明月光,李白睡得香”、“床前明月光,苦悶心慌慌”、“床前明月光,李白打開窗”等一系列錯誤答案。
2.2 建筑物位置
在對關鍵詞“我想知道海南大學圖書館具體位置”進行檢索時,前10個檢索結果都是與“海南大學圖書館簡介”有關,在內容里并沒有具體提供檢索關鍵詞的答案。
基于此,提出了一項基于自然語言檢索的網頁快照技術,通過實驗可以發現,使用此項技術不但可以提高用戶檢索體驗,而且檢索速度加快了26.1%-32.2%。
網頁快照技術:用戶在搜索引擎檢索框通過自然語言輸入所需要的檢索內容(例如:海南大學圖書館的具體位置;我需要海口白沙門公園的地圖),搜索引擎使用數據和語言分析技術與用戶的查詢問題做精確匹配。并在檢索答案返回時具有相應匹配結果的鏈接下方增設網頁快照按鈕,當用戶移動光標置于此按鈕時,會以文本的形式顯示相應匹配答案。
3.1 網頁快照數據庫
在除普通搜索引擎服務器外,新增加網頁快照數據庫組,里面儲存自然語言檢索問題及相應答案。
在普通檢索頁面增設網頁快照置位vn(用1和0表示),當頁面檢索網頁快照置位為1時,提交后臺審核,成功后將此頁面放入網頁快照數據庫。用戶在進行檢索操作時,搜索引擎首先在網頁快照數據庫內根據語言分析技術匹配,若匹配成功,則在具有此檢索的頁面下方增設網頁快照按鈕,之后執行搜索引擎自身檢索操作。
3.2 網頁快照頁面排序
引入網頁快照因子vf,常常取值vf=0.05;網頁快照置位vn(vn=0或1),帶有網頁快照的PageRank算法如下:

上述公式解釋:
如果網T存在一個指向網頁A的鏈接,則表明所有者認為A比較重要,從而把T的一部分重要性賦予A,這個重要性得分值為:其中PR(T)為T的PageRank值,L(T)為T的出鏈數;由于一些出鏈為0,也就是那些不連接人和其他網頁的頁面(孤立頁面),因此增加了阻尼系數q,q一般取值q=0.85;考慮到存在網頁快照按鈕頁面較為重要,因此引入vf、vn提高這類頁面的PageRank值以增加排名。
由于網頁快照是存儲在搜索引擎服務器中,所以查看網頁快照的速度比直接訪問網頁要快。網頁快照中,搜索的關鍵詞用鮮艷的亮色顯示,用戶可以點擊呈現亮色的關鍵詞直接找到關鍵詞的位置,以便于快速找到有效信息,提高搜索效率。使用基于自然語言檢索的網頁快照技術有以下特點:
(1)優點
1)網頁快照技術已經得到谷歌,百度,必應等主流搜索引擎的支持,并且都支持自然語言檢索,并且使用效果極其優秀。
2)超鏈技術是每一個網頁必備的基礎,所以與網頁快照結合十分高效,敏捷。
3)用戶只需將鼠標移至該圖標(或者直接放在網頁的超鏈上)。
并稍做停留,就會該出現網站的基于網頁快照優化后的超鏈文本,它能使用戶在進入最終網頁之前能夠預覽到即將點進的搜索結果.從而給出準確的相關判斷,節省用戶搜索時間。
4)可以避免點擊進入無關網頁所浪費的時間,流量。
5)可以避免大量的廣告,網頁快照技術,只有關鍵的文本信息,不會顯示任何無關信息
6)可以根據點擊率和網頁停留時間對網站進一步對搜索引擎排序算法進行優化
(2)缺點
目前,自然語言檢索比起傳統的檢索方式需要更多的資源和優化,這個技術更像是一個專利,將它授權給搜索引擎公司會產生更高的價值,而且會損害到網站的流量和廣告收入,不過用戶體驗會有極大的改善。
[1]黃敏.自然語言處理與信息檢索[J].圖書情報工作,2001,04:41-44+65.
李俊頡(1996—),男,大學本科,現就讀于海南大學信息科學技術學院計算機科學與技術專業。