朱秋霞
摘 要 信息檢索模型主要是對查詢和文檔進行相似度表示和計算的框架和方法。傳統檢索模型有布爾模型、概率模型、向量空間模型和模糊集模型等,現在已經發展到了新的階段,具有堅實理論基礎和明顯優勢的檢索模型是研究的熱點。
關鍵詞 信息檢索 檢索模型
中圖分類號:G354 文獻標識碼:A
信息檢索模型是運用數學或其它的語言和工具,對信息檢索的主要要素—查詢和文檔,及其之間的匹配程度—相似度進行表示和計算的框架和方法。它基于以下觀點: 文檔和查詢共有的詞項越多,則認為這篇文檔和該查詢越相關。
1布爾檢索模型→加權布爾檢索模型→擴展布爾檢索模型
布爾模型是信息檢索中第一個被提出的模型,其表達提問的方式與人們的思維方式相近,人們習慣于采用此種模式進行檢索查詢。它側重于結構化查詢表達式,即通過AND、OR 和NOT 構造查詢表達式,反映用戶需求,并通過精確匹配來返回文檔。布爾檢索實際是通過對若干個文獻集合的并、交、補運算回答用戶提問的。布爾模型最顯著的特點是將用戶查詢與文獻標引進行邏輯的、而非數值的比較而獲得檢索結果。這種模型把復雜的檢索過程簡單化,將復雜的情報提問按其概念組面的邏輯關系描述出來,使機器根據事先確定的程序進行自動匹配,簡化了運算。
但是,布爾邏輯式的構造不易全面反映用戶的需求,匹配標準存在某些不合理的地方,檢索結果不能按照用戶定義的重要性排序輸出。針對這些缺陷,提出加權布爾模型,通過對標引詞進行加權,解決了傳統布爾檢索的一些缺點,比如傳統布爾模型的運算符在加權布爾模型中無法使用,為解決此問題,提出了擴展布爾模型,該模型通過對標引詞加權值,同時將向量檢索模型與布爾檢索模型融為一體,克服了傳統與加權布爾邏輯模型的缺陷。其擴展規模是傳統布爾檢索模型完全匹配的嚴格性和向量模型提問的無結構性的折中,在保持布爾邏輯檢索的結構式提問的同時,吸納了模糊檢索和向量檢索模型的長處。
2概率模型→貝葉斯網絡檢索模型
概率論可以用來計算查詢和文檔的相關性,概率模型通過計算文檔與查詢相關的概率作為相似度。這就使相關性排序問題降為概率論應用問題。概率模型基于以下論點: 基于一個詞項分別在相關文檔和不相關文檔中出現的頻率來估計該詞項的權重。概率模型完全基于概率論,采用嚴格的數學理論為依據和基礎來進行檢索決策,具有堅實的理論基礎。它的主要缺點是增加存貯和計算資源的開銷、參數估計難度較大、系統的檢索性能提高不明顯。
貝葉斯網絡檢索模型是從傳統的概率理論中分離出來的,以概率理論為基礎,是概率檢索模型的擴展。貝葉斯網絡是一個帶有概率注釋的有向無環圖,圖中的點表示所要解決的問題中的變量。這種概率圖模型能表示變量之間的聯合概率分布,分析變量之間的相互關系,因而貝葉斯網絡模型可以用來表示術語間的條件概率和概念語義,并對查詢與文檔間的相似度進行預測,從而實現基于語義概念的查詢。盡管關于貝葉斯網的理論研究還很不完善,應用研究還處于起步階段,但已通過不同的方式應用到了信息檢索領域,隨著技術的進步,貝葉斯網模型將發揮越來越重要的作用。
3向量空間模型→隱性語義檢索模型→本體向量空間模型
向量空間模型是目前最為流行的信息檢索模型之一。其通過使用空間的相似性來解決語義上的相似性,把文檔和查詢在高維空間中用向量表示出來,每一個維對應著文檔集合中的一個詞。
向量空間模型最顯著的缺陷是基于關鍵詞的向量空間模型無法反應術語間的語義關系,為使處理水平從離散的關鍵詞匹配深入到概念匹配的層次上,提出了隱性語義檢索( LSI)。
LSI 可以看作是擴展的向量空間模型,其簡化了計算的復雜性,但語義空間不夠完整。本體為向量空間模型提供了更為豐富、詳細的概念空間,涵蓋了領域內的所有知識及關系。在本體的支持下,文檔中語義相關的術語彼此間有了豐富的語義聯系,如上下位關系,同義、近義、成員、屬性等內在聯系,每種關系的關聯程度也不同。
在獲得豐富而詳細的本體的前提下,對基于本體的向量空間模型定義如下: 所有的文檔組成信息對象集合D = { di | 1≤i≤M} ,M 為信息對象的總數。根據向量空間模型,每條信息di都可以用一個特征向量v( s) =[s1,s2,…,sN]來表示。si對應于本體中的實體ei,表示某個信息對象中術語ei的權重。本體向量空間模型有著良好的前景,但由于構建完善的本體難度太大,因而基于本體的向量空間模型僅在小范圍有試用,如Gene Ontology。
4模糊集檢索模型→粗糙集檢索模型
模糊集合理論研究的是邊界不明確的集合表示,其中心思想是把隸屬函數和集中的元素結合在一起。該函數的取值在區間[0,1]上,0表示不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0 和1 之間表示集合中的邊際元素。模糊集合模型被用來定義查詢語詞和文獻之間的模糊關系。每一個查詢語詞定義了一個模糊集合,每個文獻在相應的語詞集合中有一個隸屬度,取值通常小于1。
模糊檢索主要是建立隸屬函數,即為查詢條件使用的模糊語言定制適當的函數,用于計算數據庫中各記錄相應字段的匹配度。合適的隸屬函數則能準確把握用戶的意愿,滿足用戶的檢索需求。傳統的模糊集合模型只考慮利用語詞共現關系來進行模糊檢索,給出了文獻隸屬度的計算。由于它沒有考慮語詞與整個查詢概念的相似性,模糊程度有限。
粗糙集理論由波蘭數學家Z.Pawlak 于1982 年提出,建立在分類的基礎上。它將分類理解為在特定空間上的等價關系,而等價關系則構成對該空間的分類,且每個分類后的集合稱為概念。模糊集和粗糙集雖然都是集合理論,但模糊集側重集合中的元素,而粗糙集側重于集合與集合之間。粗糙集理論應用于信息檢索是利用粗糙集的上下近似函數設置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交幾種匹配等級標準,提出一種擴充和優化用戶查詢的新方法,此方法可根據用戶查詢和等級匹配標準實現檢索,從而得到檢索結果的排序輸出。基于粗糙集的檢索模型目前還在研究階段尚無大范圍應用。
參考文獻
[1] 孫坦,周靜怡.近幾年來國外信息檢索模型研究進展[J].圖書館建設,2008(3):82-85.
[2] 王娟琴.三種檢索模型的比較分析研究[J].情報科學,1998(3):225-230,260.