摘 要:信息檢索本質(zhì)上是語義檢索, 而傳統(tǒng)信息檢索系統(tǒng)都是基于獨立詞索引, 因此檢索效果并不理想. 概率潛在語義索引是一種新型的信息檢索模型, 它在潛在語義索引模型思想的基礎上, 通過EM迭代算法將詞向量和文檔向量投影到一個低維空間, 消減了詞和文檔之間的語義模糊度, 使得文檔之間的語義關(guān)系更為明晰。論述了概率潛在語義索引的理論基礎, 探討了隱含語義索引在信息處理處理中的應用。
關(guān)鍵詞:信息檢索;潛在語義索引;SVD分解;概率潛在語義索引
中圖分類號:G40-03 文獻標識碼:A 文章編號:1672-3198(2007)07-0160-03
1 簡介
傳統(tǒng)的信息檢索模型可歸為三類:布爾模型、向量空間模型和概率模型。它們都分別把文本和查詢表示為索引詞的集合,盡管使用了不同的方法,但本質(zhì)上均為某種形式的索引詞的匹配,而沒有進一步做語義上的分析。自然語言中存在大量的同義詞、多義詞,這分別對傳統(tǒng)檢索模型的召回率和準確率有不利的影響。檢索系統(tǒng)要求用戶提供足夠多精確、無歧義的關(guān)鍵詞才有可能得到所需要的信息,這大大增加了系統(tǒng)使用的難度。為了進行更自然更人性化的查詢,檢索系統(tǒng)必須能夠處理自然語言中的同義、多義現(xiàn)象,進行語義上的分析。
潛在語義分析(LSA)是一種發(fā)現(xiàn)潛在語義并分析文檔、詞和語義三者之間關(guān)系的方法。其主要思想是通過統(tǒng)計分析來發(fā)現(xiàn)文檔中詞與詞之間存在的某種潛在的語義結(jié)構(gòu),并且使用這些潛在的語義結(jié)構(gòu)來表示詞和文本。
雖然潛在語義分析在信息檢索領(lǐng)域取得了令人滿意的效果,但是它存在幾個缺陷:首先由于潛在語義分析過程中奇異值分解的物理意義不夠明確,較難控制詞義聚類的效果;此外這個算法的空間和時間復雜度太大,在目前的計算機硬件條件下很難實際適應實際應用。
針對潛在語義分析的這些缺陷,Hoffmann 提出了一種新的方法-概率潛在語義分析(PLSA),該方法使用概率模型來表示“文檔—潛在語義—關(guān)鍵詞”三者之間的關(guān)系,文檔和關(guān)鍵詞都可以映射到同一個語義空間,這樣,文檔和文檔以及文檔和關(guān)鍵詞之間的相似度都可以通過計算語義空間上的夾角而得以量化。
2 潛在語義索引(LSI)
潛在語義索引(Latent Semantic Indexing) 是S. T. Dumais)等人提出的。其基本思想是文本中的詞與詞之間存在某種聯(lián)系,即存在某種潛在的語義結(jié)構(gòu),因此采用統(tǒng)計的方法來尋找該語義結(jié)構(gòu),并且用語義結(jié)構(gòu)來表示詞和文本。這樣的結(jié)果可以達到消除詞之間的相關(guān)性,化簡文本向量的目的。潛在語義索引的算法基于矩陣的奇異值分解
選擇適當?shù)腒 值,將S0中刪除相應的行和列得到S,刪除T0、D0的相應的行和列分別得到T、D,運算得到新的矩陣A = TSDT,用它去近似原始矩陣,這個秩為K 的新矩陣在最小平方意義上最接近原始矩陣。即:
潛在語義索引與其它相關(guān)模型相比其好處在于一是可調(diào)節(jié)的表示能力;二是項和文本在同一空間內(nèi)的確定性表示;三是對于大型數(shù)據(jù)集合的計算簡便性,對于某些單模式分析模型的計算復雜度達到O(N4) 或O (N5),而潛在語義索引為O (N2K3),其中N為矩陣行數(shù)加列數(shù)。
SVD 分解的重要意義在于將項和文本映射在同一個K維的語義空間內(nèi), 這樣較之傳統(tǒng)的單模式因子分析,它的基礎不再是同一類型的兩個事物的相似矩陣,而是任意的矩陣,其結(jié)果是將項和文本表示為K 個因子的形式, 而且保持了原始的大部分信息。SVD 分解并不是為了描述這些潛在的語義結(jié)構(gòu),而是利用潛在語義結(jié)構(gòu)來表示項和文本,克服單純項表示時產(chǎn)生的同義、多義以及“斜交”現(xiàn)象。
利用SVD 分解不僅能夠分析傳統(tǒng)的項與項或者文本與文本的之間的相似關(guān)系,而且更關(guān)鍵的是能夠分析項和文本的關(guān)系。在新的語義空間分析計算項與項或者文本與文本的之間的相似系數(shù),比直接利用原始的特征向量進行點內(nèi)積運算,具有良好的效果。因為它是基于語義層,而前者是基于詞匯層。
3 概率潛在語義索引(PLSI)
雖然潛在語義模型在傳統(tǒng)的信息檢索模型的基礎上加入了語義的概念,并在很多領(lǐng)域取得了令人滿意的實驗結(jié)果。但是由于LSI 自身的物理意義不夠明確,所以較難控制詞義聚類的效果。此外這個算法的空間和時間復雜度太大,在目前的硬件條件下很難實際應用。1999 年,Hofmann 提出了統(tǒng)計隱含語義標引(PLSI)的概念,在理論和算法上都有所突破。
3.1 概率潛在語義索引模型描述
(1)構(gòu)造“文檔—詞”索引矩陣。
如圖1所示,構(gòu)造文檔—詞的索引矩M(Word,Document ),其中的文檔按照類型排序。矩陣M中元素的初始值c(d,w)設為單詞w在文檔d 中出現(xiàn)的次數(shù)。然后,需要進行歸一化的操作,主要基于以下兩個原因:第一,每篇文章中詞的個數(shù)多少不同,因此一個詞在短文章中出現(xiàn)一次的價值,顯然應該大于在長文章中出現(xiàn)一次的價值;第二,一個很少出現(xiàn)的詞,一旦出現(xiàn)在文檔中,其價值應該大于普遍出現(xiàn)的詞。事實上,類似于“the, 我們,的,of”之類的詞幾乎在任何文檔中都會出現(xiàn),因此其價值應該是趨向于零的。

其中,c(d,w)是矩陣M 初始值,b 是系數(shù),Count(w)是詞w 在所有文檔中出現(xiàn)的總次數(shù),Length(d)是文檔d 中所有非停用詞數(shù)。
(2)構(gòu)造語義空間,確定映射初始值。
構(gòu)造k維的語義空間Z,并且依據(jù)(1)中的粗分類結(jié)果給出語義空間的先驗概率p(z)。具體的操作如下:設有n 篇文檔,文檔共分為t 種類型,其中第1 篇到第i 篇是同一類型的,那么有:
其中,''表示取整操作,k 值的選取依賴于經(jīng)驗,如果太小則無法把各類分開,如果太大則太敏感,容易引入噪聲;在一般應用中可取20到100。有了語義空間后,需要分別構(gòu)造“文檔—主題”的映射矩陣P(D,Z)和“詞—主題”的映射矩陣P(W,Z),并給出初始值。設共有文檔n 篇,其中文檔d 屬于第一類,而第一類的文檔共有i
而對矩陣P(W,Z),由于不知道任何的先驗知識,所以就給隨機值作為其初始值;需要注意的是,必須滿足概率矩陣的條件,也就是任何一行的值之和必須是1。
(3) 采用EM 迭代算法,求得結(jié)果。
根據(jù)上述的結(jié)果,可以求得“文檔—詞”的相似度矩陣P(W,D)初始值:
然后,在最小熵的意義下,進行優(yōu)化。即最大化以下函數(shù)(其中m(w,d)是索引矩陣M中的元素):
反復應用公式⑥⑦,直到函數(shù)⑤的變化量很小,即可認為達到了最大值。從而就獲得了最優(yōu)化的P(Z),P(W,Z),P(D,Z)矩陣。
3.2 概率潛在語義索引的應用
文本分類問題的核心是計算文本之間相似度。設從文本do 中抽取詞向量Wo,其維度等于P(W,W)矩陣的行向量維度,其元素Wo(word)為詞word 在文本中出現(xiàn)次數(shù)的歸一化值。利用P(W,W),得到文本相似度:
(3) PLSI 跨語言查詢關(guān)鍵詞擴展。
基于PLSI 的跨語言關(guān)鍵詞擴展,實際上整合了機器翻譯,詞義消歧,語義擴展等多項功能。所有的工作綜合起來,乘一個詞間相似度矩陣即可完成。首先構(gòu)造查詢關(guān)鍵詞向量Wq,擴展后的關(guān)鍵詞向量We。Wq是相當稀疏的,而We乎在每一項上都有值。這是符合設計思想的,任何詞之間(包含中英文詞或其他語言的詞)都有一定程度的語義聯(lián)系,區(qū)別僅僅在于這種聯(lián)系的強弱。
(4)基于PLSI的中文文本聚類。
利用PLSI也可以進行文檔的聚類分析. 聚類分析就是根據(jù)對象之間的相似性, 把一組對象劃分為一個個更小的組, 使得組內(nèi)對象盡可能相同, 而組與組之間盡可能不同. 可以選擇任何一種基于向量模型的聚類方法. 其中, 核心任務是計算向量間的相似度。當進行文檔聚類時, 利用公式(9)中的方法計算文檔間的相似度;對文本庫中的詞進行聚類分析時,利用“詞-詞”相似度矩陣P(W,W)計算詞之間的相似度。詞聚類可應用于自動詞典建立、自動尋找索引詞和文本分類等.
參考文獻
[1]金千里,趙軍,徐波.弱指導的統(tǒng)計隱含語義分析及其在跨語言信息檢索中的應用.
[2]周水庚,關(guān)佶紅,胡運發(fā).隱含語義索引及其在中文文本處理中的應用研究,小型微型計算機系統(tǒng),2001 Vol.22 No.2.
[3]THOMAS HOFMANN, Unsupervised Learning by Probabilistic Latent Semantic Analysis, Machine Learning, 42, 177-196, 2001
[4]Thomas L. Gri_ths and Mark Steyvers, A probabilistic approach to semantic representation.
[5]Peter W. Foltz, Walter Kintsch and Thomas K. Landauer, The Measurement of Textual Coherence with Latent Semantic Analysis.
[6]Christos H. Papadimitriou, Prabhakar Raghavan, Hisao Tamaki and Santosh Vempala, Latent Semantic Indexing: A Probabilistic Analysis, Journal of Computer and System Sciences 61, 217_235 (2000).
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”