概率潛在語義模型綜述

2007-12-31 00:00:00陳曉明

現(xiàn)代商貿(mào)工業(yè) 2007年7期

摘要：信息檢索本質(zhì)上是語義檢索，而傳統(tǒng)信息檢索系統(tǒng)都是基于獨立詞索引，因此檢索效果并不理想. 概率潛在語義索引是一種新型的信息檢索模型，它在潛在語義索引模型思想的基礎上，通過EM迭代算法將詞向量和文檔向量投影到一個低維空間，消減了詞和文檔之間的語義模糊度，使得文檔之間的語義關(guān)系更為明晰。論述了概率潛在語義索引的理論基礎，探討了隱含語義索引在信息處理處理中的應用。

關(guān)鍵詞：信息檢索；潛在語義索引；SVD分解；概率潛在語義索引

中圖分類號：G40-03 文獻標識碼：A 文章編號：1672-3198（2007）07-0160-03

1 簡介

傳統(tǒng)的信息檢索模型可歸為三類：布爾模型、向量空間模型和概率模型。它們都分別把文本和查詢表示為索引詞的集合，盡管使用了不同的方法，但本質(zhì)上均為某種形式的索引詞的匹配，而沒有進一步做語義上的分析。自然語言中存在大量的同義詞、多義詞，這分別對傳統(tǒng)檢索模型的召回率和準確率有不利的影響。檢索系統(tǒng)要求用戶提供足夠多精確、無歧義的關(guān)鍵詞才有可能得到所需要的信息，這大大增加了系統(tǒng)使用的難度。為了進行更自然更人性化的查詢，檢索系統(tǒng)必須能夠處理自然語言中的同義、多義現(xiàn)象，進行語義上的分析。

潛在語義分析(LSA)是一種發(fā)現(xiàn)潛在語義并分析文檔、詞和語義三者之間關(guān)系的方法。其主要思想是通過統(tǒng)計分析來發(fā)現(xiàn)文檔中詞與詞之間存在的某種潛在的語義結(jié)構(gòu)，并且使用這些潛在的語義結(jié)構(gòu)來表示詞和文本。

雖然潛在語義分析在信息檢索領(lǐng)域取得了令人滿意的效果，但是它存在幾個缺陷：首先由于潛在語義分析過程中奇異值分解的物理意義不夠明確，較難控制詞義聚類的效果；此外這個算法的空間和時間復雜度太大，在目前的計算機硬件條件下很難實際適應實際應用。

針對潛在語義分析的這些缺陷，Hoffmann 提出了一種新的方法－概率潛在語義分析(PLSA)，該方法使用概率模型來表示“文檔—潛在語義—關(guān)鍵詞”三者之間的關(guān)系，文檔和關(guān)鍵詞都可以映射到同一個語義空間，這樣，文檔和文檔以及文檔和關(guān)鍵詞之間的相似度都可以通過計算語義空間上的夾角而得以量化。

2 潛在語義索引（LSI）

潛在語義索引(Latent Semantic Indexing) 是S. T. Dumais)等人提出的。其基本思想是文本中的詞與詞之間存在某種聯(lián)系，即存在某種潛在的語義結(jié)構(gòu)，因此采用統(tǒng)計的方法來尋找該語義結(jié)構(gòu)，并且用語義結(jié)構(gòu)來表示詞和文本。這樣的結(jié)果可以達到消除詞之間的相關(guān)性，化簡文本向量的目的。潛在語義索引的算法基于矩陣的奇異值分解

選擇適當?shù)腒值，將S0中刪除相應的行和列得到S，刪除T0、D0的相應的行和列分別得到T、D，運算得到新的矩陣A = TSDT，用它去近似原始矩陣，這個秩為K 的新矩陣在最小平方意義上最接近原始矩陣。即:

潛在語義索引與其它相關(guān)模型相比其好處在于一是可調(diào)節(jié)的表示能力;二是項和文本在同一空間內(nèi)的確定性表示;三是對于大型數(shù)據(jù)集合的計算簡便性，對于某些單模式分析模型的計算復雜度達到O(N4) 或O (N5)，而潛在語義索引為O (N2K3)，其中N為矩陣行數(shù)加列數(shù)。

SVD 分解的重要意義在于將項和文本映射在同一個K維的語義空間內(nèi)，這樣較之傳統(tǒng)的單模式因子分析，它的基礎不再是同一類型的兩個事物的相似矩陣，而是任意的矩陣，其結(jié)果是將項和文本表示為K 個因子的形式，而且保持了原始的大部分信息。SVD 分解并不是為了描述這些潛在的語義結(jié)構(gòu)，而是利用潛在語義結(jié)構(gòu)來表示項和文本，克服單純項表示時產(chǎn)生的同義、多義以及“斜交”現(xiàn)象。

利用SVD 分解不僅能夠分析傳統(tǒng)的項與項或者文本與文本的之間的相似關(guān)系，而且更關(guān)鍵的是能夠分析項和文本的關(guān)系。在新的語義空間分析計算項與項或者文本與文本的之間的相似系數(shù)，比直接利用原始的特征向量進行點內(nèi)積運算，具有良好的效果。因為它是基于語義層，而前者是基于詞匯層。

3 概率潛在語義索引（PLSI）

雖然潛在語義模型在傳統(tǒng)的信息檢索模型的基礎上加入了語義的概念，并在很多領(lǐng)域取得了令人滿意的實驗結(jié)果。但是由于LSI 自身的物理意義不夠明確，所以較難控制詞義聚類的效果。此外這個算法的空間和時間復雜度太大，在目前的硬件條件下很難實際應用。1999 年，Hofmann 提出了統(tǒng)計隱含語義標引（PLSI）的概念，在理論和算法上都有所突破。

3.1 概率潛在語義索引模型描述

（1）構(gòu)造“文檔—詞”索引矩陣。

如圖1所示，構(gòu)造文檔—詞的索引矩M(Word，Document )，其中的文檔按照類型排序。矩陣M中元素的初始值c(d，w)設為單詞w在文檔d 中出現(xiàn)的次數(shù)。然后，需要進行歸一化的操作，主要基于以下兩個原因：第一，每篇文章中詞的個數(shù)多少不同，因此一個詞在短文章中出現(xiàn)一次的價值，顯然應該大于在長文章中出現(xiàn)一次的價值；第二，一個很少出現(xiàn)的詞，一旦出現(xiàn)在文檔中，其價值應該大于普遍出現(xiàn)的詞。事實上，類似于“the，我們，的，of”之類的詞幾乎在任何文檔中都會出現(xiàn)，因此其價值應該是趨向于零的。

其中，c(d，w)是矩陣M 初始值，b 是系數(shù)，Count(w)是詞w 在所有文檔中出現(xiàn)的總次數(shù)，Length(d)是文檔d 中所有非停用詞數(shù)。

(2)構(gòu)造語義空間，確定映射初始值。

構(gòu)造k維的語義空間Z，并且依據(jù)(1)中的粗分類結(jié)果給出語義空間的先驗概率p(z)。具體的操作如下：設有n 篇文檔，文檔共分為t 種類型，其中第1 篇到第i 篇是同一類型的，那么有：

其中，''表示取整操作，k 值的選取依賴于經(jīng)驗，如果太小則無法把各類分開，如果太大則太敏感，容易引入噪聲；在一般應用中可取20到100。有了語義空間后，需要分別構(gòu)造“文檔—主題”的映射矩陣P(D，Z)和“詞—主題”的映射矩陣P(W，Z)，并給出初始值。設共有文檔n 篇，其中文檔d 屬于第一類，而第一類的文檔共有i

而對矩陣P(W，Z)，由于不知道任何的先驗知識，所以就給隨機值作為其初始值；需要注意的是，必須滿足概率矩陣的條件，也就是任何一行的值之和必須是1。

(3) 采用EM 迭代算法，求得結(jié)果。

根據(jù)上述的結(jié)果，可以求得“文檔—詞”的相似度矩陣P(W，D)初始值：

然后，在最小熵的意義下，進行優(yōu)化。即最大化以下函數(shù)（其中m(w，d)是索引矩陣M中的元素）：

反復應用公式⑥⑦，直到函數(shù)⑤的變化量很小，即可認為達到了最大值。從而就獲得了最優(yōu)化的P(Z)，P(W，Z)，P(D，Z)矩陣。

3.2 概率潛在語義索引的應用

文本分類問題的核心是計算文本之間相似度。設從文本do 中抽取詞向量Wo，其維度等于P(W，W)矩陣的行向量維度，其元素Wo(word)為詞word 在文本中出現(xiàn)次數(shù)的歸一化值。利用P(W，W)，得到文本相似度：

(3) PLSI 跨語言查詢關(guān)鍵詞擴展。

基于PLSI 的跨語言關(guān)鍵詞擴展，實際上整合了機器翻譯，詞義消歧，語義擴展等多項功能。所有的工作綜合起來，乘一個詞間相似度矩陣即可完成。首先構(gòu)造查詢關(guān)鍵詞向量Wq，擴展后的關(guān)鍵詞向量We。Wq是相當稀疏的，而We乎在每一項上都有值。這是符合設計思想的，任何詞之間（包含中英文詞或其他語言的詞）都有一定程度的語義聯(lián)系，區(qū)別僅僅在于這種聯(lián)系的強弱。

（4）基于PLSI的中文文本聚類。

利用PLSI也可以進行文檔的聚類分析. 聚類分析就是根據(jù)對象之間的相似性，把一組對象劃分為一個個更小的組，使得組內(nèi)對象盡可能相同，而組與組之間盡可能不同. 可以選擇任何一種基于向量模型的聚類方法. 其中，核心任務是計算向量間的相似度。當進行文檔聚類時，利用公式（9）中的方法計算文檔間的相似度；對文本庫中的詞進行聚類分析時，利用“詞－詞”相似度矩陣P（W，W）計算詞之間的相似度。詞聚類可應用于自動詞典建立、自動尋找索引詞和文本分類等.

參考文獻

［1］金千里，趙軍，徐波.弱指導的統(tǒng)計隱含語義分析及其在跨語言信息檢索中的應用.

［2］周水庚，關(guān)佶紅，胡運發(fā).隱含語義索引及其在中文文本處理中的應用研究，小型微型計算機系統(tǒng)，2001 Vol.22 No.2.

［3］THOMAS HOFMANN， Unsupervised Learning by Probabilistic Latent Semantic Analysis， Machine Learning， 42， 177-196， 2001

［4］Thomas L. Gri_ths and Mark Steyvers， A probabilistic approach to semantic representation.

［5］Peter W. Foltz， Walter Kintsch and Thomas K. Landauer， The Measurement of Textual Coherence with Latent Semantic Analysis.

［6］Christos H. Papadimitriou， Prabhakar Raghavan， Hisao Tamaki and Santosh Vempala， Latent Semantic Indexing: A Probabilistic Analysis， Journal of Computer and System Sciences 61， 217_235 (2000).

注：“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”

現(xiàn)代商貿(mào)工業(yè)2007年7期

現(xiàn)代商貿(mào)工業(yè)的其它文章: 氯堿廠－３５℃冷凍鹽水站的系統(tǒng)設計優(yōu)化及管路改造; 淺析園林景觀設計在小區(qū)規(guī)劃中的重要作用; 淺談地基施工中如何應用粉體攪拌法; 淺談高性能混凝土耐久性的特點以及應用; 某城市政府機關(guān)辦公大樓工程結(jié)構(gòu)設計; 淺談改造數(shù)控車床的質(zhì)量控制