999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

概率潛在語義模型綜述

2007-12-31 00:00:00陳曉明
現(xiàn)代商貿(mào)工業(yè) 2007年7期

摘 要:信息檢索本質(zhì)上是語義檢索, 而傳統(tǒng)信息檢索系統(tǒng)都是基于獨立詞索引, 因此檢索效果并不理想. 概率潛在語義索引是一種新型的信息檢索模型, 它在潛在語義索引模型思想的基礎上, 通過EM迭代算法將詞向量和文檔向量投影到一個低維空間, 消減了詞和文檔之間的語義模糊度, 使得文檔之間的語義關(guān)系更為明晰。論述了概率潛在語義索引的理論基礎, 探討了隱含語義索引在信息處理處理中的應用。

關(guān)鍵詞:信息檢索;潛在語義索引;SVD分解;概率潛在語義索引

中圖分類號:G40-03 文獻標識碼:A 文章編號:1672-3198(2007)07-0160-03

1 簡介

傳統(tǒng)的信息檢索模型可歸為三類:布爾模型、向量空間模型和概率模型。它們都分別把文本和查詢表示為索引詞的集合,盡管使用了不同的方法,但本質(zhì)上均為某種形式的索引詞的匹配,而沒有進一步做語義上的分析。自然語言中存在大量的同義詞、多義詞,這分別對傳統(tǒng)檢索模型的召回率和準確率有不利的影響。檢索系統(tǒng)要求用戶提供足夠多精確、無歧義的關(guān)鍵詞才有可能得到所需要的信息,這大大增加了系統(tǒng)使用的難度。為了進行更自然更人性化的查詢,檢索系統(tǒng)必須能夠處理自然語言中的同義、多義現(xiàn)象,進行語義上的分析。

潛在語義分析(LSA)是一種發(fā)現(xiàn)潛在語義并分析文檔、詞和語義三者之間關(guān)系的方法。其主要思想是通過統(tǒng)計分析來發(fā)現(xiàn)文檔中詞與詞之間存在的某種潛在的語義結(jié)構(gòu),并且使用這些潛在的語義結(jié)構(gòu)來表示詞和文本。

雖然潛在語義分析在信息檢索領(lǐng)域取得了令人滿意的效果,但是它存在幾個缺陷:首先由于潛在語義分析過程中奇異值分解的物理意義不夠明確,較難控制詞義聚類的效果;此外這個算法的空間和時間復雜度太大,在目前的計算機硬件條件下很難實際適應實際應用。

針對潛在語義分析的這些缺陷,Hoffmann 提出了一種新的方法-概率潛在語義分析(PLSA),該方法使用概率模型來表示“文檔—潛在語義—關(guān)鍵詞”三者之間的關(guān)系,文檔和關(guān)鍵詞都可以映射到同一個語義空間,這樣,文檔和文檔以及文檔和關(guān)鍵詞之間的相似度都可以通過計算語義空間上的夾角而得以量化。

2 潛在語義索引(LSI)

潛在語義索引(Latent Semantic Indexing) 是S. T. Dumais)等人提出的。其基本思想是文本中的詞與詞之間存在某種聯(lián)系,即存在某種潛在的語義結(jié)構(gòu),因此采用統(tǒng)計的方法來尋找該語義結(jié)構(gòu),并且用語義結(jié)構(gòu)來表示詞和文本。這樣的結(jié)果可以達到消除詞之間的相關(guān)性,化簡文本向量的目的。潛在語義索引的算法基于矩陣的奇異值分解

選擇適當?shù)腒 值,將S0中刪除相應的行和列得到S,刪除T0、D0的相應的行和列分別得到T、D,運算得到新的矩陣A = TSDT,用它去近似原始矩陣,這個秩為K 的新矩陣在最小平方意義上最接近原始矩陣。即:

潛在語義索引與其它相關(guān)模型相比其好處在于一是可調(diào)節(jié)的表示能力;二是項和文本在同一空間內(nèi)的確定性表示;三是對于大型數(shù)據(jù)集合的計算簡便性,對于某些單模式分析模型的計算復雜度達到O(N4) 或O (N5),而潛在語義索引為O (N2K3),其中N為矩陣行數(shù)加列數(shù)。

SVD 分解的重要意義在于將項和文本映射在同一個K維的語義空間內(nèi), 這樣較之傳統(tǒng)的單模式因子分析,它的基礎不再是同一類型的兩個事物的相似矩陣,而是任意的矩陣,其結(jié)果是將項和文本表示為K 個因子的形式, 而且保持了原始的大部分信息。SVD 分解并不是為了描述這些潛在的語義結(jié)構(gòu),而是利用潛在語義結(jié)構(gòu)來表示項和文本,克服單純項表示時產(chǎn)生的同義、多義以及“斜交”現(xiàn)象。

利用SVD 分解不僅能夠分析傳統(tǒng)的項與項或者文本與文本的之間的相似關(guān)系,而且更關(guān)鍵的是能夠分析項和文本的關(guān)系。在新的語義空間分析計算項與項或者文本與文本的之間的相似系數(shù),比直接利用原始的特征向量進行點內(nèi)積運算,具有良好的效果。因為它是基于語義層,而前者是基于詞匯層。

3 概率潛在語義索引(PLSI)

雖然潛在語義模型在傳統(tǒng)的信息檢索模型的基礎上加入了語義的概念,并在很多領(lǐng)域取得了令人滿意的實驗結(jié)果。但是由于LSI 自身的物理意義不夠明確,所以較難控制詞義聚類的效果。此外這個算法的空間和時間復雜度太大,在目前的硬件條件下很難實際應用。1999 年,Hofmann 提出了統(tǒng)計隱含語義標引(PLSI)的概念,在理論和算法上都有所突破。

3.1 概率潛在語義索引模型描述

(1)構(gòu)造“文檔—詞”索引矩陣。

如圖1所示,構(gòu)造文檔—詞的索引矩M(Word,Document ),其中的文檔按照類型排序。矩陣M中元素的初始值c(d,w)設為單詞w在文檔d 中出現(xiàn)的次數(shù)。然后,需要進行歸一化的操作,主要基于以下兩個原因:第一,每篇文章中詞的個數(shù)多少不同,因此一個詞在短文章中出現(xiàn)一次的價值,顯然應該大于在長文章中出現(xiàn)一次的價值;第二,一個很少出現(xiàn)的詞,一旦出現(xiàn)在文檔中,其價值應該大于普遍出現(xiàn)的詞。事實上,類似于“the, 我們,的,of”之類的詞幾乎在任何文檔中都會出現(xiàn),因此其價值應該是趨向于零的。

其中,c(d,w)是矩陣M 初始值,b 是系數(shù),Count(w)是詞w 在所有文檔中出現(xiàn)的總次數(shù),Length(d)是文檔d 中所有非停用詞數(shù)。

(2)構(gòu)造語義空間,確定映射初始值。

構(gòu)造k維的語義空間Z,并且依據(jù)(1)中的粗分類結(jié)果給出語義空間的先驗概率p(z)。具體的操作如下:設有n 篇文檔,文檔共分為t 種類型,其中第1 篇到第i 篇是同一類型的,那么有:

其中,''表示取整操作,k 值的選取依賴于經(jīng)驗,如果太小則無法把各類分開,如果太大則太敏感,容易引入噪聲;在一般應用中可取20到100。有了語義空間后,需要分別構(gòu)造“文檔—主題”的映射矩陣P(D,Z)和“詞—主題”的映射矩陣P(W,Z),并給出初始值。設共有文檔n 篇,其中文檔d 屬于第一類,而第一類的文檔共有i

而對矩陣P(W,Z),由于不知道任何的先驗知識,所以就給隨機值作為其初始值;需要注意的是,必須滿足概率矩陣的條件,也就是任何一行的值之和必須是1。

(3) 采用EM 迭代算法,求得結(jié)果。

根據(jù)上述的結(jié)果,可以求得“文檔—詞”的相似度矩陣P(W,D)初始值:

然后,在最小熵的意義下,進行優(yōu)化。即最大化以下函數(shù)(其中m(w,d)是索引矩陣M中的元素):

反復應用公式⑥⑦,直到函數(shù)⑤的變化量很小,即可認為達到了最大值。從而就獲得了最優(yōu)化的P(Z),P(W,Z),P(D,Z)矩陣。

3.2 概率潛在語義索引的應用

文本分類問題的核心是計算文本之間相似度。設從文本do 中抽取詞向量Wo,其維度等于P(W,W)矩陣的行向量維度,其元素Wo(word)為詞word 在文本中出現(xiàn)次數(shù)的歸一化值。利用P(W,W),得到文本相似度:

(3) PLSI 跨語言查詢關(guān)鍵詞擴展。

基于PLSI 的跨語言關(guān)鍵詞擴展,實際上整合了機器翻譯,詞義消歧,語義擴展等多項功能。所有的工作綜合起來,乘一個詞間相似度矩陣即可完成。首先構(gòu)造查詢關(guān)鍵詞向量Wq,擴展后的關(guān)鍵詞向量We。Wq是相當稀疏的,而We乎在每一項上都有值。這是符合設計思想的,任何詞之間(包含中英文詞或其他語言的詞)都有一定程度的語義聯(lián)系,區(qū)別僅僅在于這種聯(lián)系的強弱。

(4)基于PLSI的中文文本聚類。

利用PLSI也可以進行文檔的聚類分析. 聚類分析就是根據(jù)對象之間的相似性, 把一組對象劃分為一個個更小的組, 使得組內(nèi)對象盡可能相同, 而組與組之間盡可能不同. 可以選擇任何一種基于向量模型的聚類方法. 其中, 核心任務是計算向量間的相似度。當進行文檔聚類時, 利用公式(9)中的方法計算文檔間的相似度;對文本庫中的詞進行聚類分析時,利用“詞-詞”相似度矩陣P(W,W)計算詞之間的相似度。詞聚類可應用于自動詞典建立、自動尋找索引詞和文本分類等.

參考文獻

[1]金千里,趙軍,徐波.弱指導的統(tǒng)計隱含語義分析及其在跨語言信息檢索中的應用.

[2]周水庚,關(guān)佶紅,胡運發(fā).隱含語義索引及其在中文文本處理中的應用研究,小型微型計算機系統(tǒng),2001 Vol.22 No.2.

[3]THOMAS HOFMANN, Unsupervised Learning by Probabilistic Latent Semantic Analysis, Machine Learning, 42, 177-196, 2001

[4]Thomas L. Gri_ths and Mark Steyvers, A probabilistic approach to semantic representation.

[5]Peter W. Foltz, Walter Kintsch and Thomas K. Landauer, The Measurement of Textual Coherence with Latent Semantic Analysis.

[6]Christos H. Papadimitriou, Prabhakar Raghavan, Hisao Tamaki and Santosh Vempala, Latent Semantic Indexing: A Probabilistic Analysis, Journal of Computer and System Sciences 61, 217_235 (2000).

注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。”

主站蜘蛛池模板: 久久国语对白| 国产一级妓女av网站| 午夜性刺激在线观看免费| 欧美不卡在线视频| a网站在线观看| 毛片免费在线视频| 宅男噜噜噜66国产在线观看| 亚洲九九视频| 日韩不卡高清视频| 人妻丰满熟妇AV无码区| 国产精品开放后亚洲| 农村乱人伦一区二区| 国产人免费人成免费视频| 99国产精品免费观看视频| 国产极品粉嫩小泬免费看| 国产91无码福利在线| 精品一区二区三区无码视频无码| 国产69囗曝护士吞精在线视频| 亚洲视频一区| 国产在线精品人成导航| 中文字幕 91| 色综合天天操| 天堂中文在线资源| 亚洲69视频| 国产国产人免费视频成18| 色综合五月婷婷| 免费人欧美成又黄又爽的视频| 亚洲综合亚洲国产尤物| 一级黄色网站在线免费看| 国产高清在线丝袜精品一区| 秋霞午夜国产精品成人片| 国产大片喷水在线在线视频| 国产99精品视频| 91精品视频播放| 黄色网站不卡无码| 亚洲欧美人成电影在线观看| 午夜少妇精品视频小电影| 国内精品小视频在线| 91免费国产在线观看尤物| 精品国产亚洲人成在线| 久久久久亚洲Av片无码观看| 国内毛片视频| 成人福利在线免费观看| 国产视频你懂得| 九月婷婷亚洲综合在线| 国产精品19p| 国产欧美精品一区二区| 色综合狠狠操| 亚洲欧美不卡| 亚洲婷婷在线视频| 亚洲码在线中文在线观看| 无码中文AⅤ在线观看| 国产高清无码第一十页在线观看| 97se亚洲综合在线| 性色在线视频精品| 欲色天天综合网| 欧美成人午夜在线全部免费| 亚洲av无码人妻| 精品国产污污免费网站| 亚洲第一视频网站| 日本成人精品视频| 黄片一区二区三区| 国产亚洲高清在线精品99| 国产亚洲精品97AA片在线播放| 欧美日韩另类国产| 99re在线视频观看| 国产成人调教在线视频| 亚洲大尺码专区影院| 国内a级毛片| 国产95在线 | 在线精品欧美日韩| 久久这里只有精品66| 一本大道香蕉中文日本不卡高清二区| 亚洲av无码牛牛影视在线二区| 免费啪啪网址| 色香蕉影院| 中字无码精油按摩中出视频| 国产区人妖精品人妖精品视频| 国产最新无码专区在线| 欧美色伊人| 91人妻在线视频| 不卡午夜视频|