999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

潛在語(yǔ)義索引理論及其應(yīng)用

2015-07-10 19:01:19劉健
卷宗 2015年1期
關(guān)鍵詞:語(yǔ)義詞匯文本

劉健

摘 要:潛在語(yǔ)義索引(LSI)是一種信息檢索代數(shù)模型,它使用統(tǒng)計(jì)計(jì)算的方法對(duì)大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語(yǔ)義結(jié)構(gòu),并用這種潛在的語(yǔ)義結(jié)構(gòu)來(lái)表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡(jiǎn)化文本向量實(shí)現(xiàn)降維的目的。文章分析了潛在語(yǔ)義索引的理論基礎(chǔ):向量空間模型和奇異值分解;闡述了潛在語(yǔ)義空間構(gòu)成的具體步驟;并探討了潛在語(yǔ)義索引在文本檢索和圖像檢索等方面的應(yīng)用。

關(guān)鍵字:潛在語(yǔ)義索引;VSM;SVD;信息檢索

1 引言

在現(xiàn)代信息檢索系統(tǒng)中,通過(guò)關(guān)鍵詞進(jìn)行檢索是最為常見(jiàn)的做法。大量研究表明,基于關(guān)鍵詞的檢索系統(tǒng)存在所謂“同義詞”和“反義詞”的固有缺陷:前者是指表達(dá)同一概念的詞語(yǔ)可以有多個(gè),因此,用戶查詢中所用的詞語(yǔ)很可能在相關(guān)文檔中不存在,從而造成檢出率下降;后者是指同一個(gè)詞語(yǔ)可以表達(dá)多個(gè)概念,造成檢出的文檔中雖然包含該詞語(yǔ),但在上下文語(yǔ)境中的意思卻非用戶所期望,從而導(dǎo)致準(zhǔn)確率下降。潛在語(yǔ)義索引方法正是為了解決上述問(wèn)題而提出的。

2 潛在語(yǔ)義索引概述

潛在語(yǔ)義索引,也稱隱性語(yǔ)義索引或隱含語(yǔ)義索引,用于知識(shí)獲取和展示的計(jì)算理論和方法,它使用統(tǒng)計(jì)計(jì)算的方法對(duì)大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語(yǔ)義結(jié)構(gòu),并用這種潛在的語(yǔ)義結(jié)構(gòu)來(lái)表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡(jiǎn)化文本向量實(shí)現(xiàn)降維的目的。

3 潛在語(yǔ)義索引的理論基礎(chǔ)

3.1 向量空間模型

向量空間模型的基本思想是以向量來(lái)表示文本,它的優(yōu)點(diǎn)在于處理逆輯簡(jiǎn)單、快捷,它將非結(jié)構(gòu)化的文本表示為向量形式,使得各種數(shù)學(xué)處理成為可能。例如:2008年原媛等發(fā)表的《基于向量空間的信息檢索模型的改進(jìn)》中,因詞語(yǔ)的同義和多義,不能滿足文檔向量相互獨(dú)立方面,提出潛在語(yǔ)義索引模型[1]。

3.2 矩陣分解方式

早先信息檢索利用正交分解方法,但這種方法已經(jīng)被奇異值分解取代。

對(duì)詞匯一文本矩陣A的奇異值分解可以用以下公式表示:

(1)

其中U是t×t的正交矩陣,它的每一列是A的左奇異向量,V是d×d正交矩陣,它的每一列是A的右奇異向量, Σ是t×d對(duì)角矩陣,對(duì)角線元素是A的奇異值,按大小順序排列,即λ1≥λ2≥……≥λmin(t,d)。A的k秩近似Ak是讓A的除了前k個(gè)最大奇異值以外的奇異值都置為零。得到以下公式:

(2)

其中Uk是U的前k列形成的t×k矩陣,Vk是V的前k列形成的d×k矩陣,Σk是

A的k個(gè)雖大奇異值形成的k×k對(duì)角矩陣。

4 潛在語(yǔ)義空間構(gòu)成的具體步驟

4.1 “詞匯-文檔”矩陣的形成

在潛在語(yǔ)義索引中,則需要首先構(gòu)建一個(gè)詞匯-文檔矩陣X。由各索引詞在每篇文本中的出現(xiàn)頻率生成詞匯-文檔矩陣X,該矩陣中,第i行第j列的元素?cái)?shù)值Xij表示第i個(gè)索引詞在第j篇文本中出現(xiàn)的頻率。

4.2 奇異值分解

對(duì)X進(jìn)行奇異值分解后,得T、S、D三個(gè)矩陣,S為r階對(duì)角矩陣,對(duì)角線元素為奇異值,T為t×r陣,D為r×d陣。每一詞匯、每篇文本都能根據(jù)分解結(jié)果,在一個(gè)幾何空間內(nèi),找到其相應(yīng)的固定點(diǎn),然后,可以依據(jù)其相互間距離之遠(yuǎn)近來(lái)判斷其相關(guān)程度之高低,詞匯的空間位置由t×r陣T而定,文本則由r×d陣D而定,該空間就被稱為r維潛在語(yǔ)義空間。

4.3 提問(wèn)式的幾何表示

詞匯和文本在空間內(nèi)定下坐標(biāo)后,還必須為提問(wèn)式找到其幾何表示方法使它能在同一個(gè)k維語(yǔ)義空間里表示,然后與空間里的文本進(jìn)行比較。由于提問(wèn)式和文本相似,通常也由多個(gè)詞匯構(gòu)成,因此可以將它稱為“偽文本”,記作q。

將提問(wèn)式看作為普通文本,效仿“詞匯-文檔”矩陣的建構(gòu)方法,根據(jù)索引詞在提問(wèn)式中出現(xiàn)的頻次,也能得到一列向量,記作Xq,用下式對(duì)q進(jìn)行處理:

(3)

Dq即為提問(wèn)式的向量表示,即得k維語(yǔ)義空間中提問(wèn)式的坐標(biāo)。

詞匯、文本、提問(wèn)式三者的坐標(biāo)向量,構(gòu)成了我們所需的潛在語(yǔ)義空間。

5 潛在語(yǔ)義索引的應(yīng)用

5.1 文本檢索

5.1.1 跨語(yǔ)言檢索

近幾年對(duì)于基于潛在語(yǔ)義索引的跨語(yǔ)言檢索有了快速發(fā)展,比如2010年寧健等發(fā)表的《基于改進(jìn)潛在語(yǔ)義分析的跨語(yǔ)言檢索》采用基于奇異值矩陣分解的改進(jìn)潛在語(yǔ)義分析的方法為生物醫(yī)學(xué)文獻(xiàn)雙語(yǔ)摘要進(jìn)行建模 [2]。

5.1.2 信息過(guò)濾

信息過(guò)濾技術(shù)結(jié)合了現(xiàn)有的信息檢索方法,對(duì)解決網(wǎng)絡(luò)信息的個(gè)性化、動(dòng)態(tài)化以及提高被查詢信息對(duì)用戶的可用度有很大作用。2008年張虹等發(fā)表的《基于隱式反饋的LSI個(gè)性化信息過(guò)濾方法的研究》提出利用隱式反饋技術(shù)來(lái)解決如何提供給不同用戶以不同信息結(jié)果這一問(wèn)題[3]。

5.1.3 文本聚類(lèi)

潛在語(yǔ)義索引可用于文本聚類(lèi)中,提高文本聚類(lèi)的準(zhǔn)確率。比如2011年鐘將等發(fā)表的《基于成對(duì)約束的主動(dòng)半監(jiān)督文本聚類(lèi)》提出一種基于成對(duì)約束的主動(dòng)半監(jiān)督文本聚類(lèi)方法 [4]。

5.2 圖像檢索

直觀地看,圖像可以表示為像素矩陣,但是單個(gè)像素并不具備語(yǔ)義,所以必須尋找能反映圖像語(yǔ)義內(nèi)容的矩陣。2009年龔主杰發(fā)表的《潛在語(yǔ)義索引在圖像檢索中的應(yīng)用》中提出了將數(shù)學(xué)上的凸點(diǎn)從圖像中提取出來(lái)后,用局部特征描述符來(lái)描述它們并可以構(gòu)建一個(gè)“可視詞匯—圖像矩陣” [5]。

5.3 認(rèn)知科學(xué)

在認(rèn)知心理學(xué)中,LSI是一種語(yǔ)言學(xué)習(xí)模型。LSI的學(xué)習(xí)同孩子的學(xué)習(xí)過(guò)程類(lèi)似,這兩者的學(xué)習(xí)效率相差也不大。Landauer和Dumais教授等,通過(guò)文本理解、托福測(cè)驗(yàn)、學(xué)校兒童對(duì)詞匯的學(xué)習(xí)等等方面,應(yīng)用LSI與人類(lèi)行為相對(duì)照,得出了LSI可以獲取、歸納和表述知識(shí)的結(jié)論。

5.4 潛在語(yǔ)義索引的其他應(yīng)用

目前,除上述幾種常見(jiàn)的潛在語(yǔ)義索引應(yīng)用之外,許多學(xué)者還提出了許多潛在語(yǔ)義索引的應(yīng)用領(lǐng)域,拓展了潛在語(yǔ)義索引的應(yīng)用范圍。比如2008年米曉芳等發(fā)表的《基于潛在語(yǔ)義差異的醫(yī)學(xué)網(wǎng)頁(yè)聚類(lèi)》提出一種新的潛在語(yǔ)義差異模型,利用 FCM 算法進(jìn)行聚類(lèi)并計(jì)算類(lèi)間包含度 [6]。

6 結(jié)束語(yǔ)

潛在語(yǔ)義索引通過(guò)奇異值分解,將文檔在高維向量空間模型中的表示,投影到低維的潛在語(yǔ)義空間中,有效地縮小了問(wèn)題的規(guī)模。它生成的高維向量矩陣適于對(duì)象間的匹配比較;它不僅是知識(shí)表述的工具,而且也是機(jī)器學(xué)習(xí)的一種模型。隨著不斷擴(kuò)充新的方法來(lái)完善LSI,以及進(jìn)一步研究如何將LSI基本思想方法和圖像等具體處理技術(shù)相結(jié)合,使其在更為廣闊的領(lǐng)域中得到有效的利用。

參考文獻(xiàn)

[1]原媛,彭建華,張汝云.基于向量空間的信息檢索模型的改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(23):6012-6015.

[2]寧健,林鴻飛. 基于改進(jìn)潛在語(yǔ)義分析的跨語(yǔ)言檢索[J]. 中文信息學(xué)報(bào),2010,24(3):105-111.

[3]張虹,徐群益,蘇晨. 基于隱式反饋的 LSI個(gè)性化信息過(guò)濾方法的研究[J]. 電腦知識(shí)與技術(shù),2008,(12):506-508.

[4]鐘將,劉龍海,梁傳偉. 基于成對(duì)約束的主動(dòng)半監(jiān)督文本聚類(lèi)[J].計(jì)算機(jī)工程,2011,37(13):183-186.

[5]龔主杰. 潛在語(yǔ)義索引在圖像檢索中的應(yīng)用[J]. 圖書(shū)館學(xué)刊,2009,(5):91-93.

[6]米曉芳,秦洋,王立宏,宋宜斌. 基于潛在語(yǔ)義差異的醫(yī)學(xué)網(wǎng)頁(yè)聚類(lèi)[J]. 計(jì)算機(jī)工程,2008,34(19):64-66.

猜你喜歡
語(yǔ)義詞匯文本
本刊可直接用縮寫(xiě)的常用詞匯
一些常用詞匯可直接用縮寫(xiě)
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
本刊可直接用縮寫(xiě)的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 成人在线天堂| 日本午夜精品一本在线观看| 不卡色老大久久综合网| 国产91在线免费视频| 真实国产精品vr专区| 97青青青国产在线播放| 亚洲成a人在线观看| 精品久久久久久成人AV| 666精品国产精品亚洲| 国产欧美在线| 欧美中文字幕无线码视频| 亚洲综合激情另类专区| 91美女在线| 亚洲天堂网在线视频| 极品私人尤物在线精品首页| 色吊丝av中文字幕| 99热国产这里只有精品无卡顿"| 97人人模人人爽人人喊小说| 亚洲a级在线观看| 伊人久久婷婷| 91视频精品| 免费高清自慰一区二区三区| 亚洲福利一区二区三区| 华人在线亚洲欧美精品| 美女被狂躁www在线观看| 亚洲欧洲日本在线| 香蕉久人久人青草青草| 国产丝袜第一页| julia中文字幕久久亚洲| 国产精品亚洲日韩AⅤ在线观看| 亚洲色中色| 久久久亚洲色| 国产福利观看| 极品国产在线| 97久久人人超碰国产精品| 久无码久无码av无码| 国产成人精品优优av| 亚洲Aⅴ无码专区在线观看q| 亚洲国产成人久久精品软件| 久久久久久高潮白浆| 日韩av高清无码一区二区三区| 久精品色妇丰满人妻| 99热国产这里只有精品9九| 影音先锋丝袜制服| 在线观看免费黄色网址| 欧美高清国产| 成人国产一区二区三区| 久久中文字幕不卡一二区| 91精品啪在线观看国产| 国产欧美在线| 免费无码AV片在线观看国产| 国产成人做受免费视频| 亚洲无码A视频在线| 久久99国产综合精品女同| 国产成人8x视频一区二区| 亚洲精品国产乱码不卡| 亚洲视频二| 欧美狠狠干| 99国产精品一区二区| 超碰色了色| 人妻丰满熟妇αv无码| 成·人免费午夜无码视频在线观看| 欧美日韩国产在线观看一区二区三区| 亚洲第一精品福利| 91久久偷偷做嫩草影院电| 亚洲天堂网视频| 黄片在线永久| 一级毛片免费观看久| 成人欧美日韩| 婷婷亚洲天堂| 国产视频一二三区| 国产成人综合亚洲网址| www.youjizz.com久久| 国产一级在线播放| 国产精品女主播| 伊人久久福利中文字幕| 欧美精品v| 亚洲视频三级| 国产美女无遮挡免费视频网站| 国产精品久线在线观看| 2022精品国偷自产免费观看| 666精品国产精品亚洲|