摘要:為了解決現有農業知識問答系統功能及業務流程中存在的一些問題,將隱含語義索引技術應用于吉林省農業知識問答系統中。該技術可以增強或消減詞語在文檔中語義的影響力,使文檔之間的語義關系更為明晰,在一定程度上實現了自然語言檢索,消除了詞語同義性和多義性所造成的影響,從而取得更好的檢索效果。
關鍵詞:隱含語義索引;吉林?。晦r業知識;問答系統
中圖分類號:TP391文獻標識碼:A文章編號:0439-8114(2011)13-2740-03
Application of Latent Semantic Index in Agricultural Knowledge Question Answering System of Jilin Province
XIAO Yan-hua,WANG Qing-lan,BI Ye-li,WAN Fa-ren
(Agricultural Economy and Information Service Center, Jilin Academy of Agricultural Sciences, Changchun 130124, China)
Abstract: The latent semantic index technology was applied to solve some problems with the existing function and in the professional process in agricultural knowledge question answering system. This technology could enhance or reduce the influence of words on the semantic in the document and it also could make the semantic relationships more clear, thereby realized the natural language search to a certain extent. The interference from identity and poly semantics was eliminated and better search results obtained.
Key words: latent semantic index; Jilin province; agricultural knowledge; question answering system
農業作為基礎產業,是社會信息化不可或缺的一部分,所以農業必然會受到以計算機網絡技術、多媒體技術和智能技術為特征的信息化浪潮的洗禮。目前農業科技人員和農民經常借助各種搜索引擎進行農業信息搜索。由于搜索引擎不是為農業領域設計的,多數搜索的結果往往不能滿足他們的需求,農業知識問答系統正是在這種情況下發展起來的。
從大量農業信息中迅速而準確地獲取最需要的信息是農業知識問答系統發展的困難之一。如何使現有的吉林省農業信息資源得到充分有效地利用,提高吉林省農業信息化服務的質量,已經成為農業科研人員研究的一個熱點。隱含語義索引(LSI)是近年來逐漸興起的不同于關鍵詞檢索的搜索引擎解決方案,其檢索結果的實際效果更接近于人的自然語言,在一定程度上提高了檢索結果的相關性,目前已被逐漸地應用到圖書館、數據庫和搜索引擎的算法當中。隱含語義索引通過對原文檔庫的詞-文檔所建立的矩陣的奇異值分解計算,進而取其前k個最大的奇異值,然后用對應的奇異矢量構成一個新矩陣,用其近似地表示原來文檔庫的詞-文檔矩陣。因為新的矩陣消減了詞和文檔之間語義關系的模糊度,所以這種方法更有利于信息檢索。
1隱含語義索引的基本原理
因為文本和詞匯之間存在著一定的相關性,所以若干篇文本和若干個詞匯由他們之間的相關性構成語義模型;使用數學的算法和計算機技術,分析此模型并對其進行計算和處理,保留文本與詞匯間最主要的相關性,去除其他冗余、次要的影響因素,于是得到了優化后的模型;最終構成的語義結構和原始的文本、詞匯的相關結構進行比較,規模要小很多,并且還保留了其中主要的相關性,用此模型挖掘文本和詞匯的隱含關系;在即將進行的檢索中,用該語義結構作為基礎,統計出詞匯與文本間的隱含相關度[1]。
在向量空間中,每個文檔都可以表示成詞的向量空間矢量Di=(wi1,wi2,…,wim)(T1,T2,…,Tm)T,這樣每個詞條也就可以表示為文檔空間的矢量Tj=(w1j,w2j,…,wnj)(D1,D2,…,Dn)T,詞條和詞條之間的相似性用向量夾角余弦來計算。
在隱含語義索引算法中,一個文檔庫可以被表示成一個m×n的詞-文檔大矩陣A。其中n表示庫中的文檔數,m表示庫中包含的所有不同的詞的個數。即矩陣A的每一行對應一個不同的詞,矩陣A的每一列對應一個文檔。A表示為:
A=[aij],1≤i≤m;1≤j≤n
矩陣中的元素aij是文檔Dj中的特征項Ti出現的頻度或其權重。實際應用中,因為詞與文檔的數量可能會很大,詞在單個文檔中出現又非常有限,所以A一般是高階的稀疏矩陣。
這時利用向量代數的相關知識證明得知,可以把矩陣A分解成三個矩陣的乘積,即:
A=UΣVT
式中,矩陣Σ表示對角線矩陣,矩陣A的奇異值是對角線上的元素。矩陣U和V的列向量都是正交歸一化的。U是m×r的“左奇異值向量矩陣”;V是r×n的“右奇異值向量矩陣”,r是矩陣A的秩,并且有:
U=VTV=In(In為n階單位矩陣)
矩陣A的分解過程[4]如圖1所示。
前k個列構成A的近似矩陣Ak,其秩為K。這樣就可以得到一個新的近似分解矩陣Ak:
Ak=Uk×Σk×VTk
矩陣Uk與矩陣Vk的列向量都是正交的向量。所以我們就可以用Ak近似地表示原詞、文檔矩陣A,矩陣Uk和矩陣Vk中的行向量分別表示詞和文檔,在此分解方法的基礎上,再進行農業知識相關的文檔檢索或其他各種文檔處理。這就是基于隱含語義索引的吉林省農業知識問答系統的基本思想。
盡管隱含語義索引是用文檔中包含的詞來表示文檔的語義內容,但是隱含語義索引算法中文檔概念的可靠性并不能完全用文檔中的詞來表示。因為文本中詞的多樣性,在很大程度上掩蓋了詞和文檔之間的關系,隱含語義索引則通過對原文檔的向量矩陣的奇異值進行分解,取分解后的k階近似矩陣,這樣做一是消減了原詞、文檔矩陣中所包含的“噪聲”[2],例如同義詞,使詞和文檔之間的語義關系更加凸出;二是使得詞、文檔的向量空間維數大大減少,進而可以提高有關農業知識文檔的檢索效率。
2基于隱含語義索引的中文文本檢索系統
本系統主要由抽取系統和問答系統兩個模塊組成。抽取系統是問答系統的后臺支撐,主要是每天定時抽取大量關于農業技術的問答信息,對這些問題進行過濾并存入數據庫,最終生成索引數據庫。問答系統是解決用戶問題的核心,主要有問題分析、語義計算、答案生成3個模塊。問題分析模塊主要是對用戶提出的問題進行分析。將分析結果提交給語義計算模塊、分詞之后,經過計算權重,生成對應向量。答案生成模塊主要是通過把問題向量映射到數據庫中的備選問題組成的詞-句子向量空間完成答案的選取??傮w系統框架如圖2所示。
基于隱含語義索引的農業技術問答系統檢索的主要步驟分為5個,即:
1)詞、文檔向量矩陣A的建立。利用無詞典分詞算法,對庫中的文本進行詞條的切分和詞頻的統計,建立文檔庫的詞、文檔向量矩陣A,并對其進行歸一化處理[3]。
2)奇異值分解。對建立的矩陣A按前面所述方法進行奇異值分解,得到一個矩陣Vk,矩陣Vk中的每一行對應庫中的所有文檔。
3)查詢向量的投影。把查詢向量投影到變換后得到的等價的k階詞、文檔矩陣中,即為矩陣Vk中的一行向量。
4)相似性計算和度量。利用向量距離公式或向量夾角余弦公式計算相似度,根據向量間的相似性度,查找與查詢結果最相似的集合,按相似度的值從大到小排列,并將相似度大于某值的文檔返回[4]。
5)反復查找,直到結果滿意。根據查詢結果的滿意程度,如果不滿意則用上一次的查詢結果來改修正查詢,重新查找最相似的文檔,這種過程可以循環進行,直到滿意為止。
2.1問題分析模塊
問題分析模塊的主要任務是分析出用戶的意圖。首先根據用戶所提的問題(如:請問如何種植黃瓜?),去掉一些和禮貌用語有關的詞,及一些語氣詞(如,請問、嗎、吧等),分析出名詞、副詞、形容詞等主關鍵詞集合(如何、種植、黃瓜),同時還要進行同義詞擴展,然后把分析出的關鍵詞提交給語義計算模塊。
2.2語義計算模塊
語義計算模塊是對問題進行權重計算,生成特征向量和進行語句相似度計算。權重計算與生成特征向量是語句相似度計算的基礎[5]。語義計算模塊主要是進行語句相似度計算。
2.3答案生成模塊
答案生成模塊根據相似度計算結果和用戶提問句式,生成答案列表和選取答案。
采取的策略:首先根據用戶所提問題判斷其句式。句式確定之后,從相似度大于一定閾值的答案中選取句式最吻合的5個問題的答案作為用戶所提問題的答案。
試驗數據為數據庫中的2 000個問題和其對應的答案,經過預處理生成2 123×2 000詞-句子矩陣,對隱含語義索引技術和常用的分類技術的準確率進行對比(圖3),試驗結果表明,前者要明顯好于后者,這是因為隱含語義的模型在一定程度上減弱了或者排除了每個類中的噪聲詞匯。但隱含語義索引技術目前還不能處理文本的全面語義,這樣在某些應用中的表現不如常用的分類算法,因此還需要對語義算法更深入地研究。對于整體文本分類而言,隱含語義索引技術克服了傳統模型中的許多不足,在應用中已取得了很好的效果。
3小結
農業知識問答系統是一個綜合的、復雜的系統,涉及到許多信息處理的技術問題。由于農業知識的復雜性和特殊性,以往的信息檢索技術很難解決信息中的同義性和多義性問題。本文通過把新型的信息檢索方法——LSI引入到農業知識問答系統中,為農業知識問答系統檢索技術提出一種新的思路及流程。試驗證明該技術表現出明顯的性能優勢,有效地解決了噪聲數據對分類帶來的負影響,提高了問答系統解答問題的準確率。
參考文獻:
[1] 戚涌,徐永紅,劉鳳玉.基于潛在語義標引的WEB文檔自動分類[J].計算機工程與應用, 2004,40(22):28-31.
[2] 余正濤,樊孝忠,郭劍毅,等.基于潛在語義分析的漢語問答系統答案提取[J].計算機學報,2006,29(10):1890-1892.
[3] 周文,龔禮明,蔣嵐.隱含語義檢索及中文樣本分析實例[J].計算機應用,2004,24(Z1):273-276.
[4] 魏保子,王儒敬.隱含語義索引在農業技術問答系統中的應用[J]. 微電子學與計算機,2008(7):48-51.
[5] 王春紅,張 敏. 隱含語義索引模型的分析與研究[J]. 計算機應用,2007(5):1283-1288.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文