[摘 要]潛在語義分析是自然語言使用于情報檢索系統的理論基礎,以此理論建構的空間向量模型是評判檢索系統性能優良與否的知識工具#65377;闡述了潛在語義標引(LSI)的基本內容#65380;LSI下影響自然語言檢索查準率的因素及向量空間模型檢索軟件的運行機制#65377;此評述對網絡化的情報檢索技術的發展起到了一定的參考作用#65377;
[關鍵詞]潛在語義分析;自然語言;查準率
[中圖分類號]G254.0 [文獻標識碼]A [文章編號]1008-0821(2010)03-0026-03
Comment on Latent Semantic Analysis of Retrieval Precision
Rate Factors Based on the Impact of Natural LanguageChen Lihua
(Library,Dezhou College,Dezhou 253023,China)
[Abstract]Latent semantic analysis is the theoretical basis of natural language information retrieval system used in building the space vector model to judge the retrieval system performance.This paper discussed on latent semantic indexing(LSI)of the basic content,LSI under the impact of natural language search of precision factors and vector space model retrieval software operating mechanism.This commentary on the network of information retrieval technology has played a certain role in the reference.
[Key words]latent semantic analysis;natural language;precision
自然語言是隨著計算機技術的運用而發展起來的一種信息檢索語言#65377;在互聯網世界里,各種搜索引擎和網絡數據庫也在日益廣泛地應用自然語言#65377;但是自然語言本身存在的缺點影響了整個檢索體系的檢索效果,自然語言存在著同義詞#65380;近義詞#65380;多義詞以及其他有著相互關系的語詞,這些語詞缺乏規范化處理,語詞之間缺乏概念顯示的語義關系,或者說語詞之間語義關聯性差,當用戶采用的提問式具有多意義概念表達時,使用一個自然語言檢索詞,必然會影響輸出結果的查準率#65377;為此,學者們積極開展研究,先后提出了詞干法(Stemming)#65380;控制詞表法(Controlled Vocabularies)等解決方法,但由于這些方法的實質依然是關鍵詞匹配,改進非常有限,從而無法根本上解決查準率低的問題[1]#65377;1988年,Dumais S T.等人提出了一種新的信息檢索代數模型:潛在語義標引(Latent Semantic Indexing LSI)模型,實現了基于概念的語義檢索,較好地解決了自然語言檢索問題,提高了檢索系統的準確率[2]#65377;
1 潛在語義標引(LSI)概述
在文獻中,由于大量的同義詞#65380;近義詞和多義詞的出現,使得文獻出現了一些隱含的或潛在的語義結構#65377;這些語義結構的表現形式可以通過統計文獻中存在的標引詞的詞頻來展示#65377;美國康奈爾大學的Salton等人建立了潛在語義標引的向量空間模型,他們將文獻及用戶查詢語句表示成標引詞權重的向量,形成了文獻——標引詞矩陣[3]#65377;
在向量空間模型中,任意一篇文獻和任意一個用戶提問的向量表達式為:
其中:ai為文獻集合中的第i篇文獻,bi為任意一個用戶提問,xi為文獻向量或用戶提問中的第i個標引詞,m為系統中標引詞的總數#65377;
向量空間模型的文獻——標引詞結構對應著矩陣的表示形式,在LSI模型中,潛在語義結構是可以用文獻——標引詞矩陣來表示的:
其中:m為系統中標引詞的總數,n為文獻的總數,Di,j為文獻——標引詞(ai,xi)的權值#65377;
LSI模型的建立,使得語義關聯的非結構化的文獻集合可以表示為空間向量,利用數學方法解決自然語言檢索問題成為可能#65377;由于文獻中存在著許多同義#65380;近義#65380;多義等自然語言詞語,因此,抽取的標引詞之間就不可避免地存在著相互的聯系,從而,標引詞向量之間存在著“斜交”的情景#65377;若全然忽略這樣的斜交可能,即忽略文獻之間的相互聯系,必然使得檢索效果產生很大的偏差[4]#65377;
2010年3月第30卷第3期現?代?情?報Journal of Modern InformationMar.,2010Vol.30 No.32010年3月第30卷第3期基于潛在語義分析的影響自然語言檢索查準率指標因素的評述Mar.,2010Vol.30 No.32 LSI下影響自然語言檢索查準率指標因素分析
2.1 奇異值分解(singular valucd decomposition,SVD)對查準率的影響自然語言標引詞存在于文獻之中,但并非一個標引詞出現在每一個文獻之中,因此,文獻——標引詞矩陣是一個高階稀疏矩陣#65377;為了準確檢索出被標引的文獻,必須將文獻基于標引詞權重的向量表述映射到一個低緯度的向量空間中去#65377;例如一個m*n階的文獻——標引詞矩陣E,ETE具有非負的特征值#65377;ETE的特征值的非負平方根稱為E的奇異值,非零奇異值的數目等于E的秩[rank(E)][5]#65377;根據奇異值定義可以將E分解為3個矩陣的乘積:
E=KLPT
其中:K#65380;P為正交矩陣,K的大小為m*m,P的大小為n*n,兩矩陣均是單位長度的,即滿足KTK=1和PTP=1#65377;L為奇異對角矩陣,大小為m*n,是原矩陣的消減矩陣#65377;L上的對角線元素為分解得到的E的各奇異值,各奇異值按照由大到小的順序排列,即:Z1≥Z2≥…≥Zr#65377;
由于L上的對角線元素是按大小順序排列的,現保留最大的元素數目S個,其余較小的各個元素數值定為零,同時保留矩陣K和P中最右邊的最大S個元素,其他較小值元素定為零,這樣產生了K#65380;L#65380;P三矩陣的相似矩陣KS#65380;LS#65380;PS,將三矩陣相乘得:ES=KSLSPST,且rank(ES)=S#65377;
ES矩陣是文獻——標引詞矩陣E的近似矩陣,表示著將文獻向量從一個高維度空間降低到了一個低維度空間內,這樣減少了高維度E矩陣中的“噪聲”因素,增強了文獻與標引詞之間的語義關聯度,大大提高了自然語言檢索的查準率#65377;S值的大小是衡量文獻檢索質量和文獻檢索效率的關鍵指標#65377;設Zs+1+Zs+2+……+Zs+r<ε2,則:
‖E-ES‖*F=(Zs+1+Zs+2+……+Zs+r)1/2<ε
由上式可知:選取適當的S值,對應適當的ε,可以使得E和ES近似度最大#65377;一方面,S值應該足夠大,能夠適合所有的潛在語義結構,即可以包括所有現實的結構信息#65377;但是又不能太大,因為如果太大,則接近于標準的向量空間模型,失去它可以表示詞相依性的能力,同時存在“噪聲”,這就給檢索帶來新的問題#65377;另一方面,S值應該足夠小,小到可以忽略取消錯誤和不重要的細節;但是如果太小,則不能適應樣本的誤差,保留下來的語義結構太少,無法把握運算的結果,分辨文獻或語詞的能力不足[6]#65377;S值的確定方法主要是參考因子分析中S值的選擇方法的貢獻率不等式法#65377;
2.2 文獻向量和用戶提問向量的相似度對查準率的影響在LSI空間模型內,用戶的提問也可以用向量來表示,將提問虛擬為文獻向量集合中的某一向量#65377;這樣,可以通過比較文獻向量和用戶提問向量的內積或余弦距離來判斷兩者的相似度#65377;計算相似度之前,要明確文獻和用戶提問中標引詞的權值:
文獻ai中詞xr的標準化頻率fr,i為:
fr,i=freqr,i/(maxl*freqr,i)
其中:freqr,i為文獻ai中標引詞xr的初始頻率#65377;
文獻ai中詞xr的逆頻率idfr為:
idfr=log(N/nr)
其中:N為檢索系統中的文獻總數量,nr為含有標引詞xr的文獻數量#65377;
文獻ai中標引詞xr的權值為:
Qk,j=fr,i*idfr=fr,i*log(N/nr)
用戶提問bi中標引詞xr的權值為:
Qk,v=[0.5+0.5 freqr,i/(maxl*freqr,i)]*log(N/nr)
根據上述計算來判斷文獻向量和用戶提問向量之間的相似度:
①點積函數法:
sim(ai,bi)=ΣQk,j*Qk,v(1≤k≤m)
即:文獻向量中的元素權值與用戶提問向量中的對應元素權值的乘積之和#65377;和值越大,說明文獻向量和用戶提問向量的相似度越大,文獻檢索的查準率越高#65377;
②點加函數法:
sim(ai,bi)=Σmin(Qk,j,Qk,v)(1≤k≤m)
即:文獻向量中的元素權值與用戶提問向量中的對應權值的最小分量數值之和#65377;和值越大,說明文獻向量和用戶提問向量的相似度越大,文獻檢索的查準率越高#65377;
③余弦函數法:
sim(ai,bi)=(ai*bi)/(|ai|*|bi|)=(ΣQk,j*Qk,v)/{[Σ(Qk,j)2]1/2*[Σ(Qk,V)2]1/2}(1≤k≤m)
即:文獻向量與用戶提問向量之間夾角的余弦值#65377;如圖1所示:
圖1 余弦值
由圖1可以看出,文獻向量與用戶提問向量的相似度和兩向量的夾角β有關,當β越大時,余弦值越小,相似度越小;當β越小時,余弦值越大,相似度越大;當兩向量完全重合時,說明相似度最大#65377;為了提高文獻檢索的查準率,必須將相似度的閾值提高到一定的程度,這樣相似度高于閾值的文獻按照相似度由大到小的順序排列輸出,確保了被檢文獻的高準確率[7]#65377;
2.3 潛在語義向量空間結構的更新狀況對查準率的影響當情報檢索系統中不斷增加新的文獻時,使得文獻——標引詞向量空間結構發生了變化,我們可以利用逐層聚類法更新來建立文獻——標引詞向量矩陣的邏輯組合關系#65377;
更新后的矩陣邏輯組合關系是一種即時關系,是原關系的延續與積累#65377;設文獻積累狀態下的文獻——標引詞矩陣為D=(a1,a2,…an),利用逐層聚類法將D中文獻數目類分為m個類層,分別為第1類#65380;第2類#65380;第3類……第m類#65377;每一類層的所有向量的平均值是本類層的特征向量值,那么,所有類層的向量平均值就是該文獻——標引詞向量空間的特征向量值#65377;對于文獻——標引詞矩陣D,逐層聚類結果可以表示為D=(D1,D2……Dm)=D1∪D2∪……∪Dm,我們可以對以下結果進行表述和判斷:
①計算類層的平均類內馬氏距離αp:
αp=ΣR(p\\e)(xe-βp)NΣ-1P(x]e-βp)/SP(e∈1,|D|)
其中:p=1,2,3……m;βp為各類層的向量平均值;Σp為協方差矩陣,SP為第p個類層中標準訓練樣本數,R(p\\e)的取值為:
R(p\\e)=1 ai∈Dp或0 ai∈Dp
②計算類層的類間距離Jp,q:
Jp,q=(βp-βq)N/2*(Σ-1p+Σ-1q)*(βp-βq)
其中:p=1,2,3……m;q=1,2,3……m#65377;
③根據①和②公式,計算類層的類內類間距離比wp,q:
wp,q=(αp+αq)/Jp,q
其中:p=1,2,3……m;q=1,2,3……m[8]#65377;
從①#65380;②#65380;③可以看出,wp,q的最優類層值取決于αp#65380;αq及Jp,q的取值大小,進一步說明取決于m值的大小,使得wp,q為最大值的m值為最佳類層數,其相應的文獻——標引詞向量矩陣的邏輯組合關系為最佳關系#65377;在最佳向量空間邏輯組合關系中,文獻檢索的詞匯控制處在隨機的良性運動狀態,所有檢索指標為最佳,對文獻檢索系統的查準率來說,也是最高的#65377;
3 LSI下向量空間模型檢索軟件的查準率分析
目前,向量空間模型檢索軟件研究處在快速發展的階段,其中開發最為成功的案例是美國Comell大學研制的smart概率模型inquery,該軟件實現了詞項統計加權策略,優化了query的相關性反饋技術#65377;系統在unix上開發,可以依照建立索引庫之前準備的一組需要裝庫的記錄文件和一個裝庫的描述文件(Spec),對格式化的文本文件建立索引庫#65377;然后可以進行批處理查詢或交互式查詢,也可作relevence feedback查詢,還可以按照TREC給出的評測程序和標準答案集對照給出評分[9]#65377;inquery向量空間模型檢索的現實代碼如下所示:
∥對查詢條件數組賦值,生成查詢條件向量queryarray,其中,myarray[j]為項
100for(j=0;j ∥m為向量的維數 200 { 300 if(Txtdesct.Text.IndexOF(myarray[j])>-1) ∥Txtdesct.Text為輸入的查詢條件的文本描述 400 {queryarray[j]=1;} 500 else 600 {queryarray[j]=0;} 700 } ∥對構件庫中每個構件對應的向量賦值 800 for(i=0;I ∥k為構件庫中構件的總數量 900 { 1000 for (j=0;j 1100 { 1200 if(componentdisc[i].IndexOf(myarray[j]>-1) ∥判斷構件構件描述是否存在某項 1300 {componentarray[i,j]=1;} 1400 else 1500 {componentarray[i,j]=0;} 1600 } 1700 } ∥計算構件描述與查詢條件的向量夾角 1800 for(i=0;I 1900 { 2000 for(j=0;j 2100 { 2200 s=s+componentarray[i,j]*queryarray[j] 2300 s1=s1+componentarray[i,j]*componentarray[i,j] 2400 s2=s2+queryarray[j]*queryarray[j] 2500 } 2600 s3=Sqrt(s1) 2700 s4=Sqrt(s2) 2800 v=s/(s3*s4) ∥v為查詢向量與構件描述向量夾角的余弦值 2900 }[10] 由以上代碼式可以看出:向量空間模型檢索軟件的現實代碼的邏輯計算是查準率表達的數碼條件,是情報檢索系統計算機化的表現與基礎#65377; 參考文獻 [1]Dumais S T.Latent Semantic Analysis[M].Annual Reviews of information Science and Technology,1989:190-230. [2]Dumais S T,Fumas G W,Landauer T K.etal Using Latent Semantic Analysis to Improve Rnformation retrieval[C].Proceedings of CHI88 Conference on Human Factors in Computing Systems,1988:281-285. [3]句斌.潛在語義標引在中文信息檢索中的研究與實現[J].計算機工程,2007,(5):193-196. [4]Dumais S T.Using LSI for Information Retrieval,Information Filtering,and Other Things[C]∥Proc.of Talk at Cognitive Technology Worksop,1997:4-5. [5]戚涌,徐永紅,劉鳳玉.基于潛在語義標引的WEB文檔自動分類[J].計算機工程與應用,2004,(22):28-31. [6]楊梁彬.文本檢索的潛在語義索引法初探[J].大學圖書館學報,2003,(6):68-72. [7]王知津,鄭紅軍.基于代數理論的信息檢索模型及其推廣[J].現代圖書情報技術,2005,(7):30-33. [8]戚涌,等.基于潛在語義標引的WEB檔案自動分類[J].計算機工程與應用,2004,(22):28-31. [9]王修力,馬利平.文本信息檢索的代數模型綜述[J].吉林大學學報:信息科學版,2007,(5):569-576. [10]游慶祥,尤瑞玲.一種基于向量空間模型的構件庫設計[J].電腦知識與技術,2009,(3):623-625.