融合加權模式挖掘與規則混合擴展的跨語言檢索

2019-09-09 03:44:50黃名選夏國恩蔣曹清

小型微型計算機系統 2019年9期

黃名選,夏國恩,高榮,蔣曹清

1(廣西財經學院廣西(東盟)財經研究中心,南寧 530003)2(廣西跨境電商智能信息處理重點實驗室(廣西財經學院),南寧 530003)3(廣西財經學院信息與統計學院,南寧 530003)4(廣西財經學院工商管理學院,南寧 530003) E-mail:mingxh05@163.com

1 引言

當前,呈現多語言性特征和具有潛在巨大經濟價值和研究價值的網絡大數據資源成為國內外關注的焦點,如何將這些網絡大數據資源提供給世界上不同文化背景和語種的網絡用戶是跨語言信息檢索研究的主要任務.跨語言信息檢索的特點是用戶查詢語言和所檢索的文檔語言不同,其中,查詢語言稱為源語言(Source Language,SL),所檢索的文檔語言稱為目標語言(Target Language,TL).由于網絡技術迅速發展和機器翻譯準確率的不斷提高,跨語言信息檢索研究得到了很好的發展,成為了國內外學者關注的熱點.

查詢主題漂移、詞不匹配以及查詢項翻譯歧義和多義性等問題長期困擾跨語言信息檢索的發展.針對這些問題,近10幾年來,國內外學者從不同的角度和方法對跨語言信息檢索模型及其算法進行深入研究和討論,在跨語言信息檢索查詢翻譯優化和擴展方面取得了豐富的成果.

查詢翻譯優化是提高跨語言信息檢索性能的關鍵技術之一,研究目標是如何得到最能表達源語言查詢語義的、最準確的查詢翻譯詞項及譯后語義.其典型的研究工作是吳丹等[1]提出的四種不同的查詢翻譯優化方法,TURE等[2]提出的基于語法和解碼的查詢翻譯優化方法,RAHIMI等[3]提出的基于可比語料庫的翻譯模型及優化方法,ZHANG等[4]提出的基于知識庫的查詢消歧與優化方法,SALEH等[5]提出的基于監督機器學習的查詢翻譯優化方法以及ELAYEB等[6]提出的基于概率與可能性相互轉換的查詢翻譯優化方法,等等,研究成果表明,這些查詢翻譯優化方法能提高和改善跨語言檢索性能.

除了查詢翻譯優化,跨語言查詢擴展也是提高和改善跨語言信息檢索性能的關鍵技術之一.多年來,國內外學者對基于查詢擴展的跨語言信息檢索進行了深入探索,其研究工作涉及主題模型、潛在語義、相關反饋、本體和關聯規則挖掘等技術.

基于主題模型的跨語言信息檢索[7,8]對前列初檢文檔進行主題建模,從來源于包含原查詢詞項的給定擴展主題中提取概率較高的前列擴展詞實現跨語言查詢擴展,提高跨語言檢索性能.在跨語言信息檢索中使用潛在語義分析技術的基本思想[9,10]是通過潛在語義分析技術建立不同語言的對應關系,由此得到與源語言查詢相似度最高的目標語種特征詞作為擴展詞實現查詢擴展,檢索性能得到改善.跨語言信息檢索中使用相關反饋技術的目的是從初檢相關反饋文檔中獲取與原查詢相關的擴展詞實現查詢擴展,從而提高檢索性能.相關反饋分為偽相關反饋和用戶相關反饋.早期研究表明,基于偽相關反饋的跨語言信息檢索性能不如單語言檢索結果[11],甚至出現負影響[12,13],吳丹等[14]對基于偽相關反饋的跨語言信息檢索進行深入探討和改進,跨語言檢索性能達到了單語言檢索的70%以上,Agrawal等[15]采用二次偽相關反饋檢索方法實現跨語言譯后擴展以及Chandra等[16]提出的基于相關反饋擴展的印地-英跨語言信息檢索方法,都能改善檢索性能.基于本體的跨語言信息檢索[17]利用多語言本體實現跨語言查詢擴展達到提高跨語言檢索性能的目的.

近年來,關聯模式挖掘技術在跨語言信息檢索中的應用研究得到了重視,其研究目的是采用某種挖掘方法在平行語料集挖掘目標語言查詢詞實現查詢優化和擴展[18],或者在目標語言(或者源語言)相關文檔集挖掘與原查詢相關的擴展詞實現查詢擴展,實驗結果表明,跨語言信息檢索使用關聯模式挖掘技術能提高檢索性能,其典型工作是文獻[18]提出的基于無加權關聯規則挖掘的西班牙-英跨語言信息檢索方法,文獻[19]提出的基于矩陣加權關聯模式的印尼-中跨語言信息檢索模型,實驗表明該模型對長查詢的檢索效果更有效,文獻[20]提出的基于偽相關反饋查詢擴展的和用戶相關反饋擴展的印尼-漢跨語言信息檢索方法,文獻[21,22]提出的基于加權關聯規則挖掘的[21]或者基于完全加權正負關聯模式挖掘的[22]越-英跨語言信息檢索算法,以及文獻[23]提出的基于矩陣加權關聯規則的中-英跨語言信息檢索方法,實驗結果表明,這些方法都能提升和改善跨語言信息檢索性能.

當前,基于關聯模式挖掘的跨語言信息檢索研究不是很深入,主要存在如下問題:①在關聯模式評估方面,盡管已經提出了支持度-置信度[20]、支持度-CPIR-興趣度[21]、支持度-關聯度-提升度-置信度[22]和支持度-置信度-興趣度[23]等一些有效的關聯模式評價框架,但還沒有完全解決跨語言信息檢索中查全率和查準率問題,探討一種挖掘出優質擴展詞的關聯模式評估框架一直是該領域重要的研究課題;②在基于關聯模式挖掘的擴展模型方面,關注較多的是關聯規則后件擴展模型[19-22]和前件擴展模型[23],而關聯規則前件后件混合擴展(簡稱關聯規則混合擴展)模型還沒有得到重視和深入討論.另外,當前跨語言信息檢索研究的語言對象多數是大語種(英語和漢語)以及歐洲語言等等,針對東盟小語種的跨語言信息檢索研究報道不是很多.然而,隨著中國-東盟自由貿易區的建設不斷深入以及中國-東盟博覽會的持續舉辦,東盟跨語言信息檢索與服務需求與日俱增,東盟語言與大語種等其他語言的跨語言信息檢索研究顯得迫切和重要.針對上述問題,本文以東盟小語種印尼語和英語為測試語言,深入研究基于有效性-卡方值-置信度(Availability_Chis-Square _Confidence,ACSC)評價框架的關聯規則混合擴展的跨語言信息檢索,首先給出一種項集有效性度量計算方法及項集剪枝策略,由此得到優質、合理的有效頻繁項集,然后,構建ACSC關聯模式評價框架和基于ACSC框架的加權關聯規則混合擴展模型,通過該評價框架能挖掘出更實際、合理的特征詞加權關聯規則模式,按照該擴展模型獲得與原查詢相關的優質擴展詞,最后提出基于加權關聯模式挖掘與規則混合擴展模型的跨語言信息檢索算法.在 NTCIR-5 CLIR數據集上的實驗結果表明,本文檢索算法能有效地減少跨語言檢索中查詢漂移和詞不匹配問題,提高和改善跨語言信息檢索性能,同時,項集有效性度量和置信度可使得本文算法分別獲得最優的檢索結果R-prec和P@10值.

2 面向跨語言信息檢索的加權關聯模式挖掘

假設跨語言初檢相關文檔集由d1,d2,…,dn等文檔組成,每篇文檔特征詞及其對應的權值分別表示為t1,t2,…,tm和wi1,wi2,…,wim,wI分別為特征詞加權項集I在跨語言初檢相關文檔集中的項集權值,W為跨語言初檢相關文檔集中所有特征詞權值總和,n是跨語言初檢相關文檔集的文檔總數.面向跨語言信息檢索的加權關聯模式挖掘對象是跨語言初檢相關文檔集,挖掘目標是找出更實際、合理的含有原查詢詞項的關聯模式.本節首先闡述跨語言初檢相關文檔集中特征詞頻繁項集的挖掘,然后給出一種新的加權關聯模式評價框架及項集剪枝策略.

2.1 特征詞頻繁項集的挖掘

設特征詞項集最小支持度閾值為ms,特征詞k_項集為I=(t1,t2,…,tk),k為項集I的項目個數(即項集長度),根據文獻[24],項集I的加權支持度(Weighted Support,wsup)計算公式[24]為wsup(I)=wI/(n×k),其中,wI為項集I的項集權值.由于頻繁項集I的wsup(I)≥ms,即wI≥n×k×ms,本文將MWFT(k)=n×ms×k稱為特征詞k_項集的最小權值頻繁閾值(Minimum Weight Frequent Threshold,MWFT),因此,特征詞頻繁項集的挖掘方法是:將k_項集權值wI與該項集的最小權值頻繁閾值MWFT比較,如果wI≥MWFT,則該項集是頻繁的.

2.2 加權關聯規則評價框架及剪枝策略

由于傳統的支持度-置信度關聯模式評價框架會產生矛盾、虛假、無效的關聯規則,故本文構建一種新的特征詞加權關聯模式評價框架,即有效性-卡方值-置信度(Availability_Chis-Square_Confidence,ACSC)評價框架,根據該框架,首先根據項集有效性度量值對頻繁項集剪枝得到有效頻繁項集,然后,借助項集卡方值和置信度從有效頻繁項集中挖掘強關聯規則模式,由此獲得優質的擴展詞實現查詢擴展,改善和提高跨語言信息檢索性能.ACSC評價框架中項集有效性度量、卡方值和置信度的計算簡述如下.

經過深入分析和研究,頻繁項集中項目之間會存在高支持度項目和低支持度項目相關聯的虛假項集關聯模式,為了避免該現象出現,本文給出一種項集有效性度量,該度量是頻繁項集中項目最小支持度與最高支持度的比率.具體計算方法如下:

設特征詞項集I=(t1,t2,…,tk)中各個特征詞項目t1,t2,…,tk對應1_項集(t1),(t2),…,(tk)的支持度分別為wsup(t1),wsup(t2),…,wsup(tk),那么,項集I有效性(ItemSetAvailability,ISA)度量計算公式如公式(1)所示.

(1)

即式(1)的分子和分母分別為項集I各個項目對應的_項集(t1),(t2),…,(tk)中的最小支持度和最大支持度.

設minISA為最小有效性度量閾值,則有效頻繁項集I是指那些ISA(I)≥minISA的頻繁項集.

假設特征詞項集I=(I1,I2),其中,I1∪I2=I,I1∪I2=?,則項集I中I1和I2的卡方(Chi-Square,CS)值計算公式[25]如公式(2)所示.

(2)

如果CS(I1,I2)=0,說明項集I1和I2相互獨立,不存在任何相關性,否則,項集I1和I2互相關聯依賴[25].由此可見,使用卡方值度量可以避免一些虛假相關的關聯規則.

加權關聯規則(I1→I2)置信度(Weighted Confidence,WC)計算公式[22]如公式(3)所示.

(3)

如果(I1,I2)為有效頻繁項集,并且CS(I1,I2)>0和WC(I1(I2)≥mc,則I1→I2是強加權關聯規則模式,其中,mc為最小置信度閾值.

在跨語言信息檢索過程中,為了提高檢索性能,需要挖掘出更多與原查詢詞項有效性高的特征詞項集實現查詢擴展.為此,本文給出如下項集剪枝策略,以提高挖掘效率:①剪除不含原查詢詞項的項集;②剪除其wI

3 加權關聯模式挖掘與規則混合擴展融合的跨語言信息檢索

3.1 規則混合擴展模型

本文將加權關聯規則混合擴展簡稱為規則混合擴展,并將該擴展模型形式化定義如公式(4)所示.

0.5+[CS()]max×0.3)

(4)

公式(4)所示的規則混合擴展模型來自跨語言初檢相關文檔集的強加權關聯規則模式,其中,q1,q2,…,qm是原查詢詞項,Ct1,Ct2,…,Ctn和At1,At2,…,Atn分別為關聯規則的后件特征詞項和前件特征詞項,都作為跨語言譯后目標語言查詢擴展詞,we代表擴展詞權值,其計算依據是強加權關聯規則的有效性度量ISA()、置信度WC()和卡方值CS()的最大者,按照這三個度量對擴展詞的影響程度,分別乘以0.2,0.5和0.3,然后再累加總和.另外,公式(4)中,“[ISA()]max”表示有效性度量ISA()的最大值,其余類似.三個度量值取最大值的原因是擴展詞項往往重復出現在多個加權關聯規則模式中.

公式(4)中原查詢詞項權值wq計算方法[26]如公式(5)所示.

(5)

公式(5)中,dfq表示包含查詢項q的文檔數,max(tfq)為所有查詢項初始頻率中的最高者,tfq代表查詢項q在查詢中的初始頻率,n表示文檔總數.

3.2 加權模式挖掘與混合擴展融合的跨語言信息檢索算法

加權模式挖掘與規則混合擴展融合的跨語言信息檢索基本思想:首先,源語言查詢借助機器翻譯工具進行跨語言文本檢索得到初檢前列文檔,根據用戶相關反饋判斷構建初檢相關文檔集,然后,從初檢相關文檔集中挖掘特征詞候選項集,通過項集權值比較從候選項集中提取含有原查詢詞項的頻繁項集,利用基于有效性度量的剪枝方法對項集進行剪枝得到有效頻繁項集,借助項集卡方值和置信度從有效頻繁項集中挖掘與原查詢相關的加權關聯規則,從關聯規則中提取后件是原查詢詞項的規則前件項集以及前件是原查詢詞項的規則后件項集作為擴展詞,擴展詞與原查詢詞組合為新查詢再次檢索目標語言文檔得到最終檢索結果文檔,并通過機器翻譯工具譯為源語言文檔返回給用戶.

根據上述跨語言檢索基本思想,給出如圖1所示的跨語言信息檢索流程圖,并形式化為算法CLRWPMHE(Cross Language Retrieval based on Weighted Patterns Mining and Hybrid Expansion),其算法偽代碼描述如表1所示.

圖1 本文跨語言信息檢索流程圖Fig.1 Flow diagram of cross language information retrieval in this paper

表1 CLRWPMHE算法偽代碼描述Table 1 Pseudo code description of CLRWPMHE algorithm

CLRWPMHE算法中,步驟5)是挖掘1_頻繁項集,步驟6)是挖掘有效k_頻繁項集,步驟7)是從有效頻繁項集中提取含有原查詢詞項的特征詞加權關聯規則模式,步驟8)和步驟9)根據公式(4)擴展模型從關聯模式中提取擴展詞,并計算其權值.

4 實驗與分析

本節以印尼語(東盟小語種)和英語為測試語言,編寫基于向量空間檢索模型的印尼-英跨語言信息檢索實驗平臺,在該實驗平臺上再編寫本文基于加權模式挖掘與規則混合擴展的跨語言信息檢索算法CLRWPMHE以及對比算法的源程序,在NTCIR-5 CLIR語料上進行本文實驗,對實驗結果進行分析.

4.1 測試數據集及其預處理

本文實驗采用NTCIR-5 CLIR英文語料(1)http://research.nii.ac.jp/ntcir/data/data-fen.html.作為測試數據集.該語料包括3個英文數據集,即md1數據集:Mainichi Daily News新聞媒體2001年的新聞文本5547篇,md0數據集:Mainichi Daily News新聞媒體2000年的新聞文本6608篇,kt1數據集:Korea Times 2001年的新聞文本14069篇.該語料為標準跨語言信息檢索測試語料,設置有TITLE、DESC、NARR 和CONC 等4種查詢類型,共50個查詢主題信息,結果集設置2種標準:Rigid 標準(與查詢高度相關,相關)和Relax標準(與查詢高度相關、相關和部分相關).

實驗數據集進行英文停用詞去除、詞干提取、特征詞權值計算、文本索引庫和特征詞庫的構建等預處理工作.譯后英文查詢也作類似的預處理.預處理工具是Porter程序(2)http://tartarus.org/～martin/PorterStemmer..

本文實驗采用TITLE和DESC查詢主題語料.機器翻譯工具接口是微軟必應機器翻譯接口(Microsoft Translator API).源語言印尼語查詢來源于NTCIR-5 CLIR語料的50個中文版查詢主題語料經翻譯機構專業人員人工翻譯而得.

4.2 對比實驗及實驗評價指標

跨語言信息檢索實驗與評價中,需要與同等條件下單語言檢索基準和跨語言首次檢索基準結果對比,同時還需與現有跨語言信息檢索算法比較,因此,本文將NTCIR-5 CLIR語料英文版查詢直接檢索英文文檔得到的檢索結果作為單語言檢索基準實驗(Monolingual Retrieval Baseline,MRB),將印尼語查詢經機器翻譯為英文后檢索英文文檔得到的檢索結果作為跨語言檢索基準實驗(Cross-Language Retrieval Baseline,CLRB),對比算法實驗簡述如下:

對比算法實驗1在印尼-英跨語言檢索中采用文獻[20]“IC_CLURF_AWAR”查詢擴展方法,即基于完全加權關聯規則的印尼-英跨語言檢索CLRAWAR(Cross-Language Retrieval Based on All-Weighted Association Rules),實驗參數:ms:0.8,1.0,1.3,1.5,1.7,mc:0.1.

對比算法實驗2在印尼-英跨語言檢索中采用文獻[21]“VECLQE_WAR”查詢擴展方法,即基于加權關聯規則的印尼-英跨語言檢索實驗CLRWAR(Cross-Language Retrieval Based on Weighted Association Rules),實驗參數:ms:0.007,0.008,0.009,0.01,0.011,mc:0.01,mi:0.0001.

對比算法實驗3在印尼-英跨語言檢索中采用文獻[24]的完全加權正負關聯規則挖掘算法 “AWPNAR_Mining”對初檢相關文檔集挖掘關聯規則模式實現規則后件擴展,即基于完全加權正負模式的印尼-英跨語言檢索實驗CLRAPNP(Cross-Language Retrieval Based on All-weighted Positive and Negative Patterns),實驗參數:ms:0.2,0.25,0.3,0.35,0.4,mc:0.5,mi:0.02.

本文將R-查準率(R-prec)和P@10作為實驗結果評價指標.R-查準率不強調文檔結果集中文檔的排序情況,對本文實驗顯得更有意義和評價價值,這是因為NTCIR-5 CLIR語料中不同查詢的相關文檔數差別比較大.

4.3 檢索性能比較

在印尼-英跨語言信息檢索實驗平臺上進行基準檢索實驗,以及3個對比算法和本文CLRWPMHE算法的印尼-英跨語言檢索實驗.提交50個源語言印尼語查詢在3個數據集上進行檢索實驗,得到支持度參數ms、置信度參數mc和有效性度量參數minISA閾值分別變化時檢索結果R-prec和P@10的平均值,如圖2-圖5所示.實驗時,提取跨語言初檢前列n篇文檔進行用戶相關性判斷,為了簡便,本文實驗將初檢前列n篇文檔中含有已知結果集中的相關文檔視為用戶相關性判斷結果文檔,構建初檢相關文檔集.實驗參數:n=50,Litem=3;CLRWPMHE:ms分別為0.5,0.6,0.7,0.8和0.9(mc=0.1,minISA=0.4),mc分別為0.5,0.6,0.7,0.8和0.9(ms=0.4,minISA=0.4),以及minISA分別為0.4,0.45,0.5,0.55和0.6(mc=0.1,ms=0.5).圖例中后綴“_s”表示支持度參數ms閾值變化時的情況,“_c”表示mc閾值變化,“_a”表示minISA閾值變化,橫坐標中后綴“e”代表檢索結果用Relax標準,“i”代表檢索結果用Rigid標準,例如,CLRWPMHE_s表示ms閾值變化時本文算法CLRWPMHE的檢索結果.

無論是TITLE或者DESC查詢的檢索結果,對圖2-圖5分析可以得到如下結論:

1)與基準檢索MRB、CLRB、對比算法CLRAPNP、CLRWAR和CLRAWAR比較,本文算法CLRWPMHE獲得最好的檢索結果,提升幅度比較大,跨語言信息檢索性能得到很好的改善和提高.

圖2 各算法TITLE查詢的檢索結果(R-prec值)Fig.2 Retrieval results(R-prec value)of TITLE queries for each algorithm

圖3 各算法DESC查詢的檢索結果(R-prec值)Fig.3 Retrieval results(R-prec value)of DESC queries foreach algorithm

2)支持度、置信度和有效性度量等3個參數對本文算法的跨語言檢索性能有影響.從實驗結果可知,置信度和有效性參數對本文CLRWPMHE算法檢索性能影響比較大些,即置信度mc使得CLRWPMHE算法獲得最優的檢索結果P@10值,而對于有效性minISA參數,可獲得最優的R-prec值.

圖4 各算法TITLE查詢檢索結果(P@10值)Fig.4 Retrieval results(P@10 value)of TITLE queries for each algorithm

3)無論是R-prec和P@10值,從總體來看,跨語言檢索基準實驗CLRB的絕大多數檢索結果低于單語言檢索基準實驗MRB的,說明跨語言檢索確實受到查詢翻譯等因素影響,比單語言檢索更復雜,出現查詢主題漂移和詞不匹配問題,檢索性能降低了.對比實驗中,CLRAWAR和CLRWAR實驗獲得比較好的檢索結果,其R-prec和P@10值都高于CLRAPNP的.

圖5 各算法DESC查詢的檢索結果(P@10值)Fig.5 Retrieval results(P@10 value)of DESC queries for each algorithm

4.4 參數設置對本文算法檢索性能的影響

本節分析和比較本文算法參數(支持度ms、置信度mc和有效性度量minISA)設置對跨語言檢索性能的影響.圖6所示的是不同參數閾值下本文算法CLRWPMHE在3個數據集上檢索結果R-prec和P@10的平均值,其中,圖例字符含義如下:前綴“Rd”和“Rt”分別表示DESC查詢和TITLE查詢檢索結果R-prec值,前綴“Pd”和“Pt”分別表示DESC查詢和TITLE查詢檢索結果P@10值,后綴“e”代表Relax標準,后綴“i”代表Rigid標準,橫坐標代表參數ms,或者mc,或者minISA.例如,“Rd_IC_e”表示有效性minISA參數變化時DESC查詢檢索結果Relax標準的R-prec值.

圖6 本文算法各參數設置的檢索結果(R-prec或P@10值)Fig.6 Retrieval results(R-prec or P@10 value)for each parameter setting of the algorithms in this paper

圖6表明,隨著參數ms的增大,TITLE查詢的檢索結果R-prec值(Rt_ms_e,Rt_ms_i)呈現逐漸下降趨勢,而對于DESC查詢的檢索,其R-prec值(Rd_ms_e,Rd_ms_i)開始緩慢下降,到ms為0.75時,R-prec值達到最大值,然后又緩慢下降;對于P@10值,無論是TITLE查詢或DESC查詢(Pt_ms_e,Pt_ms_i,Pd_ms_e,Pd_ms_i),隨著ms的增大,呈現緩慢下降趨勢.而參數mc和minISA逐漸上升時,其檢索結果也出現類似的緩慢下降趨勢.發生上述現象的原因主要是當參數閾值增大時,頻繁項集和關聯規則數量減少,獲得的擴展詞也隨之減少,檢索性能有所降低.另外,參數閾值的變化并沒有使得檢索結果大起大落,說明本文算法檢索性能具有一定的魯棒性.

4.5 查詢實例檢索效果分析

本節進一步說明本文CLRWPMHE算法能有效地減少查詢譯后主題漂移和詞不匹配問題,列舉了NTCIR-5 CLIR語料中No.24和No.42查詢DESC主題實例在md1數據集上的檢索實驗結果,其中,查詢實例各個語言版本原文以及本文算法運行得到的擴展詞詞干實例(No.24的為203個,No.42的為165個)按權值排降序前30個在表2列出,查詢實例的檢索結果R-prec和P@10值如表3所示.實驗參數:n=50,Litem=3,ms=0.5,mc=0.8,minISA=0.4.

表2 查詢主題實例及其擴展詞
Table 2 Cases for query topics and its expansion terms

查詢版本查詢編號實例描述印尼語版No.24Kerusakansindromkomprehensif yang di kabinekonomipesawatterbang.No.42Polisiuang yang membantupemuli-hanekonomidiutarakanoleh Greens-pan,yang ketua FRB.英文版(機器翻譯結果)No.24Comprehensive syndrome damage in the economy cabin of aircraft.No.42A monetary policy that helps economic recovery articulated by Greenspan,who was Chairman of the FRB.英文版(NTCIR-5語料)No.24Find documents about the first-ever space tourist Dennis Tito who arrived at International Space Station or the future of space tourism.No.42Find documents describing the kind of monetary policy pursued by Greenspan of the Board of Governors of the Fed-eral Research System,who contributed to economic recovery.擴展詞詞干(CLRWPMHE算法)No.24thrombu,clog,clot,cramped-seat,class,makino,electrocardiogram,caus-al,artery,lung,oppress,long-dist,in-cept,toshiro,vein,ebina,mild,respire,nakano,remaind,filipino,cramp,sur-gic,shogo,buse,symptom,oxygen,fracture,irregular,ailment.No.42Japan,howev,koizumi,octob,financi,initi,fear,approach,role,shavi,dillyd,out,fund,timet,jumpstart,ripple,pre-empt,tepid,end,stay,bring,produc,cabinet,tick,waver,economic-stimulu,submit,street,addit.

表3表明,No.24查詢DESC主題的CLRB檢索結果R-prec和P@10值都比MRB檢索的低,即分別下降了50%和85.05%,說明跨語言基準檢索時No.24查詢主題受翻譯等因素影響產生了比較嚴重的查詢主題漂移和詞不匹配問題,該查詢的跨語言檢索性能下降幅度比較大;運行本文算法CLRWPMHE后,No.24查詢檢索結果P@10值達到了單語言檢索基準MRB實驗的,R-prec值高于MRB實驗的,提高幅度比較大,No.42查詢主題的檢索結果也有類似的情況.由此可見,本文跨語言檢索算法確實能有效地遏制查詢主題漂移和詞不匹配問題,提高和改善檢索性能,其主要原因是本文檢索算法采用了加權關聯模式挖掘與規則混合擴展技術,獲得了如表2所示的擴展詞實現了跨語言查詢擴展.

表3 查詢主題實例的檢索性能比較
Table 3 Comparison of retrieval performances of cases for query topics

查詢編號檢索算法RelaxRigidp@10R_precp@10R_precNo.24MRB0.20.20000.20.2000CLRB0.10.02990.10.0299CLRWPMHE0.20.50000.20.5000No.42MRB0.20.13640.20.1364CLRB0.20.06980.20.0698CLRWPMHE0.20.13640.20.1364

4.6 實驗結果分析

綜上所述,本文提出的跨語言信息檢索算法CLRWPMHE是有效的,與單語言基準檢索和跨語言基準檢索,以及基于現有加權關聯規則挖掘的跨語言信息檢索算法比較,CLRWPMHE算法能有效地改善和提高檢索性能,減少查詢主題漂移和詞不匹配問題,同時,置信度和有效性度量對CLRWPMHE算法影響比較大,可以使其分別獲得最優的檢索結果P@10和R-prec值.CLRWPMHE算法有效性得益于如下三個方面:

①給出了一種項集有效性度量計算方法及其項集剪枝策略,得到優質、合理的有效頻繁項集;

②構建了一種新的特征詞關聯規則評價框架,即有效性-卡方值-置信度(ACSC)評價框架,通過該評價框架能挖掘出更實際、合理的特征詞關聯規則模式;

③給出了一種基于ACSC評價框架的加權關聯規則混合擴展模型,獲得與原查詢相關的優質擴展詞實現跨語言查詢擴展,擴展詞與原查詢組合后再檢索目標語言文檔.上述三個方面的共同作用,提高和改善了跨語言檢索性能,使得本文CLRWPMHE算法的檢索性能優于基準檢索和對比算法.

5 結論

在自然語言處理中,查詢主題漂移和詞不匹配問題一直困擾跨語言信息檢索,導致檢索性能降低.針對該問題,本文深入研究基于加權關聯模式挖掘與規則混合擴展的跨語言信息檢索,首先給出一種項集有效性度量計算方法及項集剪枝策略,由此得到優質、合理的有效頻繁項集,然后,構建有效性-卡方值-置信度(Availability_Chis-Square_Confidence,ACSC)關聯模式評價框架和基于ACSC框架的關聯規則前后件混合擴展模型,借助該評價框架挖掘出更實際、合理的特征詞關聯規則模式,按照本文擴展模型獲得與原查詢相關的優質擴展詞,最后提出基于ACSC框架的加權模式挖掘與規則混合擴展的跨語言信息檢索算法.以東盟小語種印尼語和英語為測試語言,與現有跨語言檢索算法比較,在 NTCIR-5 CLIR數據集上的實驗結果表明,本文檢索算法有效,能減少跨語言檢索中的查詢漂移問題,提高和改善跨語言檢索性能,同時,項集有效性度量和置信度可使得本文算法分別獲得最優的檢索結果R-prec和P@10值.下一步研究是探討將本文算法應用到實際的跨語言搜索引擎中,以改善和提高實際跨語言信息檢索系統性能,探索將本文擴展方法應用于其他東盟跨語言信息檢索以及將本文關聯模式挖掘方法應用于中國-東盟貿易商務數據挖掘以及推薦系統.