寧琳
〔摘 要〕跨語言檢
索是一種重要的信息檢索手段之一?為了提高跨語言檢索效率,采用語義擴展的方法,通過
分析其設計思想和工作流程,構建出一種基于語義擴展的跨語言自動檢索模型,重點對其語
義擴展?知識庫和結果聚類等設計進行了闡述,提出了語義理解切分法的分詞方法,采用了
Single-Pass算法進行聚類,實驗結果表明,該模型能有效提高跨語言檢索的查全率和查準
率?
〔關鍵詞〕跨語言信息檢索;語義
擴展;分詞
DOI:10.3969/j
.issn.1008-0821.2014.01.033
〔中圖分類號〕G252.7 〔文獻標識碼〕B 〔文章編號
〕1008-0821(2014)01-0155-04
A Kind of Design of the Cross-La
nguage Information
Retrieval on the Basis of the Semantic Extension
Ning Lin
(Library,Chongqing Jiaotong University,Chongqing 400074,China)HT〗
〔Abstract〕”BZ〗The Cross-language retrieval is an important method of information retri
eval.In order to improve the cross-language retrieval efficiency,it adapts the m
ethod of semantic extension.By analyzing the design idea and workflow,it builds
a kind of cross-language automatic retrieval model based on semantic extension.F
ocusing on its semantic extension,knowledge base and expounding the result clust
ering design,the semantic understanding segmentation method of word segmentation
method is proposedand adapts the Single-Pass clustering algorithm.The experimen
tal results show that this model can effectively improve the cross-language retr
ieval recall and precision.
〔Key words〕CLIR(Cross-Lang
uage Information Retrieval);semantic extension;segmentation
隨著網絡技術的迅猛發展,信息檢索已成為我們利用網絡獲取信息的必備工具?但是,
通常的信息檢索技術只對自然語言作處理,而自然語言之間在語義和語言結構上差異很大,
這給人們進行檢索時帶來很大語言障礙?跨語言信息檢索(CLIR)技術的出現,為網絡信息
搜集提供了新的方式,用戶只需輸入一種語言的查詢,就能檢索出其他多種語言的文檔,實
現信息獲取的目的?目前,跨語言信息檢索的實現策略很多,但普遍存在查全率和查準率較
低的情況,采用語義擴展的跨語言檢索方式,通過對用戶輸入的原始搜索指令進行跨語言的
語義擴展,擴展出查詢詞的潛在語義相關詞,并對擴展后的內容進行自動聚類分析處理,可
以實現多語言的同步搜索并提高跨語言檢索的查全率和查準率,為解決網絡上語言差異的問
題提出很好的思路?
1 跨語言信息檢索及其主要方法跨語言信息檢索是指用戶以一種語言提問,檢出另一種語言或多種語言描述的相關信息?在
跨語言檢索中,不同語言之間的“翻譯”是跨語言信息檢索的核心問題,也是跨語言信息檢
索的研究熱點與難點?目前,有3種公認的主要翻譯方法:機器翻譯技術?基于詞典的方法
?基于語料庫的方法[1]?
1.1 機器翻譯技術
機器翻譯是將跨語言檢索系統直接應用于檢索過程中?主要有兩種方法:一是將用戶的查詢
翻譯為與文檔相同的語種;另一種是將文檔翻譯為與查詢相同的語種,然后再用單語種的信
息檢索系統進行檢索[6]?但是,由于機器翻譯技術通常是基于整句翻譯的,不能
進行語境信息和領域知識的處理,很難消除翻譯歧義,在實際檢索過程中會產生大量冗余文
檔,結果不夠精確?
1.2 基于詞典的策略
其基本思路在于,利用一部雙語詞典,將用戶提出的查詢檢索詞交換為目標語言的檢索詞,
然后再在文檔集中查詢相關信息?這種方法缺點在于翻譯時是以詞為單位,而在各種語言中
普遍存在的一詞多義現象,導致大大增加了翻譯的復雜性?
1.3 基于語料庫的策略
基于語料庫的方法從大規模的語料入手,從中抽取所需的信息,自動構建與應用有關的翻譯endprint
技術?語料庫分為兩種:比較語料庫和平行語料庫?比較語料庫內每種語言文獻集內的文獻
并非一一對應,而僅僅是討論相同主題而已?平行語料庫強調兩種語言文獻的一一對應,而
這種相互對譯的雙語語料庫并不容易實現?
目前,跨語言信息檢索最常用的是基于詞典的策略和基于語料庫的策略?在基于詞典的跨語
言信息檢索中,未知詞的處理一直困擾著人們,對于不在詞典中的詞就無法翻譯?語料庫建
設難度較大,規模通常也較有限?因此利用查詢擴展技術將兩種方法進行整合是解決翻譯問
題的一種有效方法,即利用語義詞典對查詢語句進行語義擴展,再將擴展詞匯與語料庫對比
分析,分析該語義段落中的潛在目標對象和查詢請求的語義相關性,從而決定是否將其作為
結果返回,查詢擴展可分別在查詢翻譯前或查詢后進行,也可以同時在查詢翻譯前?后進行
,這種方法可以減少與詞典翻譯有關的錯誤,部分地解決詞匯問題中“多詞同義或近義”的
問題?
2.2.1 知識庫模塊
該模塊主要是對輸入的原始搜索指令進行分析,利用知識庫和通用語義詞典,對搜索指令進
行跨語言擴展,語義詞典為知識庫信息搜索提供了語義擴展的基本素材,由于語義詞典與具
體應用無關,因此存在專用術語不全?領域語義模糊?新詞匯和特殊的詞匯沒有收錄等問題
,因此,有必要設計針對用戶需求的專業知識庫,該庫收錄的內容包括:專業信息搜集中常
用詞的中英文同義詞,地名?機構名?術語的全稱?簡稱?縮寫等中英文的表述,網絡中新
出現的詞匯的中英文表述,人名的中英文各種譯法等?
2.2.2 搜索指令的跨語言語義擴展模塊
該模塊是實現跨語言擴展的核心部分,它主要包括數據預處理?特征提取?特征權重的計算
和查詢擴展等部分?
(1)數據預處理
數據預處理是對搜索的原始數據進行提取?分解?合并,最后轉化為適合進行數據挖掘的數
據格式?它包括兩個解析過程:一是將包含標記符號的Web文檔解析成只含有用信息的文本
文檔,利用抓取工具把檢索的結果抓取到數據庫,然后利用HTML解析工具對Web文本進行分
析,進行去HTML標記的處理?二是對文本文檔進行分詞處理?分詞就是將中文或其它語言的
詞句按照一定序列切分成有意義的詞[5],目前,分詞的方法有很多,如機械匹配
法?特征詞庫法?約束矩陣法等,在這里,我主要提出了一種具有“理解”功能的切分法—
—語義理解切分法,其基本思想是:先建立一個詞庫,其中包含所有可能出現的詞和它們的
各種語義信息,對給定的待分詞的詞句S,按照某種確定的原則切取S的子串,若該子串與詞
庫中的某詞條相匹配,則從詞庫中取出該詞的所有語義信息,然后調用語義分析程序進行語
義分析(包括形成理解結果和檢索約束條件)?若分析正確,則該子串是詞,記下理解結果
作為后繼切分的基礎,繼續分割余下部分,直到余下部分為空?否則該子串不是詞,轉上重
新切取S的子串進行匹配?理解切分法的優點在于它的最終結果包括理解結果的內部表示,
為后繼的處理提供很大的幫助?
對數據預處理后的信息提供兩種聚類對象集,當用戶想要快速地進行檢索時,可以選擇標題
和摘要作為對象集的處理結果,當用戶想要得到更加準確的結果,可以選擇原始網頁作為對
象集?
(2)特征提取
在提取文本特征時,剔除對文本分類沒有用處的虛詞,而在實詞中,主要提取類別特性的表
現力最強的名詞和動詞作為文本的特征詞?
對于同義詞,首先是對文本進行部分語義分析,利用語義詞典獲取詞匯的語義信息,將語義
相同的詞匯映射到同一概念,進行概念聚類,并將概念相同的詞合并成同一詞?用聚類得到
的詞作為文檔向量的特征項,能夠比普通詞匯更加準確地表達文檔內容,減少特征之間的相
關性和同義現象,這樣可以有效降低文檔向量的維數,減少文檔處理計算量,提高特征提取
的精度和效率?
(3)特征權重的計算
利用分詞工具對中英文的文檔進行分詞處理并進行詞性標注,標注主要用于特征提取?而特
征詞在不同的標記符中對內容的反映程度不同,其權重的計算方法也不同,本文采用的是常
用的TFIDF(詞頻——逆文檔頻度)加權法?
通常來說,對區別文檔最有意義的詞應是在文檔中出現頻率高,而在整個文檔集合的其他文
檔中出現頻率少的詞,因此采用TF詞頻作為測度來體現同類文本的特點?另外,TFIDF法認
為一個單詞出現的文本頻數越小,它區別不同類別文本的能力就越大,因此采用逆文本頻度
IDF,以TF和IDF的乘積作為特征空間的取值測度,并用它完成對權值TF的調整,從而實現突
出重要單詞的目的?其過程如下:
(4)查詢擴展
查詢擴展技術是語義檢索的一個重要方面?查詢擴展把與原查詢相關的詞語或者語言查詢語
義相關的概念添加到原查詢,得到比原查詢更長的新查詢,然后檢索文檔,以提高信息檢索
的查全率和查準率[4]?
①手工查詢擴展:人工挑選與查詢詞相關的其它特征詞,將其加入到原始查詢中構成新的查endprint
詢?
②自動查詢擴展:使用語法分析?統計等技術從文檔集合中自動學習,獲得詞與詞間的相關
信息[3]?
本模塊采用自動查詢擴展和手工查詢擴展相結合的方法,即將經過語義詞典擴展的詞以選擇
項的方式提供給用戶,供用戶進行選擇,從而解決同義詞擴展過多,詞語相似度低的問題?
對于新出現的詞匯?地名?機構名,通過定期更新知識庫記錄的方法加以解決?專業術語通
常采用與專業詞典相結合的辦法,首先在通用語義詞典中查找詞意,當其無法滿足要求時,
再轉向專業詞典進行查找?
2.2.3 跨語言文本自動聚類模塊分析
搜索引擎是以關鍵字匹配的檢索方式,導致搜索引擎返回的結果中有許多是與用戶的查詢不
相關的文檔,因此需要對返回的結果進行篩選?通過對檢索結果的上下文進行分析,以文檔
的相似度為基礎,對結果進行聚類,能自動地對檢索結果進行篩選,從而解決查詢文檔過多
的問題?本模塊在對搜索引擎返回的結果進行聚類處理時,通過計算結果文檔與設定模板的
相似度,根據相似度閾值,分批對結果進行聚類,大于閾值的文檔則搜集進信息資料數據庫
,小于閾值的文檔則直接舍棄,當滿足一定的條件時,停止聚類,完成篩選?
(1)文本聚類
按照數據的相似性和差異性,將數據劃分為若干簇,同簇的盡量相似,不同簇的盡量相異,
這種對數據進行自動組織的方法稱為聚類[2]?聚類通過比較數據的相似性和差異
性,能發現數據的內在特征及分布規律,從而獲得對數據更深刻的理解和認識?
聚類分為兩種:檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對全部文檔進行聚類,
使相關的文檔在同一類中,在檢索過程中,每個文檔類以一個向量來表示,查詢向量先與各
個類向量逐一進行比較,最后得到相關度較高的類?檢索后聚類是在檢索之后對查詢相關的
文檔進行聚類?與檢索前聚類相比,檢索后聚類能夠分析相關文檔集合的特征,提高檢索效
果?
(2)聚類的過程
該設計的聚類主要采用了Single-Pass啟發式聚類算法,首先,按照一定的次序,將第
一篇文檔作為聚類依據,將其余文檔按次序依次對其進行相似性比較,如相似性達到系統設
定的要求,即將其歸入該類,并重新計算其類心,作為其他文檔的匹配依據,如未達到系統
要求的閾值,則直接將該文檔作為新類的聚類依據,所有文檔均依次按這一方式聚類?除此
之外,為了提高聚類的效率,減少對原始網頁的處理時間,該聚類還對搜索引擎返回的結果
進行分批次聚類處理,每次聚類的過程相同,前一批次的聚類結果作為后一批次的聚類模板
?
具體過程:設每一批次處理的文檔數量為N,在算法中,設計了一個計數器K,用于計算每一
批處理的文檔中歸入類中的數量,如果K=0,表示在這一批次中符合要求的文檔數為0,則停
止聚類,算法中模板的向量用模板集中向量的平均值來表示,平均值的計算公式為:
mi=∑ni=1xi/n
xi為模板集中的隨機向量,n為模板集中對象的個數?文檔與模板間的相似度用余弦公式
來定義?
在聚類中閾值的設定很關鍵,閾值設定過大,導致查全率的降低,閾值設定過小,則導致查
準率的降低?
3 跨語言語義擴展檢索結果分析TBZ〗
本文實驗設計了10組中英文查詢進行檢索,利用百度?中搜?Google搜索引擎進行原始指令
搜索和擴展后的指令搜索,并對前100個檢索結果采用查全率和查準率進行統計,將統計結
果進行平均,然后得到評估結果(表1):
表1 原始檢索和語義擴展檢索結果評估
實驗結果表明,3個普通搜索引擎采用原始檢索的查全率和查準率平均值分別為0.18和
0.34,而采用語義擴展檢索的查全率和查準率平均值分別為0.35和0.53,通過語義擴展
對普通搜索引擎進行跨語言語義擴展的二次優化,可以有效地提高跨語言檢索的查全率和查
準率,提高了網絡信息搜集的效率?
4 結束語
解決網絡語言差異的障礙,采用語義擴展的跨語言檢索是一種較好的方法?該方法通過構建
跨語言語義擴展檢索模型,對原始搜索指令進行跨語言的語義擴展,將傳統搜索進行二次優
化,實現多語言的同步搜索,然后,利用Single-Pass聚類算法對返回的結果進行聚類分析
,實現搜索結果的自動取舍,為用戶進行信息檢索提供有力幫助?該設計下一步研究:一是
提取更準確的文本特征,整理出更完善的語義資源庫?二是嘗試對文本以外的多媒體資料進
行自動分析,擴大語義檢索的范圍?
參考文獻
[1]楊麗.國外跨語言信息檢索的技術研究綜述[J].情報雜志,2008,
(7):38.
[2]鄒良群.互聯網公開情報跨語言搜集自動化處理研究[C].國際關系學院論文集,
2009.
[3]郭文.跨語言信息檢索中的查詢擴展[J].心智與計算,2009,(1):1-8.
[4]李莉,高慶獅.一種基于語義單元的查詢擴展方法[J].計算機科學,2008,35(
2):201-204.
[5]Metzler D,Croft W B.Latent Concept Expansion Using Markov Random Fields[
C].Proceedings of the 30th annual international ACM SIGIR conference on Resea
rch and developm ent in information retrieval.New York:ACM Press,2007:311-314.
[6]Gey F C,Jiang H,Chen A.Manual Queries and Machine Translation in Cross
—Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].
InProc.ofthe 7thTextRetrievalE.valuation Conf,2005.
(本文責任編輯:孫國雷)endprint
詢?
②自動查詢擴展:使用語法分析?統計等技術從文檔集合中自動學習,獲得詞與詞間的相關
信息[3]?
本模塊采用自動查詢擴展和手工查詢擴展相結合的方法,即將經過語義詞典擴展的詞以選擇
項的方式提供給用戶,供用戶進行選擇,從而解決同義詞擴展過多,詞語相似度低的問題?
對于新出現的詞匯?地名?機構名,通過定期更新知識庫記錄的方法加以解決?專業術語通
常采用與專業詞典相結合的辦法,首先在通用語義詞典中查找詞意,當其無法滿足要求時,
再轉向專業詞典進行查找?
2.2.3 跨語言文本自動聚類模塊分析
搜索引擎是以關鍵字匹配的檢索方式,導致搜索引擎返回的結果中有許多是與用戶的查詢不
相關的文檔,因此需要對返回的結果進行篩選?通過對檢索結果的上下文進行分析,以文檔
的相似度為基礎,對結果進行聚類,能自動地對檢索結果進行篩選,從而解決查詢文檔過多
的問題?本模塊在對搜索引擎返回的結果進行聚類處理時,通過計算結果文檔與設定模板的
相似度,根據相似度閾值,分批對結果進行聚類,大于閾值的文檔則搜集進信息資料數據庫
,小于閾值的文檔則直接舍棄,當滿足一定的條件時,停止聚類,完成篩選?
(1)文本聚類
按照數據的相似性和差異性,將數據劃分為若干簇,同簇的盡量相似,不同簇的盡量相異,
這種對數據進行自動組織的方法稱為聚類[2]?聚類通過比較數據的相似性和差異
性,能發現數據的內在特征及分布規律,從而獲得對數據更深刻的理解和認識?
聚類分為兩種:檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對全部文檔進行聚類,
使相關的文檔在同一類中,在檢索過程中,每個文檔類以一個向量來表示,查詢向量先與各
個類向量逐一進行比較,最后得到相關度較高的類?檢索后聚類是在檢索之后對查詢相關的
文檔進行聚類?與檢索前聚類相比,檢索后聚類能夠分析相關文檔集合的特征,提高檢索效
果?
(2)聚類的過程
該設計的聚類主要采用了Single-Pass啟發式聚類算法,首先,按照一定的次序,將第
一篇文檔作為聚類依據,將其余文檔按次序依次對其進行相似性比較,如相似性達到系統設
定的要求,即將其歸入該類,并重新計算其類心,作為其他文檔的匹配依據,如未達到系統
要求的閾值,則直接將該文檔作為新類的聚類依據,所有文檔均依次按這一方式聚類?除此
之外,為了提高聚類的效率,減少對原始網頁的處理時間,該聚類還對搜索引擎返回的結果
進行分批次聚類處理,每次聚類的過程相同,前一批次的聚類結果作為后一批次的聚類模板
?
具體過程:設每一批次處理的文檔數量為N,在算法中,設計了一個計數器K,用于計算每一
批處理的文檔中歸入類中的數量,如果K=0,表示在這一批次中符合要求的文檔數為0,則停
止聚類,算法中模板的向量用模板集中向量的平均值來表示,平均值的計算公式為:
mi=∑ni=1xi/n
xi為模板集中的隨機向量,n為模板集中對象的個數?文檔與模板間的相似度用余弦公式
來定義?
在聚類中閾值的設定很關鍵,閾值設定過大,導致查全率的降低,閾值設定過小,則導致查
準率的降低?
3 跨語言語義擴展檢索結果分析TBZ〗
本文實驗設計了10組中英文查詢進行檢索,利用百度?中搜?Google搜索引擎進行原始指令
搜索和擴展后的指令搜索,并對前100個檢索結果采用查全率和查準率進行統計,將統計結
果進行平均,然后得到評估結果(表1):
表1 原始檢索和語義擴展檢索結果評估
實驗結果表明,3個普通搜索引擎采用原始檢索的查全率和查準率平均值分別為0.18和
0.34,而采用語義擴展檢索的查全率和查準率平均值分別為0.35和0.53,通過語義擴展
對普通搜索引擎進行跨語言語義擴展的二次優化,可以有效地提高跨語言檢索的查全率和查
準率,提高了網絡信息搜集的效率?
4 結束語
解決網絡語言差異的障礙,采用語義擴展的跨語言檢索是一種較好的方法?該方法通過構建
跨語言語義擴展檢索模型,對原始搜索指令進行跨語言的語義擴展,將傳統搜索進行二次優
化,實現多語言的同步搜索,然后,利用Single-Pass聚類算法對返回的結果進行聚類分析
,實現搜索結果的自動取舍,為用戶進行信息檢索提供有力幫助?該設計下一步研究:一是
提取更準確的文本特征,整理出更完善的語義資源庫?二是嘗試對文本以外的多媒體資料進
行自動分析,擴大語義檢索的范圍?
參考文獻
[1]楊麗.國外跨語言信息檢索的技術研究綜述[J].情報雜志,2008,
(7):38.
[2]鄒良群.互聯網公開情報跨語言搜集自動化處理研究[C].國際關系學院論文集,
2009.
[3]郭文.跨語言信息檢索中的查詢擴展[J].心智與計算,2009,(1):1-8.
[4]李莉,高慶獅.一種基于語義單元的查詢擴展方法[J].計算機科學,2008,35(
2):201-204.
[5]Metzler D,Croft W B.Latent Concept Expansion Using Markov Random Fields[
C].Proceedings of the 30th annual international ACM SIGIR conference on Resea
rch and developm ent in information retrieval.New York:ACM Press,2007:311-314.
[6]Gey F C,Jiang H,Chen A.Manual Queries and Machine Translation in Cross
—Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].
InProc.ofthe 7thTextRetrievalE.valuation Conf,2005.
(本文責任編輯:孫國雷)endprint
詢?
②自動查詢擴展:使用語法分析?統計等技術從文檔集合中自動學習,獲得詞與詞間的相關
信息[3]?
本模塊采用自動查詢擴展和手工查詢擴展相結合的方法,即將經過語義詞典擴展的詞以選擇
項的方式提供給用戶,供用戶進行選擇,從而解決同義詞擴展過多,詞語相似度低的問題?
對于新出現的詞匯?地名?機構名,通過定期更新知識庫記錄的方法加以解決?專業術語通
常采用與專業詞典相結合的辦法,首先在通用語義詞典中查找詞意,當其無法滿足要求時,
再轉向專業詞典進行查找?
2.2.3 跨語言文本自動聚類模塊分析
搜索引擎是以關鍵字匹配的檢索方式,導致搜索引擎返回的結果中有許多是與用戶的查詢不
相關的文檔,因此需要對返回的結果進行篩選?通過對檢索結果的上下文進行分析,以文檔
的相似度為基礎,對結果進行聚類,能自動地對檢索結果進行篩選,從而解決查詢文檔過多
的問題?本模塊在對搜索引擎返回的結果進行聚類處理時,通過計算結果文檔與設定模板的
相似度,根據相似度閾值,分批對結果進行聚類,大于閾值的文檔則搜集進信息資料數據庫
,小于閾值的文檔則直接舍棄,當滿足一定的條件時,停止聚類,完成篩選?
(1)文本聚類
按照數據的相似性和差異性,將數據劃分為若干簇,同簇的盡量相似,不同簇的盡量相異,
這種對數據進行自動組織的方法稱為聚類[2]?聚類通過比較數據的相似性和差異
性,能發現數據的內在特征及分布規律,從而獲得對數據更深刻的理解和認識?
聚類分為兩種:檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對全部文檔進行聚類,
使相關的文檔在同一類中,在檢索過程中,每個文檔類以一個向量來表示,查詢向量先與各
個類向量逐一進行比較,最后得到相關度較高的類?檢索后聚類是在檢索之后對查詢相關的
文檔進行聚類?與檢索前聚類相比,檢索后聚類能夠分析相關文檔集合的特征,提高檢索效
果?
(2)聚類的過程
該設計的聚類主要采用了Single-Pass啟發式聚類算法,首先,按照一定的次序,將第
一篇文檔作為聚類依據,將其余文檔按次序依次對其進行相似性比較,如相似性達到系統設
定的要求,即將其歸入該類,并重新計算其類心,作為其他文檔的匹配依據,如未達到系統
要求的閾值,則直接將該文檔作為新類的聚類依據,所有文檔均依次按這一方式聚類?除此
之外,為了提高聚類的效率,減少對原始網頁的處理時間,該聚類還對搜索引擎返回的結果
進行分批次聚類處理,每次聚類的過程相同,前一批次的聚類結果作為后一批次的聚類模板
?
具體過程:設每一批次處理的文檔數量為N,在算法中,設計了一個計數器K,用于計算每一
批處理的文檔中歸入類中的數量,如果K=0,表示在這一批次中符合要求的文檔數為0,則停
止聚類,算法中模板的向量用模板集中向量的平均值來表示,平均值的計算公式為:
mi=∑ni=1xi/n
xi為模板集中的隨機向量,n為模板集中對象的個數?文檔與模板間的相似度用余弦公式
來定義?
在聚類中閾值的設定很關鍵,閾值設定過大,導致查全率的降低,閾值設定過小,則導致查
準率的降低?
3 跨語言語義擴展檢索結果分析TBZ〗
本文實驗設計了10組中英文查詢進行檢索,利用百度?中搜?Google搜索引擎進行原始指令
搜索和擴展后的指令搜索,并對前100個檢索結果采用查全率和查準率進行統計,將統計結
果進行平均,然后得到評估結果(表1):
表1 原始檢索和語義擴展檢索結果評估
實驗結果表明,3個普通搜索引擎采用原始檢索的查全率和查準率平均值分別為0.18和
0.34,而采用語義擴展檢索的查全率和查準率平均值分別為0.35和0.53,通過語義擴展
對普通搜索引擎進行跨語言語義擴展的二次優化,可以有效地提高跨語言檢索的查全率和查
準率,提高了網絡信息搜集的效率?
4 結束語
解決網絡語言差異的障礙,采用語義擴展的跨語言檢索是一種較好的方法?該方法通過構建
跨語言語義擴展檢索模型,對原始搜索指令進行跨語言的語義擴展,將傳統搜索進行二次優
化,實現多語言的同步搜索,然后,利用Single-Pass聚類算法對返回的結果進行聚類分析
,實現搜索結果的自動取舍,為用戶進行信息檢索提供有力幫助?該設計下一步研究:一是
提取更準確的文本特征,整理出更完善的語義資源庫?二是嘗試對文本以外的多媒體資料進
行自動分析,擴大語義檢索的范圍?
參考文獻
[1]楊麗.國外跨語言信息檢索的技術研究綜述[J].情報雜志,2008,
(7):38.
[2]鄒良群.互聯網公開情報跨語言搜集自動化處理研究[C].國際關系學院論文集,
2009.
[3]郭文.跨語言信息檢索中的查詢擴展[J].心智與計算,2009,(1):1-8.
[4]李莉,高慶獅.一種基于語義單元的查詢擴展方法[J].計算機科學,2008,35(
2):201-204.
[5]Metzler D,Croft W B.Latent Concept Expansion Using Markov Random Fields[
C].Proceedings of the 30th annual international ACM SIGIR conference on Resea
rch and developm ent in information retrieval.New York:ACM Press,2007:311-314.
[6]Gey F C,Jiang H,Chen A.Manual Queries and Machine Translation in Cross
—Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].
InProc.ofthe 7thTextRetrievalE.valuation Conf,2005.
(本文責任編輯:孫國雷)endprint