999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

跨語言信息檢索中基于本體的查詢擴展模型研究

2009-10-20 09:04:58劉金亮
計算機教育 2009年17期

吳 芳 丁 玲 張 杰 劉金亮

摘要:網絡的發展和世界語言的多樣性使跨語言信息檢索(CLIR,Cross Language Information Retrieval)倍受關注。但用戶查詢與文檔用詞不匹配成為影響檢索效率的重要原因。為此,本文提出了一種基于領域本體的跨語言信息檢索模型,以解決傳統CLIR查詢效率低下的問題。

關鍵詞:智能信息檢索;查詢擴展;本體

中圖分類號:G642 文獻標識碼:B

1問題的提出

現代企業的國際化導致企業內部存在多種語言,這使跨語言信息檢索CLIR(Cross Language Information Retrieval)備受關注,可是現存的跨語言信息檢索系統大多使用基于關鍵詞的單純字符匹配的檢索策略,只有當查詢詞出現在文檔中時,才有可能被找到,這種檢索系統無法提供基于概念的智能檢索。例如,用戶輸入查詢“trip”,可是包含“journey”和“travel”的文檔卻不能夠被檢索出來。由于大量同義詞和多義詞的存在,用戶查詢相關文檔時一些內容由于用詞不同而無法被檢索出來,這種用詞不匹配問題是長期困擾并影響信息檢索效率的重要原因之一。

解決此問題的有效的方法是使用查詢擴展策略。查詢擴展是將用戶輸入的原始查詢請求經過概念提取后,自動地根據用戶的語義,加入新的檢索詞或短語。最終的查詢請求是基于用戶原始查詢請求中關鍵詞的一系列同義詞及相關詞。經過查詢擴展后的系統具有很高的查詢效率。

要實現上面的智能查詢,查詢擴展的構造是非常關鍵的。當前構造查詢擴展的方法大致有兩種:一種是基于語義詞典的方法,如WordNet;另外一種是基于統計的方法,如基于關聯共現頻率的統計方法。本文提出了一種基于雙語本體(Ontology)的跨語言查詢擴展模型,利用領域本體在知識表示和知識描述方面的優勢,實現基于概念的智能查詢擴展。我們構建了一個旅游領域的跨語言信息檢索模型,使用基于旅游領域本體對查詢進行擴展。結果表明采用基于本體的查詢擴展方法能夠有效改善檢索的性能。

2相關概念和技術

(1)CLIR (Cross-Language Information Retrieval):用戶用某種語言(比如中文)表示的檢索條件,檢索由多種語言(比如中文、英文、德文、日文等)組成的文檔集,我們稱之為跨語言信息檢索。

(2) 本體:本體是共享概念模型的明確的形式化規范說明。這個定義包含了概念模型、形式化、明確、共享4層含義。概念模型,通過抽象出客觀世界中一些現象的相關概念而得到的模型,其表示的含義獨立于具體的環境狀態;明確,所使用的概念及使用這些概念的約束都有明確的定義;形式化,Ontology是計算機可讀的;共享,Ontology中體現的是共同認可的知識,反映的是相關領域中公認的概念集,它所針對的是團體而不是個體。

本體的目標就是捕獲相關的領域知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯之間相互關系的明確定義,為基于知識的信息檢索提供基礎。

3系統結構和實施

3.1模塊功能

我們實現的是一個關于旅游知識的智能跨語言搜索引擎,利用本體在知識表述和知識描述方面的優勢,對查詢進行擴展,從而提高檢索的效率。模型主要由四大模塊組成:過濾模塊,翻譯模塊,查詢優化模塊,和檢索模塊。下面將對各個模塊進行介紹:

? 過濾模塊

過濾模塊的任務是對用戶的輸入進行中文分詞,分詞后過濾掉無用詞,如“的”“呀”等,取出查詢的中心詞。過濾模塊由中國科學院的分詞系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)改進而來。先對用戶的輸入進行分詞,然后過濾無用詞,取出中心詞。我們的智能檢索系統就把這些中心詞作為處理的對象。

? 翻譯模塊

跨語言信息檢索中,關鍵技術就是實現目標語言和源語言的統一。在系統中我們使用的是提問翻譯策略,也就是將查詢提問中的源語言翻譯成目標語言,然后再利用由目標語言構成的檢索去查找相關信息。我們采用的是基于專業詞典的翻譯方法。中心詞經過翻譯模塊的翻譯后,把翻譯結果和原中心詞一并傳給語義模塊,接下來語義模塊對這些中心詞進行語義處理。

? 查詢優化模塊

查詢優化模塊是整個系統的核心部分,在查詢優化模塊中,我們利用本體良好的概念層次和對邏輯理解的支持,幫助信息搜索引擎對潛在的目標對象進行甄別和判斷,從而構建智能化的搜索引擎。在這里,我們使用了英漢本體庫分別對中英文關鍵詞進行擴展。

使用斯坦福大學設計的protégé軟件來管理和維護本體知識庫,本體我們使用的是來自于http://protege. stanford.edu 的travel. owl,并把它翻譯為相應的中文本體以供使用。同時,我們使用惠普的開放資源Jena對本體進行處理。Jena是創建語義應用系統的java框架結構,為本體文件提供了一個程序開發環境。我們通過創建本體模型,對Ontology資源進行處理。通過本體模型查找本體中的相關類,也就是用戶要查找的相關概念,找到這個相關類之后,再對其進行語義化處理。

系統對相關類進行語義化處理,考慮下面的情況:

① 相似類,即同義詞關系:概念與概念之間的意思相同或非常相近,往往可以相互替換,如計算機、電腦和PC。在模型中,我們需要提取相似類。

② 類的上下層關系:包括父類與子類的關系和類與其下的實例(Instance)的關系。如植物是生物的子類,菊花是植物的實例(Instance)。在模型中,我們需要提取下層子類。

③ Disjoint類:即類與類之間不可有共同的實例。例如,“植物”下的實例“菊花”,它要么屬于“植物”類,要么屬于“動物”類,不能夠同時屬于“植物”類和“動物”類。在這里“菊花”是“植物”類下的實例。在模型中,我們需要排除Disjoint類及其Disjoint類的實例。

④ 其次,如果用戶提出的查詢請求是詞組或者一句話,還要考慮其中各中心詞之間的語義關系。例如:用戶需要檢索旅游中的“非冒險活動”,系統就需要在旅游活動中排除“冒險性的活動”。

中心詞經過語義擴充后,被傳遞給檢索模塊,最后由檢索模塊完成檢索任務。如圖1所示。

? 檢索模塊

檢索模塊是由Lucene構建的基于關鍵詞的全文檢索系統,使用的是基于自動分詞的倒排索引原理。在檢索模塊里,lucene首先對文檔建立全文索引,然后對索引進行檢索,返回給用戶查找的結果。

Ontology—CLIR的流程的第一步就是對用戶輸入的查詢語句進行分詞,取出查詢中的中心詞,然后將它們傳遞給翻譯系統進行翻譯,翻譯過后把翻譯結果(英文)和原分詞結果(中文)遞交給語義系統;語義系統對這些檢索詞進行擴展后把它們交給檢索系統,最后由檢索系統完成檢索。

我們使用領域Ontology中包含的領域專業詞典對遞交過來的檢索詞進行分析,將查詢請求Q1, 2,…n,分為兩個部分:一是在本體庫中所覆蓋到的關鍵詞O1, 2,…,n,二是不在本體庫中的其他單詞B1, 2,…,n。語義模塊開始在本體庫中查找到O1, 2,…,n的語義描述,為檢索模塊提供了比一般的CLIR方式更準確豐富的信息內容,然后把語義描述交給檢索模塊得到檢索結果Result1。B1, 2,…,n則直接被傳遞給檢索模塊,得到檢索結Result2,最后返回給用戶結果是Result1與Result2的和。

3.2基于語義模型的主要檢索算法描述

輸入:查詢請求Q

輸出檢索的結果:Result

Begin //算法開始

Result={ } //清空

Result1={ } //清空

Result2={ } //清空

//分詞和翻譯

Begin

1.分詞,取出中心詞;

2.中心詞分類,屬于本體的置于O,不屬于本體的置入B;

3.對O進行語義獲取(解析子類、Instances,排除disjoints classes等);對B只進行翻譯;

End;

//使用本體進行查詢擴展后(即語義獲取),將擴展結果置入O;

//對每一個檢索對象進行下面操作

Begin

1.使用本體進行查詢擴展;

2.若O不為空,則使用O進行全文檢索,得結果集Result1;

3.若B不為空,則直接使用B進行全文檢索,得結果集Result2;

4.Result=Result1+Result2;

End;

End;//算法結束

4系統性能測試

為了檢測出這種基于本體的智能檢索方法的有效性,我們進行了相關的實驗。檢索資料來自于新浪或雅虎的關于旅游的相關文章,共 97 篇。兩個搜索引擎:智能CLIR和傳統CLIR,傳統搜索引擎由Lucene構建,采用的是基于專業旅游詞典的翻譯策略。智能搜索引擎在傳統搜索引擎的基礎上由OWL本體擴展而構建。我們的檢索領域是關于旅游出游的相關知識。

平均查準率/查全率曲線是評價一個檢索算法的有效方法。我們取足夠多的查詢實例,并得出他們的查全/查準率曲線,依次求某查全率下這些查詢實例的查詢率的平均值,就得出了圖2所示的平均查全率/查準率曲線圖:

可以看出,通過使用查詢擴展,查全率得到了明顯的提高,但需要注意的是,一味追求查全率的提高,可能會降低系統的查準率,如何找到一個兩者兼顧的平衡值,是我們下一步需要研究的問題。

5總結

本文在傳統CLIR的基礎上提出了一種基于本體查詢擴展搜索引擎模型,此模型克服了傳統方法在效率、知識表示方面的不足,有效地提高了知識的獲取效率,并且可以應用到各個不同的專業領域,具有很好的通用性和擴充性。但當本體庫非常龐大的時候,需要采取一定的策略控制查詢擴展的程度以保證系統的查準率,這也是我們下一步需要完成的工作。

參考文獻:

[1]Wu, F., Wu, G., Fu, X ., 2007, in IFIP International Federation for Information Processing, Volume 254,Research and Practical Issues of Enterprise Information Systems Ⅱ Volume Ⅰ, eds.L.Xu, Tjoa A., Chaudhry S.(Boston: Springer), 293-298.

[2] 王昊. 跨語言信息檢索實現方法與關鍵技術探討[J]. 情報檢索,2005(7).

[3] 王妙婭,賴茂生. 跨語言信息檢索中的詢問翻譯方法及其研究進展[J]. 現代圖書情報技術,2005(4):37-41.

[4] 王進,陳恩紅,張振亞,等. 基于本體的跨語言信息檢索模型[J]. 中文信息學報,2004(3):1-8.

主站蜘蛛池模板: 四虎成人免费毛片| 亚洲成人网在线观看| 亚洲日韩精品欧美中文字幕| 国产丰满大乳无码免费播放| 婷婷亚洲视频| 在线播放精品一区二区啪视频| 色亚洲成人| 人妻一本久道久久综合久久鬼色| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产亚洲欧美在线专区| 91青青视频| 天天躁狠狠躁| 精品视频91| 国产第二十一页| 色视频国产| 欧美97欧美综合色伦图| 国产福利微拍精品一区二区| 国产成人1024精品下载| 成人无码一区二区三区视频在线观看| 亚洲女同一区二区| 日本一区中文字幕最新在线| 亚洲国产在一区二区三区| 日韩第一页在线| 国产视频自拍一区| 亚洲国产成人精品无码区性色| 久久亚洲综合伊人| 一区二区午夜| 91无码网站| 九色免费视频| 国产97视频在线观看| 天天色综合4| 国产无码制服丝袜| 国产精品浪潮Av| 精品欧美一区二区三区久久久| 国产va在线| 四虎永久免费在线| 亚洲精品777| 免费人成黄页在线观看国产| 久久久受www免费人成| 日韩黄色大片免费看| 欧美三级不卡在线观看视频| 国产精品va| 国产一二视频| 欧美激情伊人| 亚洲永久免费网站| 欧美成人免费一区在线播放| av一区二区无码在线| 四虎永久在线视频| 免费无遮挡AV| 精品色综合| 欧美色综合网站| 中日韩一区二区三区中文免费视频| 91精选国产大片| 激情综合图区| 国产在线拍偷自揄拍精品| AV在线天堂进入| 九色免费视频| 欧美精品在线看| 国产凹凸一区在线观看视频| 四虎永久在线精品影院| 亚洲国语自产一区第二页| 国产精品久久久久久久久| 国产精品香蕉| 乱系列中文字幕在线视频| 欧美日韩免费在线视频| 国产拍在线| 黄色污网站在线观看| 97视频精品全国在线观看| 国产精品大尺度尺度视频| 亚洲第一区精品日韩在线播放| 亚洲乱码在线播放| 国产在线高清一级毛片| 中日无码在线观看| 亚洲不卡网| 国产91线观看| 3D动漫精品啪啪一区二区下载| 精品1区2区3区| 无遮挡国产高潮视频免费观看| 亚洲欧洲日产无码AV| 成人日韩精品| 免费无码AV片在线观看国产| a级毛片毛片免费观看久潮|