[摘要]首先對跨語言信息檢索和相關技術進行了介紹,了解當前跨語言信息檢索技術的不足,然后闡述了傳統跨語言信息檢索技術在數字圖書館應用中的局限性,并由此引出了基于本體的跨語言技術。最后提出了一種基于本體的數字圖書館跨語言信息檢索系統,并詳細闡述了系統的流程,著重講述了數字圖書館跨語言領域本體的構建。由于本體具有良好的概念層次和對邏輯推理的支持,對源語言和目標語言進行語義擴展,提高了數字圖書館跨語言系統的檢索效率。
〔關鍵詞〕跨語言檢索;數字圖書館;本體
DOI:10.3969/j.issn.1008-0821.2011.07.041
〔中圖分類號〕G254.92 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)07-0169-04
Application of Cross-language Retrieval Based
on Ontology in the Digital LibraryBao Liqian Zhang Ziran
(Department of Information Management,Huazhong Normal University,Wuhan 430081,China)
〔Abstract〕The thesis firstly analysed the sketch and technology of cross-language information retrieval,and acquaintances the demerits of current cross-language information retrieval technology,then demonstrated limitation of traditional cross-language information retrieval technology in digital library application.Therefore raised a new cross-language technology basing on ontology.Finally put forward a cross-language information retrieval system of digital library which based on ontology,and demonstrated the procedure of the system,then emphasized on telling the construction of ontology field of digital library.Due to its own sound concept levels and logical reasoning support,it extended the semantic source language and target language,on the other hand improved the speed of Cross-language retrieval in the digital library.
〔Keywords〕cross-language information retrieval;digital library;ontology
數字圖書館為用戶提供了更方便快捷的信息資源共享,但同時語言障礙局限了檢索范圍,所以跨語言檢索技術已經成為數字圖書館走向知識化和智能化必經歷的關卡,如何提高跨語言檢索的查全率和查準率成為當務之急。
本體是計算機科學中的一種重要方法,同時也是信息檢索的重要應用領域。本體能使系統和用戶達成語義層次的共享和共同理解,不僅能靈活更換語種進行檢索,而且能夠克服信息檢索不能對概念關系處理的局限,從而返回用戶最為滿意的結果。已有越來越多的研究學者投入到基于本體的跨語言信息檢索系統的開發和研制中,其中,Wang Jianqiang和D.W.Oard綜合使用雙向翻譯和同義詞進行跨語言檢索的翻譯[1];吳丹、王惠臨使用中間語言,通過詞典翻譯對照與不同語種的詞匯建立鏈接關系[2];吳芳建立了一個lecene全文檢索工具和OWL本體的漢——英跨語言信息檢索模型[3];郝嘉樹、王惠臨、劉耀關注基于本體的跨語言信息檢索架構模塊的技術流程[4]。本文則致力于研究基于本體的跨語言檢索在數字圖書館中的應用,主要設計了兩個本體庫,有效提高了數字圖書館跨語言信息檢索的性能。
1 跨語言信息檢索概述
1.1 跨語言信息檢索
跨語言信息檢索(CLIR,Cross-language information retrieval),是指用戶以自己所掌握的某一門語言構造檢索提問式,計算機根據用戶的檢索要求在其他不同語種的信息中進行自動搜索,得到的檢索結果包括用戶所用語言在內的各種語種的信息。跨語言檢索結合了傳統文本信息檢索技術和機器翻譯技術,不僅可以使檢索更加容易,還可以提高查全率[5]。用戶查詢提問式所使用的語言稱之為源語言(Source language),而系統提供的信息所包涵的語言,稱之為目標語言(Target language)。跨語言檢索的實質就是實現這兩種語言的翻譯。
1.2 跨語言檢索基本技術方式
當前的跨語言檢索技術方法大體可以分成以下4種方式:將源語言表示的查詢翻譯到目標語言,即基于提問式翻譯、基于文獻翻譯、基于中間語言翻譯、非翻譯。基于提問式翻譯是將用戶查詢請求翻譯成計算機提供的各種語言,然后對不同語言信息進行查詢;基于文獻翻譯是將目標語言描述的文獻翻譯成為與源語言相一致的形式,再通過提問式與信息庫的匹配,完成檢索過程;基于中間語言翻譯是把源語言的查詢和目標語言的文獻都轉換為中間語言,然后實現最終的檢索匹配[6],這種方式可以解決兩種語言直接翻譯的資源不存在問題;不翻譯是將原始文檔與對應的翻譯文檔建立聯系,構建訓練文檔集,然后利用SVD技術(singular Value Decomposition)對其進行分析,獲得雙語文檔集的特征信息和檢索詞的映射關系,最后,以平行文檔中的語詞檢索出另一語種的相關信息[7]。
2011年7月第31卷第7期基于本體的跨語言信息檢索在數字圖書館中的應用July,2011Vol.2 跨語言檢索技術在數字圖書館中的應用及其瓶頸
2.1 跨語言檢索在數字圖書館中的應用
隨著Internet在世界范圍的飛速發展,數字圖書館信息資源的種類和數量也越來越多,但是網絡語言的多樣化和用戶所掌握語言的差異性和有限性導致了用戶自由獲取信息的困難。用戶經常希望檢索到多種語言的文獻及參考文獻以提高查全率,其中的語言障礙是限制數字圖書館發展的絆腳石,所以跨語言技術的發展為解決數字圖書館的多語種問題提供了契機,數字圖書館必然要使用跨語言信息檢索技術來擴大查詢范圍,提高檢索深度,提供更全面的檢索服務。
2.2 將傳統跨語言檢索技術與數字圖書館結合遇到的困難傳統跨語言檢索技術在數字圖書館中的應用只是基于語法層面上的簡單匹配,一味采取詞典或其他方式進行字符級處理,缺乏對知識的表示、處理和理解能力,缺乏必要的智能性,在運用的過程中不可避免的會遇到以下困難:
(1)大多數情況下用戶很難通過簡單的幾個關鍵詞來忠實地表達其檢索文獻,希望能夠通過語義檢索,而傳統信息檢索技術不支持這種語義表達。
(2)數字圖書館中的信息資料并不是孤立的,它總是與其他概念之間存在各種各樣的聯系,用戶希望能夠搜索到與查詢領域相關的文獻,以上幾種的跨語言信息檢索尋找的僅僅是字面本身的信息,單純的字符匹配無法提供基于概念的智能檢索,計算機無法識別其語義。
(3)用題名、文摘或全文中出現的關鍵詞來標識文獻的內容,常常不能充分揭示源信息的實質內涵,降低了查全率。
(4)一味的追求信息量的提高,返回大量無關信息,缺乏智能化的整理。導致用戶查詢得到的結果過于龐大,根本沒有時間和精力去處理檢索得到的結果,查準率大大降低。
3 基于本體的數字圖書館跨語言信息檢索系統的構建造成以上困難的實質在于傳統的跨語言檢索技術缺乏知識處理和理解能力,本體的引入應該說是一個非常有效的方法。通過概念間的關系來表達概念的語義,可以讓機器從概念的層次來認識和處理用戶的查詢,從而提高整個檢索系統的查全率和查準率,消除自然語言理解中的歧義,明確概念涵義。
數字圖書館跨語言信息檢索領域本體的知識系統構建是系統核心,直接關系到檢索結果的準確性。領域本體的特征是針對特定的學科領域,描述了某一學科中的概念、概念的屬性、概念間的關系以及屬性和關系的約束[8]。
優良的數字圖書館跨語言系統應該能靈活地處理多語種信息,通過圍繞用戶有效地組織集成各地域的信息資源和信息服務,從而方便和快捷地支持用戶檢索各類信息資源。根據這個目的本文構思了一個數字圖書館跨語言檢索領域本體知識體系,主要包括以下幾個模塊,如圖1所示。
3.1 查詢預處理模塊
基于本體的跨語言檢索模型的第一步就是對用戶輸入的查詢語句進行處理,詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,先去除停用詞,然后進行詞干化處理,并統計該詞的詞頻、權重等相關信息[3];若是漢語作為提問詞,則采用分詞技術詞語之間沒有明顯的區分標記,取出查詢中的中心詞,然后將它們傳遞給翻譯模塊。
3.2 翻譯模塊
翻譯模塊選擇的翻譯方法是基于詞典的翻譯策略。查詢語句經過翻譯模塊的翻譯后,把翻譯結果和原語句一并傳給領域本體庫,在本體內查找查詢語句的語義描述,通圖1 數字圖書館跨語言信息檢索系統模型
過領域本體庫進行檢索。如果沒有在語義模塊中找到,則直接傳遞給檢索模塊,得到檢索結果。
3.3 領域本體系統模塊
3.3.1 領域本體庫
構建領域本體系統的前提是在領域內構建本體,領域本體一般是對某一領域知識體系元數據的描述。因此應該對要創建的領域本體所涵蓋的領域有較深的理解。我們一方面可以基于領域內原始資源的元數據分析和處理,另一方面可以在對該領域深入了解的專家的協助下完成。
本體主要包括4個建模元語,概念或類、關系、公理和實例,我們應盡可能全面而又系統的列舉領域中所有概念、概念的屬性以及概念間和屬性間的關系,對領域本體中的概念及概念間的關系進行定義和描述,如表1所示。再建立起本體框架把列舉和劃分好的概念植入框架內。表1 本體庫中概念之間的聯系
關 系關系描述例 子Is-A概念的泛化汽車與交通工具Kind of繼承關系學生與研究生Attribute of概念屬性關系學號與學生Instance of概念的實例關系魚與金魚
我們使用Protégé為構建本體的工具。Protégé是斯坦福大學醫學院醫學信息研究組開發的一個免費、開放源碼的本體編輯器[9],它提供了一個可以構建領域本體的環境。在Protégé用建好本體之后,便要對本體進行解析。本體解析有許多思路和工具可以使用,甚至可以自己編寫本體解析的模塊。Jena是由HP實驗室開發的一套API,用于支持語義網應用。它的功能非常強大,可以構建用各種語言(OWL,DAML+OIL,RDFS)描述的本體模型、RDF模型[10]。更重要的是可以使用它內置的推理機對本體進行推理,也可以與外界的推理機連接。
3.3.2 用戶查詢請求的語義處理
由于本體有豐富的概念關系,而且有推理功能,因此可以用來進行查詢擴展。經過提問處理和翻譯過的查詢內容與構建的領域本體庫一一對應,調用和遍歷整個源語言本體庫,找到與其對應的本體術語以及相關的概念術語,建立關系映射,找到其對應的概念,推理出檢索請求中的關鍵詞的精確語義,然后映射到目標語言本體庫,完成語義匹配。然后通過本體模型推理出與用戶查詢詞語義相關的類,也就是用戶要查找的相關概念,確定該領域的概念和概念之間的聯系,再對其進行語義化擴展和推理,挖掘隱含信息, 解決信息孤島問題。
3.4 數字圖書館資源本體系統模塊
3.4.1 數字圖書館資源本體庫
數字圖書館的館藏是基于知識的組織,不可缺少的要使用定義規范語義之間相互聯系的“領域本體”,但是圖書館的資源本體庫又不同于領域本體庫,因為它集中體現的是數字圖書館的文獻資源特點,是多個領域本體的集成。這里可以采用本體學習的方式創建,首先要從現有的數字圖書館的文獻信息中收取學科概念的術語選項,采用信息抽取技術來確定概念之間的語義關系,在概念及其相互關系基礎上構建本體。其中上下位關系是最主要的語義關系,首先是獲取抽象程度高、涵義比較寬的概念,再尋找分別位于這些概念下級的較為具體的概念,由此形成樹狀或層次結構,概念在層次結構中體現了語義分類的屬性,根據概念之間的語義關系構建出概念分類層次關系。所有的文獻信息都依據這種體系集成。
3.4.2 圖書館資源本體庫的語義處理
對數字圖書館中的資源本體庫加工處理,以RDF/XML為描述模型對無結構或半結構的數據進行語義標注,形成機器可以理解的語義元數據,元數據包括:數據基本屬性和數據擴展屬性,包括類型、背景等信息。
從數字資源中抽取關鍵詞匯,根據詞頻為關鍵詞賦權值。計算抽取關鍵詞與本體中概念的相似度,相似程度大者將其權值和文獻一同標注在本體語義旁,則文獻屬于該本體。由于數字資源具有多樣性、多領域性,必然要涉及到多個領域本體,因此在對數字圖書館數字資源進行語義標注時,除了利用數字資源本體庫外,還可以應用其他成熟的本體進行標注,如WordNet、HowNet、中國百科全書、BNC語料、RFC文檔等等。將實例與本體聯系起來,通過分析實例,總結出實例的結構,將文獻的隱含信息表示出來。
3.5 語義檢索模塊
完成語義擴展后,系統進入語義檢索模塊。把處理過的文獻信息和查詢擴展的查詢概念進行領域、術語匹配。匹配的過程中不僅要考慮數據本身,還有同義、近義、上位、下位等信息,得到檢索結果后,再按照查詢信息與檢索信息的相似度與將滿足條件的檢索結果進行加權結合處理后輸出最終檢索結果,并以良好的界面形式返回給檢索用戶。
4 結 語
本論文提出了基于本體的數字圖書館跨語言信息檢索系統,其中包括5個模塊和2個本體庫,但這只是簡單構想,如今圖書館跨語言檢索體系還不健全,許多工作還停留在理論層面,在以下幾個方面還有待進一步的研究:比如可以考慮通過數據挖掘進行自動化或半自動化處理以減少人工創建本體的壓力;把用戶的個性化因素加入本體建設中,針對不同的特點和偏好進行檢索。相信隨著研究的深入,各類技術不斷的跟進,本體在跨語言檢索中的應用會越來越普遍,在數字圖書館中的應用也更加實用化。
參考文獻
[1]Wang J,Oard D W.Combining bidirectional translations and synonymy for cross-language information retrieval[A].Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2006:202-209.
[2]吳丹,王惠臨.本體在跨語言信息檢索中的應用機制研究[J].圖書情報工作,2006,50(9):10-13.
[3]吳芳.基于本體的跨語言全文檢索模型的研究[D].北京:北京郵電大學,2005,(5):27-28.
[4]郝嘉樹,王惠臨,劉耀.基于本體的跨語言信息檢索模型和關鍵技術研究[J].情報科學,2009,27(2):271-275.
[5]夏立新,金燕,方志.信息檢索原理與技術[M].北京:科學出版社,2009,(7):287-296.
[6]黃國斌.基于中間語義的跨語言信息檢索研究[D].江西:.江西師范大學,2008,(7):32-36.
[7]任成梅.跨語言信息檢索的發展與展望[J].圖書館學研究,2006,(4):80-81.
[8]王佐,王茜,李鵬.基于Ontology的多主體知識檢索模型[J].情報雜志,2006,(6):77.
[9]welcome to Protégé[OL].http:∥protege.stanford.edu/overview,2011-05-11.
[10]HP releases new version of leading Semantic Web developers toolkit[EB].http:∥www.hpl.hp.com/news/2004/jan-mar/jena2.1.html?jumpid=regR1002USEN,2011-05-11.
注:“本文中所涉及到的圖表、公式、注解等請以PDF格式閱讀”