摘 要:根據文檔處理方式的不同,將基于本體的信息檢索系統分為基于知識庫的語義檢索系統和基于語義網文檔的信息檢索系統兩類。對這兩個模型的實現原理和關鍵步驟進行了闡述;探討了基于本體的信息檢索模型中的關鍵技術,并指出當前研究中存在的不足;最后對基于本體的信息檢索系統的研究熱點和方向進行了展望。
關鍵詞:本體; 信息檢索; 語義標注; 知識庫; 語義網文檔
中圖分類號:TP391.3 文獻標志碼:A 文章編號:1001-3695(2008)08-2241-04
Research on ontology-based information retrieval system models
ZHANG Yu-ming1,2, NAN Kai1, MA Yong-zheng1
(1.Computer Network Information Center, Chinese Academy of Sciences, Beijing 100080, China; 2.Graduate School, Chinese Academy of
Sciences, Beijing 100049, China)
Abstract:According to manners in which documents were processed, divided the systems into two categories: knowledge-based semantic information retrieval model and information retrieval model based on semantic Web documents . Then, discussed how the two models operate and realize implementations and approaches. Further, studied the technologies involved in the models and claimed four research problems. In the end,predictedthe hot research topics and developing trend.
Key words:ontology; information retrieval; semantic annotation; knowledge base; semantic Web documents(SWD)
本體作為一種能在語義和知識層次上描述信息系統的概念模型建模工具,具有良好的概念層次結構和對邏輯推理的支持。它在計算機領域中的應用使信息檢索從基于關鍵詞的層面提高到基于知識(或概念)層面上成為了可能。將本體融合到傳統信息檢索技術中,不僅可以對文檔中的信息進行語義層次上的處理,還可以結合用戶的檢索條件利用Web上的語義信息進行推理,進而得到較為準確的結果。
1 基于本體的信息檢索系統的分類
近年來,美國、歐盟等語義網研究機構和大學實驗室相繼設計和提出了不少有代表性的基于本體的信息檢索系統,如基于語義網檢索的Metalog[1];最早基于頂層本體設計的WebKB[2];基于XML表示的Quest[3]、Elixir[4]、XIRQL[5]等。這些系統開發的設計理念和側重點不盡相同,沒有明確的分類方法對這些系統進行界定。雖然不少信息檢索系統引入了本體的概念,但是不同的信息處理方式導致研究學者在論述基于本體的信息檢索系統時,經常混淆本體在系統中扮演的角色。本文根據對文檔處理方式的不同,將基于本體的信息檢索系統分為基于知識庫的語義檢索和基于語義網文檔的信息檢索兩類。
基于知識庫的語義檢索系統主要利用自然語言處理技術根據領域本體描述將網頁或自然語言文本轉換為大量信息實體。這種信息實體以某種知識表示語言描述存儲在知識庫中,搜索引擎可以對知識庫進行推理和檢索。早期的SHOE項目[6]、歐洲科研信息系統AURIS-MM[7]以及OntoText語義研究實驗室開發的KIM[8]平臺等都是基于知識庫的語義檢索系統的代表。
基于語義網文檔的信息檢索系統的處理對象主要包含語義標注語言的網頁,由語義網語言書寫的語義網文檔能被軟件代理直接訪問。它將語義網文檔中的語義信息轉換為搜索引擎能夠處理的統一格式,存儲在一個RDF文件或OWL文件中。這類系統包括Ontobroker[9]、馬里蘭大學設計和研發的基于語義網搜索引擎原型系統Swoogle以及UMBC大學eBiquity實驗室開發的語義網信息檢索、推理引擎OWLIR[10]等。
從兩類系統的劃分依據上可以看出,基于知識庫的語義檢索系統采取了向前兼容的策略。所謂向前兼容是指盡可能維持現有Web內容的形式,利用知識表示技術建立龐大的知識庫,在已成熟的互聯網搜索技術上進行有益的改進。基于語義網文檔的信息檢索系統采取向后兼容的策略,即其實驗平臺是Berners Lee等語義網學者推崇的語義網,代表著互聯網的發展方向。
2 基于本體的信息檢索模型
2.1 基于知識庫的語義檢索模型
基于知識庫的語義檢索模型(圖1)首先建立基于領域知識的本體庫對文檔進行預處理,建立本體庫中實例與文檔的鏈接關系。根據用戶提交的請求檢索知識庫,對實例中的隱含信息進行推理,返回符合查詢條件的文檔集合。檢索的結果經過排序處理后返回給用戶。
2.1.1 構建領域本體庫
本體的目標是捕捉相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出詞匯和詞匯間相互關系的明確定義。通常需要在領域專家的幫助下建立基于領域概念知識的領域本體。
由于本體工程到目前為止仍處于相對不成熟的階段,每個應用都擁有自己獨立的方法,比如基因學專家可以根據本領域的專業知識建立對基因學的概念描述。有一些科研機構正致力于領域本體標準的制定工作,通過標準的制定和實行,促進本體定義的規范及加強本體的可重用性。目前,比較有影響的本體標準包括Dublin core[11]、FOAF[12]、SKOS core、CERIF[13]等。領域本體庫的建立包括人工和自動[14, 15]的方式,它為文本抽取和語義標注以及查詢請求處理提供參照知識,方便對知識進行格式轉換和存儲。
2.1.2 文本抽取和語義標注
文本抽取和語義標注的目的是從非結構化文本信息中提取出文本中有用的信息,并根據領域本體的概念類型形成具有一定結構的信息實體。在對文本內容進行分析處理之前,事先將整篇文本劃分成若干小段文本;然后進行分詞與詞性標注的處理,并且在分詞過程中進行概念的實體描述和邏輯關系的提取。
在檢索過程中,查詢接口返回的結果是本體庫中的元組,而用戶希望得到的是包含關鍵字的文檔。所以,文本抽取和語義標注模塊的另一個功能就是建立本體庫中元組實例與文檔的映射關系。每個實例包含一個標簽屬性,標簽的值描述了實例的同義信息。通過啟發式算法將文檔中的實體與知識庫中的實例進行匹配。通常使用文檔—實例關聯表來存儲文檔和實例間的對應關系,有了關聯表,通過查詢接口返回的元組實例就可獲得相應的文檔鏈接了。
2.1.3 查詢請求處理
為了更好地讓用戶表達出他的檢索意圖,查詢接口負責將用戶提交的自然語言查詢語句轉換為合適的本體查詢語句。用戶以自然語言的方式向系統提出問題;然后利用ontology領域中的知識和一些簡單的自然語言理解技術對用戶的問題進行分析,提取主題詞,得到用戶真正的檢索意圖;最后將檢索請求提交給系統的檢索部分。
在進行處理的過程中,首要問題就是建立本體庫,然后對用戶的問題進行概念類型識別和問題類型識別。概念類型識別的作用是根據句法分析的結果和領域本體中的概念類型模板識別出該問題所描述的概念類型。概念類型識別之后可以知道該問題所關心的是某個概念中的某個類或者屬性。問題類型的識別是指將用戶的問題根據問題類型庫劃分到一個指定的類型中。在用戶提交問題后,系統就需要結合領域本體中所表述的詞匯的語義知識分析判斷問題的類型;得到問題的概念類別和類型之后,系統就可以根據主題詞庫從用戶問題中提取出檢索關鍵詞并將它們提交給系統的檢索部分。
2.1.4 索引與檢索
對信息實體進行索引的首要工作就是要進行信息實體特征項的選取。實體特征項可以是文本中的各種語言單位,對于中文來說可以是字、詞、短語,甚至是句子或者句群等更高層次的單位。因此,特征項的選擇只能由索引文檔類型、處理效率、存儲空間等方面的具體要求來決定。
檢索時,推理模塊能夠對本體庫中用RDF、RDFS、OWL等語言書寫的實例進行推理。推理過程還可以根據一定推理規則進行,系統管理員可以根據具體需要創建適合的推理規則。當檢索系統返回元組后,通過查找文檔—實例關聯表便可以得到文檔列表。對文檔列表進行排序選擇,最終返回給用戶關聯度較高的文檔結果集。
2.2 基于語義網文檔的信息檢索模型
基于語義網文檔的信息檢索模型(圖2)與目前流行的Web搜索引擎模型非常相似,其不同之處在于:a)該模型抓取的網頁主要是帶有語義標記的語義網文檔而不是通常所說的HTML網頁;b)索引類型不僅包括單詞、詞組、N-gram等傳統索引類型,還包括SWD的元數據類型,如三元組節點、URI鏈接等。復合型索引方法使傳統的檢索技術和基于本體的推理技術融合成為可能。
2.2.1 抓取語義網文檔
同傳統搜索引擎的爬蟲程序抓取Web中的網頁一樣,該模型也需抓取Web中的SWD。但目前大多數網站上的網頁仍然是以HTML為主,只有個別科研或者語義網實驗平臺上的網頁屬于SWD。所以爬蟲程序只需抓取后綴名為.rdf、.owl、.daml、.n3的網頁。需要指出的是,并非所有后綴名為.rdf、.owl的文檔都是SWD。文獻[16]對語義網文檔在語義標記文檔中所占的比重進行統計。結果表明以rdf為擴展名的語義標記文檔中,SWD占總數的60%;以owl為擴展名的語義標記文檔中,SWD占總數的67%。所以爬蟲程序需要對抓取到的語義標記文檔進行SWD類型驗證。
Web搜索引擎利用網頁間的URL抓取分布在Web上的網頁,語義網文檔爬蟲則通過分析SWD間的語義關系來遍歷Web。SWD中通常包含大量的URI,這些URI隱含的命名空間通常指向另一篇SWD的URL;OWL的import關鍵字說明其導入的本體所屬的文檔也是一篇SWD;此外一些本體語言的特征項,如rdfs:seeAlso屬性也暗示它指向另一篇SWD。
2.2.2 SWD元數據
為了更高效地搜索語義網文檔和對元組進行推理,基于語義網文檔的檢索模型從語義網文檔內容和語義網鏈接關系中提取出基本信息組成SWD的元數據。元數據包括SWD的語言特性、編碼類型、本體描述語言、RDF統計數據、關系型元數據。其中,語言特性、編碼類型、本體描述語言都是用來說明SWD本身的信息;RDF統計數據通過計算本體率區分SWD類型,即semantic Web ontologies(SWOs)或者semantic Web databases(SWDBs);關系型元數據用于說明SWD之間的鏈接關系,計算PageRank時使用。
2.2.3 索引和檢索
目前,Web上的語義網文檔通常由純文本與語義標記混合構成。所以,傳統的基于關鍵字的索引技術仍可以應用在基于語義網文檔的信息檢索模型中。除了對單詞、短語、句子等類型建立索引外,語義標記特征項或者URI也可以成為索引的對象。索引建立好后,搜索引擎便可以進行檢索了。在檢索過程中,運用本體的推理機制,具體過程與基于知識庫語義檢索模型的推理功能相似,不過后者提供完整的知識庫。基于語義網文檔的信息檢索模型通常直接對語義網文檔中的語義標記進行推理或者從文本文檔中抽取出標記三元組存儲到一個RDF或OWL文件中,對文件進行推理。
3 基于本體的信息檢索關鍵技術
3.1 本體構建方法
目前,關于本體構建的方法還不成熟,沒有一套完整、統一的方法論[17]。按照本體的描述對象把本體分為四種類型[18]:領域本體(domain ontology)、通用本體(generic ontology)、應用本體(application ontology)和表示本體(representational ontology)。領域本體包含著特定類型領域(如電子、機械、醫藥等)的相關知識;通用本體則覆蓋了若干個領域,通常也被稱為核心本體(core ontology);應用本體包含特定領域建模的全部所需知識;表示本體不局限于某個特定的領域,它提供了用于描述事物的實體,如框架本體,其中定義了框架、槽的概念。
由于本體的分類方法很多,目前還沒有能夠被廣泛接受的分類標準。本體設計應該堅持如下幾點原則[19]:a)盡可能使用標準術語;b)同層次概念保持最小的語義距離;c)可以使用多種概念層次,采用多種繼承機制來增強表達能力。所有的本體設計原則都非常抽象,沒有明確的可操作的語義,甚至有些原則之間還存在不一致的情況。在實際的本體構建過程中,要根據實際情況在不一致的原則中間進行權衡,根據實際應用的需要靈活掌握。目前還不存在公認的本體設計和評價標準以及質量保證標準,這也是本體理論需要深入研究的原因。
目前,本體的建立基本還采用人工方式,建立本體還是一種藝術性的活動而遠遠沒有成為一種工程性的活動;每個本體開發團體都有自己的構建原則、設計標準和不同的開發階段,所以很難實現本體的共享、重用和互操作。近幾年被語義網研究者們所廣泛接受的創建ontology方法是斯坦福大學醫學院開發的領域本體建模七步法[20]。
3.2 排序算法
由于知識庫具有不完備性,某些情況下,對應于查詢結果的本體實例在知識庫中不存在,基于知識庫的語義排序算法的效率將很低。為了解決此類問題,Vallet等人[22]提出將傳統的排序算法與語義排序算法結合使用,即cos(Di,Q)=t×sim(Di,Q)+(1-t)×ksim(Di,Q)。其中:ksim(Di,Q)代表基于關鍵字的傳統排序算法,通常t取0.5。
3.2.2 基于語義網文檔的信息檢索模型的排序算法
PageRank[23]通過網頁間形成的參考、引用關系來判斷哪些網頁更被人關注,其重要性更強。雖然語義網中文檔之間也存在類似的鏈接關系,但這種鏈接不同于HTML間的超級鏈接。Swoogle將SWD間的關系分為四種:imports代表本體和本體之間的參照引用關系;uses-term代表定義的部分共享關系;extends代表本體定義的擴展關系;asserts代表文檔間實例的聲明關系。用戶瀏覽語義網文檔時,通過以上四種鏈接關系繼續訪問網頁的概率是不同的,所以有必要為四種鏈接分配不同的權值。基于語義網文檔的PageRank計算如下:
rawPR(a)=1-d+dΣx∈L(a)rawPR(x)f(x,a)/f(x)
f(x,a)=Σl∈links(x,a)weight(l)
f(x)=Σa′∈T(x)f(x,a′)
其中:L(a)代表指向a的所有語義網文檔集合; f(x,a)代表x指向a的各種類型語義鏈接的權重之和; f(x)代表x指向其他SWD的各種類型語義鏈接的權重之和;T(x)代表x指向其他SWD的集合。
3.3 帶有語義標注的Web頁面的檢索和推理
當今的Web搜索技術不適合直接對語義標記進行索引和檢索,大多數搜索引擎使用詞來對文檔進行索引。當對HTML文檔進行索引時,嵌在里面的標記將被大多數的搜索引擎簡單地忽略掉,即使搜索引擎能夠識別嵌入在Web文檔中的標記,它也不能在搜索中有效利用語義標記的推理作用,因為大多數搜索引擎無法根據普通文本進行推理。
一種解決上述問題的方式是將用于文檔標注的RDF標記從XML命名空間的簡寫形式轉換成完整的形式,這個過程稱做Swangling。例如將三元組(http://example.org/isbn/0-00-651409-X, a:publisher, HarperCollins)轉換成(http://example.org/isbn/0-00-651409-X,http://example.org/publisher, HarperCollins)。然后將RDF三元組的完整描述作為附加信息添加到Web文檔中,允許搜索引擎對三元組的三個部分(subject,predicate,object)的任意組合進行索引(除去無意義的空組合)。例如對于上述三元組可以有以下七種索引方式:
(http://example.org/isbn/0-00-651409-X,http://example.org/publisher, HarperCollins)
(http://example.org/isbn/0-00-651409-X,http://example.org/publisher)
(http://example.org/isbn/0-00-651409-X, HarperCollins)
(http://example.org/publisher, HarperCollins)
(http://example.org/isbn/0-00-651409-X)
(http://example.org/publisher)
(HarperCollins)
事實上,在上述語義標注轉換過程中需要考慮一個問題,對于Google等搜索引擎,查詢語句的大小是受限制的,所以不能對所有的RDF三元組進行索引,必須挑選有利于檢索和查詢的那些。比如,每個實例都是owl:thing類型的,于是聲明中帶有owl:thingness的元組對檢索就沒有多大用處。有必要開發一個基于標記使用性的統計模型,了解哪些標記常用,哪些標記在查詢中經常出現,哪些對檢索更有幫助。
4 基于本體的信息檢索研究的不足
1)本體評價缺乏統一的標準 前面已經簡單介紹了本體的一些構造準則,但是這些評價準則基本是類似定性的描述,還沒有定量、明確可操作的定量評價準則。如果不能解決好本體評價的問題,未來語義網中的本體定義標準繁多,對同一個概念的描述存在不同版本,這無疑違背了本體論倡導的知識共享的初衷。
2)現有系統對新知識的更新支持不夠 網絡環境下,用戶的信息需求很寬泛,特別是時代感很強,關注的內容與社會新聞和事件常常緊密相關。在基于知識庫的信息檢索系統中,本體庫在領域專家的幫助下通過手工或者自動化的方式建立,這在很大程度上依賴于現有的詞匯知識。如果知識庫中沒有查詢對應的詞或者實例,就不可能查到含有它們的文檔。因此,獲得新詞、生成新實例并將它們及時加入知識庫中是維護運行信息檢索系統的一項重要工作。遺憾的是,目前基于本體的信息檢索系統還沒有明確提出解決以上問題的有效辦法。一方面,由于基于本體的信息檢索理論還不成熟,本體論與傳統IR技術的結合有待進一步研究;另一方面,本體庫中的實例包含眾多的語義關聯,新知識的加入會增加更新程序的復雜度,特別是對于目前以手工維護方式為主的本體存儲系統來說,不是一件容易的事情。
3)語義標記與HTML標準不兼容 目前沒有統一的標準創建和管理包含HTML及語義標注的文檔。最常用的方式是將語義標記直接嵌入到HTML頁面中去,但是考慮用DAML+OIL或OWL來進行標記時會發現它們是用于知識表示的語言而不是直接嵌入到文本中的。同時在HTML頁面中嵌入基于RDF的標記與HTML標準不兼容,W3C的一個工作組正在研究解決這一問題。
4)缺乏有效的基于本體信息檢索系統的質量評估機制 檢索質量評估的目標是對不同搜索引擎系統的檢索結果評估其相對優劣次序。目前信息檢索領域最重要的評估工作由TREC組織負責。TREC建立了大規模的評估數據集,包括數據集、查詢集和相關結果集,但是TREC測試集并不適合基于本體的語義檢索系統。測試文檔來自專業領域也來自通用領域,并且許多文檔帶有語義標記,這些都是TREC測試集無法提供的。此外,缺乏合理的評估標準對語義標注、基于推理的檢索結果以及索引和搜索的性能進行有效的評測。
5 結束語
基于本體的信息檢索系統作為本體論與信息檢索技術結合的交叉學科領域,已成為國內外學者的研究熱點[24],并取得了許多研究成果。但也應注意到,很多關鍵技術和問題亟待解決,如針對中文的實體標注技術、實體識別自動工具的開發、本體復用技術、基于軟件工程的本體開發方法、本體推理引擎與傳統IR檢索引擎的耦合、自然語言查詢優化等。為了開發出實用性強、影響力廣的應用項目,基于多媒體信息的本體設計、排序的相關性算法研究、語義服務接口、面向用戶興趣的個性化搜索策略[25, 26]等也是未來研究的熱點和發展方向。
參考文獻:
[1]MARCHIORI M. Towards a people’s Web: metalog[C]//Proc of IEEE/WIC/ACM International Conference on Web Intelligence. Washington DC: IEEE Computer Society, 2004:320-328.
[2] MARTIN P, EKLUND P. Embedding knowledge in Web documents[C]// Proc of the 8th International Conference on World Wide Web New York: Elsevier North-Hou and Inc, 1999:1403-1419.
[3]BAR-YOSSEF Z, KANZA Y, KOGAN Y, et al. Quest: querying semantically tagged documents on the World Wide Web[C]//Proc of the 4th Workshop on Next Generation Information Technologies and Systems. Berlin: Springer, 1999:2-19.
[4]CHINENYANGA T T, KUSHMERICK N. Elixir: an expressive and efficient language for XML information retrieval[J]. Journal of the American Society of Information Science and Technology, 2002, 53(6):438-453.
[5]FUHR N, GROJOHANN K. XIRQL: an extension of XQL for information retrieval[C]//Proc of ACM SIGIR Workshop on XML and Information Retrieval. New York: ACM Press, 2000:172-180.
[6]HEFLIN J, HENDLER J,LUKE S. SHOE: a knowledge representation language for Internet applications, CS-TR-4078[R]. Baltimore: University of Maryland,1999.
[7]LOPATENKO A S, KULAGIN M V. Current research information systems and digital libraries. Need for integration[C]//Proc of Digi-tal Libraries: Advanced Methods and Technologies, Digital Collections. 2001.
[8]POPOV B, KIRYAKOV A, OGNYANOFF D, et al. KIM: a semantic platform for information extraction and retrieval[J]. Journal of Natural Language Engineering, 2004, 10(3):375-392.
[9] FENSEL D,DECKER S,ERDMANN M, et al. Ontobroker: how to enable intelligent access to[C]//Proc of the 11th Banff Knowledge Acquisition for Knowledge-based System Workshop, 1998:663-664.
[10]SHAH U, FININ T, JOSHI A, et al. Information retrieval on the semantic Web[C]//Proc of the 11th International Conference on Information and Knowledge Management.New York: ACM Press, 2002:461-468.
[11]HILLMAN D. Using Dublin core[EB/OL]. (2005-11-07) [2007-08-01]. http://dublincore.org/docu-ments/usageguide.
[12]BRICKLEY D, MILLER L. FOAF vocabulary specification 0.9[EB/OL].(2005-05-24) [2007-08-01]. http://xmlns.com/foaf/0.1/ [13]DG XIII-D.4, European Commission. CERIF 2000 guidelines[EB/OL]. (199-09-30) [2007-08-12]. ftp://ftp.cordis.lu/pub/cerif/docs/cerif2000.htm.
[14]DILL S, EIRON N, GIBSON D, et al. A case for automated large scale semantic annotation[J]. Journal of Web Semantics, 2003, 1(1):115-132.
[15]HANDSCHUH S, STAAB S, CIRAVEGNA F. S-cream: Semi-automatic creation of metadata[C]//Proc of the 13th International Conference on Knowledge Engineering and Knowledge Management, Ontologies and the Semantic Web. London: Springer-Verlag, 2002: 358-372.
[16]DING Li, FININ T, JOSHI A, et al. Swoogle: a search and metadata engine for the semantic Web[C]//Proc of the 13th ACM Conference on Information and Knowledge Management. New York: ACM Press, 2004:652-659.
[17]JONES D,BENCH-CAPON T, VISSER P. Methodologies for ontology development[C]//Proc of the 15th IT KNOWS Conference, IFIP World Computer Congress. London: Chapman Hall Ltd, 1998:62-75.
[18]顧芳,曹存根. 知識工程中的本體研究現狀與存在的問題[J]. 計算機科學, 2004, 31(10):1-10.
[19]ABECKER A, BERNARDI A, HINKELMANN K, et al. Towards a technicality for organizational memories[J]. IEEE Intelligent Systems and Their Applications, 1998, 13(3): 40-48.
[20]NOY N F, McGUINNESS D. Ontology development 101: a guide to creating your first ontology[R]. Stanford: Stanford University, 2001.
[21]SALTON G, McGILL M. Introduction to modern information retrie-val[M]. New York:McGraw-Hill, 1983.
[22]VALLET D, FERNNDEZ M, CASTELLS P. An ontology-based stanford: information retrieval model[C]//Proc of the 2nd European Semantic Web Conference. London: Springer-Verlag, 2005:455-470.
[23]PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ran-king: bringing order to the Web[R]. Stanford:Stanford Digital Library Technologies Project, 1998.
[24]DING Y, OUNIS I, JOSE J. Report on ACM SIGIR workshop on “semantic Web”SWIR.2003[J]. ACM SIGIR Forum, 2003,37(2):45-49.
[25]CASTELLS P, FERnANDEZ M, VALLET D, et al. Self-tuning personalized information retrieval in an ontology-based framework[C]//Proc of the 1st International Workshop on Web Semantics. 2005: 455-470.
[26]GAUCH S, CHAFFEE J, PRETSCHNER A. Ontology-based perso-nalized search and browsing[J]. Web Intelligence and Agent Systems, 2003, 1(3): 219-234.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文