摘 要:對現(xiàn)有本體映射方法進行比較和分析后,提出了一種基于視圖的映射方法。本體視圖實際上是對本體的抽取,即本體的一種應(yīng)用模式。作為對用戶知識的反映它不僅增加了本體映射的可理解性和清晰性,同時也簡化了用戶對信息的檢索。通過構(gòu)造本體視圖間的雙向映射關(guān)系,既保證了信息查找和定位準確、高效,又提高了映射關(guān)系的可擴展性,使本體映射更適合動態(tài)變化的信息環(huán)境。
關(guān)鍵詞:異構(gòu)本體集成;本體映射;本體視圖;視圖映射關(guān)系
中圖分類號:TP31 文獻標志碼:A
文章編號:1001-3695(2008)09-2613-04
Viewbased mapping method in heterogeneous ontologies integration
LI Guanyu,DAI Shasha
(College of Computer Science Technology, Dalian Maritime University, Dalian Liaoning 116026, China)
Abstract:After comparing and analyzing current ontology mapping techniques,this paper proposed a viewbased ontology mapping method.The ontology view was actually the extraction of ontology, namely an application mode of ontology. As the reflection of user knowledge, it not only could make ontology mapping comprehensible and clear, but also could simplify uses information retrieval. Through constructing bidirectional mapping relationships among ontology views, the information search and localization are more accurate and fast, and enhances the extensionality of mapping relationships,consequently the ontology mapping is more suitable for dynamic information environment.
Key words:heterogeneous ontologies integration;ontology mapping;ontology view;view mapping relationship
為了讓計算機能夠理解網(wǎng)絡(luò)上的信息并參與信息交流,網(wǎng)絡(luò)創(chuàng)始人T. BernersLee于1998年提出了semantic Web (語義Web)[1]的構(gòu)想。語義Web就是能夠根據(jù)語義進行判斷的網(wǎng)絡(luò),而本體則描述了其中的語義。但是,由于在網(wǎng)絡(luò)中可以獲取的本體數(shù)量越來越多,并且由于本體的創(chuàng)建者不同,使用的建模方法不同,即使對同一個領(lǐng)域內(nèi)的問題建模,不同的領(lǐng)域?qū)<议_發(fā)出來的本體必然存在著差別。為了使這些本體可以互相理解,本體映射應(yīng)運而生了。本體映射的目的就是找到這些本體之間的語義聯(lián)系,它是實現(xiàn)本體合并、集成等本體工程中的關(guān)鍵一環(huán)。為了實現(xiàn)異構(gòu)本體間的互操作,本體映射是最有效的解決方法。
1 已有本體映射工具的比較與分析
1)GLUE[2]系統(tǒng) 通過機器學(xué)習(xí)技術(shù)來發(fā)現(xiàn)映射關(guān)系,利用概念實例的聯(lián)合分布概率計算概念間的相似度,主要是1:1情形下概念間的映射。
2)Chimaera[3] 它是斯坦福大學(xué)開發(fā)的,支持用戶管理和維護在Web中的分布式本體,主要有多本體的合并和單本體、 多本體的診斷兩大功能。其中包括語義沖突的解決[4]。
3)ONION[5](ontology composition system)中的本體 它是用概念圖來表示的,因此,本體的映射就是基于圖的映射;同時,領(lǐng)域?qū)<铱啥x各種各樣的模糊匹配。ONION的主要創(chuàng)新就是它使用關(guān)系代數(shù)通過關(guān)聯(lián)本體進行本體間的互操作,而且它圖形地化表示了本體,這樣有助于分離數(shù)據(jù)層和推理引擎。
4)PROMPT 它是知識獲取工具Protégé2000[6](本體開源編輯工具)的一個應(yīng)用擴展。它采用了一種迭代的方法來自動更新、查找結(jié)果沖突以及為解決沖突給出建議,為兩個類和關(guān)系槽的合并提供了一個操作集[7,8]。
5)CAIMAN 它利用機器學(xué)習(xí)技術(shù)對文本進行分類,這樣就建立起表示某個個體的本體概念與表示團體的本體概念間的映射[9]。
6)ITTALKS[10](information technology talks) 它展示了一個基于Web的用文本分類技術(shù)進行映射的系統(tǒng)。它以DAML+OIL描述的ACM和ITTALKS為實驗本體,利用基于文本分類技術(shù)計算信息的相似度,并結(jié)合貝葉斯方法對計算出的不確定的相似性進行推理判定。
7)ConcepTool[11] 它是英國阿伯丁大學(xué)開發(fā)的智能知識管理環(huán)境,采用描述邏輯的方法對類形式化進行描述,從而加強實體—關(guān)系模型。其目標是促進知識共享[12]。
這些本體映射工具中,說明不同本體之間概念映射的方法時,只限于表示術(shù)語之間的聯(lián)系,而在真實的問題中需要更強有力的支持[13],而且本體通常用各種基于文本的模型來表示。雖然基于文本的模型容易構(gòu)造,但它的結(jié)構(gòu)關(guān)系卻難以可視化[14]。因此本文提出了一種基于視圖的本體映射方法。
將數(shù)據(jù)集成中比較成熟的視圖映射技術(shù)應(yīng)用到本體集成的映射中是可行的。 a)本體與數(shù)據(jù)庫的主要區(qū)別是:本體包括所有相互關(guān)聯(lián)的概念、屬性、關(guān)系定義和實例;而在數(shù)據(jù)庫中schema和instances是被嚴格分離的。 b)數(shù)據(jù)庫需要抽取出它的模式才能進行映射,即數(shù)據(jù)集成中的模式映射;而本體因為不需要具體化元數(shù)據(jù)層,可以直接進行映射。c)在數(shù)據(jù)集成的模式映射中,GAV方法即global schema as view,LAV方法即local schema as view;而本體因為本身就是模式,可以直接應(yīng)用GAV方法(global ontology as view)和LAV方法(local ontology as view)。
本文用本體視圖(概念視圖)來表示本體,本體的映射就是本體視圖間的映射。通過構(gòu)建本體視圖間的映射關(guān)系來實現(xiàn)異構(gòu)本體的互操作。
2 本體視圖
語義Web及其應(yīng)用的成功主要依賴于在一個自動的異構(gòu)環(huán)境中利用并操作了表達良好的本體庫。這使得筆者需要研究對本體視圖(作為本體的一種表達形式)的利用。但是,高層建模、設(shè)計和查詢技術(shù)仍然被證明是對語義Web的一項富有挑戰(zhàn)性的任務(wù)。因為需要管理和組織異構(gòu)詞匯和本體,而且與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)不同的是,本體視圖定義和查詢是在高層抽象中完成的[14]。
2.1 構(gòu)建本體視圖的好處
近二十年里視圖的應(yīng)用范圍已改變。現(xiàn)在視圖被廣泛應(yīng)用于用戶訪問和用戶訪問控制(UAC)應(yīng)用;定義用戶視角;設(shè)計數(shù)據(jù)視角;空間數(shù)據(jù)建模;提供改進的表示和邏輯抽象(物化視圖)在數(shù)據(jù)倉庫/OLAP和網(wǎng)絡(luò)數(shù)據(jù)存儲環(huán)境中;網(wǎng)絡(luò)門戶和輪廓;子本體或本體視圖的語義Web(W3CSW,2005a)范例。很明顯,視圖的應(yīng)用和有用性被更多地認識到,然而,視圖概念仍然是一種數(shù)據(jù)語言和模型,依賴于底層構(gòu)建。
使用視圖有很多好處:a)無須接觸實際的結(jié)構(gòu)就可以看到信息,這對應(yīng)用軟件更重要,因為大多數(shù)用戶查看信息只有讀操作。信息在互聯(lián)網(wǎng)上有許多不同類型的用戶,因此很難預(yù)知這些用戶是誰。而使用視圖就避免了設(shè)計者要考慮到所有用戶及他們想如何看信息的情況。很明顯這個好處對語義Web和本體是很重要的。b)使用視圖能進行特定類型的應(yīng)用(可擴展性方面),并且一旦本體視圖被普及,人們就可以期待它能有像數(shù)據(jù)庫領(lǐng)域那樣的飛速發(fā)展。
2.2 本體視圖的定義
本體視圖是具體化的語義Web視圖,它來自于一個基礎(chǔ)本體,可以由下面操作的任何一種或組合構(gòu)成:
a)元素的同義重命名。相同的元素在本體視圖中仍然出現(xiàn),但在語法上以可選的形式存在。然而卻出現(xiàn)了在語義上相同或較少的信息。
b)元素的選擇。這個元素在本體視圖中也出現(xiàn)了,是以一種不變的形式。
c)元素的壓縮[14]。多個元素在本體視圖中被一個元素取代,這個元素本身可以是一個新元素,但是它不提供額外的語義信息(與基礎(chǔ)本體相比)。壓縮運算符是一個復(fù)雜運算符,由多個一元運算符順序串聯(lián)組成。
本體視圖的目的和構(gòu)建類似于數(shù)據(jù)庫視圖。一個虛擬的本體視圖是不可能的,因為本體視圖的定義也有與元數(shù)據(jù)相關(guān)聯(lián)的實例數(shù)據(jù)。視圖的元數(shù)據(jù)層(表格或視圖定義)總是具體化的。但實例數(shù)據(jù)不是與本體視圖一起被存儲的。
2.3 本體視圖的自動構(gòu)建
通常視圖的構(gòu)建過程是一個手工過程,即由設(shè)計者來決定視圖應(yīng)有什么元素并且使用什么運算符來構(gòu)建適于這些元素的視圖。然而這種人工構(gòu)建既冗長乏味、浪費時間又不便于將來的修改和維護工作。MOVE(materialized ontology view extractor)是一個本體視圖的自動抽取工具,它允許用戶提出自己感興趣的關(guān)于結(jié)果視圖類型方面的請求,系統(tǒng)會自動生成所請求的本體視圖。MOVE的主要優(yōu)點是它可以被非IT用戶使用和運行,不需要設(shè)計師手工構(gòu)建視圖并能確保其質(zhì)量。MOVE的高層體系結(jié)構(gòu)圖如圖1所示。
下面具體介紹該系統(tǒng)是如何被實際使用的:
a)本體標準的輸入。該過程的第一步是將本體標準文件輸入系統(tǒng)。MOVE通過把自己改造成一個給定的本體標準文件以符合所有的標準,即支持所有的功能,這些功能也專屬于標準(不像其他許多工具聲稱兼容,但只提供兼容的共同特點)。
b)本體的輸入。本體視圖是基于源本體的。當(dāng)然,這個本體將通過本體標準輸入文件在本體標準中被詳細說明。
c)用戶請求的輸入。用戶提供給系統(tǒng)必要的信息使系統(tǒng)能抽取出所需的高質(zhì)量本體視圖。
3 本體視圖間的雙向映射機制
傳統(tǒng)的視圖映射機制GAV和LAV方法都有它們各自的優(yōu)缺點。GAV方法是建立從局部視圖到全局視圖的映射,雖然在信息查詢時定位準確、效率較高,但視圖映射關(guān)系可擴展性受限,不太適合信息動態(tài)變化非常快的環(huán)境。LAV方法是建立從全局視圖到局部視圖的映射,它增強了視圖映射關(guān)系的可擴展性,較適合動態(tài)變化的信息環(huán)境,但是所提供的信息服務(wù)質(zhì)量不高,信息查詢難以準確、快速定位。因此本文將這兩種方法有機結(jié)合,提出一種本體視圖間的雙向映射機制。
給定一個本體視圖映射系統(tǒng)S=〈G,L,M〉。其中:G代表全局本體視圖;L代表局部本體視圖;M表示全局本體視圖與局部本體視圖之間的映射關(guān)系。本文雙向映射機制的思想是:首先對本體視圖元素進行語義關(guān)系分析,在此基礎(chǔ)上建立從局部本體視圖到全局本體視圖的映射關(guān)系,通過此映射關(guān)系使得全局本體視圖能充分反映各局部本體所存儲的信息,保證信息查找和定位準確、高效;然后根據(jù)局部本體庫的變化情況(增加或刪除局部本體)建立從全局本體視圖到局部本體視圖的映射,這樣就加強了對視圖映射關(guān)系的可擴展性,便于對映射關(guān)系的維護。
3.1 從局部本體視圖到全局本體視圖的映射
全局本體視圖和各局部本體視圖之間的映射關(guān)系由全局類與各局部類之間的映射和全局類屬性與局部類屬性之間的映射兩部分組成。
1)全局類與各局部類之間映射關(guān)系的構(gòu)建
映射規(guī)則如下:
a)等價類映射規(guī)則。定義相同的不同局部本體視圖中的類映射到相同的全局類,全局類映射到這些局部類則需要一個鑒別標志來鑒定這些類是否代表不同的局部本體。標志來源于各局部本體視圖并為所有局部本體視圖共同支持,如本文采用所屬局部本體作為鑒別標志。
b)狹義類映射規(guī)則。局部類是全局類的特殊化類,則所有局部類被映射到全局類,然而從全局類映射到各局部類則需要一個分類標準。例如,子類“職員”的實例被映射到其父類“居民”,而“居民”的實例映射到“職員”時則需要滿足“居民”在“B市工作”并且屬于“職員”。該類映射關(guān)系可以通過應(yīng)用推理系統(tǒng)對類的內(nèi)涵定義進行推理獲得。
c)重疊類映射規(guī)則。全局類是局部類重疊生成的類,即全局類是某幾個局部類的特殊化類,則將全局類映射到所有的局部類,從局部類映射到全局類時則需要相應(yīng)的分類標準。例如,全局類“外國職員”的實例映射到局部類“職員”,而將“職員”類映射到“外國職員”類則需要進行相應(yīng)的分類(“職員”類的實例需滿足“非中國籍”)。
2)全局類屬性與各局部類屬性之間映射關(guān)系的構(gòu)建
映射規(guī)則如下:
a)全局類屬性與局部類屬性映射關(guān)系的構(gòu)建分為兩種情況:(a)全局類屬性與局部類屬性等價,則把這兩個屬性值關(guān)聯(lián)起來:(b)兩個屬性之間是特殊化關(guān)系,則狹義屬性直接映射到廣義屬性,但是廣義屬性需要在一個分類標準的指導(dǎo)下映射到狹義屬性。例如居民類的“收入”屬性和職員類的“工資”屬性,“工資”屬性可以直接映射到“收入”屬性,但是“收入”屬性需要在“收入分類”標準指導(dǎo)下才能映射到“工資”屬性。
b)屬性映射往往需要進行屬性類型轉(zhuǎn)換(如整型到實型的轉(zhuǎn)換),對于類型不一致的屬性,應(yīng)進行相應(yīng)的類型轉(zhuǎn)換。
表1給出了全局與局部本體視圖的部分映射關(guān)系。
基于全局本體視圖,在視圖映射關(guān)系的指導(dǎo)下可以進行信息查詢以實現(xiàn)信息共享。如根據(jù)表1給出的視圖映射關(guān)系,在針對全局本體視圖中的“學(xué)歷”屬性進行查詢時,可以轉(zhuǎn)換為如下局部本體視圖信息查詢:
A:select教育程度from市民;
select教育程度from外僑;
B:select學(xué)歷from職員。
3.2 從全局本體視圖到局部本體視圖的映射調(diào)整
當(dāng)局部本體發(fā)生變化時(增加或刪除局部本體),需要對全局本體視圖和視圖映射關(guān)系相應(yīng)地進行調(diào)整,這就需要構(gòu)建從全局本體視圖到局部本體視圖的映射關(guān)系。全局本體視圖和視圖映射關(guān)系動態(tài)調(diào)整是一個比較復(fù)雜的問題,本文對該問題進行了初步研究,更為深入地探討將在下一步工作中展開。本文主要考慮兩種情況:a)在增加新局部本體情況下全局本體視圖和各本體視圖間映射關(guān)系的調(diào)整;b)在刪除已有局部本體情況下全局本體視圖和各本體視圖間映射關(guān)系的調(diào)整。
1)全局本體視圖的調(diào)整
在加入新局部本體的情況下,同樣采用復(fù)合本體思想對全局本體視圖進行調(diào)整,主要包括以下兩部分內(nèi)容:
a)生成新的全局本體。將原全局本體與新加入的局部本體進行合并,生成新的全局本體。
b)生成新的全局本體視圖。將原有全局本體視圖與新加入局部本體的視圖進行合并,生成新的全局本體視圖。
在刪除已有局部本體情況下,全局本體視圖調(diào)整主要由以下兩部分內(nèi)容組成:
a)全局本體的調(diào)整。從原全局本體中刪除該局部本體和由該局部本體與其他本體重疊所生成的概念與關(guān)系。
b)全局本體視圖的調(diào)整。刪除由該局部本體視圖生成的全局類和該局部本體與其他本體重疊所產(chǎn)生的類。
圖6、7是增加的A市某大學(xué)本體與相應(yīng)視圖;調(diào)整后的全局本體視圖如圖8所示。
2)本體視圖間的映射調(diào)整
在加入新局部本體的情況下,根據(jù)該局部本體與全局本體的關(guān)系添加新映射關(guān)系而不改變原有的映射關(guān)系。添加新映射關(guān)系遵循以下規(guī)則:
a)等價映射規(guī)則。與全局元素(類和屬性)等價的局部元素(類和屬性)直接映射到全局元素。b)狹義映射規(guī)則。局部元素是全局元素的特殊化元素,則所有的局部元素被映射到全局元素,從全局元素映射到各局部元素則同樣需要一個分類標準。該類映射關(guān)系可以應(yīng)用推理系統(tǒng)對信息元素的內(nèi)涵定義(相應(yīng)的本體概念定義)進行推理獲取。
c)類型轉(zhuǎn)換規(guī)則。對類型不一致的屬性應(yīng)進行相應(yīng)的類型轉(zhuǎn)換。
在刪除已有局部本體的情況下,視圖映射關(guān)系調(diào)整相對較為簡單,只要刪除該局部本體視圖中元素所對應(yīng)的映射關(guān)系即可。例如,增加A市某大學(xué)本體及其相應(yīng)視圖,需要添加的映射關(guān)系如表2所示。
表2 新增本體視圖的映射關(guān)系
元素全局局部映射類型局部元素所屬本體
類
居民學(xué)生特殊化映射O3
學(xué)生學(xué)生等價映射O3
類屬性
學(xué)號學(xué)號等價映射O3
姓名姓名等價映射O3
性別性別等價映射O3
年齡年齡等價映射O3
成績成績等價映射O3
專業(yè)專業(yè)等價映射O3
4 結(jié)束語
本體映射可以看做是本體從不同角度或者不同應(yīng)用領(lǐng)域到不同任務(wù)和應(yīng)用的視圖,構(gòu)建本體映射是分布式環(huán)境下實現(xiàn)不同本體之間共享和交流的基礎(chǔ)性任務(wù)。鑒于本體映射的實用價值,本文提出了基于視圖的本體映射方法,增強了本體映射系統(tǒng)的可理解性和清晰性,較為適合動態(tài)變化的信息環(huán)境。由于時間原因和條件限制,許多工作需要在下一步研究中完成,包括:a)本體視圖映射關(guān)系的自動構(gòu)建和調(diào)整;b)加入機器學(xué)習(xí)或agent技術(shù)加強自動化程度;c)借鑒目錄服務(wù)的機制將本體視圖構(gòu)造成本體目錄以提高信息檢索效率。在本體映射上還有許多工作可做,其應(yīng)用及研究前景非常廣闊。
參考文獻:
[1]BERNERSLEE T.Semantic Web road map[R].[S.l.]:W3C Design Issues,1998.
[2]DOAN A H,MADHAVAN J,DOMINGOS P,et al.Learning to map between ontologies on the semantic Web[C]//Proc of the 11th International World Wide Web Conference.New York:ACM Press,2002:662-673.
[3]Chimaera[EB/OL].http://www.ksl.stanford.edu/software/chimaera/.
[4]McGUINNESS D L,F(xiàn)IKES R,RICE J,et al.The Chimaera ontology environment[C]//Proc of the 17th National Conference on Artificial Intelligence.[S.l.]:MIT Press,2000:11231124.
[5]Protégé[EB/OL].http://protégé.stanford.edu.
[6]NOY N F,MUSEN M A.PROMPT:algorithm and tool for automated ontology merging and alignment[C]//Proc of the 17th National Conference on Artificial Intelligence.[S.l.]:MIT Press,2000:450-455.
[7]NOY N F,MUSEN M A.The PROMPT suite: interactive tools for ontology merging and mapping[J].International Journal of HumanComputer Studies,2003,59(6): 9831024.
[8]LACHER M S,GROH G.Facilitating the exchange of explicit knowledge through ontology mappings[C]//Proc of the 14th International Florida Artificial Intelligence Research Society Conference.[S.l.]:AAAI Press,2001:305-309.
[9]PRASAD S,DEN Yun,F(xiàn)ININ T.A tool for mapping between two ontologies using explicit information[C]//Proc of AAMAS Workshop on Ontologies and Agent Systems.2002.
[10]The ConcepTool intelligent knowledge management environment[EB/OL].http://www.csd.abdn.ac.uk/research/IKM/ConcepTool.
[11]COMPATANGELO E,MEISEL H.Intelligent support to knowledge sharing through the articulation of class schemas[C]//Proc of the 6th International Conference on Knowledgebased Intelligent Information Engineering Systems.[S.l.]:IOS Press,2002:306-310.
[12]DIGO C,GIUSEPPE D G.A framework for ontology integration[K].SWWSBook,2002.
[13]MITRA P,WIEDERHOLD G,KERSTEN M.A graphoriented model for articulation of ontology interdependencies[C]//Proc of the 7th International Conference on Extending Database Technology.London:SpringerVerlag,2000:85100.
[14]WOUTERS C,RAJUGAN R,DILLON T S,et al.Ontology extraction using views for semantic Web[M]//TANIAR D,RAHAYU W.Web Semantics and Ontology.[S.l.]:Idea Group Publishing,2005.