異構本體集成中基于視圖的映射方法

2008-12-31 00:00:00李冠宇代莎莎

計算機應用研究 2008年9期

摘要：對現有本體映射方法進行比較和分析后，提出了一種基于視圖的映射方法。本體視圖實際上是對本體的抽取，即本體的一種應用模式。作為對用戶知識的反映它不僅增加了本體映射的可理解性和清晰性，同時也簡化了用戶對信息的檢索。通過構造本體視圖間的雙向映射關系，既保證了信息查找和定位準確、高效，又提高了映射關系的可擴展性，使本體映射更適合動態變化的信息環境。

關鍵詞：異構本體集成；本體映射；本體視圖；視圖映射關系

中圖分類號：TP31 文獻標志碼：A

文章編號：1001-3695(2008)09-2613-04

Viewbased mapping method in heterogeneous ontologies integration

LI Guanyu，DAI Shasha

(College of Computer Science Technology， Dalian Maritime University， Dalian Liaoning 116026， China)

Abstract:After comparing and analyzing current ontology mapping techniques，this paper proposed a viewbased ontology mapping method.The ontology view was actually the extraction of ontology， namely an application mode of ontology. As the reflection of user knowledge， it not only could make ontology mapping comprehensible and clear， but also could simplify uses information retrieval. Through constructing bidirectional mapping relationships among ontology views， the information search and localization are more accurate and fast， and enhances the extensionality of mapping relationships，consequently the ontology mapping is more suitable for dynamic information environment.

Key words:heterogeneous ontologies integration；ontology mapping；ontology view；view mapping relationship

為了讓計算機能夠理解網絡上的信息并參與信息交流，網絡創始人T. BernersLee于1998年提出了semantic Web (語義Web)^[1]的構想。語義Web就是能夠根據語義進行判斷的網絡，而本體則描述了其中的語義。但是，由于在網絡中可以獲取的本體數量越來越多，并且由于本體的創建者不同，使用的建模方法不同，即使對同一個領域內的問題建模，不同的領域專家開發出來的本體必然存在著差別。為了使這些本體可以互相理解，本體映射應運而生了。本體映射的目的就是找到這些本體之間的語義聯系，它是實現本體合并、集成等本體工程中的關鍵一環。為了實現異構本體間的互操作，本體映射是最有效的解決方法。

1 已有本體映射工具的比較與分析

1）GLUE^[2]系統通過機器學習技術來發現映射關系，利用概念實例的聯合分布概率計算概念間的相似度，主要是1:1情形下概念間的映射。

2)Chimaera^[3] 它是斯坦福大學開發的，支持用戶管理和維護在Web中的分布式本體，主要有多本體的合并和單本體、多本體的診斷兩大功能。其中包括語義沖突的解決^[4]。

3）ONION^[5](ontology composition system)中的本體它是用概念圖來表示的，因此，本體的映射就是基于圖的映射；同時，領域專家可定義各種各樣的模糊匹配。ONION的主要創新就是它使用關系代數通過關聯本體進行本體間的互操作，而且它圖形地化表示了本體，這樣有助于分離數據層和推理引擎。

4）PROMPT 它是知識獲取工具Protégé2000^[6](本體開源編輯工具)的一個應用擴展。它采用了一種迭代的方法來自動更新、查找結果沖突以及為解決沖突給出建議，為兩個類和關系槽的合并提供了一個操作集^[7，8]。

5）CAIMAN 它利用機器學習技術對文本進行分類，這樣就建立起表示某個個體的本體概念與表示團體的本體概念間的映射^[9]。

6）ITTALKS^[10](information technology talks) 它展示了一個基于Web的用文本分類技術進行映射的系統。它以DAML+OIL描述的ACM和ITTALKS為實驗本體，利用基于文本分類技術計算信息的相似度，并結合貝葉斯方法對計算出的不確定的相似性進行推理判定。

7）ConcepTool^[11] 它是英國阿伯丁大學開發的智能知識管理環境，采用描述邏輯的方法對類形式化進行描述，從而加強實體—關系模型。其目標是促進知識共享^[12]。

這些本體映射工具中，說明不同本體之間概念映射的方法時，只限于表示術語之間的聯系，而在真實的問題中需要更強有力的支持^[13]，而且本體通常用各種基于文本的模型來表示。雖然基于文本的模型容易構造，但它的結構關系卻難以可視化^[14]。因此本文提出了一種基于視圖的本體映射方法。

將數據集成中比較成熟的視圖映射技術應用到本體集成的映射中是可行的。 a)本體與數據庫的主要區別是：本體包括所有相互關聯的概念、屬性、關系定義和實例；而在數據庫中schema和instances是被嚴格分離的。 b)數據庫需要抽取出它的模式才能進行映射，即數據集成中的模式映射；而本體因為不需要具體化元數據層，可以直接進行映射。c)在數據集成的模式映射中，GAV方法即global schema as view，LAV方法即local schema as view；而本體因為本身就是模式，可以直接應用GAV方法(global ontology as view)和LAV方法(local ontology as view)。

本文用本體視圖(概念視圖)來表示本體，本體的映射就是本體視圖間的映射。通過構建本體視圖間的映射關系來實現異構本體的互操作。

2 本體視圖

語義Web及其應用的成功主要依賴于在一個自動的異構環境中利用并操作了表達良好的本體庫。這使得筆者需要研究對本體視圖(作為本體的一種表達形式)的利用。但是，高層建模、設計和查詢技術仍然被證明是對語義Web的一項富有挑戰性的任務。因為需要管理和組織異構詞匯和本體，而且與傳統數據庫系統不同的是，本體視圖定義和查詢是在高層抽象中完成的^[14]。

2.1 構建本體視圖的好處

近二十年里視圖的應用范圍已改變。現在視圖被廣泛應用于用戶訪問和用戶訪問控制(UAC)應用;定義用戶視角；設計數據視角；空間數據建模；提供改進的表示和邏輯抽象(物化視圖)在數據倉庫/OLAP和網絡數據存儲環境中；網絡門戶和輪廓；子本體或本體視圖的語義Web(W3CSW，2005a)范例。很明顯，視圖的應用和有用性被更多地認識到，然而，視圖概念仍然是一種數據語言和模型，依賴于底層構建。

使用視圖有很多好處：a）無須接觸實際的結構就可以看到信息，這對應用軟件更重要，因為大多數用戶查看信息只有讀操作。信息在互聯網上有許多不同類型的用戶，因此很難預知這些用戶是誰。而使用視圖就避免了設計者要考慮到所有用戶及他們想如何看信息的情況。很明顯這個好處對語義Web和本體是很重要的。b）使用視圖能進行特定類型的應用(可擴展性方面)，并且一旦本體視圖被普及，人們就可以期待它能有像數據庫領域那樣的飛速發展。

2.2 本體視圖的定義

本體視圖是具體化的語義Web視圖，它來自于一個基礎本體，可以由下面操作的任何一種或組合構成：

a）元素的同義重命名。相同的元素在本體視圖中仍然出現，但在語法上以可選的形式存在。然而卻出現了在語義上相同或較少的信息。

b)元素的選擇。這個元素在本體視圖中也出現了，是以一種不變的形式。

c)元素的壓縮^[14]。多個元素在本體視圖中被一個元素取代，這個元素本身可以是一個新元素，但是它不提供額外的語義信息(與基礎本體相比)。壓縮運算符是一個復雜運算符，由多個一元運算符順序串聯組成。

本體視圖的目的和構建類似于數據庫視圖。一個虛擬的本體視圖是不可能的，因為本體視圖的定義也有與元數據相關聯的實例數據。視圖的元數據層（表格或視圖定義）總是具體化的。但實例數據不是與本體視圖一起被存儲的。

2.3 本體視圖的自動構建

通常視圖的構建過程是一個手工過程，即由設計者來決定視圖應有什么元素并且使用什么運算符來構建適于這些元素的視圖。然而這種人工構建既冗長乏味、浪費時間又不便于將來的修改和維護工作。MOVE(materialized ontology view extractor)是一個本體視圖的自動抽取工具，它允許用戶提出自己感興趣的關于結果視圖類型方面的請求，系統會自動生成所請求的本體視圖。MOVE的主要優點是它可以被非IT用戶使用和運行，不需要設計師手工構建視圖并能確保其質量。MOVE的高層體系結構圖如圖1所示。

下面具體介紹該系統是如何被實際使用的：

a)本體標準的輸入。該過程的第一步是將本體標準文件輸入系統。MOVE通過把自己改造成一個給定的本體標準文件以符合所有的標準，即支持所有的功能，這些功能也專屬于標準(不像其他許多工具聲稱兼容，但只提供兼容的共同特點)。

b)本體的輸入。本體視圖是基于源本體的。當然，這個本體將通過本體標準輸入文件在本體標準中被詳細說明。

c)用戶請求的輸入。用戶提供給系統必要的信息使系統能抽取出所需的高質量本體視圖。

3 本體視圖間的雙向映射機制

傳統的視圖映射機制GAV和LAV方法都有它們各自的優缺點。GAV方法是建立從局部視圖到全局視圖的映射，雖然在信息查詢時定位準確、效率較高，但視圖映射關系可擴展性受限，不太適合信息動態變化非常快的環境。LAV方法是建立從全局視圖到局部視圖的映射，它增強了視圖映射關系的可擴展性，較適合動態變化的信息環境，但是所提供的信息服務質量不高，信息查詢難以準確、快速定位。因此本文將這兩種方法有機結合，提出一種本體視圖間的雙向映射機制。

給定一個本體視圖映射系統S=〈G，L，M〉。其中：G代表全局本體視圖；L代表局部本體視圖；M表示全局本體視圖與局部本體視圖之間的映射關系。本文雙向映射機制的思想是：首先對本體視圖元素進行語義關系分析，在此基礎上建立從局部本體視圖到全局本體視圖的映射關系，通過此映射關系使得全局本體視圖能充分反映各局部本體所存儲的信息，保證信息查找和定位準確、高效；然后根據局部本體庫的變化情況(增加或刪除局部本體)建立從全局本體視圖到局部本體視圖的映射，這樣就加強了對視圖映射關系的可擴展性，便于對映射關系的維護。

3.1 從局部本體視圖到全局本體視圖的映射

全局本體視圖和各局部本體視圖之間的映射關系由全局類與各局部類之間的映射和全局類屬性與局部類屬性之間的映射兩部分組成。

1）全局類與各局部類之間映射關系的構建

映射規則如下：

a)等價類映射規則。定義相同的不同局部本體視圖中的類映射到相同的全局類，全局類映射到這些局部類則需要一個鑒別標志來鑒定這些類是否代表不同的局部本體。標志來源于各局部本體視圖并為所有局部本體視圖共同支持，如本文采用所屬局部本體作為鑒別標志。

b)狹義類映射規則。局部類是全局類的特殊化類，則所有局部類被映射到全局類，然而從全局類映射到各局部類則需要一個分類標準。例如，子類“職員”的實例被映射到其父類“居民”，而“居民”的實例映射到“職員”時則需要滿足“居民”在“B市工作”并且屬于“職員”。該類映射關系可以通過應用推理系統對類的內涵定義進行推理獲得。

c)重疊類映射規則。全局類是局部類重疊生成的類，即全局類是某幾個局部類的特殊化類，則將全局類映射到所有的局部類，從局部類映射到全局類時則需要相應的分類標準。例如，全局類“外國職員”的實例映射到局部類“職員”，而將“職員”類映射到“外國職員”類則需要進行相應的分類(“職員”類的實例需滿足“非中國籍”)。

2）全局類屬性與各局部類屬性之間映射關系的構建

映射規則如下：

a)全局類屬性與局部類屬性映射關系的構建分為兩種情況：（a）全局類屬性與局部類屬性等價，則把這兩個屬性值關聯起來:（b)兩個屬性之間是特殊化關系，則狹義屬性直接映射到廣義屬性，但是廣義屬性需要在一個分類標準的指導下映射到狹義屬性。例如居民類的“收入”屬性和職員類的“工資”屬性，“工資”屬性可以直接映射到“收入”屬性，但是“收入”屬性需要在“收入分類”標準指導下才能映射到“工資”屬性。

b)屬性映射往往需要進行屬性類型轉換(如整型到實型的轉換)，對于類型不一致的屬性，應進行相應的類型轉換。

表1給出了全局與局部本體視圖的部分映射關系。

基于全局本體視圖，在視圖映射關系的指導下可以進行信息查詢以實現信息共享。如根據表1給出的視圖映射關系，在針對全局本體視圖中的“學歷”屬性進行查詢時，可以轉換為如下局部本體視圖信息查詢：

A：select教育程度from市民；

select教育程度from外僑；

B：select學歷from職員。

3.2 從全局本體視圖到局部本體視圖的映射調整

當局部本體發生變化時(增加或刪除局部本體)，需要對全局本體視圖和視圖映射關系相應地進行調整，這就需要構建從全局本體視圖到局部本體視圖的映射關系。全局本體視圖和視圖映射關系動態調整是一個比較復雜的問題，本文對該問題進行了初步研究，更為深入地探討將在下一步工作中展開。本文主要考慮兩種情況：a)在增加新局部本體情況下全局本體視圖和各本體視圖間映射關系的調整；b)在刪除已有局部本體情況下全局本體視圖和各本體視圖間映射關系的調整。

1）全局本體視圖的調整

在加入新局部本體的情況下，同樣采用復合本體思想對全局本體視圖進行調整，主要包括以下兩部分內容：

a)生成新的全局本體。將原全局本體與新加入的局部本體進行合并，生成新的全局本體。

b)生成新的全局本體視圖。將原有全局本體視圖與新加入局部本體的視圖進行合并，生成新的全局本體視圖。

在刪除已有局部本體情況下，全局本體視圖調整主要由以下兩部分內容組成：

a)全局本體的調整。從原全局本體中刪除該局部本體和由該局部本體與其他本體重疊所生成的概念與關系。

b)全局本體視圖的調整。刪除由該局部本體視圖生成的全局類和該局部本體與其他本體重疊所產生的類。

圖6、7是增加的A市某大學本體與相應視圖；調整后的全局本體視圖如圖8所示。

2）本體視圖間的映射調整

在加入新局部本體的情況下，根據該局部本體與全局本體的關系添加新映射關系而不改變原有的映射關系。添加新映射關系遵循以下規則：

a)等價映射規則。與全局元素(類和屬性)等價的局部元素(類和屬性)直接映射到全局元素。b)狹義映射規則。局部元素是全局元素的特殊化元素，則所有的局部元素被映射到全局元素，從全局元素映射到各局部元素則同樣需要一個分類標準。該類映射關系可以應用推理系統對信息元素的內涵定義(相應的本體概念定義)進行推理獲取。

c)類型轉換規則。對類型不一致的屬性應進行相應的類型轉換。

在刪除已有局部本體的情況下，視圖映射關系調整相對較為簡單，只要刪除該局部本體視圖中元素所對應的映射關系即可。例如，增加A市某大學本體及其相應視圖，需要添加的映射關系如表2所示。

表2 新增本體視圖的映射關系

元素全局局部映射類型局部元素所屬本體

類

居民學生特殊化映射O3

學生學生等價映射O3

類屬性

學號學號等價映射O3

姓名姓名等價映射O3

性別性別等價映射O3

年齡年齡等價映射O3

成績成績等價映射O3

專業專業等價映射O3

4 結束語

本體映射可以看做是本體從不同角度或者不同應用領域到不同任務和應用的視圖，構建本體映射是分布式環境下實現不同本體之間共享和交流的基礎性任務。鑒于本體映射的實用價值，本文提出了基于視圖的本體映射方法，增強了本體映射系統的可理解性和清晰性，較為適合動態變化的信息環境。由于時間原因和條件限制，許多工作需要在下一步研究中完成，包括：a）本體視圖映射關系的自動構建和調整；b)加入機器學習或agent技術加強自動化程度；c)借鑒目錄服務的機制將本體視圖構造成本體目錄以提高信息檢索效率。在本體映射上還有許多工作可做，其應用及研究前景非常廣闊。 

參考文獻：

［1］BERNERSLEE T.Semantic Web road map[R].[S.l.]:W3C Design Issues，1998.

[2]DOAN A H，MADHAVAN J，DOMINGOS P，et al.Learning to map between ontologies on the semantic Web[C]//Proc of the 11th International World Wide Web Conference.New York:ACM Press，2002:662-673.

[3]Chimaera[EB/OL].http://www.ksl.stanford.edu/software/chimaera/.

[4]McGUINNESS D L，FIKES R，RICE J，et al.The Chimaera ontology environment[C]//Proc of the 17th National Conference on Artificial Intelligence.[S.l.]:MIT Press，2000:11231124.

[5]Protégé[EB/OL].http://protégé.stanford.edu.

[6]NOY N F，MUSEN M A.PROMPT:algorithm and tool for automated ontology merging and alignment[C]//Proc of the 17th National Conference on Artificial Intelligence.[S.l.]:MIT Press，2000:450-455.

[7]NOY N F，MUSEN M A.The PROMPT suite: interactive tools for ontology merging and mapping[J].International Journal of HumanComputer Studies，2003，59(6): 9831024.

[8]LACHER M S，GROH G.Facilitating the exchange of explicit knowledge through ontology mappings[C]//Proc of the 14th International Florida Artificial Intelligence Research Society Conference.[S.l.]:AAAI Press，2001:305-309.

[9]PRASAD S，DEN Yun，FININ T.A tool for mapping between two ontologies using explicit information[C]//Proc of AAMAS Workshop on Ontologies and Agent Systems.2002.

[10]The ConcepTool intelligent knowledge management environment[EB/OL].http://www.csd.abdn.ac.uk/research/IKM/ConcepTool.

[11]COMPATANGELO E，MEISEL H.Intelligent support to knowledge sharing through the articulation of class schemas[C]//Proc of the 6th International Conference on Knowledgebased Intelligent Information Engineering Systems.[S.l.]:IOS Press，2002:306-310.

[12]DIGO C，GIUSEPPE D G.A framework for ontology integration[K].SWWSBook，2002.

[13]MITRA P，WIEDERHOLD G，KERSTEN M.A graphoriented model for articulation of ontology interdependencies[C]//Proc of the 7th International Conference on Extending Database Technology.London:SpringerVerlag，2000:85100.

[14]WOUTERS C，RAJUGAN R，DILLON T S，et al.Ontology extraction using views for semantic Web[M]//TANIAR D，RAHAYU W.Web Semantics and Ontology.[S.l.]:Idea Group Publishing，2005.

計算機應用研究2008年9期

計算機應用研究的其它文章: 基于小波和水平集方法的尿沉渣圖像分割; 一種自適應色彩融合的Ｍｅａｎ－Ｓｈｉｆｔ跟蹤算法; 面向森林動態生長過程的場景系統設計和實現; 基于Ｇａｂｏｒ小波和模型自適應的魯棒人臉識別方法; 基于圖論Ｇｏｍｏｒｙ－Ｈｕ算法的快速圖像分割; 一種新的指紋圖像模板細化方法