摘 要:目前,企業(yè)對數(shù)據(jù)集成的要求逐漸上升到語義層面。針對數(shù)據(jù)語義上的異構(gòu)問題,提出了一種語義模型驅(qū)動的集成方式,并實(shí)現(xiàn)了語義模型應(yīng)用框架;討論了框架中語義模型驅(qū)動的數(shù)據(jù)屬性匹配技術(shù),該技術(shù)用于在語義模型已存在的前提下,通過提供映射的方法實(shí)現(xiàn)異構(gòu)數(shù)據(jù)到已有模型的映射。
關(guān)鍵詞:語義模型; 異構(gòu)數(shù)據(jù)源; 映射關(guān)系; 屬性匹配
中圖法分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1001-3695(2006)10-0039-02
Semantic Model Driven Approach for Dataattribute Matching
WANG Kefei, ZHANG Shusheng, ZHOU Jingtao, ZHAO Han
(Key Laboratory of Contemporary Design Integrated Manufacturing Technology of Education Ministry, Northwestern Polytechnical University, Xi’an Shanxi 710072, China)
Abstract:Nowadays, enterprises need data integration in a level of semantic. To solve the problem of heterogeneous database semantic integration, a semantic modeldriven approach is proposed, and a semantic modeldriven application framework is implemented. This thesis discusses the dataattribute matching technology, which plays a role in the framework. This technology is used in the precondition that a semantic model is already exist, through providing mapping method, to guide the process of mapping heterogeneous data to exist model.
Key words:Semantic Model; Heterogeneous Database; Mapping Relation; Attribute Matching
企業(yè)在實(shí)施信息化技術(shù)的發(fā)展過程中積累了大量的設(shè)計(jì)、制造和管理數(shù)據(jù),并為存儲、管理和使用這些數(shù)據(jù)不斷投資。隨著企業(yè)規(guī)模的不斷擴(kuò)大和技術(shù)改造的深入,新的應(yīng)用系統(tǒng)的構(gòu)建和實(shí)施往往需要訪問各種不同的數(shù)據(jù)源,因此企業(yè)異構(gòu)數(shù)據(jù)源集成已經(jīng)成為實(shí)施各種先進(jìn)制造模式和技術(shù)的先決條件,實(shí)現(xiàn)企業(yè)異構(gòu)數(shù)據(jù)源的集成與共享勢在必行。為企業(yè)開發(fā)面向異構(gòu)數(shù)據(jù)源集成的應(yīng)用所面臨的主要問題之一是對語義相關(guān)或異構(gòu)信息的辨別[1]。
利用Ontology驅(qū)動集成過程是近年來研究比較活躍的一種異構(gòu)數(shù)據(jù)源語義集成方式。一個(gè)領(lǐng)域Ontology是包含了該領(lǐng)域所有詞匯及其之間關(guān)系的概念模型。基于本體的語義匹配通過考察待匹配數(shù)據(jù)在Ontology中的關(guān)系來完成[2],基于Ontology的語義匹配技術(shù)高度依賴于Ontology建模及其維護(hù)。然而,對于國內(nèi)的數(shù)據(jù)集成環(huán)境來說,建立領(lǐng)域Ontology并實(shí)現(xiàn)其維護(hù)是一個(gè)耗資巨大并充滿危機(jī)的工作。在這種情況下,Ontology驅(qū)動方式的集成在某種程度上顯得過于學(xué)術(shù)化而不切實(shí)際。因此我們提出了一種基于知識的異構(gòu)數(shù)據(jù)語義集成機(jī)制,并構(gòu)建了一個(gè)以語義模型為核心的異構(gòu)數(shù)據(jù)源集成應(yīng)用框架[3]。該框架的一個(gè)顯著特點(diǎn)是采用了語義模型來代替Ontology作為知識表達(dá)媒介。數(shù)據(jù)屬性匹配技術(shù)利用語義模型中的知識進(jìn)行推理,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)到模型的映射是應(yīng)用框架的重要組成部分。
1 語義模型及其應(yīng)用框架
1.1 語義模型
在我們的研究中,語義模型被定義為通過模型作為媒介來實(shí)現(xiàn)數(shù)據(jù)語義關(guān)系的形式化描述的一種方式。
語義模型具有語義與模型兩方面的含義。所謂語義,從語義學(xué)角度來講,就是數(shù)據(jù)(符號)所代表的概念的含義以及這些含義之間的關(guān)系。在計(jì)算機(jī)領(lǐng)域,語義一般是指用戶對于那些用來描述現(xiàn)實(shí)世界的計(jì)算機(jī)表示的解釋,也就是用戶用來聯(lián)系計(jì)算機(jī)表示和現(xiàn)實(shí)世界的途徑。模型是將待研究的對象通過適當(dāng)?shù)倪^濾,用適當(dāng)?shù)谋憩F(xiàn)規(guī)則描繪出的抽象的概念集合,通過模型人們可以了解到所研究對象的本質(zhì),而且在形式上便于人們對其進(jìn)行分析和處理。為了便于建模和模型的通用性,我們采用Protégé[4]作為模型的可視化構(gòu)建工具,并以RDF(Resource Description Framework)和RDF Schema作為建模結(jié)果的最終表示方式[5]。在我們的工作中,語義模型的結(jié)構(gòu)如圖1所示。
語義模型是由對問題域進(jìn)行抽象所形成的類結(jié)構(gòu)樹和作用于類結(jié)構(gòu)樹上的語義關(guān)系、映射關(guān)系所組成。映射關(guān)系包括數(shù)據(jù)映射關(guān)系和屬性映射關(guān)系兩部分,稱之為兩級映射(參見第2.1節(jié))。數(shù)據(jù)映射關(guān)系指的是對模式提取器所提供的訪問異構(gòu)數(shù)據(jù)庫數(shù)據(jù)所必需的信息,通過映射規(guī)則轉(zhuǎn)換為模型可理解的形式并保存于模型中的過程,目的是實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的透明訪問;屬性映射關(guān)系則將數(shù)據(jù)映射實(shí)體與類結(jié)構(gòu)樹建立聯(lián)系,是實(shí)現(xiàn)模型良好的可擴(kuò)
展性的關(guān)鍵。語義關(guān)系指的是數(shù)據(jù)映射實(shí)體之間的語義關(guān)聯(lián)性,目的是保證模型的語義協(xié)調(diào)能力。
1.2 語義模型應(yīng)用框架
語義模型應(yīng)用框架如圖2所示。語義模型在集成應(yīng)用框架中可以看作是一個(gè)在語義層面上的數(shù)據(jù)協(xié)調(diào)器。在語義模型部署及外部應(yīng)用獲得應(yīng)用請求之后,首先通過模型訪問接口對類結(jié)構(gòu)樹進(jìn)行遍歷并得到所關(guān)心的樹節(jié)點(diǎn)信息;然后由模式提取器提供數(shù)據(jù)映射關(guān)系,再建立屬性映射關(guān)系,同時(shí)對其所涉及的語義關(guān)系進(jìn)行解析,進(jìn)而獲得分布于異構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)信息;最后返還給應(yīng)用的是語義一致的數(shù)據(jù)結(jié)果集。
在語義模型應(yīng)用框架中,異構(gòu)數(shù)據(jù)的集成是以一種語義模型驅(qū)動方式進(jìn)行的,其顯著特點(diǎn)就是語義模型先于模型與數(shù)據(jù)之間的映射而存在,數(shù)據(jù)到模型的映射依據(jù)已有語義模型中的知識完成。
2 數(shù)據(jù)屬性匹配
2.1 語義模型的雙層映射機(jī)制
定義1 數(shù)據(jù)映射關(guān)系。對于問題域內(nèi)的任一個(gè)數(shù)據(jù)庫字段ATTi,模型中存在唯一對應(yīng)的元素Oi,通過映射規(guī)則X,使得Oi =X(ATTi),稱該關(guān)系式為從ATTi到Oi的數(shù)據(jù)映射關(guān)系,Oi稱為一個(gè)數(shù)據(jù)映射實(shí)體。
為了使得數(shù)據(jù)映射實(shí)體能夠唯一標(biāo)志一個(gè)數(shù)據(jù)庫中的字段,在語義模型中,數(shù)據(jù)映射實(shí)體必須具有表示數(shù)據(jù)庫IP、數(shù)據(jù)庫名稱、數(shù)據(jù)庫類型表的名稱和字段名稱等信息的屬性。為了使數(shù)據(jù)映射實(shí)體能夠反映其所代表的數(shù)據(jù)庫字段的特征,我們從數(shù)據(jù)模式和數(shù)據(jù)內(nèi)容兩方面考慮。在數(shù)據(jù)模式方面,一個(gè)字段具有以下屬性:主鍵、外建、可否空、數(shù)據(jù)類型、數(shù)據(jù)長度和唯一性約束。在數(shù)據(jù)內(nèi)容方面,需要關(guān)心的主要是數(shù)據(jù)的平均值、最大值、最小值和均方差。在語義模型中,數(shù)據(jù)映射實(shí)體包含以上所有信息。
為了便于分析,我們在研究中將數(shù)據(jù)映射實(shí)體轉(zhuǎn)換為向量。對于數(shù)據(jù)映射實(shí)體o,記由o轉(zhuǎn)換得到的向量為V(o)。在數(shù)據(jù)映射實(shí)體的屬性中,數(shù)據(jù)庫IP、數(shù)據(jù)庫名稱、數(shù)據(jù)庫類型表的名稱和字段名稱是定位數(shù)據(jù)庫字段的信息,并不描述該字段自身的特征。如果在兩個(gè)數(shù)據(jù)映射實(shí)體中除這些定位信息外,其他特征均相同,則稱兩個(gè)數(shù)據(jù)映射實(shí)體相似,記作o;d。
定義2 屬性映射關(guān)系。對于模型中的任一個(gè)類屬性Ci,存在映射方法X使得Ci=X(O1,O2,…,On),On為數(shù)據(jù)映射關(guān)系,稱該關(guān)系式為從(O1,O2,…, On)到Ci的屬性映射關(guān)系,Ci稱為一個(gè)屬性映射實(shí)體。相應(yīng)地,對于一個(gè)數(shù)據(jù)映射實(shí)體o,如果存在一個(gè)類屬性c和映射方法Y,使得o=Y(c),則稱關(guān)系式Y(jié)為從c到o的映射關(guān)系。
在語義模型中,為了使類屬性能夠表示與其關(guān)聯(lián)的數(shù)據(jù)映射實(shí)體的特征信息,類屬性本身具有數(shù)據(jù)類型、數(shù)據(jù)長度、可否空、最大值、最小值等屬性。為了便于分析,我們將所有滿足類屬性描述的特征數(shù)據(jù)映射實(shí)體的集合抽象為空間,并將其稱作類屬性c所抽象出來的空間,記作S(c);如果數(shù)據(jù)映射實(shí)體o的屬性與類屬性c所描述的特征一致,則稱實(shí)體o的向量V(c)屬于類屬性c所抽象出的空間S(c),并記作V(o)∈S(c)。
2.2 數(shù)據(jù)屬性匹配規(guī)則
數(shù)據(jù)屬性匹配是根據(jù)已有語義模型中的信息,自動建立數(shù)據(jù)映射到模型類屬性的屬性映射關(guān)系的過程。根據(jù)語義模型的結(jié)構(gòu)特點(diǎn),基于前面的定義和約定,提出建立數(shù)據(jù)屬性匹配的規(guī)則如下。
對于已有的語義模型M,設(shè)其屬性集為C={c1,c2,…,cn},已建立與模型類屬性映射關(guān)系的數(shù)據(jù)映射實(shí)體集為O={o1,o2,…,om},未建立屬性映射關(guān)系的數(shù)據(jù)映射實(shí)體集為D={d1,d2,…,dk},則屬性映射建立規(guī)則可表述為:
(1)對于任意一個(gè)d∈D,如果o∈O,滿足o;d且存在c∈C和映射關(guān)系o=Y(c),那么建立映射d=Y′(c),并修改映射關(guān)系Ci=X(o1,o2,…,on)為Ci=C′i=X′(o1,o2,…,on,d)。
(2)對于不能由規(guī)則a所確定的d∈D,如果存在并唯一存在c∈C,使得V(d)∈S(c),那么建立c到d的映射,并修改映射關(guān)系Ci=X(o1,o2,…,on)為Ci=C′i=X′(o1,o2,…,on,d)。
(3)對于不能由條件a和b確定的d∈D,如果c∈C,且模型中有n個(gè)數(shù)據(jù)映射實(shí)體建立了映射關(guān)系c=X(o1,o2,…,on),使得對于c′∈C且c≠c′,同時(shí)模型中有m個(gè)數(shù)據(jù)映射實(shí)體建立了映射關(guān)系c′=X(o′1,o′2,…,o′m),均有1n∑ni=1|V(d)-V(oi)|<1m∑mi=1|V(d)-V(o′i)|成立,則建立c到d的映射d=Y(c),并修改映射關(guān)系Ci=X(o1,o2,…,on)為Ci=C′i=X′(o1,o2,…,on,d)。
(4)對于不能由上述條件確定屬性映射關(guān)系的d∈D,不對其建立屬性映射關(guān)系,并將其保留在模型中。
根據(jù)上述規(guī)則,大部分新的數(shù)據(jù)映射實(shí)體能夠建立到屬性實(shí)體的映射,大大減輕了建模人員的工作量。建立屬性映射關(guān)系后,語義模型驅(qū)動的異構(gòu)數(shù)據(jù)集成應(yīng)用框架就能根據(jù)屬性映射關(guān)系和數(shù)據(jù)映射關(guān)系返回給外部應(yīng)用語義一致的數(shù)據(jù)集。
3 結(jié)論
在基于語義與模型的企業(yè)異構(gòu)數(shù)據(jù)源集成關(guān)鍵算法與實(shí)現(xiàn)技術(shù)中,我們實(shí)現(xiàn)了一個(gè)語義模型驅(qū)動的異構(gòu)數(shù)據(jù)源集成原型系統(tǒng)。根據(jù)本文介紹的技術(shù)所實(shí)現(xiàn)的數(shù)據(jù)屬性匹配模塊在其中工作良好,但該技術(shù)未能將自動建立屬性映射關(guān)系的數(shù)據(jù)映射實(shí)體保留在模型中,還需留待建模人員人工處理。項(xiàng)目已于2005年3月通過驗(yàn)收。經(jīng)過測試,我們認(rèn)為該技術(shù)的主要優(yōu)點(diǎn)在于:①使得語義模型應(yīng)用框架可以支持一種邊建模、邊集成、邊調(diào)整的遞增集成機(jī)制;②建立好的語義模型能夠用于其他的數(shù)據(jù)集成場景下,從而實(shí)現(xiàn)模型的重用和共享;③與我們先前采用的神經(jīng)網(wǎng)絡(luò)聚類等方法相比,本方法效率和準(zhǔn)確度更高。
參考文獻(xiàn):
[1]Sonia Bergamaschi, Silvana Castano, Maurizio Vincini, et al. Semantic Integration of Heterogeneous Information Sources[J]. Data Knowledge Engineering, 2001,36(3):215-249.
[2]Paulo Gottgtroy, Nik Kasabov, Stephen MacDonell. An Ontology Driven Approach for Knowledge Discovery in Biomedicine[C]. Auckland, New Zealand: Proceedings of the VIII Pacific Rim International Conferences on Artificial Intelligence(PRICAI), 2004.
[3]T Adams, J Dullea, P Clark, et al. Semantic Integration of Heterogeneous Information Sources Using a Knowledgebased System[C]. Atlantic City, USA: Proceedings of the 5th International Conference on Computer Science and Informatics, 2000.
[4]N Fridman Noy, R Fergerson, M Musen. The Knowledge Model of Protege 2000: Combining Interoperability and Flexibility[C]. Proceedings of EKAW 2000, LNCS 1937, Springer, 2000.17-32.
[5]R Vdovjak, G J Houben. RDFbased Architecture for Semantic Integration of Heterogeneous Information Sources[M].International Workshop on Information Integration on the Web, 2001.51-57.
作者簡介:
王克飛(1981-),男,河北人,碩士研究生,研究方向?yàn)槠髽I(yè)信息集成、Semantic Web;張樹生(1956-),男,山東人,教授,博導(dǎo),博士;周競濤(1975-),男,遼寧人,博士研究生,研究方向?yàn)槠髽I(yè)集成、語義網(wǎng)格、中間件技術(shù);趙寒(1980-),男,河南人,博士研究生,研究方向?yàn)檎Z義網(wǎng)格、企業(yè)信息化。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文