999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義模型驅(qū)動的數(shù)據(jù)屬性匹配技術(shù)研究

2006-12-31 00:00:00王克飛張樹生周競濤
計(jì)算機(jī)應(yīng)用研究 2006年10期

摘 要:目前,企業(yè)對數(shù)據(jù)集成的要求逐漸上升到語義層面。針對數(shù)據(jù)語義上的異構(gòu)問題,提出了一種語義模型驅(qū)動的集成方式,并實(shí)現(xiàn)了語義模型應(yīng)用框架;討論了框架中語義模型驅(qū)動的數(shù)據(jù)屬性匹配技術(shù),該技術(shù)用于在語義模型已存在的前提下,通過提供映射的方法實(shí)現(xiàn)異構(gòu)數(shù)據(jù)到已有模型的映射。

關(guān)鍵詞:語義模型; 異構(gòu)數(shù)據(jù)源; 映射關(guān)系; 屬性匹配

中圖法分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1001-3695(2006)10-0039-02

Semantic Model Driven Approach for Dataattribute Matching

WANG Kefei, ZHANG Shusheng, ZHOU Jingtao, ZHAO Han

(Key Laboratory of Contemporary Design Integrated Manufacturing Technology of Education Ministry, Northwestern Polytechnical University, Xi’an Shanxi 710072, China)

Abstract:Nowadays, enterprises need data integration in a level of semantic. To solve the problem of heterogeneous database semantic integration, a semantic modeldriven approach is proposed, and a semantic modeldriven application framework is implemented. This thesis discusses the dataattribute matching technology, which plays a role in the framework. This technology is used in the precondition that a semantic model is already exist, through providing mapping method, to guide the process of mapping heterogeneous data to exist model.

Key words:Semantic Model; Heterogeneous Database; Mapping Relation; Attribute Matching

企業(yè)在實(shí)施信息化技術(shù)的發(fā)展過程中積累了大量的設(shè)計(jì)、制造和管理數(shù)據(jù),并為存儲、管理和使用這些數(shù)據(jù)不斷投資。隨著企業(yè)規(guī)模的不斷擴(kuò)大和技術(shù)改造的深入,新的應(yīng)用系統(tǒng)的構(gòu)建和實(shí)施往往需要訪問各種不同的數(shù)據(jù)源,因此企業(yè)異構(gòu)數(shù)據(jù)源集成已經(jīng)成為實(shí)施各種先進(jìn)制造模式和技術(shù)的先決條件,實(shí)現(xiàn)企業(yè)異構(gòu)數(shù)據(jù)源的集成與共享勢在必行。為企業(yè)開發(fā)面向異構(gòu)數(shù)據(jù)源集成的應(yīng)用所面臨的主要問題之一是對語義相關(guān)或異構(gòu)信息的辨別[1]。

利用Ontology驅(qū)動集成過程是近年來研究比較活躍的一種異構(gòu)數(shù)據(jù)源語義集成方式。一個(gè)領(lǐng)域Ontology是包含了該領(lǐng)域所有詞匯及其之間關(guān)系的概念模型。基于本體的語義匹配通過考察待匹配數(shù)據(jù)在Ontology中的關(guān)系來完成[2],基于Ontology的語義匹配技術(shù)高度依賴于Ontology建模及其維護(hù)。然而,對于國內(nèi)的數(shù)據(jù)集成環(huán)境來說,建立領(lǐng)域Ontology并實(shí)現(xiàn)其維護(hù)是一個(gè)耗資巨大并充滿危機(jī)的工作。在這種情況下,Ontology驅(qū)動方式的集成在某種程度上顯得過于學(xué)術(shù)化而不切實(shí)際。因此我們提出了一種基于知識的異構(gòu)數(shù)據(jù)語義集成機(jī)制,并構(gòu)建了一個(gè)以語義模型為核心的異構(gòu)數(shù)據(jù)源集成應(yīng)用框架[3]。該框架的一個(gè)顯著特點(diǎn)是采用了語義模型來代替Ontology作為知識表達(dá)媒介。數(shù)據(jù)屬性匹配技術(shù)利用語義模型中的知識進(jìn)行推理,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)到模型的映射是應(yīng)用框架的重要組成部分。

1 語義模型及其應(yīng)用框架

1.1 語義模型

在我們的研究中,語義模型被定義為通過模型作為媒介來實(shí)現(xiàn)數(shù)據(jù)語義關(guān)系的形式化描述的一種方式。

語義模型具有語義與模型兩方面的含義。所謂語義,從語義學(xué)角度來講,就是數(shù)據(jù)(符號)所代表的概念的含義以及這些含義之間的關(guān)系。在計(jì)算機(jī)領(lǐng)域,語義一般是指用戶對于那些用來描述現(xiàn)實(shí)世界的計(jì)算機(jī)表示的解釋,也就是用戶用來聯(lián)系計(jì)算機(jī)表示和現(xiàn)實(shí)世界的途徑。模型是將待研究的對象通過適當(dāng)?shù)倪^濾,用適當(dāng)?shù)谋憩F(xiàn)規(guī)則描繪出的抽象的概念集合,通過模型人們可以了解到所研究對象的本質(zhì),而且在形式上便于人們對其進(jìn)行分析和處理。為了便于建模和模型的通用性,我們采用Protégé[4]作為模型的可視化構(gòu)建工具,并以RDF(Resource Description Framework)和RDF Schema作為建模結(jié)果的最終表示方式[5]。在我們的工作中,語義模型的結(jié)構(gòu)如圖1所示。

語義模型是由對問題域進(jìn)行抽象所形成的類結(jié)構(gòu)樹和作用于類結(jié)構(gòu)樹上的語義關(guān)系、映射關(guān)系所組成。映射關(guān)系包括數(shù)據(jù)映射關(guān)系和屬性映射關(guān)系兩部分,稱之為兩級映射(參見第2.1節(jié))。數(shù)據(jù)映射關(guān)系指的是對模式提取器所提供的訪問異構(gòu)數(shù)據(jù)庫數(shù)據(jù)所必需的信息,通過映射規(guī)則轉(zhuǎn)換為模型可理解的形式并保存于模型中的過程,目的是實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的透明訪問;屬性映射關(guān)系則將數(shù)據(jù)映射實(shí)體與類結(jié)構(gòu)樹建立聯(lián)系,是實(shí)現(xiàn)模型良好的可擴(kuò)

展性的關(guān)鍵。語義關(guān)系指的是數(shù)據(jù)映射實(shí)體之間的語義關(guān)聯(lián)性,目的是保證模型的語義協(xié)調(diào)能力。

1.2 語義模型應(yīng)用框架

語義模型應(yīng)用框架如圖2所示。語義模型在集成應(yīng)用框架中可以看作是一個(gè)在語義層面上的數(shù)據(jù)協(xié)調(diào)器。在語義模型部署及外部應(yīng)用獲得應(yīng)用請求之后,首先通過模型訪問接口對類結(jié)構(gòu)樹進(jìn)行遍歷并得到所關(guān)心的樹節(jié)點(diǎn)信息;然后由模式提取器提供數(shù)據(jù)映射關(guān)系,再建立屬性映射關(guān)系,同時(shí)對其所涉及的語義關(guān)系進(jìn)行解析,進(jìn)而獲得分布于異構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)信息;最后返還給應(yīng)用的是語義一致的數(shù)據(jù)結(jié)果集。

在語義模型應(yīng)用框架中,異構(gòu)數(shù)據(jù)的集成是以一種語義模型驅(qū)動方式進(jìn)行的,其顯著特點(diǎn)就是語義模型先于模型與數(shù)據(jù)之間的映射而存在,數(shù)據(jù)到模型的映射依據(jù)已有語義模型中的知識完成。

2 數(shù)據(jù)屬性匹配

2.1 語義模型的雙層映射機(jī)制

定義1 數(shù)據(jù)映射關(guān)系。對于問題域內(nèi)的任一個(gè)數(shù)據(jù)庫字段ATTi,模型中存在唯一對應(yīng)的元素Oi,通過映射規(guī)則X,使得Oi =X(ATTi),稱該關(guān)系式為從ATTi到Oi的數(shù)據(jù)映射關(guān)系,Oi稱為一個(gè)數(shù)據(jù)映射實(shí)體。

為了使得數(shù)據(jù)映射實(shí)體能夠唯一標(biāo)志一個(gè)數(shù)據(jù)庫中的字段,在語義模型中,數(shù)據(jù)映射實(shí)體必須具有表示數(shù)據(jù)庫IP、數(shù)據(jù)庫名稱、數(shù)據(jù)庫類型表的名稱和字段名稱等信息的屬性。為了使數(shù)據(jù)映射實(shí)體能夠反映其所代表的數(shù)據(jù)庫字段的特征,我們從數(shù)據(jù)模式和數(shù)據(jù)內(nèi)容兩方面考慮。在數(shù)據(jù)模式方面,一個(gè)字段具有以下屬性:主鍵、外建、可否空、數(shù)據(jù)類型、數(shù)據(jù)長度和唯一性約束。在數(shù)據(jù)內(nèi)容方面,需要關(guān)心的主要是數(shù)據(jù)的平均值、最大值、最小值和均方差。在語義模型中,數(shù)據(jù)映射實(shí)體包含以上所有信息。

為了便于分析,我們在研究中將數(shù)據(jù)映射實(shí)體轉(zhuǎn)換為向量。對于數(shù)據(jù)映射實(shí)體o,記由o轉(zhuǎn)換得到的向量為V(o)。在數(shù)據(jù)映射實(shí)體的屬性中,數(shù)據(jù)庫IP、數(shù)據(jù)庫名稱、數(shù)據(jù)庫類型表的名稱和字段名稱是定位數(shù)據(jù)庫字段的信息,并不描述該字段自身的特征。如果在兩個(gè)數(shù)據(jù)映射實(shí)體中除這些定位信息外,其他特征均相同,則稱兩個(gè)數(shù)據(jù)映射實(shí)體相似,記作o;d。

定義2 屬性映射關(guān)系。對于模型中的任一個(gè)類屬性Ci,存在映射方法X使得Ci=X(O1,O2,…,On),On為數(shù)據(jù)映射關(guān)系,稱該關(guān)系式為從(O1,O2,…, On)到Ci的屬性映射關(guān)系,Ci稱為一個(gè)屬性映射實(shí)體。相應(yīng)地,對于一個(gè)數(shù)據(jù)映射實(shí)體o,如果存在一個(gè)類屬性c和映射方法Y,使得o=Y(c),則稱關(guān)系式Y(jié)為從c到o的映射關(guān)系。

在語義模型中,為了使類屬性能夠表示與其關(guān)聯(lián)的數(shù)據(jù)映射實(shí)體的特征信息,類屬性本身具有數(shù)據(jù)類型、數(shù)據(jù)長度、可否空、最大值、最小值等屬性。為了便于分析,我們將所有滿足類屬性描述的特征數(shù)據(jù)映射實(shí)體的集合抽象為空間,并將其稱作類屬性c所抽象出來的空間,記作S(c);如果數(shù)據(jù)映射實(shí)體o的屬性與類屬性c所描述的特征一致,則稱實(shí)體o的向量V(c)屬于類屬性c所抽象出的空間S(c),并記作V(o)∈S(c)。

2.2 數(shù)據(jù)屬性匹配規(guī)則

數(shù)據(jù)屬性匹配是根據(jù)已有語義模型中的信息,自動建立數(shù)據(jù)映射到模型類屬性的屬性映射關(guān)系的過程。根據(jù)語義模型的結(jié)構(gòu)特點(diǎn),基于前面的定義和約定,提出建立數(shù)據(jù)屬性匹配的規(guī)則如下。

對于已有的語義模型M,設(shè)其屬性集為C={c1,c2,…,cn},已建立與模型類屬性映射關(guān)系的數(shù)據(jù)映射實(shí)體集為O={o1,o2,…,om},未建立屬性映射關(guān)系的數(shù)據(jù)映射實(shí)體集為D={d1,d2,…,dk},則屬性映射建立規(guī)則可表述為:

(1)對于任意一個(gè)d∈D,如果o∈O,滿足o;d且存在c∈C和映射關(guān)系o=Y(c),那么建立映射d=Y′(c),并修改映射關(guān)系Ci=X(o1,o2,…,on)為Ci=C′i=X′(o1,o2,…,on,d)。

(2)對于不能由規(guī)則a所確定的d∈D,如果存在并唯一存在c∈C,使得V(d)∈S(c),那么建立c到d的映射,并修改映射關(guān)系Ci=X(o1,o2,…,on)為Ci=C′i=X′(o1,o2,…,on,d)。

(3)對于不能由條件a和b確定的d∈D,如果c∈C,且模型中有n個(gè)數(shù)據(jù)映射實(shí)體建立了映射關(guān)系c=X(o1,o2,…,on),使得對于c′∈C且c≠c′,同時(shí)模型中有m個(gè)數(shù)據(jù)映射實(shí)體建立了映射關(guān)系c′=X(o′1,o′2,…,o′m),均有1n∑ni=1|V(d)-V(oi)|<1m∑mi=1|V(d)-V(o′i)|成立,則建立c到d的映射d=Y(c),并修改映射關(guān)系Ci=X(o1,o2,…,on)為Ci=C′i=X′(o1,o2,…,on,d)。

(4)對于不能由上述條件確定屬性映射關(guān)系的d∈D,不對其建立屬性映射關(guān)系,并將其保留在模型中。

根據(jù)上述規(guī)則,大部分新的數(shù)據(jù)映射實(shí)體能夠建立到屬性實(shí)體的映射,大大減輕了建模人員的工作量。建立屬性映射關(guān)系后,語義模型驅(qū)動的異構(gòu)數(shù)據(jù)集成應(yīng)用框架就能根據(jù)屬性映射關(guān)系和數(shù)據(jù)映射關(guān)系返回給外部應(yīng)用語義一致的數(shù)據(jù)集。

3 結(jié)論

在基于語義與模型的企業(yè)異構(gòu)數(shù)據(jù)源集成關(guān)鍵算法與實(shí)現(xiàn)技術(shù)中,我們實(shí)現(xiàn)了一個(gè)語義模型驅(qū)動的異構(gòu)數(shù)據(jù)源集成原型系統(tǒng)。根據(jù)本文介紹的技術(shù)所實(shí)現(xiàn)的數(shù)據(jù)屬性匹配模塊在其中工作良好,但該技術(shù)未能將自動建立屬性映射關(guān)系的數(shù)據(jù)映射實(shí)體保留在模型中,還需留待建模人員人工處理。項(xiàng)目已于2005年3月通過驗(yàn)收。經(jīng)過測試,我們認(rèn)為該技術(shù)的主要優(yōu)點(diǎn)在于:①使得語義模型應(yīng)用框架可以支持一種邊建模、邊集成、邊調(diào)整的遞增集成機(jī)制;②建立好的語義模型能夠用于其他的數(shù)據(jù)集成場景下,從而實(shí)現(xiàn)模型的重用和共享;③與我們先前采用的神經(jīng)網(wǎng)絡(luò)聚類等方法相比,本方法效率和準(zhǔn)確度更高。

參考文獻(xiàn):

[1]Sonia Bergamaschi, Silvana Castano, Maurizio Vincini, et al. Semantic Integration of Heterogeneous Information Sources[J]. Data Knowledge Engineering, 2001,36(3):215-249.

[2]Paulo Gottgtroy, Nik Kasabov, Stephen MacDonell. An Ontology Driven Approach for Knowledge Discovery in Biomedicine[C]. Auckland, New Zealand: Proceedings of the VIII Pacific Rim International Conferences on Artificial Intelligence(PRICAI), 2004.

[3]T Adams, J Dullea, P Clark, et al. Semantic Integration of Heterogeneous Information Sources Using a Knowledgebased System[C]. Atlantic City, USA: Proceedings of the 5th International Conference on Computer Science and Informatics, 2000.

[4]N Fridman Noy, R Fergerson, M Musen. The Knowledge Model of Protege 2000: Combining Interoperability and Flexibility[C]. Proceedings of EKAW 2000, LNCS 1937, Springer, 2000.17-32.

[5]R Vdovjak, G J Houben. RDFbased Architecture for Semantic Integration of Heterogeneous Information Sources[M].International Workshop on Information Integration on the Web, 2001.51-57.

作者簡介:

王克飛(1981-),男,河北人,碩士研究生,研究方向?yàn)槠髽I(yè)信息集成、Semantic Web;張樹生(1956-),男,山東人,教授,博導(dǎo),博士;周競濤(1975-),男,遼寧人,博士研究生,研究方向?yàn)槠髽I(yè)集成、語義網(wǎng)格、中間件技術(shù);趙寒(1980-),男,河南人,博士研究生,研究方向?yàn)檎Z義網(wǎng)格、企業(yè)信息化。

注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文

主站蜘蛛池模板: 中文字幕调教一区二区视频| 黄色在线网| 久久综合激情网| 亚洲欧美日韩成人在线| 日韩免费毛片| 久久香蕉国产线看观看式| a毛片在线免费观看| 青青热久免费精品视频6| 在线日韩日本国产亚洲| 永久成人无码激情视频免费| 99精品伊人久久久大香线蕉| 成人免费视频一区二区三区 | 亚洲国产精品无码AV| 国产综合日韩另类一区二区| 日韩a在线观看免费观看| 四虎影视永久在线精品| 国产丝袜一区二区三区视频免下载| 人妻免费无码不卡视频| 亚洲综合婷婷激情| 一本综合久久| 成年人国产网站| 精品无码一区二区三区电影| 麻豆精品久久久久久久99蜜桃| 四虎永久在线精品国产免费| 91成人在线观看| 多人乱p欧美在线观看| 最新亚洲人成网站在线观看| 波多野结衣一区二区三区AV| 中文字幕 91| 91国内视频在线观看| 91欧美在线| 狠狠做深爱婷婷综合一区| 成人亚洲视频| 国产91av在线| 一级毛片中文字幕| 国产一级裸网站| 久久99热66这里只有精品一| 又粗又大又爽又紧免费视频| 亚洲一级毛片在线观| 色精品视频| 亚洲av日韩av制服丝袜| 国产爽妇精品| a级毛片在线免费| 亚洲国产中文综合专区在| 日韩少妇激情一区二区| 久久黄色一级视频| 真人高潮娇喘嗯啊在线观看| 亚洲视频三级| 夜夜高潮夜夜爽国产伦精品| 亚洲人人视频| 亚洲第一成年网| 色欲色欲久久综合网| 无码丝袜人妻| 97se亚洲综合在线天天| 亚洲欧美人成电影在线观看| 老司国产精品视频| 日韩 欧美 国产 精品 综合| 亚洲欧美日韩天堂| 久久性视频| 在线免费观看AV| 国产丝袜一区二区三区视频免下载| 91免费国产在线观看尤物| 91www在线观看| 国产视频自拍一区| 亚洲永久色| 成人在线亚洲| 一级片一区| 亚洲精品视频在线观看视频| 小13箩利洗澡无码视频免费网站| 韩国v欧美v亚洲v日本v| 国产九九精品视频| 亚洲精品午夜无码电影网| 日韩天堂视频| 欧美色99| 国产小视频网站| 91色老久久精品偷偷蜜臀| 黄色三级网站免费| 91人妻日韩人妻无码专区精品| 国产Av无码精品色午夜| 日韩成人午夜| 一级黄色欧美| 高清无码不卡视频|