信息集成數(shù)據(jù)模型研究

2008-01-01 00:00:00符寧周興社詹濤

計(jì)算機(jī)應(yīng)用研究 2008年5期

摘要：信息集成是指將多個(gè)信息源進(jìn)行整合，為用戶提供一個(gè)統(tǒng)一訪問這些信息的接口或數(shù)據(jù)視圖。公共數(shù)據(jù)模型是設(shè)計(jì)信息集成系統(tǒng)的基本出發(fā)點(diǎn)，從分類的角度對(duì)信息集成公共數(shù)據(jù)模型進(jìn)行研究。對(duì)各種數(shù)據(jù)模型的特點(diǎn)、描述能力、應(yīng)用領(lǐng)域以及發(fā)展現(xiàn)狀作了分析和比較。

關(guān)鍵詞：信息集成；數(shù)據(jù)模型；信息集成系統(tǒng)

中圖分類號(hào)：TP311文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695(2008)05-1285-03

信息集成是指將多個(gè)信息源集成為一個(gè)信息系統(tǒng)，為用戶提供一個(gè)統(tǒng)一的訪問這些信息的接口或數(shù)據(jù)視圖 [1]。在信息集成系統(tǒng)中，公共數(shù)據(jù)模型是解決各信息源不同數(shù)據(jù)模式之間異構(gòu)性的基礎(chǔ)。設(shè)計(jì)一個(gè)信息集成系統(tǒng)的首要問題就是選擇或者設(shè)計(jì)一個(gè)適合的公用數(shù)據(jù)模型。數(shù)據(jù)模型包括數(shù)據(jù)的靜態(tài)描述、數(shù)據(jù)支持的操作和數(shù)據(jù)之間的約束三方面的內(nèi)容。信息集成系統(tǒng)中的成員系統(tǒng)具有已存性、自治性、分布性和異構(gòu)性的特點(diǎn)[1]。為了解決各個(gè)成員系統(tǒng)的數(shù)據(jù)模式具有異構(gòu)性，研究者提出了各種各樣用于信息集成的數(shù)據(jù)模型。

1關(guān)系數(shù)據(jù)模型及擴(kuò)展

關(guān)系數(shù)據(jù)模型的基本概念是元組和數(shù)據(jù)表，表可以看成是元組的集合。關(guān)系數(shù)據(jù)模型支持關(guān)系代數(shù)操作，支持參照實(shí)體完整性約束、參照完整性約束和域約束，用戶使用SQL語言來訪問關(guān)系數(shù)據(jù)模型[2] 。關(guān)系數(shù)據(jù)模型有著堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ)，概念簡(jiǎn)單，得到了廣泛的應(yīng)用。1980年前后，一些早期的信息集成系統(tǒng)開始采用關(guān)系數(shù)據(jù)模型來集成多個(gè)數(shù)據(jù)庫[3]。

典型的采用關(guān)系數(shù)據(jù)模型的信息集成系統(tǒng)是美國(guó)密歇根—迪爾伯恩大學(xué)的CORDS[4]，該系統(tǒng)實(shí)現(xiàn)了對(duì)多個(gè)異構(gòu)關(guān)系數(shù)據(jù)庫的集成。在此基礎(chǔ)上，該項(xiàng)目組對(duì)多數(shù)據(jù)庫系統(tǒng)查詢處理特別是查詢優(yōu)化作了較多的研究，提出了查詢采樣、查詢探測(cè)、模糊查詢等技術(shù)對(duì)全局查詢進(jìn)行優(yōu)化，還提出了衰減代價(jià)評(píng)估模型以實(shí)現(xiàn)對(duì)全局查詢的優(yōu)化。中國(guó)科學(xué)院軟件研究所設(shè)計(jì)的IS－Global采用的也是關(guān)系數(shù)據(jù)模型。

采用關(guān)系數(shù)據(jù)模型作為信息集成系統(tǒng)的公共數(shù)據(jù)模型的優(yōu)點(diǎn)在于：

a)關(guān)系數(shù)據(jù)模型概念簡(jiǎn)單并且有著廣泛的應(yīng)用背景，采用關(guān)系數(shù)據(jù)模型作為公共數(shù)據(jù)模型易于被用戶理解和接受。

b)關(guān)系數(shù)據(jù)模型有著堅(jiān)實(shí)的理論基礎(chǔ)，形成了完整的理論體系。這些豐富的理論知識(shí)能夠指導(dǎo)研究者采用關(guān)系數(shù)據(jù)模型的信息集成作深入研究。

c)關(guān)系型數(shù)據(jù)庫有著廣泛的應(yīng)用，采用關(guān)系數(shù)據(jù)模型特別適合對(duì)遺留系統(tǒng)的關(guān)系型數(shù)據(jù)進(jìn)行集成，全局模式和局部模式之間的映射和轉(zhuǎn)換比較容易。

人們就基于關(guān)系數(shù)據(jù)模型的數(shù)據(jù)集成作了很多的研究工作并取得了豐富的成果。例如，采用形式化的方法來描述數(shù)據(jù)集成；在LAV方法中引入一個(gè)虛擬的全局模式，將各個(gè)信息源視為物化了的查詢，在理論上將用戶基于全局模式的查詢轉(zhuǎn)換為基于視圖來回答查詢的問題[5]；論證了基于視圖的查詢回答問題是NP完全問題[6]等。

采用關(guān)系數(shù)據(jù)模型作為信息集成系統(tǒng)的公共數(shù)據(jù)模型雖然具有上述優(yōu)點(diǎn)，但是關(guān)系數(shù)據(jù)模型的描述能力有限、語義信息不豐富。并不是所有的信息都可以描述成數(shù)據(jù)表的形式，如果集成系統(tǒng)的成員數(shù)據(jù)模型還包括非關(guān)系模型，就必須對(duì)關(guān)系模型進(jìn)行擴(kuò)展。為了能夠集成更多類型的信息系統(tǒng)，一些研究者采用擴(kuò)展的關(guān)系數(shù)據(jù)模型來設(shè)計(jì)信息集成系統(tǒng)。

采用擴(kuò)展關(guān)系數(shù)據(jù)模型的信息集成系統(tǒng)的典型代表是ATT Bell實(shí)驗(yàn)室的Information Manifold。該系統(tǒng)的目標(biāo)是對(duì)WWW上的結(jié)構(gòu)化信息源進(jìn)行集成[7] 。該系統(tǒng)中存在一個(gè)虛擬的全局模式，信息源的內(nèi)容被描述成基于全局模式的查詢，信息源的查詢能力采用五元組的形式來描述。該系統(tǒng)采用的數(shù)據(jù)模式是在關(guān)系模型的基礎(chǔ)上作了面向?qū)ο蟮臄U(kuò)展，引入了類和類的繼承層次架構(gòu)，類在實(shí)現(xiàn)時(shí)用多個(gè)數(shù)據(jù)表來描述。這種擴(kuò)充增強(qiáng)了數(shù)據(jù)模型的描述能力，使得系統(tǒng)的全局模式具有較好的穩(wěn)定性，當(dāng)新的信息源加入后不需要對(duì)全局模式頻繁地修改和擴(kuò)充。Manifold系統(tǒng)采用該數(shù)據(jù)模型實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)的幾百個(gè)信息源的集成，并且得到了較好的實(shí)驗(yàn)效果。

擴(kuò)展的關(guān)系模型在關(guān)系模型中加入了面向?qū)ο蟮乃枷耄枋瞿芰Φ玫搅藬U(kuò)充，但是仍然具有很多局限性。擴(kuò)展關(guān)系模型在對(duì)于復(fù)雜數(shù)據(jù)的描述和對(duì)于數(shù)據(jù)間聯(lián)系的表現(xiàn)力上不盡如人意。為了增強(qiáng)公共數(shù)據(jù)模型的描述能力，適應(yīng)信息源多樣性的特點(diǎn)，集成各種類型的信息源，研究人員開始采用面向?qū)ο蟮臄?shù)據(jù)模型來進(jìn)行信息集成[8] 。

2面向?qū)ο髷?shù)據(jù)模型

面向?qū)ο髷?shù)據(jù)模型的基本概念是對(duì)象。對(duì)象是由一組數(shù)據(jù)結(jié)構(gòu)和在其上定義的操作封裝而成。每個(gè)對(duì)象在全局范圍內(nèi)有一個(gè)惟一的對(duì)象標(biāo)志ID。類是對(duì)象的模板，類之間的關(guān)系包括泛化、特化和繼承。對(duì)象數(shù)據(jù)模型支持將簡(jiǎn)單對(duì)象進(jìn)行組合構(gòu)成復(fù)雜的對(duì)象[9] 。面向?qū)ο蟮臄?shù)據(jù)模型支持的約束包括對(duì)象約束和類約束，支持的操作是對(duì)象代數(shù)。一般來講，采用對(duì)象數(shù)據(jù)模型作為公共數(shù)據(jù)模型的信息集成系統(tǒng)都會(huì)支持一種類SQL語言的對(duì)象查詢語言。

典型的采用面向?qū)ο髷?shù)據(jù)模型作為公共數(shù)據(jù)模型的信息集成系統(tǒng)是惠普實(shí)驗(yàn)室數(shù)據(jù)庫技術(shù)部開發(fā)的Pegasus系統(tǒng)[8] ，它能集成本地和外部的多個(gè)自治數(shù)據(jù)庫。Pegasus的公共數(shù)據(jù)模型是稱為Iris的面向?qū)ο竽Ｐ停▽?duì)象、類型和函數(shù)。類型相當(dāng)于類的概念，被組織在一個(gè)能提供泛化、特化和多重繼承的有向無環(huán)圖中，對(duì)象的性質(zhì)、對(duì)象間的關(guān)系以及對(duì)象的計(jì)算都由函數(shù)表達(dá)。Pegasus是用一種叫做HOSQL語言作為數(shù)據(jù)定義和數(shù)據(jù)操作語言。HOSQL是OSQL的超集，它使用非過程化的表達(dá)式來操作多個(gè)數(shù)據(jù)庫。

另外，大部分多數(shù)據(jù)庫系統(tǒng)都采用面向?qū)ο蟮臄?shù)據(jù)模型作為公共數(shù)據(jù)模型。例如土耳其中東技術(shù)大學(xué)的多數(shù)據(jù)庫管理系統(tǒng)MIND、愛爾蘭Dublin City大學(xué)的OASIS系統(tǒng)、東北大學(xué)提出的面向?qū)ο蟮男畔⒓上到y(tǒng)SCOPE/CIMS、意大利Universit a di Roma Tre數(shù)據(jù)庫研究小組研制的ARANEUS系統(tǒng)中提出的面向Web頁面的模型ADM都是基于ODMG（object database management group）的面向?qū)ο蟮臄?shù)據(jù)模型。德國(guó)GMD－IPSI的KODIM開發(fā)的原型系統(tǒng)ViewSystem、美國(guó)通用電信公司GTE實(shí)驗(yàn)室開發(fā)的DOMS系統(tǒng)、OMS的公共數(shù)據(jù)模型FUGUE、歐洲信息技術(shù)研究發(fā)展戰(zhàn)略計(jì)劃中的CIS項(xiàng)目、美國(guó)普渡大學(xué)的InteBase等項(xiàng)目中采用的數(shù)據(jù)模型也是典型的面向?qū)ο蟮臄?shù)據(jù)模型。

采用面向?qū)ο髷?shù)據(jù)模型作為信息集成的公用數(shù)據(jù)模型的優(yōu)點(diǎn)在于：a)面向?qū)ο髷?shù)據(jù)模型具有泛化、聚合、繼承和方法的概念，有豐富的語義和很強(qiáng)的描述能力。b)相對(duì)擴(kuò)展的關(guān)系模型而言，面向?qū)ο蟮臄?shù)據(jù)模型支持集成的成員系統(tǒng)類型更豐富。基于關(guān)系模型和對(duì)象模型的信息系統(tǒng)都可以被集成進(jìn)來，新的數(shù)據(jù)源經(jīng)過包裝并描述其檢索能力后，就可以插入到集成系統(tǒng)中來。

在理論研究方面，關(guān)于面向?qū)ο髷?shù)據(jù)模型、對(duì)象代數(shù)、對(duì)象查詢語言等方面有很多研究成果。研究者們就對(duì)象數(shù)據(jù)模型到其他類型的數(shù)據(jù)模型的映射與轉(zhuǎn)換問題做了很多的研究工作。在集成過程中模式語義沖突問題的研究中，國(guó)內(nèi)東北大學(xué)的SCOPE/CIMS研究組提出了一種面向?qū)ο髷?shù)據(jù)模型的多數(shù)據(jù)庫系統(tǒng)中模式語義沖突分離方法及解決策略。在對(duì)象數(shù)據(jù)模型完整性約束的集成研究中，研究者們還提出了相關(guān)在模型集成中處理完整性約束的規(guī)則等。

隨著計(jì)算機(jī)網(wǎng)絡(luò)和WWW的發(fā)展，人們對(duì)信息集成系統(tǒng)的要求已經(jīng)不是集成數(shù)據(jù)庫系統(tǒng)了，還要求能集成非數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)，如文件系統(tǒng)、電子郵件、電子表格、HTML/XML文檔等。這些數(shù)據(jù)的特點(diǎn)是沒有顯式的數(shù)據(jù)模式。面向?qū)ο髷?shù)據(jù)模型能夠管理的主要還是結(jié)構(gòu)化數(shù)據(jù)，對(duì)于存儲(chǔ)在HTML/XML文檔、多媒體數(shù)據(jù)等使用面向?qū)ο蟮臄?shù)據(jù)模型描述比較困難。另外，在面向?qū)ο髷?shù)據(jù)模型中數(shù)據(jù)模式和數(shù)據(jù)是分開存放的，這不便于自描述數(shù)據(jù)的集成。在這種背景下，一些研究者提出了基于有向圖的數(shù)據(jù)模型來進(jìn)行信息集成[10] 。

3基于有向圖的數(shù)據(jù)模型

在基于有向圖的數(shù)據(jù)模型中，數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系用有向圖中的節(jié)點(diǎn)和邊來描述。與傳統(tǒng)的數(shù)據(jù)模型不同，在這類數(shù)據(jù)模型中，數(shù)據(jù)描述信息與數(shù)據(jù)是存放在一起的，因此特別適合描述沒有顯示結(jié)構(gòu)的數(shù)據(jù)。基于圖的數(shù)據(jù)模型非常靈活，具有很強(qiáng)的描述能力，能夠自然地描述復(fù)雜對(duì)象與其成員對(duì)象的引用關(guān)系和WWW上HTML/XML文件的鏈接關(guān)系。

TSIMMIS是由美國(guó)斯坦福大學(xué)數(shù)據(jù)庫研究組研制開發(fā)的著名的異構(gòu)信息源集成系統(tǒng)[10] 。該系統(tǒng)中采用了基于有向圖的自描述數(shù)據(jù)模型OEM（object exchange model）。該模型中數(shù)據(jù)與數(shù)據(jù)的模式信息混合在一起，不僅具有描述結(jié)構(gòu)化數(shù)據(jù)的能力，而且能夠較好地描述無結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。在OEM對(duì)象模型中，一個(gè)對(duì)象用四元組〈OID，label，type，value〉來描述。其中：OID是對(duì)象表示符；label用于描述對(duì)象所表示的意義;type用于描述對(duì)象的類型;value用于描述對(duì)象的值。為了能夠描述來自各種數(shù)據(jù)源的數(shù)據(jù)，一個(gè)對(duì)象描述子〈OID，label，type，value〉中，type除了可以表示基本數(shù)據(jù)類型外，還可以表示集合數(shù)據(jù)類型（如set、list）和引用類型。如果一個(gè)對(duì)象的類型是引用類型，表示該對(duì)象由其他對(duì)象聚集而成，它的值是所引用對(duì)象標(biāo)志符的集合。

一個(gè)OEM對(duì)象O可以用一個(gè)帶根的連通有向圖表示成O(r，V，E)。其中節(jié)點(diǎn)表示對(duì)象；邊表示對(duì)象之間的引用關(guān)系。根節(jié)點(diǎn)是一個(gè)聚集對(duì)象，它是引用類型的；V是該聚集對(duì)象及其所有引用對(duì)象的集合；E是對(duì)象之間引用關(guān)系的集合，即E＝{〈vi，vj〉| vi是V中對(duì)象Oi的標(biāo)志符∧vj是V中對(duì)象Oj的標(biāo)志符∧Oi引用對(duì)象Oj是V中對(duì)象Oj的標(biāo)志符}。例如，由A.Gupta撰寫的資料（包含一本書目信息和一篇文獻(xiàn)）可以描述如下：

〈1，DBPL，set，{2，3}〉

〈2，book，set，{4，5，6，7}〉 

〈4，title，string，′materialized views′〉

〈5，ISBN，integer，999〉

〈6，keyword，string，′relational′〉

〈7，author，string，′A.Gupta′〉

〈3，article，set，{7，8，9}〉 

〈8，title，string，′constraint checking′〉

〈9，conference，set，{10，11，12}〉

〈10，name，string，′SIGMOD′〉

〈11，year，integer，1993〉

〈12，location，string，′Washington， DC′〉

該對(duì)象的結(jié)構(gòu)可以用有向圖描述，如圖1所示。

XML是元標(biāo)記語言，它完全面向數(shù)據(jù)內(nèi)容，是自描述語言，可以描述線性表、樹、圖等數(shù)據(jù)結(jié)構(gòu)。它允許用戶為各類數(shù)據(jù)創(chuàng)建自己的標(biāo)記，以此來創(chuàng)建不依賴于平臺(tái)、語言的開放數(shù)據(jù)。自XML標(biāo)準(zhǔn)出現(xiàn)后， OEM采用XML重新構(gòu)建其OEM模型。自此OEM模型逐漸向native XML DB方向發(fā)展。

華中科技大學(xué)在Panorama項(xiàng)目中提出的XIDM模型是一種基于XML的集成數(shù)據(jù)模型[11] 。在XIDM中一個(gè)集成系統(tǒng)的全局模式可以表示為一個(gè)置標(biāo)的有向連通圖G =〈vertex，edge〉。其中：vertex是節(jié)點(diǎn)的集合；edge是邊的集合。圖G的一個(gè)節(jié)點(diǎn)可以表示為一個(gè)五元組ecluster=〈key，attributes，subEClusters，qualifications，mappings〉。其中：key是元素簇的關(guān)鍵屬性列表；attributes是元素簇的屬性有序列表，且keyattributes；subEClusters是ecluster的子元素簇的有序列表；qualifications是ecluster的元素所滿足的限定條件集；mappings是ecluster模式映射信息的集合。在XIDM中有兩類邊，標(biāo)記類邊用于描述元素簇與子元素簇之間的聯(lián)系，引用類邊表示不同元素簇之間的引用關(guān)系。

東南大學(xué)在Versatile項(xiàng)目中提出的OIM模型也是基于有向圖的數(shù)據(jù)模型[12]。在定義OIM對(duì)象模型的基礎(chǔ)上，他們提出了OIM對(duì)象代數(shù)。OIM對(duì)象代數(shù)定義了一系列OIM對(duì)象操作，包括對(duì)象的并、差、選擇、投影、粘貼和切削。

基于圖的數(shù)據(jù)模型主要是為異構(gòu)數(shù)據(jù)源集成而設(shè)計(jì)。與面向?qū)ο髷?shù)據(jù)模型相比，它具有以下優(yōu)點(diǎn)和特點(diǎn)：

a）有豐富的語義，支持復(fù)雜類型和抽象機(jī)制，能夠提供傳統(tǒng)數(shù)據(jù)模型所不能表示的基本構(gòu)造符之間的關(guān)系。b）具有自描述的特性，數(shù)據(jù)與數(shù)據(jù)模式存放在一起，適合描述那些沒有顯示模式或者模式無法與之匹配的數(shù)據(jù)對(duì)象。

c）更加方便的集成包括數(shù)據(jù)庫系統(tǒng)、文件系統(tǒng)、Web信息系統(tǒng)等多種異構(gòu)系統(tǒng)中的數(shù)據(jù)。

d）基于圖的數(shù)據(jù)模型是極其靈活的數(shù)據(jù)模型，能夠方便地描述各種數(shù)據(jù)源中的數(shù)據(jù)，尤其是自描述的數(shù)據(jù)。這是其他數(shù)據(jù)模型無法比擬的。

4幾類數(shù)據(jù)模型的比較分析

綜上所述，可以從如下角度對(duì)用于信息集成的數(shù)據(jù)模型進(jìn)行比較和分析。

a)從信息集成公共數(shù)據(jù)模型的發(fā)展歷史來看。關(guān)系數(shù)據(jù)模型產(chǎn)生于1970年，而最早的基于關(guān)系數(shù)據(jù)模型的信息集成系統(tǒng)產(chǎn)生于1981年[4]。20世紀(jì)80年代初，面向?qū)ο笏枷肱c數(shù)據(jù)處理技術(shù)相結(jié)合產(chǎn)生了面向?qū)ο髷?shù)據(jù)模型。基于對(duì)象數(shù)據(jù)模型的信息集成系統(tǒng)出現(xiàn)在1990年左右[8] 。研究者就基于這兩類的數(shù)據(jù)模型的信息集成系統(tǒng)作了持續(xù)、深入和廣泛的研究。基于有向圖的數(shù)據(jù)模型的信息集成系統(tǒng)產(chǎn)生于1995年左右[10]，這類數(shù)據(jù)模型有著描述能力強(qiáng)和靈活的優(yōu)點(diǎn)，正越來越多地得到研究人員的關(guān)注。

b)從概念的數(shù)據(jù)結(jié)構(gòu)和模型的描述能力角度來看。關(guān)系數(shù)據(jù)模型的基本概念是元組和數(shù)據(jù)表，數(shù)據(jù)結(jié)構(gòu)相比較而言最簡(jiǎn)單，但描述能力較弱；擴(kuò)展的關(guān)系模型增強(qiáng)了在關(guān)系模型基礎(chǔ)上的描述能力，但仍然受到關(guān)系數(shù)據(jù)模型的約束和局限；面向?qū)ο蟮臄?shù)據(jù)模型支持復(fù)雜對(duì)象，引入了繼承、封裝方法等概念，描述能力得到了大大的增強(qiáng)；基于有向圖的數(shù)據(jù)模型最靈活，描述能力也最強(qiáng)，但是其數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜。

c)從支持的操作角度看。關(guān)系數(shù)據(jù)模型支持關(guān)系代數(shù)；面向?qū)ο蟮臄?shù)據(jù)模型支持對(duì)象代數(shù)；而基于有向圖的數(shù)據(jù)模型支持對(duì)象代數(shù)或者基于XML的代數(shù)。

d)從模型支持的約束角度看。關(guān)系數(shù)據(jù)模型支持和參照完整性約束，數(shù)據(jù)之間的約束較強(qiáng);對(duì)象數(shù)據(jù)模型支持對(duì)象約束和類約束；而基于有向圖的數(shù)據(jù)模型涉及的約束較少。

e)從應(yīng)用領(lǐng)域的角度看。關(guān)系數(shù)據(jù)模型適合用來集成經(jīng)典關(guān)系型數(shù)據(jù)庫；面向?qū)ο蟮臄?shù)據(jù)模型不僅可以支持集成關(guān)系型數(shù)據(jù)庫，還能夠集成有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)對(duì)象，較多地應(yīng)用于既需要集成關(guān)系型數(shù)據(jù)庫又需要集成對(duì)象數(shù)據(jù)庫的多數(shù)據(jù)庫集成領(lǐng)域；基于有向圖的數(shù)據(jù)模型比較靈活，能夠較好地描述無結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型，適用于需要集成包括數(shù)據(jù)庫、文件、Web信息等多種異構(gòu)系統(tǒng)的應(yīng)用領(lǐng)域。

f)從查詢語言角度來看。關(guān)系數(shù)據(jù)模型支持結(jié)構(gòu)化查詢（SQL）語言，SQL語言有著高度非過程化的特點(diǎn)，非常適合結(jié)構(gòu)化數(shù)據(jù)，但對(duì)半結(jié)構(gòu)化和無結(jié)構(gòu)化數(shù)據(jù)無能為力；面向?qū)ο髷?shù)據(jù)模型支持對(duì)象查詢語言（object query language，OQL），它是以O(shè)DMG對(duì)象模型為基礎(chǔ)的類SQL語言；基于有向圖的數(shù)據(jù)模型支持XML查詢語言或?qū)ο蟛樵冋Z言。XML查詢語言能實(shí)現(xiàn)多種復(fù)雜的數(shù)據(jù)操作、支持多種數(shù)據(jù)類型、處理無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)的能力比較強(qiáng)。相同點(diǎn)是這些語言都有類似“select－form－where”的結(jié)構(gòu)，而且都是高度非過程化的。

從分析和比較中可以看出以下發(fā)展趨勢(shì)：

a)用于集成信息的公共數(shù)據(jù)模型正從傳統(tǒng)的數(shù)據(jù)模型向能夠集成文件系統(tǒng)等非數(shù)據(jù)庫系統(tǒng)的方向發(fā)展。

b)這些數(shù)據(jù)模型在不同程度上運(yùn)用面向?qū)ο蟮乃枷耄芏嘈畔⒓上到y(tǒng)的數(shù)據(jù)模型都是典型的面向?qū)ο蟮臄?shù)據(jù)模型。而在基于有向圖的數(shù)據(jù)模型中，圖中數(shù)據(jù)元素仍常運(yùn)用對(duì)象的方式來表示。

c)基于有向圖的數(shù)據(jù)模型是信息集成數(shù)據(jù)模型的發(fā)展方向。由于基于有向圖的數(shù)據(jù)模型有很強(qiáng)的描述能力，特別適合非結(jié)構(gòu)化信息的集成。

d)越來越多的數(shù)據(jù)模型采用XML作為描述語言。

5結(jié)束語

隨著信息集成技術(shù)的發(fā)展，目前又出現(xiàn)了許多新的研究熱點(diǎn)。例如基于本體的信息集成、面向半結(jié)構(gòu)化數(shù)據(jù)的集成、動(dòng)態(tài)的不穩(wěn)定信息的集成、不精確信息的集成與處理等。而傳統(tǒng)的信息集成從研究到原型，現(xiàn)已逐步走向產(chǎn)業(yè)階段了。相信隨著研究的深入，會(huì)出現(xiàn)越來越多的新的信息集成數(shù)據(jù)模型。

參考文獻(xiàn)：

[1]HAMRI S， BOUFAIDA M， BOUDJLIDA N. An architecture for the interoperability of workflow models[C]//Proc of the 1st International Workshop on Interoperability of Heterogeneous Information Systems. New York: ACM Press， 2005:31-38.

[2]李建中，王珊. 數(shù)據(jù)庫系統(tǒng)原理[M]. 北京:電子工業(yè)出版社， 2004.

[3]SMITH J，BERNSTEIN P，DAYAL U， et al. Multibase: integrating heterogeneous distributed database systems[C]//Proc of AFIPS National Computer Conference.Arlington:AFIPS Press，1981:487-499.

[4]COBURN N， MARTIN T P， PER－AKE L， et al. Cords multidatabase project: research and prototype overview[C]//Proc of Conference of the Centre for Advanced Studies on Collaborative Research. Indiana-polis: IBM Press， 1993:767-778.

[5]MAURIZIO L. Data integration: a theoretical perspective[C]//Proc of the 21st ACM SIGMOD－SIGACT－SIGART Symposium on Principles of Database Systems. New York: ACM Press， 2002:233-246.

[6]ALON Y L， ALBERTO O M， YEHOSHUA S， et al. Answering queries using views[C]//Proc of the 14th ACM SIGACT-SIGMOD－SIGART Symposium on Principles of Database Systems. New York:Springer－Verlag， 1995:95－104.

[7]ALON Y L， ANAND R， JOANN J O. Querying heterogeneous information sources using source descriptions[C]//Proc of the 22nd International Conference on Very Large Data Bases. San Francisco： Morgan Kaufmann Publishers Inc，1996：251-262.

[8]AHMED R， de SMEDT P， DU Wei－min， et al. The pegasus heterogeneous multidatabase system[J]. Computer，1991，24(12):19-27.

[9]MALCOLM A， FRANCOIS B， DAVID D， et al. The object－oriented database system manifesto[C]//Proc of the 1st International Con-ference on Deductive and Object－Oriented Databases. San Francisco: Morgan Kaufmann Publishers Inc，1989：40-57.

[10]GARCIA H， PAPAKONSTANTINOU Y，QUASS D，et al. The TSIMMIS project: integration of heterogeneous information sources[J]. Journal of Intelligent Information Systems， 1997，8(2):117-132.

[11]LI Bing， LU Zheng－ding， PENG De－chun. XIDM: a common data model based on XML[J]. Wuhan University Journal: Natural Sciences，2001，6(1-2):432-437.

[12]王寧，徐宏炳，王能斌. 基于帶根連通有向圖的對(duì)象集成模型及代數(shù)[J]. 軟件學(xué)報(bào)，1998，9(12):894-898.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

計(jì)算機(jī)應(yīng)用研究2008年5期

計(jì)算機(jī)應(yīng)用研究的其它文章: 一種基于譜圖理論的Ｗｅｂ圖像搜索方法; 邊界保存的二進(jìn)小波圖像去噪算法; 柱面坐標(biāo)下基于ＯｐｅｎＧＬ的非均勻ＦＤＴＤ網(wǎng)格的生成; 基于ＯｐｅｎＧＬ的快速圖像渲染方法; 基于小波域ＰＣＡ與ＬＤＡ相結(jié)合的紅外人臉識(shí)別方法; 一種新的基于區(qū)域增長(zhǎng)的ＲＯＩ分割算法