摘要:信息集成是指將多個(gè)信息源進(jìn)行整合,為用戶提供一個(gè)統(tǒng)一訪問這些信息的接口或數(shù)據(jù)視圖。公共數(shù)據(jù)模型是設(shè)計(jì)信息集成系統(tǒng)的基本出發(fā)點(diǎn),從分類的角度對(duì)信息集成公共數(shù)據(jù)模型進(jìn)行研究。對(duì)各種數(shù)據(jù)模型的特點(diǎn)、描述能力、應(yīng)用領(lǐng)域以及發(fā)展現(xiàn)狀作了分析和比較。
關(guān)鍵詞:信息集成; 數(shù)據(jù)模型; 信息集成系統(tǒng)
中圖分類號(hào):TP311文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)05-1285-03
信息集成是指將多個(gè)信息源集成為一個(gè)信息系統(tǒng),為用戶提供一個(gè)統(tǒng)一的訪問這些信息的接口或數(shù)據(jù)視圖 [1]。在信息集成系統(tǒng)中,公共數(shù)據(jù)模型是解決各信息源不同數(shù)據(jù)模式之間異構(gòu)性的基礎(chǔ)。設(shè)計(jì)一個(gè)信息集成系統(tǒng)的首要問題就是選擇或者設(shè)計(jì)一個(gè)適合的公用數(shù)據(jù)模型。數(shù)據(jù)模型包括數(shù)據(jù)的靜態(tài)描述、數(shù)據(jù)支持的操作和數(shù)據(jù)之間的約束三方面的內(nèi)容。信息集成系統(tǒng)中的成員系統(tǒng)具有已存性、自治性、分布性和異構(gòu)性的特點(diǎn)[1]。為了解決各個(gè)成員系統(tǒng)的數(shù)據(jù)模式具有異構(gòu)性,研究者提出了各種各樣用于信息集成的數(shù)據(jù)模型。
1關(guān)系數(shù)據(jù)模型及擴(kuò)展
關(guān)系數(shù)據(jù)模型的基本概念是元組和數(shù)據(jù)表,表可以看成是元組的集合。關(guān)系數(shù)據(jù)模型支持關(guān)系代數(shù)操作,支持參照實(shí)體完整性約束、參照完整性約束和域約束,用戶使用SQL語言來訪問關(guān)系數(shù)據(jù)模型[2] 。關(guān)系數(shù)據(jù)模型有著堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),概念簡(jiǎn)單,得到了廣泛的應(yīng)用。1980年前后,一些早期的信息集成系統(tǒng)開始采用關(guān)系數(shù)據(jù)模型來集成多個(gè)數(shù)據(jù)庫[3]。
典型的采用關(guān)系數(shù)據(jù)模型的信息集成系統(tǒng)是美國(guó)密歇根—迪爾伯恩大學(xué)的CORDS[4],該系統(tǒng)實(shí)現(xiàn)了對(duì)多個(gè)異構(gòu)關(guān)系數(shù)據(jù)庫的集成。在此基礎(chǔ)上,該項(xiàng)目組對(duì)多數(shù)據(jù)庫系統(tǒng)查詢處理特別是查詢優(yōu)化作了較多的研究,提出了查詢采樣、查詢探測(cè)、模糊查詢等技術(shù)對(duì)全局查詢進(jìn)行優(yōu)化,還提出了衰減代價(jià)評(píng)估模型以實(shí)現(xiàn)對(duì)全局查詢的優(yōu)化。中國(guó)科學(xué)院軟件研究所設(shè)計(jì)的IS-Global采用的也是關(guān)系數(shù)據(jù)模型。
采用關(guān)系數(shù)據(jù)模型作為信息集成系統(tǒng)的公共數(shù)據(jù)模型的優(yōu)點(diǎn)在于:
a)關(guān)系數(shù)據(jù)模型概念簡(jiǎn)單并且有著廣泛的應(yīng)用背景,采用關(guān)系數(shù)據(jù)模型作為公共數(shù)據(jù)模型易于被用戶理解和接受。
b)關(guān)系數(shù)據(jù)模型有著堅(jiān)實(shí)的理論基礎(chǔ),形成了完整的理論體系。這些豐富的理論知識(shí)能夠指導(dǎo)研究者采用關(guān)系數(shù)據(jù)模型的信息集成作深入研究。
c)關(guān)系型數(shù)據(jù)庫有著廣泛的應(yīng)用,采用關(guān)系數(shù)據(jù)模型特別適合對(duì)遺留系統(tǒng)的關(guān)系型數(shù)據(jù)進(jìn)行集成,全局模式和局部模式之間的映射和轉(zhuǎn)換比較容易。
人們就基于關(guān)系數(shù)據(jù)模型的數(shù)據(jù)集成作了很多的研究工作并取得了豐富的成果。例如,采用形式化的方法來描述數(shù)據(jù)集成;在LAV方法中引入一個(gè)虛擬的全局模式,將各個(gè)信息源視為物化了的查詢,在理論上將用戶基于全局模式的查詢轉(zhuǎn)換為基于視圖來回答查詢的問題[5];論證了基于視圖的查詢回答問題是NP完全問題[6]等。
采用關(guān)系數(shù)據(jù)模型作為信息集成系統(tǒng)的公共數(shù)據(jù)模型雖然具有上述優(yōu)點(diǎn),但是關(guān)系數(shù)據(jù)模型的描述能力有限、語義信息不豐富。并不是所有的信息都可以描述成數(shù)據(jù)表的形式,如果集成系統(tǒng)的成員數(shù)據(jù)模型還包括非關(guān)系模型,就必須對(duì)關(guān)系模型進(jìn)行擴(kuò)展。為了能夠集成更多類型的信息系統(tǒng),一些研究者采用擴(kuò)展的關(guān)系數(shù)據(jù)模型來設(shè)計(jì)信息集成系統(tǒng)。
采用擴(kuò)展關(guān)系數(shù)據(jù)模型的信息集成系統(tǒng)的典型代表是ATT Bell實(shí)驗(yàn)室的Information Manifold。該系統(tǒng)的目標(biāo)是對(duì)WWW上的結(jié)構(gòu)化信息源進(jìn)行集成[7] 。該系統(tǒng)中存在一個(gè)虛擬的全局模式,信息源的內(nèi)容被描述成基于全局模式的查詢,信息源的查詢能力采用五元組的形式來描述。該系統(tǒng)采用的數(shù)據(jù)模式是在關(guān)系模型的基礎(chǔ)上作了面向?qū)ο蟮臄U(kuò)展,引入了類和類的繼承層次架構(gòu),類在實(shí)現(xiàn)時(shí)用多個(gè)數(shù)據(jù)表來描述。這種擴(kuò)充增強(qiáng)了數(shù)據(jù)模型的描述能力,使得系統(tǒng)的全局模式具有較好的穩(wěn)定性,當(dāng)新的信息源加入后不需要對(duì)全局模式頻繁地修改和擴(kuò)充。Manifold系統(tǒng)采用該數(shù)據(jù)模型實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)的幾百個(gè)信息源的集成,并且得到了較好的實(shí)驗(yàn)效果。
擴(kuò)展的關(guān)系模型在關(guān)系模型中加入了面向?qū)ο蟮乃枷耄枋瞿芰Φ玫搅藬U(kuò)充,但是仍然具有很多局限性。擴(kuò)展關(guān)系模型在對(duì)于復(fù)雜數(shù)據(jù)的描述和對(duì)于數(shù)據(jù)間聯(lián)系的表現(xiàn)力上不盡如人意。為了增強(qiáng)公共數(shù)據(jù)模型的描述能力,適應(yīng)信息源多樣性的特點(diǎn),集成各種類型的信息源,研究人員開始采用面向?qū)ο蟮臄?shù)據(jù)模型來進(jìn)行信息集成[8] 。
2面向?qū)ο髷?shù)據(jù)模型
面向?qū)ο髷?shù)據(jù)模型的基本概念是對(duì)象。對(duì)象是由一組數(shù)據(jù)結(jié)構(gòu)和在其上定義的操作封裝而成。每個(gè)對(duì)象在全局范圍內(nèi)有一個(gè)惟一的對(duì)象標(biāo)志ID。類是對(duì)象的模板,類之間的關(guān)系包括泛化、特化和繼承。對(duì)象數(shù)據(jù)模型支持將簡(jiǎn)單對(duì)象進(jìn)行組合構(gòu)成復(fù)雜的對(duì)象[9] 。面向?qū)ο蟮臄?shù)據(jù)模型支持的約束包括對(duì)象約束和類約束,支持的操作是對(duì)象代數(shù)。一般來講,采用對(duì)象數(shù)據(jù)模型作為公共數(shù)據(jù)模型的信息集成系統(tǒng)都會(huì)支持一種類SQL語言的對(duì)象查詢語言。
典型的采用面向?qū)ο髷?shù)據(jù)模型作為公共數(shù)據(jù)模型的信息集成系統(tǒng)是惠普實(shí)驗(yàn)室數(shù)據(jù)庫技術(shù)部開發(fā)的Pegasus系統(tǒng)[8] ,它能集成本地和外部的多個(gè)自治數(shù)據(jù)庫。Pegasus的公共數(shù)據(jù)模型是稱為Iris的面向?qū)ο竽P停▽?duì)象、類型和函數(shù)。類型相當(dāng)于類的概念,被組織在一個(gè)能提供泛化、特化和多重繼承的有向無環(huán)圖中,對(duì)象的性質(zhì)、對(duì)象間的關(guān)系以及對(duì)象的計(jì)算都由函數(shù)表達(dá)。Pegasus是用一種叫做HOSQL語言作為數(shù)據(jù)定義和數(shù)據(jù)操作語言。HOSQL是OSQL的超集,它使用非過程化的表達(dá)式來操作多個(gè)數(shù)據(jù)庫。
另外,大部分多數(shù)據(jù)庫系統(tǒng)都采用面向?qū)ο蟮臄?shù)據(jù)模型作為公共數(shù)據(jù)模型。例如土耳其中東技術(shù)大學(xué)的多數(shù)據(jù)庫管理系統(tǒng)MIND、愛爾蘭Dublin City大學(xué)的OASIS系統(tǒng)、東北大學(xué)提出的面向?qū)ο蟮男畔⒓上到y(tǒng)SCOPE/CIMS、意大利Universit a di Roma Tre數(shù)據(jù)庫研究小組研制的ARANEUS系統(tǒng)中提出的面向Web頁面的模型ADM都是基于ODMG(object database management group)的面向?qū)ο蟮臄?shù)據(jù)模型。德國(guó)GMD-IPSI的KODIM開發(fā)的原型系統(tǒng)ViewSystem、美國(guó)通用電信公司GTE實(shí)驗(yàn)室開發(fā)的DOMS系統(tǒng)、OMS的公共數(shù)據(jù)模型FUGUE、歐洲信息技術(shù)研究發(fā)展戰(zhàn)略計(jì)劃中的CIS項(xiàng)目、美國(guó)普渡大學(xué)的InteBase等項(xiàng)目中采用的數(shù)據(jù)模型也是典型的面向?qū)ο蟮臄?shù)據(jù)模型。
采用面向?qū)ο髷?shù)據(jù)模型作為信息集成的公用數(shù)據(jù)模型的優(yōu)點(diǎn)在于:a)面向?qū)ο髷?shù)據(jù)模型具有泛化、聚合、繼承和方法的概念,有豐富的語義和很強(qiáng)的描述能力。b)相對(duì)擴(kuò)展的關(guān)系模型而言,面向?qū)ο蟮臄?shù)據(jù)模型支持集成的成員系統(tǒng)類型更豐富。基于關(guān)系模型和對(duì)象模型的信息系統(tǒng)都可以被集成進(jìn)來,新的數(shù)據(jù)源經(jīng)過包裝并描述其檢索能力后,就可以插入到集成系統(tǒng)中來。
在理論研究方面,關(guān)于面向?qū)ο髷?shù)據(jù)模型、對(duì)象代數(shù)、對(duì)象查詢語言等方面有很多研究成果。研究者們就對(duì)象數(shù)據(jù)模型到其他類型的數(shù)據(jù)模型的映射與轉(zhuǎn)換問題做了很多的研究工作。在集成過程中模式語義沖突問題的研究中,國(guó)內(nèi)東北大學(xué)的SCOPE/CIMS研究組提出了一種面向?qū)ο髷?shù)據(jù)模型的多數(shù)據(jù)庫系統(tǒng)中模式語義沖突分離方法及解決策略。在對(duì)象數(shù)據(jù)模型完整性約束的集成研究中,研究者們還提出了相關(guān)在模型集成中處理完整性約束的規(guī)則等。
隨著計(jì)算機(jī)網(wǎng)絡(luò)和WWW的發(fā)展,人們對(duì)信息集成系統(tǒng)的要求已經(jīng)不是集成數(shù)據(jù)庫系統(tǒng)了,還要求能集成非數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù),如文件系統(tǒng)、電子郵件、電子表格、HTML/XML文檔等。這些數(shù)據(jù)的特點(diǎn)是沒有顯式的數(shù)據(jù)模式。面向?qū)ο髷?shù)據(jù)模型能夠管理的主要還是結(jié)構(gòu)化數(shù)據(jù),對(duì)于存儲(chǔ)在HTML/XML文檔、多媒體數(shù)據(jù)等使用面向?qū)ο蟮臄?shù)據(jù)模型描述比較困難。另外,在面向?qū)ο髷?shù)據(jù)模型中數(shù)據(jù)模式和數(shù)據(jù)是分開存放的,這不便于自描述數(shù)據(jù)的集成。在這種背景下,一些研究者提出了基于有向圖的數(shù)據(jù)模型來進(jìn)行信息集成[10] 。
3基于有向圖的數(shù)據(jù)模型
在基于有向圖的數(shù)據(jù)模型中,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系用有向圖中的節(jié)點(diǎn)和邊來描述。與傳統(tǒng)的數(shù)據(jù)模型不同,在這類數(shù)據(jù)模型中,數(shù)據(jù)描述信息與數(shù)據(jù)是存放在一起的,因此特別適合描述沒有顯示結(jié)構(gòu)的數(shù)據(jù)。基于圖的數(shù)據(jù)模型非常靈活,具有很強(qiáng)的描述能力,能夠自然地描述復(fù)雜對(duì)象與其成員對(duì)象的引用關(guān)系和WWW上HTML/XML文件的鏈接關(guān)系。
TSIMMIS是由美國(guó)斯坦福大學(xué)數(shù)據(jù)庫研究組研制開發(fā)的著名的異構(gòu)信息源集成系統(tǒng)[10] 。該系統(tǒng)中采用了基于有向圖的自描述數(shù)據(jù)模型OEM(object exchange model)。該模型中數(shù)據(jù)與數(shù)據(jù)的模式信息混合在一起,不僅具有描述結(jié)構(gòu)化數(shù)據(jù)的能力,而且能夠較好地描述無結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。在OEM對(duì)象模型中,一個(gè)對(duì)象用四元組〈OID,label,type,value〉來描述。其中:OID是對(duì)象表示符;label用于描述對(duì)象所表示的意義;type用于描述對(duì)象的類型;value用于描述對(duì)象的值。為了能夠描述來自各種數(shù)據(jù)源的數(shù)據(jù),一個(gè)對(duì)象描述子〈OID,label,type,value〉中,type除了可以表示基本數(shù)據(jù)類型外,還可以表示集合數(shù)據(jù)類型(如set、list)和引用類型。如果一個(gè)對(duì)象的類型是引用類型,表示該對(duì)象由其他對(duì)象聚集而成,它的值是所引用對(duì)象標(biāo)志符的集合。
一個(gè)OEM對(duì)象O可以用一個(gè)帶根的連通有向圖表示成O(r,V,E)。其中節(jié)點(diǎn)表示對(duì)象;邊表示對(duì)象之間的引用關(guān)系。根節(jié)點(diǎn)是一個(gè)聚集對(duì)象,它是引用類型的;V是該聚集對(duì)象及其所有引用對(duì)象的集合;E是對(duì)象之間引用關(guān)系的集合,即E={〈vi,vj〉| vi是V中對(duì)象Oi的標(biāo)志符∧vj是V中對(duì)象Oj的標(biāo)志符∧Oi引用對(duì)象Oj是V中對(duì)象Oj的標(biāo)志符}。例如,由A.Gupta撰寫的資料(包含一本書目信息和一篇文獻(xiàn))可以描述如下:
〈1,DBPL,set,{2,3}〉
〈2,book,set,{4,5,6,7}〉
〈4,title,string,′materialized views′〉
〈5,ISBN,integer,999〉
〈6,keyword,string,′relational′〉
〈7,author,string,′A.Gupta′〉
〈3,article,set,{7,8,9}〉
〈8,title,string,′constraint checking′〉
〈9,conference,set,{10,11,12}〉
〈10,name,string,′SIGMOD′〉
〈11,year,integer,1993〉
〈12,location,string,′Washington, DC′〉
該對(duì)象的結(jié)構(gòu)可以用有向圖描述,如圖1所示。
XML是元標(biāo)記語言,它完全面向數(shù)據(jù)內(nèi)容,是自描述語言,可以描述線性表、樹、圖等數(shù)據(jù)結(jié)構(gòu)。它允許用戶為各類數(shù)據(jù)創(chuàng)建自己的標(biāo)記,以此來創(chuàng)建不依賴于平臺(tái)、語言的開放數(shù)據(jù)。自XML標(biāo)準(zhǔn)出現(xiàn)后, OEM采用XML重新構(gòu)建其OEM模型。自此OEM模型逐漸向native XML DB方向發(fā)展。
華中科技大學(xué)在Panorama項(xiàng)目中提出的XIDM模型是一種基于XML的集成數(shù)據(jù)模型[11] 。在XIDM中一個(gè)集成系統(tǒng)的全局模式可以表示為一個(gè)置標(biāo)的有向連通圖G =〈vertex,edge〉。其中:vertex是節(jié)點(diǎn)的集合;edge是邊的集合。圖G的一個(gè)節(jié)點(diǎn)可以表示為一個(gè)五元組ecluster=〈key,attributes,subEClusters,qualifications,mappings〉。其中:key是元素簇的關(guān)鍵屬性列表;attributes是元素簇的屬性有序列表,且keyattributes;subEClusters是ecluster的子元素簇的有序列表;qualifications是ecluster的元素所滿足的限定條件集;mappings是ecluster模式映射信息的集合。在XIDM中有兩類邊,標(biāo)記類邊用于描述元素簇與子元素簇之間的聯(lián)系,引用類邊表示不同元素簇之間的引用關(guān)系。
東南大學(xué)在Versatile項(xiàng)目中提出的OIM模型也是基于有向圖的數(shù)據(jù)模型[12]。在定義OIM對(duì)象模型的基礎(chǔ)上,他們提出了OIM對(duì)象代數(shù)。OIM對(duì)象代數(shù)定義了一系列OIM對(duì)象操作,包括對(duì)象的并、差、選擇、投影、粘貼和切削。
基于圖的數(shù)據(jù)模型主要是為異構(gòu)數(shù)據(jù)源集成而設(shè)計(jì)。與面向?qū)ο髷?shù)據(jù)模型相比,它具有以下優(yōu)點(diǎn)和特點(diǎn):
a)有豐富的語義,支持復(fù)雜類型和抽象機(jī)制,能夠提供傳統(tǒng)數(shù)據(jù)模型所不能表示的基本構(gòu)造符之間的關(guān)系。b)具有自描述的特性,數(shù)據(jù)與數(shù)據(jù)模式存放在一起,適合描述那些沒有顯示模式或者模式無法與之匹配的數(shù)據(jù)對(duì)象。
c)更加方便的集成包括數(shù)據(jù)庫系統(tǒng)、文件系統(tǒng)、Web信息系統(tǒng)等多種異構(gòu)系統(tǒng)中的數(shù)據(jù)。
d)基于圖的數(shù)據(jù)模型是極其靈活的數(shù)據(jù)模型,能夠方便地描述各種數(shù)據(jù)源中的數(shù)據(jù),尤其是自描述的數(shù)據(jù)。這是其他數(shù)據(jù)模型無法比擬的。
4幾類數(shù)據(jù)模型的比較分析
綜上所述,可以從如下角度對(duì)用于信息集成的數(shù)據(jù)模型進(jìn)行比較和分析。
a)從信息集成公共數(shù)據(jù)模型的發(fā)展歷史來看。關(guān)系數(shù)據(jù)模型產(chǎn)生于1970年,而最早的基于關(guān)系數(shù)據(jù)模型的信息集成系統(tǒng)產(chǎn)生于1981年[4]。20世紀(jì)80年代初,面向?qū)ο笏枷肱c數(shù)據(jù)處理技術(shù)相結(jié)合產(chǎn)生了面向?qū)ο髷?shù)據(jù)模型。基于對(duì)象數(shù)據(jù)模型的信息集成系統(tǒng)出現(xiàn)在1990年左右[8] 。研究者就基于這兩類的數(shù)據(jù)模型的信息集成系統(tǒng)作了持續(xù)、深入和廣泛的研究。基于有向圖的數(shù)據(jù)模型的信息集成系統(tǒng)產(chǎn)生于1995年左右[10],這類數(shù)據(jù)模型有著描述能力強(qiáng)和靈活的優(yōu)點(diǎn),正越來越多地得到研究人員的關(guān)注。
b)從概念的數(shù)據(jù)結(jié)構(gòu)和模型的描述能力角度來看。關(guān)系數(shù)據(jù)模型的基本概念是元組和數(shù)據(jù)表,數(shù)據(jù)結(jié)構(gòu)相比較而言最簡(jiǎn)單,但描述能力較弱;擴(kuò)展的關(guān)系模型增強(qiáng)了在關(guān)系模型基礎(chǔ)上的描述能力,但仍然受到關(guān)系數(shù)據(jù)模型的約束和局限;面向?qū)ο蟮臄?shù)據(jù)模型支持復(fù)雜對(duì)象,引入了繼承、封裝方法等概念,描述能力得到了大大的增強(qiáng);基于有向圖的數(shù)據(jù)模型最靈活,描述能力也最強(qiáng),但是其數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜。
c)從支持的操作角度看。關(guān)系數(shù)據(jù)模型支持關(guān)系代數(shù);面向?qū)ο蟮臄?shù)據(jù)模型支持對(duì)象代數(shù);而基于有向圖的數(shù)據(jù)模型支持對(duì)象代數(shù)或者基于XML的代數(shù)。
d)從模型支持的約束角度看。關(guān)系數(shù)據(jù)模型支持和參照完整性約束,數(shù)據(jù)之間的約束較強(qiáng);對(duì)象數(shù)據(jù)模型支持對(duì)象約束和類約束;而基于有向圖的數(shù)據(jù)模型涉及的約束較少。
e)從應(yīng)用領(lǐng)域的角度看。關(guān)系數(shù)據(jù)模型適合用來集成經(jīng)典關(guān)系型數(shù)據(jù)庫;面向?qū)ο蟮臄?shù)據(jù)模型不僅可以支持集成關(guān)系型數(shù)據(jù)庫,還能夠集成有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)對(duì)象,較多地應(yīng)用于既需要集成關(guān)系型數(shù)據(jù)庫又需要集成對(duì)象數(shù)據(jù)庫的多數(shù)據(jù)庫集成領(lǐng)域;基于有向圖的數(shù)據(jù)模型比較靈活,能夠較好地描述無結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型,適用于需要集成包括數(shù)據(jù)庫、文件、Web信息等多種異構(gòu)系統(tǒng)的應(yīng)用領(lǐng)域。
f)從查詢語言角度來看。關(guān)系數(shù)據(jù)模型支持結(jié)構(gòu)化查詢(SQL)語言,SQL語言有著高度非過程化的特點(diǎn),非常適合結(jié)構(gòu)化數(shù)據(jù),但對(duì)半結(jié)構(gòu)化和無結(jié)構(gòu)化數(shù)據(jù)無能為力;面向?qū)ο髷?shù)據(jù)模型支持對(duì)象查詢語言(object query language,OQL),它是以O(shè)DMG對(duì)象模型為基礎(chǔ)的類SQL語言;基于有向圖的數(shù)據(jù)模型支持XML查詢語言或?qū)ο蟛樵冋Z言。XML查詢語言能實(shí)現(xiàn)多種復(fù)雜的數(shù)據(jù)操作、支持多種數(shù)據(jù)類型、處理無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)的能力比較強(qiáng)。相同點(diǎn)是這些語言都有類似“select-form-where”的結(jié)構(gòu),而且都是高度非過程化的。
從分析和比較中可以看出以下發(fā)展趨勢(shì):
a)用于集成信息的公共數(shù)據(jù)模型正從傳統(tǒng)的數(shù)據(jù)模型向能夠集成文件系統(tǒng)等非數(shù)據(jù)庫系統(tǒng)的方向發(fā)展。
b)這些數(shù)據(jù)模型在不同程度上運(yùn)用面向?qū)ο蟮乃枷耄芏嘈畔⒓上到y(tǒng)的數(shù)據(jù)模型都是典型的面向?qū)ο蟮臄?shù)據(jù)模型。而在基于有向圖的數(shù)據(jù)模型中,圖中數(shù)據(jù)元素仍常運(yùn)用對(duì)象的方式來表示。
c)基于有向圖的數(shù)據(jù)模型是信息集成數(shù)據(jù)模型的發(fā)展方向。由于基于有向圖的數(shù)據(jù)模型有很強(qiáng)的描述能力,特別適合非結(jié)構(gòu)化信息的集成。
d)越來越多的數(shù)據(jù)模型采用XML作為描述語言。
5結(jié)束語
隨著信息集成技術(shù)的發(fā)展,目前又出現(xiàn)了許多新的研究熱點(diǎn)。例如基于本體的信息集成、面向半結(jié)構(gòu)化數(shù)據(jù)的集成、動(dòng)態(tài)的不穩(wěn)定信息的集成、不精確信息的集成與處理等。而傳統(tǒng)的信息集成從研究到原型,現(xiàn)已逐步走向產(chǎn)業(yè)階段了。相信隨著研究的深入,會(huì)出現(xiàn)越來越多的新的信息集成數(shù)據(jù)模型。
參考文獻(xiàn):
[1]HAMRI S, BOUFAIDA M, BOUDJLIDA N. An architecture for the interoperability of workflow models[C]//Proc of the 1st International Workshop on Interoperability of Heterogeneous Information Systems. New York: ACM Press, 2005:31-38.
[2]李建中,王珊. 數(shù)據(jù)庫系統(tǒng)原理[M]. 北京:電子工業(yè)出版社, 2004.
[3]SMITH J,BERNSTEIN P,DAYAL U, et al. Multibase: integrating heterogeneous distributed database systems[C]//Proc of AFIPS National Computer Conference.Arlington:AFIPS Press,1981:487-499.
[4]COBURN N, MARTIN T P, PER-AKE L, et al. Cords multidatabase project: research and prototype overview[C]//Proc of Conference of the Centre for Advanced Studies on Collaborative Research. Indiana-polis: IBM Press, 1993:767-778.
[5]MAURIZIO L. Data integration: a theoretical perspective[C]//Proc of the 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems. New York: ACM Press, 2002:233-246.
[6]ALON Y L, ALBERTO O M, YEHOSHUA S, et al. Answering queries using views[C]//Proc of the 14th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. New York:Springer-Verlag, 1995:95-104.
[7]ALON Y L, ANAND R, JOANN J O. Querying heterogeneous information sources using source descriptions[C]//Proc of the 22nd International Conference on Very Large Data Bases. San Francisco: Morgan Kaufmann Publishers Inc,1996:251-262.
[8]AHMED R, de SMEDT P, DU Wei-min, et al. The pegasus heterogeneous multidatabase system[J]. Computer,1991,24(12):19-27.
[9]MALCOLM A, FRANCOIS B, DAVID D, et al. The object-oriented database system manifesto[C]//Proc of the 1st International Con-ference on Deductive and Object-Oriented Databases. San Francisco: Morgan Kaufmann Publishers Inc,1989:40-57.
[10]GARCIA H, PAPAKONSTANTINOU Y,QUASS D,et al. The TSIMMIS project: integration of heterogeneous information sources[J]. Journal of Intelligent Information Systems, 1997,8(2):117-132.
[11]LI Bing, LU Zheng-ding, PENG De-chun. XIDM: a common data model based on XML[J]. Wuhan University Journal: Natural Sciences,2001,6(1-2):432-437.
[12]王寧,徐宏炳,王能斌. 基于帶根連通有向圖的對(duì)象集成模型及代數(shù)[J]. 軟件學(xué)報(bào),1998,9(12):894-898.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”