999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML的生物信息數據整合模型

2010-05-13 09:17:24潘雪峰
現代電子技術 2009年20期

潘雪峰

摘 要:在互聯網生物信息數據庫中,各大研究機構之間生物信息數據是異地、異構和高度自治的,并且信息之間的存放是分散無序的。為了充分使用資源,必須建立關于生物信息數據的整合模型。在此提出一種新的基于XML表達的有序層次分形數據模型,通過對現有數據的結構化,借助BXEEM模型分別使用內部指針引用和外部鏈接的方法,將數據進行整合,更有利于生物信息數據的集成和融合。

關鍵詞:XML;半結構化;異構數據集成;數據模型;數據集成

中圖分類號:Q811.4;TP311 文獻標識碼:A 文章編號:1004-373X(2009)20-160-03

Data Integration Model of Biological Information Based on XML

PAN Xuefeng

(Wuhan Bioengineering Institute,Wuhan,430415,China)

Abstract:In Internet biological information database,among the major research institutions and bio-informatics data is remote,heterogeneous,high degree of autonomy,and the stored information is scattered between the disorder.In order to full use resource,integration model of biological information data is built.A new XML-based and orderly expression of data-level fractal model of the existing data structure is proposed,through the use of internal models BXEEM pointer references and external links to the method of data integration,it is more conducive to bio-informatics data integration and fusion.

Keywords:XML;semi-structure;heterogeneous data integration;data model;data integration

0 引 言

生物信息學(Bioinformatics)是通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,達到揭示數據所蘊含生物學意義的目的[1,2]。

生物信息數據源的主要特點是:國際化生物數據庫相互獨立而又利用協議統一維護原始數據,而各實驗室的數據庫就各有特色;數據量龐大且增長速度很快;數據通過Internet進行發布,發布格式復雜多樣[3,4]。目前非常必要的課題之一是將各自的、獨立的、分散的基因組信息整合到一起,并且可以最大限度地消除冗余數據,保證數據的可靠性和準確性[5]。

本文重點討論將XML作為中間媒介,建立新的生物信息公共數據模型,使異構生物信息數據的提取與集成更方便。

1 XML的特點

擴展標記語言(eXtensible Markup Language,XML)是一門新興的面向Internet應用的標記語言,它將數據信息本身的存儲和關聯與表現形式相分離,且具有強大的可擴展性[6]。生物信息學的發展同樣引入了XML技術。XML的特點如下:

(1) XML數據的自描述性。它指XML中的語義標識,一方面限定了元素的層次結構,另一方面也說明了元素的含義[7,8]。

(2) 內容的獨立性。它將成為跨平臺數據交換和操作的標準模式。實現異構數據集成中數據的互操作性。

(3) 能描述不同復雜程度的數據。XML提供了數據的結構化表示,并且易于操作。

(4) 可擴展性。XML可以在不破壞現有結構和系統的情況下增加新的數據字段。應用服務器利用XML對所有數據建模,若要改變數據模型只需改變數據模型定義。

(5) 結構性。數據存儲格式不受顯示格式制約。一般包括三要素:數據、結構以及顯示方式。

因此,運用XML可以有效地解決新舊系統、不同應用系統之間或數據源之間的數據共享與交互問題。XML和數據庫之間是互補的關系,在不同的場合有不同的優勢[9,10]。可以很方便地交換復雜數據在不同平臺上的瀏覽。

2 基于XML的生物信息數據模型

實際上,在此提出的半結構化數據模型是一種基于帶標簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)數據模型BXEEM(Based XML Extensible Exchange Model)。下面給出相關定義:

定義1 有向圖G是一個有序四元組,G=(V,E,vr,Ψ)。其中:V是一個非空的有向圖中根結點的所有結點集合;E V×V是此有向圖中邊的集合;(V,E)代表一個有向多重圖(Directed Multi-graph);vr∈V表示根結點,并且滿足該結點的入度為0;d(vr,vi)>0,vi∈(V-{ vr }),i=0,1,2,…,n,即vr到V中任意一個結點vi都有一條通路;Ψ為關聯函數,是邊集合E到(V×V)的一個映射,是帶信息標簽約束的映射。稱G為帶標簽、帶根的有向連通圖,表示為G(V,E,vr,Ψ)。

定義2 在帶標簽、帶根的有向連通圖G(V,E,vr,Ψ)中,根結點(vr∈V)~V中任意一結點vi都恰有一條單向通路,稱此有向圖為有向樹,記為T(V,E,vr,Ψ),vr為T的根結點。其中,如果結點的度d(vi)>1,vi∈(V-{ vr }),i=0,1,2,…,n,則稱vi為內點或分支點;如果結點的度d(vj)=1,vj∈(V-{ vr }),j=0,1,2,…,n,則稱其為葉結點。Ψ為關聯函數,是邊集合E到(V×V)的一個映射,是帶信息標簽約束的映射。

定義3 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,存在vi∈(V-{ vr }),i=0,1,2,…,n。從vi出發的帶標簽連通的最大有向樹,記為T′(Vi,Ei,vr,Ψi)。其中,Vi表示T(Vi,Ei,vr,Ψi)樹的結點集;Ei表示T(Vi,Ei,vr,Ψi)樹的邊集;Ψi為關聯函數,是邊集合Ei到(Vi×Vi)的一個映射,是帶信息標簽約束的映射,稱T′為T的子樹。當T′的出度數為0時,T′是個結點;當T′的出度數不為0時,T′是個復雜樹。

定義4 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,T={t1,t2,…,tn},ti{i=0,1,2,…,n}是T的子樹。當t1,t2,…,tn是按照一定順序規則排列時,則稱T為有序樹。

定義5 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,v0,v1,…,vn∈V,e1,e2,…,en∈E。其中,ei是連接vi-1,vi的邊,交替序列v0 e1v1 e2…vn-1 en vn就稱為聯結v0~vn的路徑。v0與vn分別稱為路徑的起點和終點。

這里的BXEEM(Based XML Extensible Exchange Model)數據模型就是基于帶標簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)的數據模型。樹的每一個節點都有一個惟一的標識符(ID)。這個標識符可以顯示用XML文檔中某一元素的ID屬性來標識,也可以為其分配一個惟一的ID來標識。然而點和邊的交替序列可以惟一表示節點之間的路徑。用標簽表示信息的類別、標簽標記標簽之間的信息應如何被處理。

XML文檔的數據模型的示意圖如圖1所示。

圖1 XML文檔的數據模型的示意圖

3 BXEEM數據模型在XML中的應用

XML雖然與HTML屬于半結構化數據,但之所以比HTML更具有數據描述和數據識別能力在于它自身可以定義嚴格的層次結構,如通過XML的DTD或Schema定義。因此在面向XML表達的數據建模過程中,必須具有描述表達XML元數據結構的能力。

模型對XML定義語法描述為:

〈! ELEMENT基元(基元頭體,基元主體,關聯基元)〉

〈! ATTLIST基元標識符ID#REQUIRED名字CDATA#REQUIRED引用IDREFS#IMPLIED

〈! --內部鏈接關系--〉〉

〈! ELEMENT基元頭體(基元指針,(#PCDATA|empty|基元)*)*〉〈! --外部超鏈關系--〉

〈! ELEMENT基元主體(#PCDATA|empty基元描述內容)*〉

〈! ELEMENT基元描述內容(#PCDATA|empty)*〉

〈! ELEMENT關聯基元(#PCDATA|empty|基元主體)*〉〈! --層次分形關系--〉

不同的BXEEM對象,其結構是相似的,其自我嵌套、自我描述的特性使得BXM對象在縱向呈現嚴格的層次樹結構,而對處于同一層次或非同類路徑的BXEEM對象之間關系,橫向是由鏈接關系實現的,由BXEEM模型可知,鏈接關系存在不同類型的鏈接。由此可歸納出這種描述元數據的結構共性,稱之為層次分形-多級超鏈的基元。

各對象之間關系動態改變時,通過基元頭體可動態關聯和建立新的鏈接關系,根據不同的需求實現基元的重組織,從而透明映射到BXEEM對象,重新組合形成新的有向圖?;羔樀闹赶驗橐粋€新的出口,該出口可對應于另一個XML文檔。它可采用物理路徑或采用惟一的ID表示。

此模型建立的基元具有以下特性:

(1) 層次樹自我遞歸生長的特性。一個基元通過其關聯基元能夠衍生出新的子基元,多次遞歸生長成樹型結構的組織,由此形成BXEEM模型的對象層次結構關系。此特性實現了對整個BXEEM對象的描述。

(2) 自我重組織特性。一個基元通過基元頭體實現與外部的動態導航功能,利用其屬性建立內部鏈接關系,從而根據不同的需求實現基元的動態重組織。此特性實現了BXEEM對象間鏈接關系的動態改變。

通過基元的操作,可保證BXEEM對象代數操作的一致性。對XML文檔而言,則確保了該文檔的一致有效性和合法性。

3.1 根據BXEEM模型對象的定義,在描述表達BXM數據模型時,又做了一些規定

規定1 BXEEM模型用有向樹的節點和有向實邊的標識(Label)表示被描述對象(數據)。結點用圓表示。結點必須含有標識符oid以及標記名(Labelname),有向實邊表示對象與其子對象間的嵌套關系,有向實邊的標識表示對象的Labelname。

規定2 BXEEM模型用有向虛邊表示對象屬性以及對象間的鏈接引用關系。

規定3 BXEEM模型的復雜對象結點可以具有多個引出向的實邊,但只能有惟一引入向的實邊表明,該對象僅能有一個父對象來反映XML文檔嚴格的層次嵌套關系。

規定4 BXEEM模型中規定結點在同一層按照從左到右的順序依次排列,以此來表明BXEM數據模型與XML文檔的匹配。

根據BXEEM模型的定義,層次分形-多級超鏈的基元描述了XML文檔的DTD以及XMLSchema,保證了在該基礎上BXEEM模型表達XML文檔的一致有效性和合法性。與XML文檔匹配有如下關系:XML元素采用XOEM對象表達,XML的子元素嵌套關系反映了BXEEM的子對象關系。XML元素之間的順序不是任意的,因此BXM模型中規定各結點按照從左到右的順序作為XML元素表達的順序。

XML的鏈接引用存在兩種方法:一種是內部指針引用,即通過ID與IDREF(S)實現的,在BXM模型中對象的oid與ID相匹配,對象的引用屬性名均可作為IDREF(S)的類型。因此有向虛邊與實圓構成內部鏈接引用。另一種是外部鏈接,即通過Xlink/Xpointer。外部鏈接分為兩級即link=1時表示線性超鏈(簡單鏈接),link=2時表示擴展超鏈。

3.2 實例

以下是一個XML數據文檔實例。以信息為例,其BXEEM有向樹如圖2所示?,F以XML描述如下:

1rgf

< list > XVSGTVCLSALPPEATDTLNLIASDGPFPYSQDGVVFQNRESVLPTQSYGYYHEYT

VITPGARTRGTRRIITGEATQEDYYTGDHYATFSLIDQTC

主站蜘蛛池模板: 欧美综合区自拍亚洲综合绿色| 无码aaa视频| 亚洲国产精品无码AV| 亚洲一级毛片在线播放| 欧美日本在线播放| 免费看美女自慰的网站| 91精品啪在线观看国产| 亚洲精品制服丝袜二区| 亚洲国产天堂久久综合| 宅男噜噜噜66国产在线观看| 国产精品蜜臀| 欧美精品另类| 九色在线视频导航91| 伊大人香蕉久久网欧美| 99资源在线| 国产一区亚洲一区| 国产爽爽视频| 综合亚洲网| 亚洲精品天堂在线观看| www.国产福利| 在线观看国产精品一区| 久久精品国产精品国产一区| 久久99这里精品8国产| 青青青国产免费线在| 欧美视频在线第一页| 国产素人在线| 亚洲日本一本dvd高清| 黄网站欧美内射| 黑人巨大精品欧美一区二区区| 亚洲中文在线看视频一区| 亚洲欧美激情小说另类| 伊人久热这里只有精品视频99| 91福利在线观看视频| 熟妇人妻无乱码中文字幕真矢织江| 亚洲成人网在线播放| 免费亚洲成人| 国内精品视频在线| 久久96热在精品国产高清| 国产精品一区在线观看你懂的| 国产真实自在自线免费精品| 亚洲精品无码久久久久苍井空| 亚洲国产第一区二区香蕉| 国产精品自在线天天看片| 久久久久九九精品影院| 国产又黄又硬又粗| 色网站在线免费观看| 欧美日韩国产一级| 999在线免费视频| 国产成人精品优优av| 黄色污网站在线观看| 亚洲福利视频网址| 久久精品中文字幕免费| 中文字幕永久在线观看| 久久亚洲国产一区二区| 国产亚洲男人的天堂在线观看| 欧美成人精品欧美一级乱黄| 亚洲色图综合在线| 99免费在线观看视频| av一区二区三区高清久久| 日本精品一在线观看视频| 亚洲成在人线av品善网好看| 国产在线拍偷自揄观看视频网站| 日韩精品一区二区三区swag| 曰韩免费无码AV一区二区| 99精品久久精品| 久久天天躁夜夜躁狠狠| 亚洲日韩精品伊甸| 2021最新国产精品网站| 欧美性色综合网| 伊人久久婷婷五月综合97色| 91久久偷偷做嫩草影院免费看| 国产精品99一区不卡| 香蕉网久久| 亚洲69视频| 亚洲精品在线观看91| 欧美日韩国产系列在线观看| 国产美女精品一区二区| 亚洲电影天堂在线国语对白| 老司机aⅴ在线精品导航| 久久国产精品麻豆系列| 亚洲日产2021三区在线| 亚洲人妖在线|