999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML的生物信息數據整合模型

2010-05-13 09:17:24潘雪峰
現代電子技術 2009年20期

潘雪峰

摘 要:在互聯網生物信息數據庫中,各大研究機構之間生物信息數據是異地、異構和高度自治的,并且信息之間的存放是分散無序的。為了充分使用資源,必須建立關于生物信息數據的整合模型。在此提出一種新的基于XML表達的有序層次分形數據模型,通過對現有數據的結構化,借助BXEEM模型分別使用內部指針引用和外部鏈接的方法,將數據進行整合,更有利于生物信息數據的集成和融合。

關鍵詞:XML;半結構化;異構數據集成;數據模型;數據集成

中圖分類號:Q811.4;TP311 文獻標識碼:A 文章編號:1004-373X(2009)20-160-03

Data Integration Model of Biological Information Based on XML

PAN Xuefeng

(Wuhan Bioengineering Institute,Wuhan,430415,China)

Abstract:In Internet biological information database,among the major research institutions and bio-informatics data is remote,heterogeneous,high degree of autonomy,and the stored information is scattered between the disorder.In order to full use resource,integration model of biological information data is built.A new XML-based and orderly expression of data-level fractal model of the existing data structure is proposed,through the use of internal models BXEEM pointer references and external links to the method of data integration,it is more conducive to bio-informatics data integration and fusion.

Keywords:XML;semi-structure;heterogeneous data integration;data model;data integration

0 引 言

生物信息學(Bioinformatics)是通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,達到揭示數據所蘊含生物學意義的目的[1,2]。

生物信息數據源的主要特點是:國際化生物數據庫相互獨立而又利用協議統一維護原始數據,而各實驗室的數據庫就各有特色;數據量龐大且增長速度很快;數據通過Internet進行發布,發布格式復雜多樣[3,4]。目前非常必要的課題之一是將各自的、獨立的、分散的基因組信息整合到一起,并且可以最大限度地消除冗余數據,保證數據的可靠性和準確性[5]。

本文重點討論將XML作為中間媒介,建立新的生物信息公共數據模型,使異構生物信息數據的提取與集成更方便。

1 XML的特點

擴展標記語言(eXtensible Markup Language,XML)是一門新興的面向Internet應用的標記語言,它將數據信息本身的存儲和關聯與表現形式相分離,且具有強大的可擴展性[6]。生物信息學的發展同樣引入了XML技術。XML的特點如下:

(1) XML數據的自描述性。它指XML中的語義標識,一方面限定了元素的層次結構,另一方面也說明了元素的含義[7,8]。

(2) 內容的獨立性。它將成為跨平臺數據交換和操作的標準模式。實現異構數據集成中數據的互操作性。

(3) 能描述不同復雜程度的數據。XML提供了數據的結構化表示,并且易于操作。

(4) 可擴展性。XML可以在不破壞現有結構和系統的情況下增加新的數據字段。應用服務器利用XML對所有數據建模,若要改變數據模型只需改變數據模型定義。

(5) 結構性。數據存儲格式不受顯示格式制約。一般包括三要素:數據、結構以及顯示方式。

因此,運用XML可以有效地解決新舊系統、不同應用系統之間或數據源之間的數據共享與交互問題。XML和數據庫之間是互補的關系,在不同的場合有不同的優勢[9,10]。可以很方便地交換復雜數據在不同平臺上的瀏覽。

2 基于XML的生物信息數據模型

實際上,在此提出的半結構化數據模型是一種基于帶標簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)數據模型BXEEM(Based XML Extensible Exchange Model)。下面給出相關定義:

定義1 有向圖G是一個有序四元組,G=(V,E,vr,Ψ)。其中:V是一個非空的有向圖中根結點的所有結點集合;E V×V是此有向圖中邊的集合;(V,E)代表一個有向多重圖(Directed Multi-graph);vr∈V表示根結點,并且滿足該結點的入度為0;d(vr,vi)>0,vi∈(V-{ vr }),i=0,1,2,…,n,即vr到V中任意一個結點vi都有一條通路;Ψ為關聯函數,是邊集合E到(V×V)的一個映射,是帶信息標簽約束的映射。稱G為帶標簽、帶根的有向連通圖,表示為G(V,E,vr,Ψ)。

定義2 在帶標簽、帶根的有向連通圖G(V,E,vr,Ψ)中,根結點(vr∈V)~V中任意一結點vi都恰有一條單向通路,稱此有向圖為有向樹,記為T(V,E,vr,Ψ),vr為T的根結點。其中,如果結點的度d(vi)>1,vi∈(V-{ vr }),i=0,1,2,…,n,則稱vi為內點或分支點;如果結點的度d(vj)=1,vj∈(V-{ vr }),j=0,1,2,…,n,則稱其為葉結點。Ψ為關聯函數,是邊集合E到(V×V)的一個映射,是帶信息標簽約束的映射。

定義3 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,存在vi∈(V-{ vr }),i=0,1,2,…,n。從vi出發的帶標簽連通的最大有向樹,記為T′(Vi,Ei,vr,Ψi)。其中,Vi表示T(Vi,Ei,vr,Ψi)樹的結點集;Ei表示T(Vi,Ei,vr,Ψi)樹的邊集;Ψi為關聯函數,是邊集合Ei到(Vi×Vi)的一個映射,是帶信息標簽約束的映射,稱T′為T的子樹。當T′的出度數為0時,T′是個結點;當T′的出度數不為0時,T′是個復雜樹。

定義4 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,T={t1,t2,…,tn},ti{i=0,1,2,…,n}是T的子樹。當t1,t2,…,tn是按照一定順序規則排列時,則稱T為有序樹。

定義5 在帶標簽、帶根的有向樹T(V,E,vr,Ψ)中,v0,v1,…,vn∈V,e1,e2,…,en∈E。其中,ei是連接vi-1,vi的邊,交替序列v0 e1v1 e2…vn-1 en vn就稱為聯結v0~vn的路徑。v0與vn分別稱為路徑的起點和終點。

這里的BXEEM(Based XML Extensible Exchange Model)數據模型就是基于帶標簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)的數據模型。樹的每一個節點都有一個惟一的標識符(ID)。這個標識符可以顯示用XML文檔中某一元素的ID屬性來標識,也可以為其分配一個惟一的ID來標識。然而點和邊的交替序列可以惟一表示節點之間的路徑。用標簽表示信息的類別、標簽標記標簽之間的信息應如何被處理。

XML文檔的數據模型的示意圖如圖1所示。

圖1 XML文檔的數據模型的示意圖

3 BXEEM數據模型在XML中的應用

XML雖然與HTML屬于半結構化數據,但之所以比HTML更具有數據描述和數據識別能力在于它自身可以定義嚴格的層次結構,如通過XML的DTD或Schema定義。因此在面向XML表達的數據建模過程中,必須具有描述表達XML元數據結構的能力。

模型對XML定義語法描述為:

〈! ELEMENT基元(基元頭體,基元主體,關聯基元)〉

〈! ATTLIST基元標識符ID#REQUIRED名字CDATA#REQUIRED引用IDREFS#IMPLIED

〈! --內部鏈接關系--〉〉

〈! ELEMENT基元頭體(基元指針,(#PCDATA|empty|基元)*)*〉〈! --外部超鏈關系--〉

〈! ELEMENT基元主體(#PCDATA|empty基元描述內容)*〉

〈! ELEMENT基元描述內容(#PCDATA|empty)*〉

〈! ELEMENT關聯基元(#PCDATA|empty|基元主體)*〉〈! --層次分形關系--〉

不同的BXEEM對象,其結構是相似的,其自我嵌套、自我描述的特性使得BXM對象在縱向呈現嚴格的層次樹結構,而對處于同一層次或非同類路徑的BXEEM對象之間關系,橫向是由鏈接關系實現的,由BXEEM模型可知,鏈接關系存在不同類型的鏈接。由此可歸納出這種描述元數據的結構共性,稱之為層次分形-多級超鏈的基元。

各對象之間關系動態改變時,通過基元頭體可動態關聯和建立新的鏈接關系,根據不同的需求實現基元的重組織,從而透明映射到BXEEM對象,重新組合形成新的有向圖?;羔樀闹赶驗橐粋€新的出口,該出口可對應于另一個XML文檔。它可采用物理路徑或采用惟一的ID表示。

此模型建立的基元具有以下特性:

(1) 層次樹自我遞歸生長的特性。一個基元通過其關聯基元能夠衍生出新的子基元,多次遞歸生長成樹型結構的組織,由此形成BXEEM模型的對象層次結構關系。此特性實現了對整個BXEEM對象的描述。

(2) 自我重組織特性。一個基元通過基元頭體實現與外部的動態導航功能,利用其屬性建立內部鏈接關系,從而根據不同的需求實現基元的動態重組織。此特性實現了BXEEM對象間鏈接關系的動態改變。

通過基元的操作,可保證BXEEM對象代數操作的一致性。對XML文檔而言,則確保了該文檔的一致有效性和合法性。

3.1 根據BXEEM模型對象的定義,在描述表達BXM數據模型時,又做了一些規定

規定1 BXEEM模型用有向樹的節點和有向實邊的標識(Label)表示被描述對象(數據)。結點用圓表示。結點必須含有標識符oid以及標記名(Labelname),有向實邊表示對象與其子對象間的嵌套關系,有向實邊的標識表示對象的Labelname。

規定2 BXEEM模型用有向虛邊表示對象屬性以及對象間的鏈接引用關系。

規定3 BXEEM模型的復雜對象結點可以具有多個引出向的實邊,但只能有惟一引入向的實邊表明,該對象僅能有一個父對象來反映XML文檔嚴格的層次嵌套關系。

規定4 BXEEM模型中規定結點在同一層按照從左到右的順序依次排列,以此來表明BXEM數據模型與XML文檔的匹配。

根據BXEEM模型的定義,層次分形-多級超鏈的基元描述了XML文檔的DTD以及XMLSchema,保證了在該基礎上BXEEM模型表達XML文檔的一致有效性和合法性。與XML文檔匹配有如下關系:XML元素采用XOEM對象表達,XML的子元素嵌套關系反映了BXEEM的子對象關系。XML元素之間的順序不是任意的,因此BXM模型中規定各結點按照從左到右的順序作為XML元素表達的順序。

XML的鏈接引用存在兩種方法:一種是內部指針引用,即通過ID與IDREF(S)實現的,在BXM模型中對象的oid與ID相匹配,對象的引用屬性名均可作為IDREF(S)的類型。因此有向虛邊與實圓構成內部鏈接引用。另一種是外部鏈接,即通過Xlink/Xpointer。外部鏈接分為兩級即link=1時表示線性超鏈(簡單鏈接),link=2時表示擴展超鏈。

3.2 實例

以下是一個XML數據文檔實例。以信息為例,其BXEEM有向樹如圖2所示?,F以XML描述如下:

1rgf

< list > XVSGTVCLSALPPEATDTLNLIASDGPFPYSQDGVVFQNRESVLPTQSYGYYHEYT

VITPGARTRGTRRIITGEATQEDYYTGDHYATFSLIDQTC

主站蜘蛛池模板: 亚洲人成人伊人成综合网无码| 丁香综合在线| 欧美成一级| 亚洲第一在线播放| 老熟妇喷水一区二区三区| 色偷偷男人的天堂亚洲av| 国产欧美在线观看精品一区污| 午夜爽爽视频| julia中文字幕久久亚洲| 97国内精品久久久久不卡| 无码内射中文字幕岛国片| 中文一区二区视频| 欧美在线精品怡红院| 亚洲婷婷六月| 亚洲色图在线观看| 国产香蕉97碰碰视频VA碰碰看| 国产成人a在线观看视频| AV色爱天堂网| 亚洲综合香蕉| 亚洲日本中文字幕乱码中文 | 国产综合精品日本亚洲777| 国产小视频在线高清播放| 久久夜色撩人精品国产| 91小视频在线| 91午夜福利在线观看| 精品国产www| 青青青草国产| 亚洲精品无码在线播放网站| 久久综合亚洲鲁鲁九月天| 丁香五月婷婷激情基地| 天堂网国产| 欧美a在线看| 国产成人精品优优av| 黄色污网站在线观看| 亚洲国产中文综合专区在| 青青热久免费精品视频6| 日本一区二区不卡视频| 欧美亚洲激情| 成人中文在线| 国产精品亚洲va在线观看| 精品超清无码视频在线观看| 国产欧美日韩综合在线第一| 午夜一区二区三区| 亚洲男人天堂网址| 视频二区欧美| 精品欧美视频| 日韩小视频在线播放| 久久91精品牛牛| 国产人人干| 任我操在线视频| 狠狠做深爱婷婷久久一区| 欧美中文字幕在线播放| а∨天堂一区中文字幕| a亚洲视频| 久久夜色精品国产嚕嚕亚洲av| 国产精品免费p区| 亚洲一级毛片免费看| 在线观看无码a∨| 亚洲综合专区| 综合网久久| 亚洲码在线中文在线观看| 亚洲午夜国产片在线观看| 亚洲五月激情网| 亚洲国产高清精品线久久| 精品伊人久久大香线蕉网站| 真人高潮娇喘嗯啊在线观看| 天天色综网| 99草精品视频| 天堂亚洲网| 欧美一级在线播放| 国产成人精品2021欧美日韩| 国产99欧美精品久久精品久久| 毛片一区二区在线看| 亚洲综合一区国产精品| 五月丁香在线视频| 亚洲男人的天堂在线观看| 国产欧美专区在线观看| 亚洲中文无码av永久伊人| 一区二区三区高清视频国产女人| 在线播放真实国产乱子伦| 2020国产在线视精品在| 亚洲第一区欧美国产综合|