摘 要:在對數據元相關理論進行深入研究的基礎上,并結合大型企業信息化中數據標準的實際,提出了數據元概念、基本數據元、應用數據元以及與之分類模式間關系的支撐數據元構建的核心元模型,并定義了數據元的生成算法。這一模型對于企業信息化中的元數據的分析與規范具有指導與借鑒意義。
關鍵詞:數據;數據元素;數據標準化;元數據
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2008)07-2075-03
New meta-model for construction data element of oriented application
YUAN Man,CHEN Yong-heng
(College of Computer Information Technology, Daqing Petroleum Institute, Daqing Heilongjiang 163318, China)
Abstract:The theory on data element was researched deeply,and according to data standardization reality in large-scale enterprise, one meta-model for construction data element data based on the idea ofdata element concept-basic data element-application data element which expressed classification schema, one kind of algorithm for automatic generation data elementwas defined.The model could also be used to analyze and normalize metadata in enterprise information.
Key words:data;data element;data standardization;metadata
目前,許多企業已經將數據作為企業的資產來看待。如何對企業的數據進行科學、有效的規范化,并形成一套企業級層面上的數據元素字典以滿足并指導企業數據模型的設計、概念視圖設計、數據管理需求以及軟件系統的開發,對于企業是十分重要的。同時數據元分析在信息分類、數據的集成參考模型、數據模型優化設計以及制定數據交換標準等得到了多方面的應用。數據元標準的目標是建立標準化的信息表達方法和存儲格式,以實現信息的正確表達及無誤差傳播,實現信息在意義上、標準和內容上的統一,為信息的共享和集成分析提供技術支撐。為了使數據元含義、表示能正確理解和使用,必須要有行之有效的方法定位和獲取數據元,這就需要有一套完整的管理機制。本文結合筆者長期以來的研究探討,具體包括經過對數據元理論與數據元素的相關概念、數據元素結構模型、數據元素的組成等,提出了數據元數據結構注冊模型,模型通過數據元概念、基本數據元以及應用數據元三層控制提交的數據元構建元模型。通過該模型,實現各種要素生成數據元的過程規范化、標準化,擴展了數據元標準化的內涵。
1 數據元概念及基本模型
1)數據元概念(DEC) 對象類與特性聯合在一起形成數據元概念,數據元概念在數據分類中是非常有用的,一般來講,數據元概念是一個抽象意義上的數據元,但這類數據元的對象類已經限定,只有經過對數據元概念中的各個要素再進一步的限定,才使數據元概念變成真成有意義的應用數據元素。所以,數據元概念本身具有抽象性與分類性。
2)通配數據元 特性與表示聯合在一起形成通配數據元,通配數據元素也具有抽象意義,對于這類數據元來講,它的特性與表示已經確定,所以它具有通配性,如果將這類數據元與具體的對象類聯系在一起,那么該類數據元就可以具體轉換為有意義的應用數據元。
3)數據元類型 它由數據元概念與通配數據元形成。
數據元是由數據元概念和表示兩部分組成。當一個表示被聯合到一個數據元概念上時,就能夠產生數據元。數據元和數據元概念間存在多對一的關系,也就是一個數據元必須對應一個數據元概念,而一個數據元概念可以有多個數據元。換句話說,多個數據元可以共享一個數據元概念。數據元結構模型如圖1所示。
數據元與表示之間的關系是一對一的關系,也就是一個數據元需要一個表示。當數據元的概念模型相同而表示不同時就是兩個不同的數據元,數據元中的表示是描述數據元中的數據元概念中的特性,即數據元中的特性有且僅有一個表示。
在數據元概念中對象類與特性之間是一對一的關系,一個對象類只需要一個特性(或者特性類),一個特性(特性類)只描述一個對象類,當一個特性與一個對象類建立關聯時就產生了一個數據元概念。
與實體關系類的數據模型相比,模型中的實體相當于數據元中的對象類,而實體的屬性相當于數據元中的特性和表示。
數據元方法是指導進行數據元定義、命名、分類、屬性定義等的理論依據,必須對數據元理論方法進行深入研究,重點研究數據元組成中的對象、特性及表示深刻內含、對象提取方法、特性定義方法、對象的分類方法以及基本數據元定義方法等,并重點解決依據對象、特性以及表示等分類問題。按照這三個要素進行分類,將會從不同的側面揭示數據元的不同實質,如從對象的角度分類,可以揭示數據元與具體對象間的關系;從特性角度分類可以揭示特性的類型、最大值、最小值、精度、度量單位等方面的共同特性,這樣可以將具有同一特性的數據元聚集到一起,進行統一的值域名稱的定義;如果從表示角度因素出發可以揭示數據元在表示以及量綱等方面的一些特性。
2 數據元構建元模型及衍生算法
對企業數據元進行分析的是一個過程,只有采用數據元方法,才能科學地對數據元進行規范化。對于規范化的產物——數據元字典如何通過標準化組織對其進行統一的管理與維護,為以后專業的應用提供一個統一的、無二義性的數據元字典這是標準化管理部門要考慮的問題。從某種意義上講,數據元形成的過程不僅僅是實現對數據元字典進行管理的一個簡單的功能,而是如何依據數據元的各種要素生成或構建數據元的過程,即如何正確地定位和獲取數據元。應用數據元的形成是基本數據元進行實例化的過程,即在基本數據元的基礎之上,按照所定義的各種限定詞的分類模式生成應用數據元的過程。因此數據元定位、分析與提取的過程實質就是對這些不同要素的分類模式進行統一定義的過程。
經過對數據元理論與實際數據規范化應用的研究,提出了數據元構建元模型。數據元的數據結構是各種要素的組織方式,用于描述各種要素是如何進行組織的。數據元構建元模型的目標是通過數據結構注冊規則實現各種要素生成數據元的過程合理化、規范化。
2.1 高層模型
數據元構建高層模型的概念模型包含概念層和表示(或物理)層兩個部分。概念層包含數據元概念與概念域的類所表達的概念。表示層包含數據元素與值域的類,兩者均用數據值表達。數據元構建高層模型如圖2所示。
圖2四個類反映了幾個基本事實:
a)一個數據元素是一個數據元概念與一個表示(主要是一個值域)的連接。許多數據元素可以共享一個數據元概念,意味著一個數據元概念可以由許多不同方法表示。
b)數據元素可以共享相同的表示。意味著一個值域可以再植(reused in)于別的數據元素。值域不是必須與一個數據元素相關,而可以獨立管理。
c)值域共享所有概念相當的允許值的含義,所以共享同一概念域。值域共享某些概念相關的允許值的含義,所以在各自概念域所包含的概念系統中,共享同一概念域。
d)多個值域可以共享同一個概念域。一個數據元概念與一個概念域相關。所以,所有數據元共享同一個數據元概念;共享概念相關的表示。
2.2 數據元構建元模型
在國際標準中對數據元注冊機構、命名與定義注冊、數據元概念與值域注冊等進行了比較全面的描述。但對組成數據元本身的各種要素的構建原則,特別是數據元的分類模式沒有提出具體詳細的組織模型,對此筆者經過長時間的研究實踐,在國際數據元注冊模型基礎上,并結合實際項目提出了基于三級構建體系規則的數據元構建元模型。數據元構建元模型通過三層規范控制體系,實現了數據元概念、基本數據元以及應用數據元形成的標準化,從而解決了數據元或元數據注冊形成過程的數據元的組成結構控制問題,保證了數據元的質量以及用戶對數據元理論的理解與應用的一致性,更深層次地推進了數據元標準化的進程。
數據元的數據結構注冊模型,包括值域注冊模型(圖3)、數據元注冊模型和數據元值域注冊模型(圖4、5)。
從模型上可以看出,數據元概念為三個分模型所共有,數據元概念注冊定義為注冊機構提交注冊數據元的起點。其中數據元概念注冊規則為最高層數據元注冊限定,也是數據元概念注冊的根節點。模型在整體上通過三層注冊規則、值域的一次定義多層綁定實現了數據元概念、基本數據元及應用數據元的注冊。
模型給出了通配數據元、數據元概念與基本數據元以及應用數據元間的關系,同時還給出了不同數據元值域定義的級別與規則,從而保證了數據元在名稱、定義等方面的繼承性。這個框架模型解決了數據間名稱沖突問題,更重要的是析出了不同分類模式在數據元構建中的作用。概括地說,該框架模型是將對象類、特性類、分類模式以及由此衍生的數據元概念、基本數據元和應用數據元、值域有機地關聯在一起,從而揭示了數據元與應用的緊密關系。
2.3 基于三層注冊規則的數據元衍生算法
數據元的衍生算法定義DM(root,attributes,objDefinitives,objects,object,attribute,attDefinitives)。其中:root表示對象類;attributes為特性集;objects為對象集;object為對象;attribute為特性;objDefinitives為對象限定集;attDefinitives為特性限定集。
三層數據元構建的算法描述如下:
a)將root節點作為數據元概念注冊規則的參數
(a)結果集attributes為空,數據元概念構建失敗,返回;
(b)結果集attributes不為空,選擇一個結果attribute與root節點結合,構建數據元概念,root的數據元概念集為 {(root)}×{(attributes)}。
b)將root、attribute作為基本數據元注冊規則的參數
(a)結果集objects為空,基本數據元構建失敗,返回a);
(b)結果集objects不為空,選擇一個結果object與attri-bute結合,構建基本數據元,root節點的基本數據元集為{(objects)}×{(attributes)}。
c)將上一步,object和attribute分別作為對象限定詞注冊規則和特性限定詞注冊規則的參數
(a)結果集為空,前面構建的基本數據元也為應用數據元,返回b);
(b)存在一個注冊規則的結果集不為空,則依據對象限定詞注冊規則得到的結果集為objDefinitives,依據對象限定詞注冊規則得到的結果集為attDefinitives,root節點的應用數據元集為{{(objDefinitives)}×{(object)}}×{{(attDefinitives)}×{(attribute)}}。
d)結束。
DM是一種自頂向下的增長樹算法,在數據元概念注冊規則基本數據元注冊規則以及應用數據元注冊規則階段,通過分類模式分類相應參數節點,完成一定層次的數據元構建,直到樹完美分類,應用數據元構建完成。DM實現了數據元構建過程中由上自下的分層、分布驗證。
數據元構建元模型實質上是形成數據元或元數據的過程。通過這個統一的注冊過程實現對數據元的統一管理,使得數據元的產生只有一個惟一的源頭。保證數據元的質量以及用戶對數據元理論的理解與應用的一致性。整個構建過程不僅有表達與存儲各層級數據元的模型,同時還有一套注冊規則來保障數據元構建的合法性、高質量性。統一構建數據元將解決數據元產生惟一源頭的控制問題,使得數據元的產生只有一個場所,對其變更也只能通過這一入口進行統一變更,任何無關的人員無權構建及變更數據元。
3 值域的繼承性
數據元概念針對不同基本數據元定義值域供基本數據元使用,這種定義是抽象的,每種值域的計量單位是多樣的,即基本數據元及數據元概念的表示是概念層定義;應用數據元表示的定義是基本數據元值域寬度具體化、計量單位惟一化,應用數據元的表示是應用層定義。值域層次如圖6所示。
4 結束語
數據元的理論、方法和實踐,不僅用于數據交換標準的制定和元數據的注冊。事實上,數據分析與規范化只是一個過程。一般地,對于信息化的生命周期過程來講,它可能只是一個一次性的活動。所以,利用數據元方法對企業數據進行規范化定義,其實不僅僅是數據本身的一個規范化定義的過程,更重要的是通過該過程的規范化也是在抽取企業信息實體的一個過程。這個過程分析的結果將會為企業構建一個結構穩定的、統一的數據模型奠定重要基礎,此外,構建的數據元會形成企業的元數據,或者說是數據元字典。有了這些規范化的數據元,即企業的元數據,為企業構建數據倉庫、基于元數據的信息系統應用以及企業不同系統間的數據交換奠定了基礎。
參考文獻:
[1][EB/OL].http://www.PPM.org.
[2][EB/OL].http://www.PIDD.org.
[3][EB/OL].http://www.POSC.org.
[4]GB/T18391.1—2002/ISO/IEC11179-1:1999,數據元的規范與標準化框架[S].2002.
[5]GB/T18391.2—2003/ISO/IEC11179-2:2000,數據元的分類[S].2003.
[6]GB/T18391.3—2001/ISO/IEC11179-3:1994,數據元的基本屬性[S].2001.
[7]GB/T18391.4—2002/ISO/IEC11179-4:1995,數據定義的編寫規則與指南[S].2001.
[8]GB/T18391.5—2001/ISO/IEC11179-5:1995數據元的命名和標志原則[S].2001.
[9]GB/T 15645-1995,用于行政、商業和運輸業電子數據交換的復合數據元目錄[S].1995.
[10]袁滿,高雪.中國石油數據元設計指南(企業標準)[K].北京:石油工業出版社,2005.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”