摘 要:對數據元素理論涉及的關鍵技術進行了研究,具體包括數據元素的相關概念、數據元素結構模型、數據元素屬性等,并結合實際項目的研究、提出了數據元素的元模型。認為數據元素方法論是指導企業進行數據標準化的重要的、科學的方法論,只有在這一方法論指導下規范的數據,才具有穩定性,才能為企業建立集成化的數據模型奠定堅實的基礎,同時,也只有在這一方法論的指導下構建的企業數據模型才能夠從根本上解決數據質量問題、才能構建出企業的真正字數據字典與元數據。也只有在這一方法論的指導下構建的企業元數據、才能真正實現系統間無縫的數據交換與共享。
關鍵詞:數據元素;數據;數據標準化;元數據;信息分類與編碼
1 數據元素基本理論
1.1 數據元素及相關定義
在數據元素理論研究中,下面的術語是很重要的,理解好這些術語是理解數據元素的基礎。
①數據元素(Data Element):用一組屬性描述定義、標識、表示和允許值的一個數據單元。
②數據元值(Data Element Value):數據元能許值集合中的一個值。
③數據項:數據元的一個具體值。
④同義名稱: 與給定名稱有區別但表示相同的數據元概念。
⑤限定詞:幫助定度和呈遞唯一性概念的術語。
⑥域:一種屬性的可能數據值的集合。
⑦值域:允許值的集合。
⑧域名:將數據元的值域及度量單位利用一個統一的名稱來表示。
⑨對象類:對象集,現實世界中的想法、抽象概念或事物集合,有清楚邊界和含義,并且特性和其行為遵循同樣的規則面能夠加以標識。
⑩對象:可要想象或感覺的世界的任一部分。
(11)特性:對象類的所有個體所共有的某種性質。
(12)表示:值域、數據類型的組合,必要時也包括度量單位或字符集。
(13)對象類詞:數據元名稱的成分,用于表示其所屬的對象類。
(14)特性類詞:數據元名稱的一個成分,用于表述對象類的特性,(數據元名稱的一個成分,表述數據元所屬類別)。
(15)表示類詞:數據元名稱的成分,用于描述數據元的表示形式。
(16)數據模型:以反信息結構的某種方式對數據組織的某種描述。
1.2 數據元素規范與標準化框架
1.2.1 數據元素的組成
數據元由對象類、特性和表示三部分組成,其中對象類用于收集和存儲數據的事物,例如,人、井、巖芯、管線、儲罐都是對象類等;特性是用來區別和描述對象的,例如,顏色、性別、年齡、收入、地址、價格等均為特性;數據的表示部分中最為重要的方面是值域,值域是數據元允許(或有效)值的集合。對于值域,數據元中存在兩種類型的值域,一種是所謂取值是固定的,即取值是可枚舉的,例如,人眼睛顏色這個數據元,其取值可能包括:Brown、Gray、Green、Hazel、Blue,另一種是概括的,即數據元取值是有定義域約束的,其取值可能是有限的,但是無法列出全部值,例如人的年齡,其取值范圍可能是1-200,并且每位要求是十進制表示。
1.2.2 數據元結構模型
(1)數據元概念(DEC):對象類與特性聯合在一起形成數據元概念,數據元概念在數據分類中是非常有用的,一般來講,數據元概念是一個抽象意義上的數據元,但這類數據元的對象類已經限定,只有經過對數據元概念中的各個要素再進一步的限定,才使數據元概念變成真成有意義的應用數據元素。所以,數據元概念本身具有抽象性與分類性。
(2)通配數據元:特性與表示聯合在一起形成通配數據元,通配數據元素也具有抽象意義,對于這類數據元來講,它的特性與表示已經確定,所以它具有通配性,如果將這類數據元與具體的對象類聯系在一起,那么該類數據元就可以具體化為有意義的應用數據元。
(3)數據元類型:數據元概念與通配數據元形成數據元類型。
數據元是由數據元概念和表示兩部分組成。當一個表示被聯合到一個數據元概念上時,就能夠產生數據元。數據元和數據元概念間存在多對1的關系,也就是一個數據元必須對應一個數據元概念,而一個數據元概念可以有多個數據元,換句話說,多個數據元可以共享一個數據元概念。
數據元與表示之間的關系是一對一的關系,也就是一個數據元需要一個表示。當數據元的概念模型相同而表示不同時就是兩個不同的數據元,數據元中的表示是描述數據元中的數據元概念中的特性,即數據元中的特性有且僅有一個表示。
在數據元概念中對象類和特性之間是一對一的關系,一個對象類需要只需要一個特性(或者特性類),一個特性(特性類)只描述一個對象類,當一個特性和一個對象類建立關聯時就產生了一個數據元概念。
同實體關系類的數據模型相比,模型中的實體相當于數據元中的對象類,而實體的屬性本當于數據元中的特性和表示。
1.2.3 數據元素的屬性
數據元素本身也是一個事物,既然是事物那么就需要屬性來描述這一事物,通常我們也將描述屬性稱為描述數據元素的元數據。
1.2.4 數據元結構模型
經過對數據元理論的深入研究,我們抽象出圖2的模型,該模型反映出了數據元概念、表示、基本數據元以及應用數據元間的關系。
1.2.5 值域基本模型
按照數據元素理論,給出了數據元的值域模型。該模型將數據元素的值域抽象為概念域,即所謂的“域名”,一個概念域可能會與多個值域有關系;概念域可能是枚舉類型的,也可以是非枚舉類型;同樣,值域可能是枚舉值域,也可能是非枚舉值域。
2 數據元的元模型
經過對數據元理論與實際數據規范化應用的研究,我們提出了數據元的元模型。
該框架模型是將對象類、特性類、分類模式由此演生的基本數據元和應用數據元、值域以及數據標準值、實例標準值以及標準實體有機的關聯在一起。揭示了數據元與應用的緊密關系。整個模型高度概括了數據標準化的核心工作。
3 數據元素與信息編碼間的關系
有些學者講過,信息標準化實質是信息代碼化的過程,周知,信息分類與編碼在整個企業信息標準化中占有基礎的不可替代的地位。因此如何對企業的各種信息進行有效的分類,并對其進行編碼這是信息化過程中一個非常重要的過程。其實數據元素與信息分類及編碼有著密不可分的關系,在表1中給出了數據元素分析方法與信息分類與編碼的對應關系。

4 數據元應用的領域
數據元素理論屬于信息標準化的基礎理論,即是數據規范化理論基礎。數據元分析在信息分類、數據的集成參考模型、數據模型優化設計、數據元字典以及制訂數據交換標準等方面得到應用。
數據元的研究,目前在國際上相當流行,而在國內的研究還處于起步階段。通過幾年的研究,目前,我們已經將這一方法論用于石油上游的數據規范化中,并取得了良好的效果,目前,正在將這一方法論用于中石油的ERP數據平臺中的數據規范化中。相信,隨著這一方法論的在石油石化領域的不斷應用,必將為石油石化信息化建設起到科學的指導與推動作用。
參考文獻
[1]袁滿,高雪等.中國石油數據元設計指南(企業標準)[M].北京:石油工業出版社,2005.