張曉冉,舒 昝
?
基于關(guān)系數(shù)據(jù)庫(kù)的油田領(lǐng)域數(shù)據(jù)質(zhì)量本體構(gòu)建
張曉冉,舒昝
摘 要:為實(shí)現(xiàn)對(duì)油田數(shù)據(jù)質(zhì)量全方位、規(guī)范的描述,以石油領(lǐng)域的相關(guān)專(zhuān)業(yè)的數(shù)據(jù)為研究背景,借助于現(xiàn)代先進(jìn)的本體理論,基于已有的油田數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫(kù)資源,抽取出相關(guān)概念模型,再將概念模型轉(zhuǎn)換成 OWL 本體,嘗試構(gòu)建出集數(shù)據(jù)質(zhì)量管控于一體的規(guī)范的石油領(lǐng)域數(shù)據(jù)質(zhì)量本體模型。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量本體構(gòu)建關(guān)系數(shù)據(jù)庫(kù);OWL
隨著企業(yè)對(duì)數(shù)據(jù)資源的重要性認(rèn)識(shí)的提高,企業(yè)均將數(shù)據(jù)當(dāng)作資產(chǎn)來(lái)看待,特別是近幾年,隨著大數(shù)據(jù)理念的提出與應(yīng)用,對(duì)于數(shù)據(jù)質(zhì)量的要求更是越來(lái)越高。油田領(lǐng)域信息化已經(jīng)發(fā)展多年,但對(duì)于數(shù)據(jù)的管理仍然比較粗放,數(shù)據(jù)有采集,但不注重本身的質(zhì)量,導(dǎo)致今天反過(guò)來(lái)再去補(bǔ)充修改數(shù)據(jù),不能很好地管理利用數(shù)據(jù)。
目前,解決數(shù)據(jù)質(zhì)量的核心問(wèn)題之一就是要對(duì)數(shù)據(jù)進(jìn)行各種業(yè)務(wù)規(guī)則的定義與描述,先進(jìn)的做法就是采用元數(shù)據(jù)中的元建模技術(shù)進(jìn)行定義與描述。但是,一方面,這些元模型與原數(shù)據(jù)模型緊緊耦合在一起,一旦模型變化,元模型必須同步變更;另一方面,元模型對(duì)數(shù)據(jù)模型的模式層上的一些規(guī)則定義相對(duì)較為容易,對(duì)于有些復(fù)雜的業(yè)務(wù)規(guī)則以及定義在實(shí)例層上的規(guī)則是無(wú)能為力的。本體卻以它規(guī)范化、共享、靈活的表達(dá)能力以及對(duì)定義與描述各種復(fù)雜規(guī)則的的支持,再加之對(duì)深度推理的支持,可以很好的解決這些問(wèn)題。因此,以本體理論與技術(shù)為重要的方法論,以石油領(lǐng)域的數(shù)據(jù)質(zhì)量管控為實(shí)際應(yīng)用背景、建立油田領(lǐng)域數(shù)據(jù)質(zhì)量本體不僅具有理論價(jià)值,更具有重要的應(yīng)用價(jià)值。
1.1 數(shù)據(jù)質(zhì)量概念
數(shù)據(jù)質(zhì)量現(xiàn)在沒(méi)有一個(gè)精確的定義,文獻(xiàn)[1]將其定義為數(shù)據(jù)的適用程度;文獻(xiàn)[2]將數(shù)據(jù)質(zhì)量定義為多大程度的實(shí)現(xiàn)了模式和實(shí)例的一致性;文獻(xiàn)[3]分析得出數(shù)據(jù)質(zhì)量評(píng)估包含完整性、唯一性、精確性、有效性、一致性、時(shí)效性等六個(gè)指標(biāo)要素。
1.2 數(shù)據(jù)質(zhì)量規(guī)則
數(shù)據(jù)質(zhì)量規(guī)則,是對(duì)數(shù)據(jù)制定的語(yǔ)義限制,評(píng)價(jià)數(shù)據(jù)是否滿(mǎn)足一般性指標(biāo)就是檢查數(shù)據(jù)是否滿(mǎn)足評(píng)估指標(biāo)對(duì)應(yīng)的具體規(guī)則。
以油田采油廠數(shù)據(jù)質(zhì)量控制系統(tǒng)為例,該系統(tǒng)在上述研究的基礎(chǔ)上,按照完整性、一致性、準(zhǔn)確性、冗余性等四個(gè)指標(biāo)細(xì)化了數(shù)據(jù)質(zhì)量規(guī)則。
2.1 本體與關(guān)系數(shù)據(jù)庫(kù)
本體的概念源于哲學(xué),本體是事物的抽象。1993 年Gruber提出”本體是概念模型的明確的規(guī)范說(shuō)明[4]”這一定義被廣泛接受。本體目的是捕獲特定領(lǐng)域內(nèi)公認(rèn)的核心概念集,篩選出公認(rèn)的概念術(shù)語(yǔ),并且能通過(guò)不同的形式化模式定義術(shù)語(yǔ)以及術(shù)語(yǔ)間的關(guān)系。
目前,多數(shù)數(shù)據(jù)存在關(guān)系數(shù)據(jù)庫(kù)中,應(yīng)用程序不能隨意訪(fǎng)問(wèn)這些數(shù)據(jù),阻礙了語(yǔ)義網(wǎng)的發(fā)展[5],本體作為語(yǔ)義網(wǎng)的基礎(chǔ),可以用來(lái)描述數(shù)據(jù)的語(yǔ)義信息,如何將關(guān)系數(shù)據(jù)庫(kù)和本體相互轉(zhuǎn)換是解決問(wèn)題的關(guān)鍵。由于本體比數(shù)據(jù)庫(kù)的表達(dá)能力更強(qiáng),因此不采用將本體轉(zhuǎn)換成數(shù)據(jù)庫(kù)這種方式。同樣現(xiàn)階段中間模型都乏通用的定義,不適合重用和共享,定義中間模型也是不現(xiàn)實(shí)的,因此本文按照通用的映射規(guī)則基于質(zhì)量關(guān)系庫(kù)來(lái)構(gòu)建質(zhì)量本體。實(shí)驗(yàn)證明了該方法的有效性。
2.2 抽象概念模型
Perez 通過(guò)分類(lèi)法來(lái)組織本體。本體包括五個(gè)建模元語(yǔ)。據(jù)此給出如下幾個(gè)定義:
定義1:本體為一個(gè)五元組 O =< C,R,F(xiàn),A,I>,其中:C為classes即本體類(lèi),R為relations本體關(guān)系,F(xiàn)為functions本體函數(shù),A為axioms本體公理,I為instances本體實(shí)例。
關(guān)系數(shù)據(jù)庫(kù)也可以形式化定義如下:
定義2 :關(guān)系數(shù)據(jù)庫(kù)同樣定義為一個(gè)五元組RD =< T , COL, DT , R ,REC>,其中: T 為table 指數(shù)據(jù)表;COL 為column,指數(shù)據(jù)表中的列;DT為 data type,指數(shù)據(jù)的存儲(chǔ)類(lèi)型;R為restriction,指約束規(guī)則。REC 為record指表記錄。
關(guān)系數(shù)據(jù)庫(kù)向本體映射的抽象模型如圖1所示:

圖1 關(guān)系數(shù)據(jù)庫(kù)向本體映射的抽象模型
本文以油田采油廠數(shù)據(jù)質(zhì)量控制系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的表為例進(jìn)行分析,發(fā)現(xiàn)主要存在如下關(guān)系:
數(shù)據(jù)質(zhì)量關(guān)系例表如表1所示:

表1 質(zhì)量總系例表

FUNC_ID NO DQ_CLASSIFY(評(píng)估分類(lèi)表) ASSESS_CODE, FUNC_ID ASSESS_CODE FUNC_ID(ASSESS_FUNCTION) RULE_CLASSIFY(規(guī)則分類(lèi)表) CLASS_ID, CLASS_NAME, CLASS_ID ASSESS_CODE(DQ_CLASSIFY) ASSESS_CODE,FUNC_ID, FUNC_ID(ASSESS_FUNCTION) CLASS_CODE DQ_RULE_MAP(規(guī)則映射) ASSESS_CODE,CLASS_ID NO ASSESS_CODE(DQ_CLASSIFY) CLASS_ID (RULE_CLASSIFY) ASSESSINFO(評(píng)估信息表) TASK_ID,ASSESS_BEGIN, TASK_ID ASSESS_ENDTIME, ASSESS_USER _ID (USER) ASSESS_USER _ID USER(評(píng)估人信息表) ASSESS_USER _ID,AGE, ASSESS_USER _ID NO ASSESS_USER,SEX
數(shù)據(jù)質(zhì)量本體構(gòu)建規(guī)則如下:
規(guī)則1 數(shù)據(jù)表存在主鍵且唯一,將表映射成OWL Class類(lèi)。
規(guī)則 2 數(shù)據(jù)表主鍵有多個(gè),但至少有一個(gè)不是外鍵,將表映射成OWL Class類(lèi)。
規(guī)則 3 數(shù)據(jù)表不存在主鍵,但至少有一個(gè)不是外鍵,將表映射成OWL Class類(lèi)。
規(guī)則4 數(shù)據(jù)表不存在主鍵,并且不存在非外鍵的屬性,將表映射成對(duì)象屬性。
根據(jù)以上規(guī)則,數(shù)據(jù)質(zhì)量表轉(zhuǎn)化如下:
規(guī)則4:如果某個(gè)表滿(mǎn)足規(guī)則1,且外鍵等于或多于一個(gè),則可將該外鍵直接轉(zhuǎn)換為該表對(duì)應(yīng)的本體類(lèi)的對(duì)象屬性。并且定義域?yàn)樵摫肀倔w類(lèi),值域是外鍵所屬的本體類(lèi)。
規(guī)則5:如果某個(gè)表滿(mǎn)足規(guī)則1,并且存在屬性既不是主鍵也不是外鍵,則將這些屬性直接映射為該表對(duì)應(yīng)的本體類(lèi)的數(shù)據(jù)類(lèi)型屬性。
RULE_CLASSIFY的外鍵可以轉(zhuǎn)換為對(duì)象屬性ASSESS_CODE,F(xiàn)UNC_ID,數(shù)據(jù)類(lèi)型屬性有 CLASS_CODE,CLASS_NAME
規(guī)則6:如果某個(gè)表T滿(mǎn)足規(guī)則3,則必然有兩個(gè)表T1 和T2是通過(guò)該表連接的;將T1表和T2 表映射成概念C1和概念C2,T1表和T2 表的主鍵映射成對(duì)象屬性O(shè)P1和OP2,其中OP1的定義域?yàn)镃1,值域?yàn)镃2,而OP2的定義域?yàn)镃2,值域?yàn)镃1,并且OP1和OP2互為反函數(shù)。
DQ_RULE_MAP可以轉(zhuǎn)換為一對(duì)對(duì)象屬性 Map和DQ_RULE_MAP
本體的屬性性質(zhì)可以被直接定義。若是屬性存在唯一取值,則可用owl:Functionalporperty定義函數(shù)性。如果一個(gè)屬性可以唯一標(biāo)識(shí)一行,則用owl:InverseFunctionalproperty定義逆函數(shù)性。
主鍵轉(zhuǎn)化規(guī)則如下:(1)主鍵存在且唯一,定義函數(shù)性和逆函數(shù)性;(2)主鍵包含多個(gè)屬性,其中至少有一個(gè)是外鍵,則將非外鍵屬性定義函數(shù)性。(3)主鍵的基數(shù)約束cardinality為1。
4.1 生成的OWL文檔
用 Java語(yǔ)言實(shí)現(xiàn)了油田領(lǐng)域數(shù)據(jù)質(zhì)量本體的構(gòu)建,部分OWL文檔片段如下所示:
〈owl: ontology rdf: about = " file: /C: /Program%20Files/ Protege 4.3 / empty.owl" / 〉
〈owl: Class rdf: ID = "DATASOURCE" /〉
〈owl: Class rdf: ID = " TABLEINFO" /〉
〈owl: Class rdf: ID = "COLUMN_INFO" /〉
〈owl: Class rdf: ID = "DQ_CLASSIFY"〉
〈owl: Class rdf: ID = "ASSESS_FUNCTION"〉
〈owl: Class rdf: ID = " RULE_CLASSIFY"〉
〈owl: Class rdf: ID = "ASSESSINFO "〉
〈owl: Class rdf: ID = "USER"〉
4.2 有效性檢驗(yàn)
將轉(zhuǎn)換后的OWL文檔 dataquality.OWL用Protege 4.3打開(kāi),清楚的看到數(shù)據(jù)質(zhì)量數(shù)據(jù)庫(kù)轉(zhuǎn)換而來(lái)的本體類(lèi)、屬性及實(shí)例,符合語(yǔ)法規(guī)則,由此可知該方法建模的有效性。
本文在已有的油田數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫(kù)中抽取出相關(guān)概念模型,實(shí)現(xiàn)了油田領(lǐng)域數(shù)據(jù)質(zhì)量本體的構(gòu)建,通過(guò)引入本體,為數(shù)據(jù)質(zhì)量提供了共享的概念集和術(shù)語(yǔ)集,利用明確的語(yǔ)義信息增強(qiáng)了對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的描述能力,有效的對(duì)數(shù)據(jù)進(jìn)行管理。但是以長(zhǎng)遠(yuǎn)的角度來(lái)看,數(shù)據(jù)質(zhì)量還有許多的問(wèn)題有待于進(jìn)一步地研究與完善并應(yīng)用,如數(shù)據(jù)質(zhì)量的智能化研究是值得進(jìn)一步探索的問(wèn)題。如何更好地利用本體理論、數(shù)理統(tǒng)計(jì)、人工智能等技術(shù)實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評(píng)估的自動(dòng)化和處理的智能化將是今后值得關(guān)注的一個(gè)方向。
參考文獻(xiàn)
[1] Huang K T,Lee Y W,Wang R Y. Quality information and knowledge management [M].New Jersey: Prentice Hall,1998.
[2] 韓京宇,徐立臻,董逸生.?dāng)?shù)據(jù)質(zhì)量研究綜述[J].計(jì)算機(jī)科學(xué),2008,35( 2) : 1 -5.
[3] 高科,刁興春,曹建軍.基于簡(jiǎn)單規(guī)則的數(shù)據(jù)質(zhì)量檢查系統(tǒng)設(shè)計(jì)與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015.
[4] 蘇依拉,王一云,譚艷梅.基于關(guān)系數(shù)據(jù)庫(kù)的蒙文局部本體構(gòu)建及整合[J].北京工業(yè)大學(xué)學(xué)報(bào),2014.
[5] 蔣翠清,魯佼.從關(guān)系數(shù)據(jù)庫(kù)構(gòu)建語(yǔ)義豐富本體的方法[J].計(jì)算機(jī)應(yīng)用研究,2011.
中圖分類(lèi)號(hào):TP393
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1007-757X(2016)07-0071-03
收稿日期:(2016.04.11)
作者簡(jiǎn)介:張曉冉(1992-),女,東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,碩士研究生,研究方向:本體構(gòu)建,數(shù)據(jù)質(zhì)量,大慶,163318 舒 昝(1991-),男,東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,碩士研究生,研究方向:大數(shù)據(jù)、數(shù)據(jù)挖掘,大慶,163318
Construction of Oilfield Data Quality Ontology Based on Relational Database
Zhang Xiaoran, Shu Zan
(College of Computer and Information Technology,Northeast Petroleum University, Daqing 163318, China)
Abstract:In order to carry out the overall and standard description of oilfield data quality, it takes the relevant oilfield data as the research background. With the help of advanced ontology theory ,extract relevant conceptual model based on the existing relational database resources. Then it makes the conceptual model into the OWL ontology, trying to construct standard data quality ontology model of oilfield with Data quality control.
Key words:Data Quality; Ontology Build; Relational Database; OWL