999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據約束對數據質量的影響研究

2011-04-15 09:37:30程錄慶南京人口管理干部學院信息科學系江蘇南京210042
長江大學學報(自科版) 2011年13期
關鍵詞:語義規則數據庫

程錄慶 (南京人口管理干部學院信息科學系,江蘇 南京210042)

在數據庫技術日益成熟的背景下,人們越來越多地關注數據質量的提高,對于一個企業管理信息系統,數據質量的低下可能制約企業的發展。錯誤、冗余、不一致的數據將導致市場動作的低效率,影響企業的客戶關系,誤導企業的戰略決策。數據庫系統是一個具有相當復雜性質的系統,而且又是一個和工作人員的工作質量、使用人員的實際需求密切相關的系統。作為現代化的信息社會的產物之一,數據庫系統的質量綜合評價相當復雜,涉及很多內容,如系統的可靠性、兼容性、安全性、經濟性、先進性,系統的功能完備性、系統的響應及時性、用戶操作方便性及數據結構合理性,還有數據本身的質量特性:完整性、規范性、穩定性等[1]。其中最重要的還是系統中數據本身的質量,它影響著系統的其他各項性能。

對于質量這一概念的描述中有一個較為流行的說法是:“質量是一組固有特性滿足要求的程度[2]。”數據約束是客觀世界的數據所應遵循的語義限制,是客觀存在于數據中的規律,是數據的固有特性。所以,正確認識和處理好這種客觀存在于數據中的規律對于數據庫系統的質量影響重大。據筆者觀察,很多實際應用的數據庫系統由于不重視本行業數據應有的規律而造成數據結構松散、系統質量的低下,有個很明顯的現象:一些數據庫系統建設之初由于數據量較少,系統的各方面性能都很好,然而過了若干時期 (幾年或十幾年),數據容量成倍增加,導致系統性能的下降,甚至變得不可用。這一方面和系統硬件有關,然而根本問題還是在數據的組織與管理質量不佳。質量問題會是將來數據庫系統研究的新領域。下面,筆者從數據結構設計、數據修復、數據的輸入、數據查詢等幾個方面討論數據約束對數據庫系統質量的影響。

1 數據約束表達簡述

數據約束,狹義地,也稱完整性約束,是客觀世界的數據所應遵循的語義限制,對于商業系統中的數據來講,這種語義限制就是領域知識和業務規則。具體的商業規則限定了數據的屬性值應符合其所反映現實的上下文 (context)。例如,一個企業的客戶關系數據庫可能有這樣的規則:①一個新的客戶在第一次購買時享有15%的折扣;而一個VIP客戶在任何時候購買任何產品享有25%的折扣;②一個地址為美國的客戶,“街道”、“城市”、“州”字段確定 “郵政編碼”。反映到數據庫上來,就是對數據取值的約束,違反規則的數據就是臟數據[3]。

現實的此類對數據約束的規則可能較為復雜,有些約束是在整個數據庫范圍內成立的,有普遍性;有些是在某個局部數據集內成立;有些是需要滿足特定條件才成立;還可能存在規則之間的相互矛盾情況 (如條件函數依賴自身的不一致)。數據建模的一個重要任務是將數據庫所描述的對象所提供的關于數據的上下文語義 (contextual semantic)表達成規范而系統的數據約束。目前,這種數據約束的表達形式主要是數據依賴 (data dependency),隨著研究的深入,將會出現更多形式的數據約束表達。

自1971年美國IBM公司研究員CODD E.F.創新地提出關系數據模型以來,這種存儲和處理數據的模式得到極大限度的應用,在數據庫應用領域占有統治地位。數據依賴是應用關系模型的出發點,CODD自己提出了函數依賴 (FD,functional dependency)和包含依賴 (IND,inclusion dependency),不久,Fagin和Zaniolo又提出了多值依賴 (MD,Multivalued Dependencies),此后,各種數據依賴的概念相繼提出,其中較有影響的應屬于Rissanen和Aho等人提出的連接依賴 (JD,JoinDependency),Fagin、Maher M J和 Srivastava D提出的受限生成元組依賴 (CTGD,Const rained Tuple-Generating Dependencies)等。上述基于關系模型的數據依賴都是上個世紀提出的,均可采用統一的如下形式的一階謂詞描述[4]:

2007年,英國愛丁堡大學樊文飛教授等提出條件函數依賴 (CFD,conditional function dependency)和條件包含依賴 (CIND,conditional inclusion dependency)[5,6],通過條件表的約束增強函數依賴和包含依賴對實際語義的表達能力,并象經典函數依賴一樣,對其推理規則及完備性作了系統的研究和證明。條件函數依賴一經提出,受到數據庫研究者的廣泛關注,被認為將在數據清洗、提高數據質量上產生極大影響。2009年,胡艷麗等提出內置謂詞 (built-in predicates)函數依賴[7],ChenWenguang等提出內置謂詞條件依賴[8],這兩者分別是對函數依賴和條件函數依賴的擴展研究。

除了數據依賴,也有應用人工智能中的語義表 (semantic tableau)來表達數據約束的,同樣也用于數據庫的數據修復,如文獻 [9]提到的方法。不過,這種數據約束表達方法的完備性有待證明。當然,數據約束的表達還包括不能表達成上述數據依賴的數據約束,但可以其他條件表達式表達,如這樣一類約束:薪水表中的獎金一項不能大于基本工資一項。

可以對如上所述的數據約束作一個簡單的分類:第1類是傳統的數據依賴,這類數據約束是在整個數據庫范圍內成立的,如函數依賴、多值依賴、連接依賴和包含依賴等,稱之為Ⅰ類約束;第2類是傳統數據依賴在一定條件下成立,即在局部的數據集內成立,如條件函數依賴、條件包含依賴和內置謂詞函數依賴等,稱之為Ⅱ類約束;第3類為不能表達成前2類的數據約束,如一些特殊規則,稱之為Ⅲ類約束。

2 Ⅰ類約束對數據結構設計的影響

Ⅰ類約束通常是在整個數據庫范圍內成立的數據規則,它決定了數據庫結構的設計。以關系數據模型為例,理想性質的關系數據模式是通過對原始的泛關系依據關系數據理論進行模式分解得到。這一過程會運用到關系模式的求碼、范式判斷、分解以及分解后無損依賴和無損連接的判斷等技術,這些技術都是環環緊扣的,重要的是,這些技術的運用都是以關系屬性間的數據依賴 (這里指的是Ⅰ類約束)為前題的,所以,正確分析屬性數據間應遵循的約束是設計優良關系模式的第一步,這個分析搞錯了,以下的步驟就毫無意義了[10]。

Ⅰ類約束是面向數據庫全局的,所以影響的是數據的全局結構。數據約束是反映客觀數據所蘊含的語義的,建立數據庫的目的是要準確地映射客觀事實,只有遵循數據約束規則的數據結構才是自然的,科學的,有效的。對于其他的數據模型,也是一樣,只有尊重數據的固有特性,其設計的結構才是合理的;否則,只能是別扭的、質量低下的。

3 Ⅱ類約束對數據修復的影響

Ⅱ類約束,是Ⅰ類約束在某個條件下成立的約束形式,面向的是局部的數據集。目前研究得最多的是條件函數依賴 (conditional function dependency),條件函數依賴 (CFD)是在一定條件下成立的函數依賴,這對傳統的函數依賴 (FD)表示數據約束是一個極大的擴展。首先,傳統的FD對數據的約束是全局的,而CFD是表達一定條件下數據的約束,是局部的,可以說,在這一點上,CFD比FD對數據約束的表達要精細得多,這也使得CFD更適應新的數據庫技術要求,如數據集成。另外,與傳統的數據依賴主要用于數據庫的結構設計不同,CFD則可廣泛用于數據的自動清洗和數據修復[11]。為提高數據的質量,數據庫的擁有者會雇傭大量的人力通過手工的方式來作數據庫系統的數據修復,而CFD這種新的數據約束表達方式的出現提供了利用計算機程序自動完成數據清洗和數據修復工作的可行方法。值得注意的是,條件函數依賴本身也存在不一致的問題,即CFD本身是 “臟”的。CFD表達的是數據庫應遵循的一套完整性約束,其本源還是反映數據庫擁有者所制定的業務規則和領域知識,也就是說,CFD是不一致的,則必然是業務規則存在相互矛盾的地方,這時要作出修改的是業務規則本身。

4 數據約束對數據輸入的影響

輸入到數據庫中的數據應該是滿足約束的數據,否則,數據進入系統就是垃圾,所以將數據約束轉化成數據輸入系統的條件控制就很重要了。一般商用的數據庫系統軟件提供多種工具可供用于數據輸入的控制,如SQL SERVER提供的關鍵字、非空、約束、規則、觸發器、存儲過程等,合理的利用這些工具將數據在客觀世界中受到的約束表達成相應的計算機程序,進而控制數據的入庫,使系統中的數據是一致的、完整的。數據輸入的質量對數據庫系統的質量有重要影響。

5 數據約束對數據查詢的影響

無論怎么控制數據的輸入,數據庫總會因為各種原因產生導致數據與其應受到的約束不符,這些原因可能是:①DBMS系統沒有統一的維護約束的機制;②加入了新的約束;③原有的約束是 “軟”的,只在查詢時間考慮;④基于中間件的不同數據源的集成。很多情況下,對于這些不一致的數據進行清洗并不適合,如在數據虛擬集成的情況下,作數據修復可能導致雖然不一致但有用的數據丟失。此外,還考慮一個因素就是此時數據庫中絕大部分的數據還是一致的,只有少部分不一致。這種情形下,可以根據現有約束進行查詢重寫 (query reformulation),以從不一致的源數據中獲得符合約束的一致性查詢結果。這一方法也稱為一致性查詢應答 (CQA,consistent query answering)[12]。掌握查詢重寫技術有利于數據庫系統的工作人員和使用人員在操作數據庫時避免對數據庫的破壞。

6 結 語

數據庫系統的任務在于將宏觀的信息轉化為計算機存儲的形式,將人處理信息的模式轉化為計算機處理模式。然而,這種轉化并不是簡單的物理的或邏輯的一個映射,畢竟宏觀世界和機器世界是如此的不同,對于人來講,一個簡單的信息規則,到了機器領域可能就是一個復雜的數據約束表達。找出計算機表達和處理數據的規律,是提高數據質量的根本之道。提高數據庫質量是數據庫技術發展到今天的一個必然選擇,也是研究的熱點。筆者討論了數據約束對數據庫質量的幾個方面的影響,數據約束分析是數據庫結構設計的基礎,也是進行數據錄入、修復和一致性查詢應答的依據。下一步的研究將考慮是否能在數據庫系統質量綜合評價體系中引入數據約束符合程度作為一個指標,研究其可行性和對數據庫質量評價的意義。

[1]徐羅丁.建立數據庫系統的綜合評價體系 [J].情報探索,1995(6):6-8.

[2]宋敏,覃正.國外數據質量管理研究綜述 [J].情報雜志,2007(2):7-9.

[3]Fei Chiang,Ren'ee J Miller.Discovering Data Quality Rules [A].Very Large DataBase Endowment(VLDB'08)[C].ACM Press,2008:24-30.

[4]胡艷麗,張維明,羅旭輝,等.基于數據依賴的數據修復研究進展 [J].計算機科學,2009(10):11-14.

[5]Bohannon P,Fan W,Geerts F,et al.Conditional functional dependencies for data cleaning [A].The 23rd International Conference on Database Engineering(ICDE)[C].IEEE,2007:746-755.

[6]Cong Gao,Fan Wenfei,Geerts Floris,et al.Improving Data Quality:Consistency and Accuracy [A].Very Large DataBase Endowment(VLDB'07)[C].ACM Press,2008:23-28.

[7]胡艷麗,張維明,肖衛東,等.內置謂詞函數依賴及其推理規則 [J].國防科技大學學報,2009(5):58-63.

[8]Chen Wenguang,Fan Wenfei,Ma Shuai.Analyses and Validation of Conditional Dependencies with Built-in Predicates [A].Proceedings of the 20th International Conference on Database and Expert Systems Applications (C).Springer,2009:576-591.

[9]劉全,伏玉琛,凌興宏.一種基于語義tableau的數據庫修正方法 [J].計算機科學,2006(6):901-904.

[10]程錄慶,張智光.關系數據庫設計中的數據依賴確定與語義分析 [J].計算機與現代化,2008(12):164-168.

[11]Fan Wenfei,Geerts Floris,Jia Xibei,et al.Conditional Functional Dependencies for Capturing Data Inconsistencies [A].ACM Transactions on Database Systems [C].ACM Press,2008:1-44.

[12]Arenas M,Bertossi L,Chomicki J.Consistent Query Answers in Inconsistent Databases [A].ACM Symposium on Principles of Database Systems(PODS)[C].ACM Press,1999:68-79.

猜你喜歡
語義規則數據庫
撐竿跳規則的制定
數獨的規則和演變
語言與語義
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
數據庫
財經(2017年2期)2017-03-10 14:35:35
TPP反腐敗規則對我國的啟示
數據庫
財經(2016年15期)2016-06-03 07:38:02
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 一级毛片在线播放免费| 国产麻豆va精品视频| 亚洲AV永久无码精品古装片| 女人18一级毛片免费观看 | 久久99精品久久久久纯品| 久久不卡国产精品无码| 91色在线视频| 在线中文字幕网| 亚洲美女高潮久久久久久久| 国产男女XX00免费观看| 找国产毛片看| 91小视频在线| 91丝袜美腿高跟国产极品老师| 99国产精品国产高清一区二区| 亚洲无码日韩一区| 亚洲精品天堂在线观看| 精品国产毛片| 中文字幕亚洲另类天堂| 日本人真淫视频一区二区三区| 福利小视频在线播放| 伊人激情综合| 国产欧美日韩视频一区二区三区| 最新国产精品第1页| 老司机精品99在线播放| 国产一级毛片网站| 26uuu国产精品视频| 午夜不卡视频| 国产欧美日本在线观看| 91网址在线播放| 成人午夜免费观看| 国产国产人成免费视频77777| 天天综合色网| 免费A∨中文乱码专区| 大学生久久香蕉国产线观看| 亚洲精品手机在线| 久久精品aⅴ无码中文字幕| 日韩在线2020专区| 国产在线拍偷自揄观看视频网站| 99尹人香蕉国产免费天天拍| 噜噜噜久久| 亚洲三级影院| 亚洲欧美自拍视频| 波多野结衣亚洲一区| 欧洲欧美人成免费全部视频| 亚洲精品男人天堂| 国产正在播放| 国产成人精品日本亚洲77美色| 国产高清免费午夜在线视频| 亚洲天堂网站在线| 精品丝袜美腿国产一区| 日韩高清中文字幕| 国产人前露出系列视频| 久久夜色精品| 色有码无码视频| 日韩在线欧美在线| 婷婷六月激情综合一区| 国产成人精品在线| 国产成人一区在线播放| 在线日韩日本国产亚洲| 欧美日韩国产精品va| 欧美亚洲一区二区三区导航| 99精品免费在线| 思思热精品在线8| 亚洲国产综合精品一区| 在线一级毛片| 欧美日本在线观看| 五月天综合网亚洲综合天堂网| 日本免费福利视频| 亚洲欧美另类久久久精品播放的| 亚洲精品成人福利在线电影| 免费一看一级毛片| 青青青国产视频| 亚洲第一在线播放| 久久精品这里只有国产中文精品| 在线免费a视频| 久久情精品国产品免费| 久久夜色精品国产嚕嚕亚洲av| 国产精品性| 亚洲中文字幕手机在线第一页| 国产真实乱子伦视频播放| 成年女人18毛片毛片免费| 香蕉精品在线|