999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)時效性判定:關(guān)鍵理論和技術(shù)

2017-05-08 14:51:13李默涵李建中
智能計算機(jī)與應(yīng)用 2016年6期
關(guān)鍵詞:數(shù)據(jù)質(zhì)量

李默涵++李建中

摘要: 當(dāng)前,隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)質(zhì)量問題受到越來越多的關(guān)注。數(shù)據(jù)質(zhì)量會隨著時間的流逝迅速下降,因此在數(shù)據(jù)質(zhì)量的各個維度中,數(shù)據(jù)時效性扮演的角色至關(guān)重要。判定一個給定的數(shù)據(jù)集合的時效性是確保數(shù)據(jù)時效性是第一步,但數(shù)據(jù)時效性的判定并非易事,其面臨極大挑戰(zhàn)。本文針對時效性判定問題面臨的各個挑戰(zhàn),綜述了當(dāng)前該領(lǐng)域針對絕對時效性判定和相對時效性判定的關(guān)鍵理論和技術(shù),分析了現(xiàn)有的各方法的優(yōu)缺點(diǎn),并對未來的研究方向給出了建議。

關(guān)鍵詞:數(shù)據(jù)質(zhì)量; 數(shù)據(jù)時效性; 時效性判定

中圖分類號: TP391.41

文獻(xiàn)標(biāo)志碼:A

文章編號: 2095-2163(2016)06-0072-04

0引言

隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的“量”在飛速增長,但與此同時,數(shù)據(jù)的“質(zhì)”的下降也成為了不可忽視的問題。多家機(jī)構(gòu)的統(tǒng)計數(shù)據(jù)表明,當(dāng)前各行各業(yè)中信息的可用性(即數(shù)據(jù)質(zhì)量)問題亟待解決。在美國,企業(yè)中有1%~30%的數(shù)據(jù)存在各種質(zhì)量問題[1],醫(yī)療中有13.6%~81%的組成是不完整、或過時數(shù)據(jù)[2]。同時,根據(jù)國際著名科技咨詢機(jī)構(gòu)Gartner的調(diào)查結(jié)果,即使是在那些著名企業(yè),如全球財富1 000強(qiáng)的企業(yè)中,也有超過25%的企業(yè)其信息系統(tǒng)中的關(guān)鍵信息不正確或不準(zhǔn)確[3]。如果不能夠及時有效地針對這些數(shù)據(jù)質(zhì)量問題提供全面完整解決,就必將會對國民生活和企業(yè)決策形成不可預(yù)知的惡劣影響。事實上,已有多次調(diào)查結(jié)果陸續(xù)表明,如上的數(shù)據(jù)質(zhì)量問題每年都會在全球范圍內(nèi)造成重大不良效應(yīng)后果:數(shù)據(jù)質(zhì)量問題在美國引發(fā)的醫(yī)療事故所導(dǎo)致的死亡人數(shù)高達(dá)98 000名,約等于總醫(yī)療事故致死人數(shù)的一半[4];數(shù)據(jù)過時和錯誤將使得美國工業(yè)企業(yè)損失高達(dá)6 110億美元,這一數(shù)值幾乎可占美國GDP的6%[5];標(biāo)價錯誤還會導(dǎo)致美國零售業(yè)損失25億美元[6];數(shù)據(jù)中的不一致錯誤則會導(dǎo)致信用卡欺詐問題的深度隱藏,這在2006年曾造成48億美元的財產(chǎn)損失[7]。由此,根據(jù)推算,劣質(zhì)數(shù)據(jù)的處理需要花費(fèi)30%~80%的開發(fā)時間和預(yù)算[8],進(jìn)而數(shù)據(jù)質(zhì)量問題通常給企業(yè)增加獲得同等產(chǎn)值約10%~20%的成本[9]。這也隨即推動了數(shù)據(jù)質(zhì)量工具市場的飛速增長,甚至遠(yuǎn)超IT行業(yè)的平均增長率[10]。劣質(zhì)數(shù)據(jù)無時無刻都將通過網(wǎng)絡(luò)在不同數(shù)據(jù)源之間傳播,因此對數(shù)據(jù)可用性的研究已經(jīng)成為數(shù)據(jù)管理領(lǐng)域中的首要問題內(nèi)容之一。近幾年來,數(shù)據(jù)庫領(lǐng)域的頂級國際會議及期刊每年都會達(dá)成和開展多項關(guān)系著數(shù)據(jù)質(zhì)量方面的相關(guān)議程和研究工作。

一般說來,要從下述5個維度來保證數(shù)據(jù)可用性[11]。現(xiàn)作如下論述:

1)時效性。保證數(shù)據(jù)與時俱進(jìn),不陳舊過時。例如,某數(shù)據(jù)庫中的用戶地址在2010年是正確的,但在2011年未必正確,即存在過時數(shù)據(jù)。

2) 一致性。保證數(shù)據(jù)不違背某些特定約束。例如,記錄(郵編=“150000”,城市=“上?!保┚瓦`背了郵編和城市的對應(yīng)關(guān)系,因為150000是哈爾濱的郵編、而非上海郵編。

3) 完整性。保證數(shù)據(jù)不存在缺失。例如,醫(yī)療數(shù)據(jù)庫遺失某患者病史就會導(dǎo)致數(shù)據(jù)不完整,進(jìn)而可能妨礙醫(yī)生正確診斷病情。

4) 精確性。保證數(shù)據(jù)能夠準(zhǔn)確地描述對應(yīng)實體。例如,哈爾濱全市總面積約為5.384萬平方公里,但數(shù)據(jù)庫中記錄卻為5萬平方公里,這雖在宏觀來看是合理的,但不精確。精確性和一致性并不相同,一致的信息也可能含有誤差,即未必精確。

5) 實體同一性。保證描述同一實體的數(shù)據(jù)在不同數(shù)據(jù)源上是統(tǒng)一的。例如,可以通過對比個人信息來判斷信用卡的使用者和持有者是否為同一人,從而防止欺詐。

在數(shù)據(jù)可用性的5個維度中,數(shù)據(jù)時效性的作用地位至關(guān)重要。據(jù)統(tǒng)計,在商業(yè)和醫(yī)療信息數(shù)據(jù)庫中,約有2%的客戶信息會在一個月內(nèi)變得陳舊失效[5],如果這些數(shù)據(jù)未獲修復(fù),那么在2年內(nèi),就將有近50%的記錄會因為過時而使其可用性受到影響,而過時數(shù)據(jù)將會導(dǎo)致嚴(yán)重后果。在企業(yè)決策時,企業(yè)往往會因為使用了陳舊的數(shù)據(jù)而做出錯誤的決策,而在日常生活中,銀行可能會將信用卡賬單寄送到持有人搬家前的舊地址。同時,有相當(dāng)一部分?jǐn)?shù)據(jù)的不一致、不精確、不完整等都是由數(shù)據(jù)過時失效引起的。例如,銀行未能及時更新客戶的地址信息將會導(dǎo)致同一客戶的住址和郵編難以匹配;隨著人口的增長和流動,數(shù)據(jù)庫中各城市的人口數(shù)會因為過時變得不再精確;新入學(xué)的學(xué)生的學(xué)籍信息未及時錄入會導(dǎo)致記錄學(xué)生信息的數(shù)據(jù)庫無法趨于完整。因此,確保數(shù)據(jù)的時效性已成為熱點(diǎn)與焦點(diǎn)。

判定一個給定的數(shù)據(jù)集合的時效性是確保數(shù)據(jù)時效性的第一步。只是數(shù)據(jù)時效性的判定卻并非易事。同一記錄的不同屬性隨時間變化的頻率不同,使得同一記錄的不同屬性的新舊程度也會不同,這即使得數(shù)據(jù)時效性判定問題的研究面臨嚴(yán)峻挑戰(zhàn)。首先,數(shù)據(jù)庫中通常沒有完整、可用、精確的時間戳[12],此時就需要建立一個不依賴于時間戳的數(shù)據(jù)時效性度量模型。使用該模型,可以對一個給定數(shù)據(jù)庫,形式化地表示單個數(shù)據(jù)項、元組以及數(shù)據(jù)庫整體的時效性(稱為絕對時效性),并定量地判定其時效性。其次,數(shù)據(jù)庫的絕對時效性可能無法直接判定,又或者判定結(jié)果不能有效地表達(dá)用戶需求。為此,則需要針對該數(shù)據(jù)庫上的常用查詢或用戶的特定需求,設(shè)計數(shù)據(jù)庫的相對時效性度量模型。該模型能夠度量數(shù)據(jù)庫中較重要部分的時效性,如某些重要查詢的提供結(jié)果的時效性,或者用戶最常使用的數(shù)據(jù)集合的時效性。

基于如上的論證分析,本文將綜述當(dāng)前數(shù)據(jù)時效性判定的關(guān)鍵理論和技術(shù),包括數(shù)據(jù)的絕對時效性和相對時效性判定模型,數(shù)據(jù)時效性修復(fù)算法及查詢相關(guān)的數(shù)據(jù)時效性研究等。

[BT4]1絕對時效性判定

當(dāng)前的時效性判定工作大致可以分為2類:基于時間戳的時效性判定和基于規(guī)則的時效性判定。其中,基于時間戳的時效性判定要求數(shù)據(jù)庫中對每個待判定的值都存有完整、清潔、可用的時間戳,通常是事務(wù)時間,根據(jù)事務(wù)時間和數(shù)值有效性的衰減來判定當(dāng)前值是否過時失效,即推斷有效時間。該方法的優(yōu)點(diǎn)是能夠?qū)τ诮o定的時間點(diǎn),判定數(shù)據(jù)在該時刻過時失效,但缺點(diǎn)卻在于其需要大量的輔助信息,如每個值的事務(wù)時間和每個值的有效性衰減規(guī)律。由于各種屬性的不同特性,這些輔助信息在真實應(yīng)用中很難獲得精煉提取,因此基于時間戳的時效性判定方法的適用范圍隨之受到一定限制。為了克服基于時間戳的方法的缺點(diǎn)與不足,基于規(guī)則的方法相應(yīng)地?fù)?jù)此而獲提出。這類方法只需要根據(jù)少量的由領(lǐng)域知識得到的時效規(guī)則,就可以判斷描述同一實體的不同屬性值的時序關(guān)系,從而判定哪些值是過時失效的。這類方法所需的輔助信息大大減少,但其缺點(diǎn)卻表現(xiàn)在當(dāng)前的基于規(guī)則的方法仍不能判定某個值在給定的時間點(diǎn)是否過時失效。下面,即對這2類判定方法展開分析與討論。

[BT5]1.1基于時間戳的絕對時效性判定

文獻(xiàn)[13–18] 定義數(shù)據(jù)從上一次更新到本次使用的時間間隔為數(shù)據(jù)年齡(age()),從不同角度定義了數(shù)據(jù)的時效性。文獻(xiàn)[13]和文獻(xiàn)[16]均假設(shè)數(shù)據(jù)有一個確定的保質(zhì)期(ShelfLife()),當(dāng)數(shù)據(jù)的年齡大于保質(zhì)期時認(rèn)為數(shù)據(jù)過時失效。給定值A(chǔ),文獻(xiàn)[13]將其時效性定義為過期概率(ShelfLife(A)-age(A)>0),而文獻(xiàn)[16]則直接使用age(A)作為數(shù)據(jù)的時效性,同時要求數(shù)據(jù)滿足ShelfLife(A)-age(A)>0的約束。文獻(xiàn)[14, 15]假設(shè)對于設(shè)定值A(chǔ),A的時效性隨時間流逝的減弱程度可以用時效性衰減函數(shù)decline(A)刻畫,并進(jìn)一步地定義A的時效性為exp(-decline(A)×age(A))。文獻(xiàn)[17]與文獻(xiàn)[16]類似,簡單地使用數(shù)據(jù)年齡作為數(shù)據(jù)的時效性。并且,文獻(xiàn)[18]又提出了一種基于模糊邏輯來推斷時效性衰減函數(shù)的時效性判定方法,與前述工作相同,該方法也假定數(shù)據(jù)庫有完整可用的時間戳來表示數(shù)據(jù)的存儲時間。

文獻(xiàn)[13–18] 提出的數(shù)據(jù)絕對時效性判定模型在數(shù)據(jù)庫中有完整、清潔、可用的時間戳,且用戶對數(shù)據(jù)的語義了解較為充分時可以有效地判定數(shù)據(jù)的時效性,但這些模型存在一定不足。具體闡析描述如下:

1)在實際應(yīng)用中,數(shù)據(jù)庫中不一定存在有效的時間戳,這就使得計算數(shù)據(jù)的年齡在多數(shù)情況下趨于困難。

2)上述工作均認(rèn)為最近更新的數(shù)據(jù)就一定是最新的,這在實際應(yīng)用中也不會一定成立,數(shù)據(jù)庫管理人員可能只是用一個舊值替代了另一個舊值。

3)文獻(xiàn)[13]和[16]均假設(shè)數(shù)據(jù)的保質(zhì)期總是能被用戶預(yù)先知曉,這在實際應(yīng)用中也并不合理,而且文獻(xiàn)[13]也沒有確切給出該文獻(xiàn)定義的數(shù)據(jù)時效性的計算方法。

4)文獻(xiàn)[14, 15]要求數(shù)據(jù)的時效性減弱程度可以用decline()刻畫,卻沒有提出decline()的獲得方法,同時文獻(xiàn)中也沒有完整的理論分析來證實其時效性定義的合理性。文獻(xiàn)[18]給出了decline()的推斷方法,卻又需要額外的數(shù)據(jù)存儲時間來輔助支持推斷。

5)文獻(xiàn)[16, 17]中僅用數(shù)據(jù)的年齡作為數(shù)據(jù)的時效性是遠(yuǎn)遠(yuǎn)不夠的,不同數(shù)據(jù)表示的具體含義也各有不同,年齡長的數(shù)據(jù)其時效性也未必就會較差。

[BT5]1.2基于規(guī)則的絕對時效性判定

文獻(xiàn)[19, 20]首次研究了在數(shù)據(jù)庫中不存在時間戳?xí)r,如何使用規(guī)則來幫助判定數(shù)據(jù)的時效性。這些工作首次給出了不依賴于時間戳的數(shù)據(jù)時效性度量模型。該文獻(xiàn)分3部分對數(shù)據(jù)的時效性來實現(xiàn)建模:時序關(guān)系(Currency Order)、時效約束(Currency Constraint)、不同數(shù)據(jù)源間的拷貝函數(shù)(Copy Function)。具體地,時序關(guān)系tiAtj表示元組ti在屬性A上比元組tj舊。時效約束定義為一階邏輯語句t1,…,tj: R(∧j∈[1,k]t1[EID]=tj[EID]∧φ→tuAtv),能夠描述數(shù)據(jù)的語義信息。該約束表示如果一組元組t1,…,tj描述的實體相同(即EID相同),且滿足特定條件φ,那么就有結(jié)論tuAtv。當(dāng)數(shù)據(jù)來自于多個數(shù)據(jù)源時,拷貝函數(shù)R1[A→]←R2[B→]可以描述不同數(shù)據(jù)源間的依賴關(guān)系,如數(shù)據(jù)源R1的A→向量表示的屬性可能就是拷貝自數(shù)據(jù)源R2的B→。

上述研究實現(xiàn)首次提出了時間戳不可用情況下的數(shù)據(jù)絕對時效性模型,其中雖然給出了較完整的數(shù)據(jù)時效性定義,但仍有許多問題沒有解決:

1)沒有給出定量地確定數(shù)據(jù)時效性的方法,僅能對給定的實體推測其屬性值是否為最新。

2)沒有給出任何能夠判定數(shù)據(jù)庫時效性的算法,而且上述工作定義的判定問題多為NP-完全或更難,這將給該模型進(jìn)入實際工作帶來相關(guān)困難,因此需要尋找快速的數(shù)據(jù)時效性判定算法。

3)提出的模型準(zhǔn)確性依賴于時效約束,但是在實際應(yīng)用中,用戶很難給出完整正確的時效約束,該工作也沒有討論時效約束的獲得方法。

4)提出的模型依賴于數(shù)據(jù)庫中的冗余元組,當(dāng)冗余元組不存在時,該模型就無法就直接使用。

5)文中提出的模型只能夠針對不同屬性值間的序關(guān)系進(jìn)行建模,但是在實際應(yīng)用中,數(shù)據(jù)時效性往往和具體的時間點(diǎn)有關(guān),因此需要借助與時間點(diǎn)有關(guān)的數(shù)據(jù)語義來判定數(shù)據(jù)是否過時。

[BT5]1.3小結(jié)

綜上可知,在數(shù)據(jù)絕對時效性的研究中,仍有如下關(guān)鍵問題亟待解決。首先應(yīng)建立不依賴于時間戳和冗余元組的,能夠定量度量數(shù)據(jù)絕對時效性的模型,該模型不僅要能夠推斷數(shù)據(jù)之間的時序關(guān)系,還要能夠推斷數(shù)據(jù)在給定時刻是否失效。而在此模型構(gòu)建的基礎(chǔ)上,還應(yīng)給出多項式時間的數(shù)據(jù)時效性判定算法。

[BT4]2相對時效性判定

[BT5]2.1相對時效性判定方法研究

目前,相對時效性的研究工作非常有限,僅在分布式數(shù)據(jù)庫環(huán)境下有類似的研究,即文獻(xiàn)[21]。該工作研究數(shù)據(jù)分布式存儲的環(huán)境下,查詢結(jié)果的時效性度量,具體是將數(shù)據(jù)的更新建模為泊松過程,并計算當(dāng)前查詢能夠用最新數(shù)據(jù)回答的概率,并以之作為數(shù)據(jù)的時效性。查詢能夠用最新數(shù)據(jù)回答的概率等于查詢在數(shù)據(jù)過期之前發(fā)出的概率。文獻(xiàn)[21]能夠一定程度上解決相對時效性判定問題,但其不足卻在于,只是考慮了數(shù)據(jù)分布式存儲的情況,且假設(shè)2次更新的時間間隔長度的概率分布已知,而若數(shù)據(jù)的更新規(guī)律未知時則不可能知道更新時間間隔長度的概率分布,因此算法的使用也還未形成廣泛拓展的新格局。

盡管相對時效性的研究工作迄今仍然限量可數(shù),但是在數(shù)據(jù)可用性管理的其他領(lǐng)域,卻也存在一些針對相對數(shù)據(jù)可用性的特征研究,這些進(jìn)展成果對于相對時效性研究頗具啟發(fā)意義。文獻(xiàn)[22]是較早期的度量結(jié)果可信度的研究工作,通過將數(shù)據(jù)庫構(gòu)建為一個圖,結(jié)點(diǎn)代表數(shù)據(jù)庫中的元組,邊表示元組間關(guān)系,邊權(quán)值表示2個元組存在關(guān)系的概率。給定數(shù)據(jù)庫以及特定關(guān)系R,查詢要求返回那些有可能滿足R的元組集合,而查詢的結(jié)果可信度則定義為該結(jié)果滿足R的概率。分析這一設(shè)計實現(xiàn)的不足可知,該文獻(xiàn)本質(zhì)上只是研究一個不確定數(shù)據(jù)庫上的查詢回答問題,并沒有給出邊權(quán)值的定義方法及來源,因此也未從本質(zhì)上解決相對數(shù)據(jù)質(zhì)量的判定問題。文獻(xiàn)[23–25]研究不確定數(shù)據(jù)上查詢結(jié)果的質(zhì)量判定問題。文獻(xiàn)[23, 24]均從結(jié)果二義性的角度出發(fā),以信息熵的相反數(shù)為查詢結(jié)果的質(zhì)量度量指標(biāo),該指標(biāo)取值范圍為(-∞,0],結(jié)果質(zhì)量越接近于0,則其二義性越弱,質(zhì)量越好。其中,文獻(xiàn)[23]研究了不確定數(shù)據(jù)上的范圍查詢(Range Query)和最大值查詢(MAX Query)的結(jié)果質(zhì)量度量方法,文獻(xiàn)[24]研究了不確定數(shù)據(jù)上的Top-k查詢的結(jié)果質(zhì)量度量方法。并且,文獻(xiàn)[25]則重點(diǎn)結(jié)合了skyline和Top-k查詢來對復(fù)雜情況下不確定數(shù)據(jù)的查詢給出一個可信結(jié)果?,F(xiàn)結(jié)合這部分工作可提出2點(diǎn)存在問題:首先,文中提出的度量在施于數(shù)據(jù)二義性時,本質(zhì)上是考察查詢的可能結(jié)果的數(shù)目,結(jié)果數(shù)越多,則二義性越大,但事實上,某些查詢雖然會得到較多可能的查詢結(jié)果,但各個查詢結(jié)果之間呈現(xiàn)了顯著可觀的相似度,此時,將無法簡單地斷定該查詢結(jié)果具有較高的二義性;其次,因為完全沒有考慮查詢在時間維度的特點(diǎn),即使得文中提出的二義性的定義也無法直接用來解析數(shù)據(jù)的相對時效性。此外,文獻(xiàn)[26–28]又深入研究了數(shù)據(jù)的相對完整性問題。文獻(xiàn)[26, 27]研究了給定主數(shù)據(jù)(Master Data)Dm、約束集合V、查詢Q以及數(shù)據(jù)庫實例T時,T在Dm和V的約束下的相對完整性判定問題。文獻(xiàn)[28]則代表性地給出了完整度度量模型,一方面可以表示數(shù)據(jù)集合中特定部分的完整性,稱為表完整性(Table Completeness),另一方面也可以表示查詢結(jié)果的完整性,稱為查詢完整性(Query Completeness)。這部分技術(shù)進(jìn)展均能從不同角度判定數(shù)據(jù)相對完整性,但由于數(shù)據(jù)時效性與時序密切相關(guān),則決定了這些工作仍然未能真正解決相對時效性判定問題。

[BT5]2.2小結(jié)

綜上所述,目前相對數(shù)據(jù)質(zhì)量判定方面的研究仍處在萌芽階段,現(xiàn)有工作大多關(guān)注模型定義和問題復(fù)雜度,關(guān)鍵算法的研究相對匱乏。在數(shù)據(jù)相對時效性的研究中,必須考慮到查詢與時序密切相關(guān)這一特點(diǎn),根據(jù)查詢在時間維度的特性,一方面給出合理的相對時效性的定量度量,另一方面也需給出判定相對時效性的迅捷有效的關(guān)鍵算法。

[BT4〗3結(jié)束語

本文討論了當(dāng)前數(shù)據(jù)時效性判定的關(guān)鍵理論和技術(shù),分析了當(dāng)前理論和技術(shù)的優(yōu)點(diǎn)及不足。通過分析可知,當(dāng)前數(shù)據(jù)質(zhì)量領(lǐng)域?qū)τ跁r效性的研究已經(jīng)有一些不同角度的較為成型的理論和方法,但綜合看來此領(lǐng)域的研究仍然不成體系,解決時效性維度的質(zhì)量問題需依次解決以下幾個問題:絕對時效性判定模型、多項式時間的絕對時效性判定算法、相對時效性的形式化定義以及相應(yīng)的相對時效性判定算法。在必要時,還需給出時效性修復(fù)策略以及判定和修復(fù)結(jié)果的整合策略。因此,數(shù)據(jù)時效性的研究任重而道遠(yuǎn),仍需不斷推進(jìn)探索。

[HS1*2][HT5H]參考文獻(xiàn):[HT]

[WTBZ][ST6BZ][HT6SS][1] [ZK(#〗

[HJ*2]

REDMAN T C. The impact of poor data quality on the typical enterprise[J]. Commun. ACM, 1998, 41(2):79-82.

[2] MILLER Jr D W, YEAST J D, EVANS R L. Missing prenatal records at a birth center: A communication problem quantified[C]//AMIA Annual Symposium Proceedings. Bethesda, MD, USA: American Medical Informatics Association, 2005:535.

[3] SWARTZ N. Gartner warns firms of ”dirty data”[J]. Information Management Journal, 2007, 41(3):6-7.

[4] KOHN L T, CORRIGAN J M, DONALDSON M S, et al. To err is human: Building a Safer Health System[M]. Washington, D.C.: National Academies Press, 2000.

[5] Eckerson W. Data Warehousing Special Report: Data quality and the bottom line[R]. Washington: The Data Warehouse Institute, 2002.

[6] ENGLISH L P. Information quality management: The next frontier[C]//ASQ World Conference on Quality and Improvement Proceedings. Milwaukee, Wisconsin: American Society for Quality, 2001:529.

[7] Ben W, Schulz S. Credit card statistics, industry facts, debt statistics[EB/OL]. [2010-06-04]. http://www.creditcards.com.

[8] Christopher S, Julie T. Enterprise information portals[R]. New York, NY, USA: Merrill Lynch, 1998.

[9] RAHM E, DO H H. Data cleaning: Problems and current approaches[J]. IEEE Data Eng. Bull., 2000, 23(4):3-13.

[10]FLESCA S, FURFARO F, GRECO S, et al. Querying and repairing inconsistent XML data[C]//Proceedings of Web Information Systems Engineering (WISE). Berlin, Heidelberg,Germany: Springer, 2005:175-188.

[11]李建中, 劉顯敏. 大數(shù)據(jù)的一個重要方面: 數(shù)據(jù)可用性[J]. 計算機(jī)研究與發(fā)展, 2015, 50(6):1147-1162.

[12]ZHANG H, DIAO Y, IMMERMAN N. Recognizing patterns in streams with imprecise timestamps[J]. Information Systems, 2013, 38(8):1187-1211.

[13]GRZ Q. An economicsdriven decision model for data quality improvement: A contribution to data currency[C]//AMCIS. Atlanta, Georgia, USA: AIS, 2011:1-8.

[14]HEINRICH B, KLIER M. Assessing data currency: A probabilistic approach[J]. Journal of Information Science, 2011, 37(1):86-100.

猜你喜歡
數(shù)據(jù)質(zhì)量
醫(yī)院衛(wèi)生統(tǒng)計數(shù)據(jù)質(zhì)量的影響因素及處理對策
電子商務(wù)平臺數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
基于大數(shù)據(jù)背景下提高供電局?jǐn)?shù)據(jù)質(zhì)量對策分析
強(qiáng)化統(tǒng)計執(zhí)法提高數(shù)據(jù)質(zhì)量
淺析統(tǒng)計數(shù)據(jù)質(zhì)量
中國市場(2016年40期)2016-11-28 04:58:19
金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
提高政府統(tǒng)計數(shù)據(jù)質(zhì)量,增強(qiáng)政府公信力
企業(yè)統(tǒng)計工作之我見
統(tǒng)計學(xué)在質(zhì)量管理中的應(yīng)用研究
商(2016年13期)2016-05-20 09:28:35
主站蜘蛛池模板: 亚洲国产91人成在线| 亚洲熟妇AV日韩熟妇在线| 亚洲国产精品无码久久一线| 午夜久久影院| 欧美69视频在线| 人妻一区二区三区无码精品一区| 日本一本在线视频| 一区二区三区四区日韩| 亚洲成A人V欧美综合天堂| 久久久久青草线综合超碰| 久久精品娱乐亚洲领先| AV熟女乱| 超薄丝袜足j国产在线视频| 成人午夜亚洲影视在线观看| 久久人搡人人玩人妻精品| 综合亚洲网| 67194亚洲无码| 精品亚洲麻豆1区2区3区| 成人午夜视频网站| 亚洲AV无码一区二区三区牲色| 亚洲人精品亚洲人成在线| 男人天堂伊人网| av在线5g无码天天| 欧美翘臀一区二区三区| 日韩午夜伦| 在线毛片免费| 成人午夜免费观看| 91精品最新国内在线播放| 2018日日摸夜夜添狠狠躁| 久久天天躁狠狠躁夜夜躁| 色婷婷综合激情视频免费看| 欧洲日本亚洲中文字幕| 亚洲精品无码不卡在线播放| 免费A级毛片无码免费视频| 亚洲最新地址| 国产一区二区三区视频| 99尹人香蕉国产免费天天拍| 亚洲精品桃花岛av在线| 熟妇丰满人妻| 精品无码一区二区三区电影| 99re在线观看视频| 91热爆在线| 欧美成人综合在线| 欧美中文字幕在线播放| 亚洲欧美日韩视频一区| 日韩天堂在线观看| av一区二区三区在线观看| 99re66精品视频在线观看 | 中文字幕精品一区二区三区视频| 欧洲精品视频在线观看| A级毛片无码久久精品免费| 丰满人妻中出白浆| 在线色国产| 国内精品视频| 免费全部高H视频无码无遮掩| 亚洲欧美一级一级a| 亚洲精品成人片在线播放| 国产精品尤物铁牛tv | 免费啪啪网址| 2022精品国偷自产免费观看| 人妻无码一区二区视频| 99在线视频免费观看| 波多野结衣无码AV在线| 91精品视频网站| 国产www网站| 成人在线亚洲| 亚洲va欧美va国产综合下载| 色婷婷亚洲综合五月| 午夜精品久久久久久久2023| 98超碰在线观看| a级毛片免费网站| 国产微拍精品| 五月激情综合网| 午夜毛片免费观看视频 | 国产呦视频免费视频在线观看| 免费国产一级 片内射老| 婷婷亚洲综合五月天在线| 99re免费视频| 日韩黄色大片免费看| 无码aaa视频| 成人日韩视频| 国产高颜值露脸在线观看|