楊道平 簡巖
摘 要:針對日益突顯的數據質量問題,文章從數據可用性的角度,介紹并分析了目前國內外基于單個屬性的數據質量評估方法,指出了相關工作的進一步研究方向。
關鍵詞:數據質量;可用性;評估方法
中圖分類號:TP315 文獻標識碼:A 文章編號:1006-8937(2015)15-0062-02
隨著大數據時代的來臨,數據集合中劣質數據也隨之大量產生,導致信息數據整體質量下降,數據的有效使用受到了極大限制。為了更加有效發揮各行各業大數據的作用,開展數據可用性研究具有較大的戰略意義。
1 數據可用性定義
研究者們普遍認為,數據的可用性可以從數據的一致性、準確性、完整性、時效性及實體同一性五個方面進行考察,其具體定義如下:
①數據的一致性:指數據信息系統中各相關數據信息之間相容、不產生矛盾。
②數據的準確性:指數據信息系統中每個數據表示現實物體的精準程度。人們對數據進行操作的各個環節都可能影響數據準確性。
③數據的完整性:指數據集合包含的數據完全滿足對數據進行各項操作的要求。
④數據的時效性:是指在不同需求場景下數據的及時性和有效性。對應用系統而言,往往對數據時效性要求較高,過時的數據即使分析出來了也不會對實際應用產生有價值的影響。
⑤實體的同一性:指同一實體在各種數據源中的描述統一。
一個數據集合,滿足以上五個性質的程度稱為該數據集合的可用性。
2 評估方法分析
對于數據可用性評估,國內外研究人員也進行了許多工作。以下從數據的一致性、精確性、完整性、時效性、實體同一性五個方面進行介紹和分析。
2.1 基于一致性的方法
文獻[1]針對異地備份系統中數據持續變化的情況,設計并實現了一種基于累積摘要值的一致性檢測方法。該方法解決了傳統一致性檢測需要中斷備份任務的問題,保證了備份任務的連續性,并且能夠迅速檢測本地服務器和遠程備份中心數據的一致性,提高了一致性檢測的效率。
文獻[2]從已有的一致性維護方法出發,針對海量數據多副本之間一致性維護,從一致性維護過程中所涉及的更新發布、更新傳播方式、更新傳播內容、更新沖突解決等幾個方面進行了分析,提出了相應的解決辦法。
文獻[3]針對P2P分布存儲系統中大型數據對象面臨的數據一致性問題,提出了數據一致性維護方法PLCP。該方法從提高更新傳播速度和減少日志空間開銷的角度進行了數據優化。同時針對數據更新的問題和關鍵屬性更新的問題,提出數據一致性維護方法DACP和KACP。
文獻[5]從無線傳感網絡數據安全的角度,結合一些廉價的保護技術,提出了利用跨層一致性評估信息整體質量的方法。
基于數據一致性的方法,主要體現在集中存儲方面,對于分布式和非關系數據方面研究還較少,適用于海量數據的一致性評估方法有待進一步探索。
2.2 基于精確性的方法
數據精確性方面的研究結果比較少見,文獻[6]從精確度低的角度,提出了對應的精確性評估算法。該算法考慮了一種基于可能世界語義的描述方法。目前的研究結果顯示,數據精確性的評估方法還有待研究者們深入探究。
2.3 基于完整性的方法
針對海量關系數據中普遍存在的數據不完整現象,劉永楠等研究了關系數據完整性度量問題。針對數據的完整性計算問題,提出了數據完整性計算模型,以及精確算法和基于均勻抽樣的近似算法。理論分析證明了近似算法可以達到任意的精度要求,可以高效地對數據完整性進行計算,通過在DBLP數據上的實驗驗證了算法的有效性和高效性。
在具體應用領域,張少敏等利用IEC61970對智能電網進行信息集成,然后根據完整性定義,對智能電網數據進行自動機建模,給出了一種無需對數據進行直接操作的數據完整性定量評估模型。
Barcelo P等將傳統的完整性理論擴展到XML數據上,討論了不完整XML數據的表示問題。
另外,針對云存儲服務中數據的完整性問題,一些研究者提出了PDP 和POR。這兩種方案都采用了概率性證明思路,即存儲服務提供商向數據擁有者證明其完整的持有數據擁有者存儲的數據。
基于數據完整性評估方面的結論還較少,特別是具有普遍適用價值的方法,還有待進一步研究。
2.4 基于時效性的方法
文獻[7]針對歷史評價數據時效性會影響評價計算準確性的問題,引入了評價數據的時間屬性,構造了評價數據衰減因子,減小了時效性對于評價計算準確性的影響。
文獻[8]研究了包含冗余記錄的集合在給定時效約束下的時效性判定問題,并首次提出了時效性判定問題的求解算法.
在建筑能耗領域,文獻[9]通過對幾類典型公共建筑能耗數據的統計分析對比,提出了采用近1年的能耗數據作為統計樣本的建議。
基于時效性方面的研究非常匱乏,已有的少量研究結論都主要針對一些特殊應用,還需深入系統的研究。
2.5 基于實體同一性的方法
實體同一性是數據可用性研究較多的一個方面,實體同一性研究主要涉及兩類方法:第一類是從語義規則的角度進行同一性研究,這類方法主要通過經驗知識來描述實體的同一性問題;第二類是從相似性的角度進行同一性研究,該類方法主要采用相似度函數來對實體同一性進行判定。
針對實體同一性方面的相關技術,包括實體識別的效率問題、識別的增量計算、半結構化數據上的實體識別等,文獻[4] 展開了相對完整的討論。
對于實體統一性的評估方法大多針對關系數據,針對復雜結構數據、半結構化數據、非機構化數據方面的研究還很少。
3 結 語
在大數據時代,數據量急劇增長,數據的可用性問題將嚴重影響基于數據的知識和決策。確保大數據的可用性是進行大數據分析、處理的關鍵基礎,將直接關系到大數據價值的體現。本文針對數據質量問題,從數據可用性的角度,介紹并分析了目前國內外基于單個屬性的數據質量評估方法,將有助于促進大數據可用性的研究。
參考文獻:
[1] 劉仕一,李濤,劉哲哿,等.異地備份系統數據一致性檢測方法[J].計算機工程與設,2010,(17).
[2] 周婧,王意潔,阮煒,等.面向海量數據的數據一致性研究[J].計算機科學,2006,(4).
[3] 周婧.P2P分布存儲系統中海量數據的數據一致性維護技術研究[D].長沙:國防科學技術大學,2007.
[4] 劉顯敏,李建.中實體識別問題的相關研究[J].智能計算機與應用,2013,(2).
[5] Mattia Monga,Sabrina Sicari.Assessing Data Quality by a Cross-Layer
Approach[D].Ultra Modern Telecommunications & Workshops,2009.
[6] Cheng R,Chen J,xie X.Cleaning uncertain data with quality guarant-
ees[J].Proceedings of the VLDB Endowment,2008,(1).
[7] 楊超,吳愛榮.基于衰減因子的評價數據時效性處理方法[J].計算機工程與設計,2010,(3).
[8] 李默涵,李建中,高宏.數據時效性判定問題的求解算法[J].計算機學報,2012,(11).
[9] 黃志鋒.建筑能耗定額編制中數據樣本的時效性分析[J].廣東土木與建筑,2012,(7).