劉妍東

摘 要:隨著云時代的來歷,大數據技術也越來越引起人們的關注。大數據帶來的巨大的技術和商業機遇使眾多的企業趨之若鶩。大數據分析挖掘和利用將為企業帶來巨大的商業價值,但隨著數據規模的急劇劇增,數據體量巨大、數據類型繁多,數據的價值參差不齊,在數據分析時將導致分析偏差。所以在大數據時代,數據的質量問題也是重中之重。通過分析,數據的質量問題主要存在這六大方面的問題:準確性、完整性、一致性、相關性、時效性、可信性和可解釋性。
關鍵詞:大數據;質量問題
中圖分類號:TB ? ? 文獻標識碼:A ? ? ?doi:10.19311/j.cnki.1672-3198.2020.04.092
1 從采集的角度劃分質量問題
1.1 準確性
準確性是指數據是否正確的,數據存儲在數據庫中的值是否對應于真實世界的值。例如,某用戶在使用支付寶綁定銀行卡時,網站要求驗證用戶的真實姓名和身份證號碼。如果用戶提供的證件號碼與實際號碼一致,那么該號碼存儲在數據庫中的值就是正確的。
數據的不準確由如下原因造成:一是在收集數據時,設備出現故障,導致數據存儲的值出現亂碼。二是在數據輸入時,人為的輸入不準確的信息,或者計算機內部出錯導致錄入的信息有誤,比如我們上網注冊一些信息時,出于隱私考慮,用戶會故意輸入不正確的信息,包括年齡、地址、手機號等。 三是在數據傳輸的過程中出現錯誤。比如,超出了傳輸緩沖區的大小,數據會出現截斷等現象。最后一種是命名約定、數據代碼、輸入字段的格式不一致導致出錯。……