淑燕,熊 文
(云南師范大學 信息學院,云南 昆明 650000)
數據質量對數據價值至關重要。高質量數據能夠準確反映現實情況,為決策提供有力支持。而低質量數據會對信息社會造成困擾,影響數據挖掘結果,產生不利影響[1]。根據Gartner最近的調查結果,糟糕的數據質量會造成平均每年1 500萬美元的損失[2]。在美國,因數據質量問題而導致的年度總成本超過3萬億美元[3]。因此,清洗臟數據以提升數據質量至關重要,是保證后期數據挖掘和分析準確性的前提。
基于以上現狀,本文借鑒文獻[4]研究大數據治理的思路,以中國知網(CNKI)、Web of Scienc(WOS)、IEEE、ACM和Springer為來源數據庫,以 “數據質量”和“數據治理”為檢索詞,時間范圍“2010年—2022年”,進行文獻的檢索(檢索時間2023年05月07日),統計分析后得到如圖1所示結果。

圖1 2010—2022年數據質量相關文獻分布
通過文獻計量分析可以得出如下結論:
(1)數據質量問題得到廣泛關注。由圖1可知,相關研究文獻在總體分布上呈現出上升趨勢,數據質量問題已然成為國內外學術界關注的焦點。目前,國內研究與國外仍有一定的差距,這啟發研究人員需在數據質量方面投入更多的研究。
(2)數據質量相關問題缺乏清晰、系統的概述。由文獻計量分析的結果得知,盡管國內外對數據質量的研究有了一定成果的積累,但研究內容普遍集中在描述某類數據質量問題或某種清洗策略,并沒有對相關問題進行較為全面、系統的梳理。
(3)數據質量的應用性不足,交通領域的相關研究還有所欠缺。目前的研究多以概念性、描述性和定性分析為主,偏重于理論的概括總結,針對數據質量面臨的實際問題,還缺少相關的實踐案例支撐。
基于以上研究,統計文獻所列出的數據質量問題,通過歸納、整理將臟數據定義為:數據冗余、數據缺失、數據異常、數據錯誤、數據沖突和數據稀疏這6類數據質量問題,具體內容如表1所示。

表1 數據質量問題的歸納和定義
本研究使用國內某城市真實的交通數據為研究對象,數據采集時間2021年7月至2022年2月。數據集大小為364.6 GB,包含公交刷卡表、二維碼表、進出站表、藍牙表、Wi-Fi、GPS和靜態數據表在內的7個交通數據表。
(1)數據異常。經過數據探查,發現GPS數據中存在大量的數據異常,圖2是對所有異常點偏離距離的統計,縱軸表示偏離距離的范圍區間。

圖2 異常點偏離距離分布
(2)數據缺失。經過數據探查,發現進出站表中存在大量的數據缺失問題。以08360路線上的車牌號為“A001**”的樣本為例,2022-01-01 08:02:16至2022-01-01 09:05:47時間段內,缺少停站編碼為08360102至08360107之間的進出站數據。
HNFC具體流程如下:首先,檢測是否存在超過經緯度合理區間的范圍異常,有則刪除范圍異常數據。然后,根據瞬時速度閾值檢測GPS跳躍異常。如果兩GPS點的瞬時速度超出閾值,則認為該數據屬于跳躍異常。最后,對檢測到的跳躍異常數據進行修復,這一步可以通過使用中值濾波來實現。中值濾波算法可以根據周圍正常數據的分布情況,對異常數據進行修復。
評價指標如下。
(1)范圍異常過濾率(RFR):衡量算法過濾掉范圍異常數據的能力。公式為:
(1)
(2)跳躍異常修正率(JCR):衡量算法修正跳躍異常數據的能力。公式為:
(2)
其中,rangeE為檢測到的范圍異常數據;jumpE為檢測、修復的跳躍異常數據;totalD為GPS總數據量。
MDFC具體流程如下:首先,通過檢查進出站表中停站編碼屬性的連續性,判斷是否存在缺失數據。之后,對于缺失的進出站數據,填充停站編碼、路線和方向等信息,然后根據靜態信息表,填充站點名稱、經度和緯度等信息。此時,只有進出站的時間信息還未得到修復。最后,結合公交車的GPS數據,完成對進出站時間信息的修復。
評價指標[5]如下。
(1)使用缺失修復比率(MRR)作為路線名、停站編碼、行駛方向、站點名、經度和緯度修復的檢驗指標。其中MRR如公式(3)和公式(4)所示。
(3)
(4)
其中,xk,o為缺失數據的真實值;xk,r為數據的修復值;δxk,o,xk,r描述修復正確與否,當修復值與真實值相等即修復正確時計數為1,修復錯誤時計數為0。
(2)平均相對誤差(ARE)作為時間修復的可信程度,其數值越小,說明修復值與真實值之間的差距越小,修復的準確性越高。其中ARE如公式(5)所示:
(5)

數據異常清洗實驗則選取2022年2月的20 353.610萬條GPS數據為研究對象。首先對GPS數據按照車牌號進行分組,然后按照時間戳對組內的數據進行排序。該方法共檢測到503.905萬范圍異常數據以及457.299萬條跳躍異常數據。實驗結果表明,HNFC范圍異常過濾率RFR為2.48%,跳躍異常修正率JCR為2.25%。
數據缺失清洗實驗則選取08360路線上車牌號“A002**”于2022-01-07 07:35:06至2022-01-07 08:33:17時間段內一次完整的進出站數據為研究對象。該路線完整進出站數據共包含28個站點,隨機去除[02,05]和[18,21]之間的公交車進出站信息,然后使用上述MDFC的方法對缺失的進出站信息進行修復。統計得到MRR達到100%,ARE穩定在1%以下。到站時刻修復的結果如圖3所示。

圖3 MDFC時間信息修復對比
本文首先運用計量分析方法對近年來數據質量相關的研究進行了較為系統性的探討和梳理,歸納出6類數據質量問題。其次,以一個真實的公交大數據平臺為例,文章探討了公交場景下的數據異常和數據缺失問題,研究了HNFC、MDFC的數據質量提升方法。實驗結果表明,HNFC可過濾掉2.48%的范圍異常,修正2.25%的跳躍異常。MDFC可以保證進出站時刻的平均誤差穩定在1.0%以下。這證明了本文所述數據質量提升方法的有效性。