郄中洋 陳利剛 馬曉真 陳政
1. 江蘇省蘇州市公安局 2. 蘇州工業園區測繪地理信息有限公司
近年來,我國大力推進智能交通建設,數據作為智能交通的重要資產,其質量水平直接決定了數據二次應用的效能上限。以往交通領域的數據質量評估方法常局限于單一的數據采集方式,模型的普適性較低。此外,傳統方法常忽略數據的真實應用場景,而事實上,不同應用場景對同一數據集的質量要求往往不同。因此,本文圍繞客觀評價智能交通數據質量主題,提出了一套基于應用場景的多層級數據質量評估框架并開展了應用實踐。

面向智能交通的數據質量評估框架包括需求準備、特征提取、質量評估、質量改進四個階段[1],如圖1所示。需求準備階段需確定被評估的數據集和評估維度,依據實際應用場景定義數據質量需求;特征提取階段包括數據集分解、最小數據子集質量特征提取、上層數據集質量特征計算;質量評估階段根據數據集質量特征和評估標準進行數據質量評估;質量改進階段分析數據質量問題并進行干預。
1. 數據質量評估維度
框架主要從數據完整性、有效性、準確性、及時性、穩定性5個維度[2~5]開展質量評估:數據完整性主要考察數據對實體對象集的覆蓋度;數據有效性主要考察數據與有效性校驗規則的符合程度;數據準確性主要考察數據與實際值之間的差距;數據及時性主要考察數據獲取的快慢程度;數據穩定性主要考察數據獲取的穩定度。
2. 定義數據質量需求

?
在開展數據質量評估前,需要根據數據的實際應用場景,定義數據質量需求,產出物為《數據質量需求定義文檔》,見表1。文檔應明確被考察的數據資源、應用場景、時空范圍、數據集分解規則以及5個維度的數據質量需求。
質量特征是數據的固有屬性[6],特征提取階段的目的是獲得數據集在5個維度上的質量特征。具體過程如下:
1. 數據集分解
可將數據集按照時空特性、組織架構等規則自上而下逐層分解,上層數據集被分解成至少一個數據子集,直到滿足終結條件。如圖2所示,Ci,j表 示數據集所屬實體對象,φi,j表示數據集的權重系數,圖中第n-1層中的子集無法被再次分解,則定義該層的子集為最小數據子集,第n層為裸數據層,是最小數據子集所轄的實際觀測數據。

2. 質量特征提取
(1)最小數據子集質量特征提取
可知n-1層的數據集為最小數據子集,抽取其下第n層的裸數據,可提取最小數據子集在5個維度上的質量特征。
① 完整性
最小數據子集數據量如滿足數據量校驗,則完整性為1,否則為0。計算公式如(1)。

② 有效性
根據校驗規則,計算最小數據子集中有效數據量與數據總量的比值,計算公式如(2)。

N為最小數據子集Mn-1,m的總數據量。
③ 準確性
a. 連續型字段準確性
連續型數據的準確性計算公式如(3)。

為最小數據子集Mn-1,m中字段f記錄值與實際值差異的平均值,N為Mn-1,m的 有效數據量,為第n條記錄中字段f的記錄值,為相應的實際值。
b. 離散型字段準確性
離散型數據準確性為校驗通過的數據量與有效數據量的比值,計算公式如(4)。

為最小數據子集Mn-1,m中 字段f的準確性,N為Mn-1,m的 有效數據量。為 第n條記錄中字段f的記錄值,為相應的實際值。
④ 及時性
計算數據產生到獲取的時間差,計算公式如(5)。

Delayn-1,m表 示最小數據子集Mn-1,m的 及時性,tn,hap為第n條數據的產生時間,tn,use為 第n條數據獲取的時間,N為Mn-1,m的 有效數據量。
⑤ 穩定性
穩定性計算步驟如下:
a. 將數據時間范圍劃分成等長的時間切片,根據數據生產特性將時間片分為N類,N可以為1;
b. 統計第i類時間片Ci,中 第j個時間片內新增數據量xi,j;
c. 計算第i類時間片中各時間片內新增數據量的均值μi和標準差σi;
d. 計算第i類時間片中各時間片內新增數據量變異系數C·Vi,計算公式如(6);

e. 計算最小數據子集的穩定性Stan-1,m,Stan-1,m越 小說明數據集越穩定,計算公式如(7)

(2)上層數據集質量特征提取
以n-1層中最小數據子集的質量特征為基礎,自下而上遞歸計算上層數據集的質量特征,步驟如下:
① 從n-2層開始自下而上依次選擇需要計算質量特征的數據集Mn-i-1,m;
② 找出所選數據集的所有元素,元素為該數據集下層的數據子集;
③ 根據元素數或元素所含數據量確定各元素的權重系數φn-i,k。
計算完整性權重時,根據Mn-i-1,m包含的元素數計算各元素權重系數,計算公式如(8),φn-i,k表 示元素Mn-1,k的權重系數,其中N表示Mn-i-1,m包含的元素數。

計算其它4個維度的權重時,根據各元素的數據量計算權重系數,計算公式如(9),其中φn-i,k表 示元素Mn-1,k的權重系數,Nn-1,k表 示元素Mn-1,k的 數據量,Nn-i-1,m表 示Mn-i-1,m的數據量。

④ 所選數據集的質量特征為各元素質量特征的加權平均值,計算公式如(10)

其中,a(n-i-1,m),a(n-i,k)分 別表示Mn-i-1,m及 其元素Mn-1,k某一維度的質量特征,φ(n-i,k)為權重系數。
1. 各維度質量特征評估標準
質量評估階段利用特征提取階段輸出的數據集的質量特征,根據質量評估標準進行數據質量評估,可得到數據集在任一層級上的數據質量得分,得分可直觀反映數據質量在實際應用場景下的滿足程度。各維度評估方法如下:
(1)完整性評估
數據的完整性采用線性函數評估,計算公式如(11)。其中,Com為完整性特征,S為完整性得分。

(2)有效性評估
數據的有效性采用線性函數評估,計算公式如(12)。其中,Eff為有效性特征,S為有效性得分。

(3)準確性評估
① 連續型字段
連續型字段的準確性采用分段線性函數進行評估,計算公式如(13)。其中,Acc為字段i準確性特征,THR為閾值,Si為字段i的準確性得分。

② 離散型字段
離散型字段的準確性采用線性函數進行評估,計算公式如(14)。其中,Acc為字段i準確性特征,Si為字段i準確性得分。

(4)及時性評估
數據的及時性采用分段線性函數進行評估,計算公式如(15)。其中,Delay表示數據平均延時,THR為閾值,S為及時性得分。

(5)穩定性評估
數據的穩定性采用分段線性函數進行評估,計算公式如(16)。其中,Sta表示數據穩定性特征,S為及時性得分。

2. 數據質量評估報告
質量評估階段的產出物為《數據質量評估報告》,見表2。報告應詳細記錄數據集在各層級、各質量維度上的得分,便于自上而下快速定位存在問題的數據子集,有針對性地開展質量改進工作。

?
當數據集在某一維度的質量得分低于期望值時,認為數據在該維度上不滿足應用場景需求,需要進行質量改進。實際操作可從感知設備、網絡傳輸、數據治理三個方面進行問題定位和質量改進。
1. 感知設備層改進
檢測器設備受環境干擾、斷電或長期缺乏維護等因素影響,可能導致數據不穩定、缺失或錯誤。定期巡檢并及時維護設備,能有效防止設備故障,從而提高數據質量。
2. 網絡傳輸層改進
網絡傳輸設備受到干擾、破壞會導致數據缺失、錯誤或重復傳輸。加強網絡檢修,能有效防止網絡傳輸異常。
3. 數據治理層改進
數據治理層面上,可以采取數據清洗方法清除冗余數據,利用多源數據融合技術填補缺失數據,采用異常值處理方法修正異常值,從而解決數據冗余、缺失、異常等問題。
某市(SZ)與SH、ZJ、WX、NT四個省/市接壤,環市域四個方向共有12個高速卡口點位,24個出入口。某市需要對高速公路流量OD進行實時分析,為更好支撐此項工作開展,某市前期開展了環市域卡口過車數據的質量評估工作。
經過需求調研,形成《數據質量需求定義文檔》,見表3,以指導后續評估工作的開展。

1. 數據集分解
某市高速公路環市域卡口過車數據總集記為M1,1,首先根據相鄰省/市將M1,1劃 分為四個子集M2,1, M2,2, M2,3, M2,4,然后依次根據卡口點位,進出方向將數據集進一步細分,在第四層得到24個最小數據子集,每個最小數據子集對應一個出口或入口的卡口,由于部分點位的設備故障,個別子集為空。
2. 質量特征提取
(1)最小數據子集質量特征提取
根據相關公式計算出每個出入口卡口在5個維度上的質量特征,結果如圖3所示,按過車數對出入口進行排序,過車量越大序號越小。除三個出入口缺少過車數據外,另外21個出入口的完整性都為1。對比21個出入口的數據質量,發現隨著數據量降低,數據的有效性先降后升,數據不穩定性和延時時長先升后降。對比5個維度的質量特征,發現數據的完整性高于其它特征值,“號牌顏色”的準確性高于“號牌號碼”,數據有效性在95%左右,穩定性在0.45左右,延時時長集中在0.8~3.3分鐘之間。

穩定性評估的時間切片為1小時,將每個出入口卡口的穩定性特征進行可視化,結果如圖4所示。進一步表明數據量處于中間水平時,數據集的不穩定性增加,并且夜間的數據集不穩定性大于白天。

(2)上層數據集質量特征提取
上層數據集質量特征提取是一個遞歸計算過程,如圖5所示。

首先根據24個出入口的數據量計算上層數據子集(12個點位)的數據量和各出入口的權重系數,然后根據24個出入口的質量特征和權重系數,采用加權平均法計算12個點位的質量特征。以此類推,計算每個數據集的數據質量特征,最終結果如表4。

根據5個維度數據質量需求和實際質量特征,對某市高速公路環市域卡口過車數據進行數據質量評估,得到《數據質量評估報告》,見表5。從該報告中可看出各層級的數據質量情況,第一、二、三、四層依次展示了卡口在整體、各省/市邊界、各點位、各出入口的數據質量,管理者可對問題進行快速靶向定位。


由表5可知,環市域卡口過車數據穩定性得分為70.6,遠低于預期,需要改進數據質量。問題排查后發現主要是因為網絡傳輸異常導致的,后續綜合采取了增加巡檢頻率,優化網絡傳輸和數據存儲機制等措施。在上述措施持續實施一段時間后,再選取2020年8月3號至2020年8月7號的數據再次進行質量評估。新一輪的數據集質量得分如表6所示,可以看到,數據的穩定性得到了顯著提升。

本文基于智能交通應用場景,選取數據完整性、有效性、準確性、及時性、穩定性作為質量評估維度,自上而下逐層分解數據集,并自下而上遞歸計算數據集的質量特征,最后根據評估標準進行質量評估,得到數據集的質量得分,實現了基于應用場景的多層級數據質量評估。