鮑東玉+王軍


摘 要:車輛檢測器檢測數(shù)據(jù)作為一種基礎數(shù)據(jù)在交通領(lǐng)域具有重要的作用,其數(shù)據(jù)質(zhì)量極大地影響著以其作為參考基礎數(shù)據(jù)的交通規(guī)劃、交通控制、交通行為分析等應用領(lǐng)域研究分析結(jié)論的準確性和合理性。文章首先分析了車輛檢測器異常數(shù)據(jù)的表現(xiàn)形式及產(chǎn)生原因,根據(jù)交通流理論及客觀限制條件研究,提出了基礎篩選、閾值篩選和基于交通流理論的篩選方法,并在此基礎上,根據(jù)交通運行狀態(tài)的統(tǒng)計相似性進行了研究和對比,選擇了IQR法作為數(shù)據(jù)修復的方法。從而在一定程度上解決了車輛檢測器數(shù)據(jù)質(zhì)量的問題。
關(guān)鍵詞:車輛檢測器數(shù)據(jù);數(shù)據(jù)篩選;數(shù)據(jù)修復;四分位距IQR法
中圖分類號:TP274 文獻標識碼:A 文章編號:2095-1302(2015)10-00-02
0 引 言
車輛檢測器是檢測道路交通流運行參數(shù)的設備,是智能交通系統(tǒng)中的一個重要組成設備。然而,在實際運用中,由于車輛檢測器存在諸多應用選型不當、設備老化、惡劣環(huán)境影響、維護檢修不到位等原因,其檢測數(shù)據(jù)往往存在很多質(zhì)量問題。
車輛檢測器數(shù)據(jù)常被用于交通流狀態(tài)描述及事件檢測,交通流參數(shù)的統(tǒng)計分析在交通規(guī)劃領(lǐng)域、交通控制領(lǐng)域、交通行為分析領(lǐng)域有著極其重要的基礎數(shù)據(jù)支持作用。因此,車輛檢測器數(shù)據(jù)的質(zhì)量與其在各應用領(lǐng)域的作用效果存在極大地影響。如何篩選并修復車輛檢測器數(shù)據(jù)中的異常數(shù)據(jù),是車輛檢測器數(shù)據(jù)應用的基礎。
1 異常數(shù)據(jù)清洗方法研究
1.1 主要篩選目標
異常數(shù)據(jù)篩選的主要目標即發(fā)現(xiàn)車輛檢測器數(shù)據(jù)記錄中因設備性能、運行狀態(tài)、檢測環(huán)境異常所導致的異常數(shù)據(jù),根據(jù)異常數(shù)據(jù)的表現(xiàn)形式,可將篩選目標分為四類。
(1)錯誤數(shù)據(jù)[1,2]。數(shù)據(jù)記錄出現(xiàn)不在最大值的上限范圍內(nèi)或字段之間不滿足機理關(guān)系的現(xiàn)象,這是車輛檢測器異常數(shù)據(jù)中出現(xiàn)頻率最高的一種異常數(shù)據(jù)。
(2)冗余數(shù)據(jù)[3,4]。冗余數(shù)據(jù)是指在檢測時間段內(nèi)存在相似或重復的數(shù)據(jù)記錄,使實際記錄數(shù)多于理論上應有的記錄總數(shù)的數(shù)據(jù)。
(3)丟失數(shù)據(jù)[5]。由于車輛檢測器、數(shù)據(jù)傳輸設備或存儲設備等出現(xiàn)故障等原因造成的不能記錄在數(shù)據(jù)庫中的檢測數(shù)據(jù)。
(4)時間點漂移[6]。由于車輛檢測器或網(wǎng)絡設備不穩(wěn)定而造成的數(shù)據(jù)記錄中的時間點間隔存在誤差,導致實際時間點體系與標準時間點體系無法匹配,為數(shù)據(jù)的分析帶來干擾。
1.2 交通流異常數(shù)據(jù)篩選方法
通常要以占有率、總交通量與速度之間的聯(lián)系為依據(jù),判斷檢測數(shù)據(jù)是否存在異常。在總交通量無異常的情況下,有時會出現(xiàn)分車型交通之和明顯大于或小于總交通量的現(xiàn)象。即總交通量的正確性并不能反映分車型流量的正誤,因此需要在判斷占有率、總交通量與速度數(shù)據(jù)是否異常之后,判斷分車型流量是否異常,若兩者中有一個判斷為異常,則為異常記錄。
1.2.1 總交通量的篩選方法
總交通量的篩選方法采用交通流理論相結(jié)合的方法與閾值法,主要分為三步,第一步:利用交通流三參數(shù)的機理關(guān)系做基礎篩選,去除明顯不符合邏輯的數(shù)據(jù)記錄;第二步:將車輛檢測器檢測數(shù)據(jù)三參數(shù)的范圍設定在一個合理的理論值區(qū)間內(nèi),除掉不符合情況的閾值溢出值;第三步:再根據(jù)交通流三參數(shù)之間的嚴格計算關(guān)系來進一步推斷并去除不符合規(guī)律的數(shù)據(jù)記錄。交通量的篩選共有三種篩選方法,分別為基礎篩選、閾值法篩選、基于交通流參數(shù)間關(guān)系的數(shù)據(jù)篩選。
(1)基礎篩選
表1展示了車輛檢測器檢測數(shù)據(jù)的參數(shù)表現(xiàn)形式以及各表現(xiàn)形式下數(shù)據(jù)篩選的規(guī)則。
a.表 1中情況(8,9),可通過最大閾值法排除檢測總交通量數(shù)值超過道路通行能力的情況。
b.表 1中情況(5),可通過前5分鐘和后5分鐘的數(shù)據(jù)判斷是否出現(xiàn)停車或擁堵狀況判斷異常數(shù)據(jù)。
c.表 1中情況(1),可以對不同天同一時段的交通流量的數(shù)據(jù)進行比較判斷異常數(shù)據(jù)。
(2)閾值法篩選
(3)基于交通流參數(shù)間關(guān)系的數(shù)據(jù)篩選
在對車輛檢測器檢測數(shù)據(jù)進行粗略篩選后,在研究中我們發(fā)現(xiàn),還有一種較為隱蔽的數(shù)據(jù)異常情況(主要發(fā)生于表1中8、9的參數(shù)形式下):同一記錄的三個交通流檢測參數(shù)無不符合邏輯的異常值,且各檢測值均在各檢測參數(shù)閾值范圍內(nèi),但三個參數(shù)之間的關(guān)系不嚴格滿足高速公路的三參數(shù)之間的計算關(guān)系,即其中兩個測量值的計算推測值與另外一個真實測量值之間存在較大差異,因此也要判斷其錯誤。
本研究所采用的具體篩選步驟如下:
①將時間占有率換算為車流密度形式表示。
(1)
其中:occ為時間占有率([0,1]);
l為有效車長(m)(可取車輛長度的平均值)。
②根據(jù)交通流三參數(shù)關(guān)系,根據(jù)測量車流密度計算出的流量與測量出的流量差值比例篩選,篩選公式如下:
|q測-k測v測| ≤θ%
q測 (2)
其中:q測為車輛檢測器總流量檢測值;
k測為車輛檢測器交通密度檢測值,通過式(1)檢測的占有率轉(zhuǎn)化得來;
v測為車輛檢測器速度檢測值。
由于車輛檢測器檢測數(shù)據(jù)本身為計算值,且檢測精度并沒達到100%,故檢測數(shù)據(jù)的參數(shù)不可能嚴格滿足q測=k測v測,因此,可設定一個可接受誤差范圍,《高速公路監(jiān)控技術(shù)要求》中規(guī)定:車輛檢測器交通量、車輛速度、占有率準確度大于或等于85%。根據(jù)此標準以及公式,當流量取準確度范圍內(nèi)上限值,密度和速度取準確度范圍下限值時取最大值:
1.2.2 分車型流量數(shù)據(jù)的篩選方法
將總流量的異常數(shù)據(jù)過濾掉后,需要判斷分車型流量數(shù)據(jù)是否有錯誤。當總流量為真值時,分車型流量的和與總流量相比相差不應過大,因此,分車型流量的篩選通過以下公式判斷:
(3)
其中:qi為分車型流量的值(i=1,2,3分別表示大、中、小型車的檢測流量值);
q為總交通量;
δ%為設定誤差,通常根據(jù)車輛檢測器的精度參數(shù)進行標定。
2 交通流量檢測數(shù)據(jù)修復方法
2.1 修復條件
數(shù)據(jù)清洗后,數(shù)據(jù)的完整率降低,影響后續(xù)對數(shù)據(jù)的分析應用,因此,數(shù)據(jù)清洗后需要進行數(shù)據(jù)修復工作[7,8]。
當車輛檢測器某月的檢測數(shù)據(jù)異常數(shù)據(jù)較多時,數(shù)據(jù)進行修復后,真實性和可靠性就大大降低,后續(xù)分析和處理的意義也會降低。因此,數(shù)據(jù)修復的對象應主要針對篩選后有效數(shù)據(jù)完整性較高的月份。因此修復條件需滿足公式(4)。
有效數(shù)據(jù)條數(shù)
理論總數(shù)據(jù)條數(shù) ≥D (4)
其中:D為日有效數(shù)據(jù)完整率的眾數(shù)。
2.2 修復算法研究
2.2.1 修復基礎
由于出行者出行需求的規(guī)律及相對普遍的出行習慣影響,使得交通流在同一斷面相同性質(zhì)(工作日、雙休日)的統(tǒng)計日內(nèi)在同一時間會出現(xiàn)相似的交通流特征,這是車輛檢測器數(shù)據(jù)修復的基礎。
2.2.2 修復算法
當數(shù)據(jù)分布符合正態(tài)分布時,IQR不如標準偏差有效;但如果數(shù)據(jù)中存在噪聲和孤立點,則在估計數(shù)據(jù)的離差時,它比標準偏差更具代表性。本研究基于大量的歷史檢測數(shù)據(jù)驗證表明,檢測周期的流量值不服從正態(tài)分布,因此采用IQR方法修復。
首先,判斷異常數(shù)據(jù)的統(tǒng)計日是雙休日還是工作日,然后將數(shù)據(jù)庫中一年內(nèi)與待修復數(shù)據(jù)具有相同統(tǒng)計時段、相同統(tǒng)計日性質(zhì)的數(shù)據(jù)進行匯總排序,分別取數(shù)據(jù)的上、下四分位點作為修復數(shù)據(jù)的上限和下限。將剩下50%的數(shù)據(jù)保留下來求均值作為修復值。
2.3 效果驗證
本文選取三種方法對比驗證效果:①采用相鄰時段數(shù)據(jù)的平均值修復;②采用前一天的歷史趨勢數(shù)據(jù)修復;③本文修復方法。各修復數(shù)據(jù)分別與原有檢測值進行對比。
結(jié)果表明:本文提出的四分位間距(IQR)修復算法比傳統(tǒng)的修復算法的修復結(jié)果誤差更低,更貼近車輛檢測器的檢測值。原因是由于修復的數(shù)據(jù)源樣本多,且都較貼近實際情況。
圖1 數(shù)據(jù)修復算法對比效果圖
3 結(jié) 語
車輛檢測器數(shù)據(jù)作為交通狀態(tài)的基礎數(shù)據(jù),其清洗與修復方法深刻影響著其置信程度、應用范圍。因此,本文對車輛檢測器異常數(shù)據(jù)的清洗與修復方法研究,在一定程度上合理地解決了車輛檢測器異常數(shù)據(jù)所帶來的部分應用問題,從而使車輛檢測器數(shù)據(jù)能夠更加準確、完整的被應用于交通規(guī)劃、交通控制、交通行為分析等交通應用領(lǐng)域。
參考文獻
[1] 蔣銳,王均.道路交通流數(shù)據(jù)檢驗與修復方法[J].交通與計算機,2006,24(6):65-67.
[2] 耿彥斌,于雷,趙慧.ITS數(shù)據(jù)質(zhì)量控制技術(shù)及應用研究[J].中國安全科學學報,2005,15(1):82-87.
[3] 劉偉,曹先彬.對基于MPN的相似重復記錄識別算法的改進[J].微計算機信息(管控一體化),2005,21(8):147-149.
[4]伍建國,王峰.城市道路交通數(shù)據(jù)采集系統(tǒng)檢測器優(yōu)化布點研究[J].公路交通科技,2004,21(2):88-91,95.
[5]周永華,陸化普.交通流數(shù)據(jù)處理系統(tǒng)的設計與開發(fā)[J].交通與計算機,2006,22(5):37-39.
[6]耿彥斌.城市道路交通流數(shù)據(jù)質(zhì)量控制理論與模型[D].北京:北京交通大學,2006.
[7]姜桂艷,江龍暉,張曉東,等.動態(tài)交通數(shù)據(jù)故障識別與修復方法[J].交通運輸工程學報,2004,4(1):121-125.
[8]姜桂艷.道路交通狀態(tài)判別技術(shù)與應用[M].北京:人民交通出版社,2004.
[9] Gerlaugh D L, Huber M J.Traffic Flow Theory[M].Beijing:China Communications Press, 1983.
[10]王曉華,蘇宏業(yè),渠瑜,等.面向電信欠費挖掘的數(shù)據(jù)質(zhì)量評估策略研究[J].計算機工程與應用,2011,47(12):220-224.