王 方,李 華,杜金玲
無檢測器道路交通流數據質量檢測方法
王 方,李 華,杜金玲
(西安電子科技大學經濟與管理學院,西安 710071)
一般交通流數據質量檢測方法要求的原始數據量較大,而無檢測器道路可獲得的交通流數據又非常有限。為此,提出一種基于灰色系統理論的無檢測器道路交通流數據質量檢測方法。該方法將不同檢測點獲得的原始交通流數據處理成一組數據序列,通過對數據序列的灰生成、灰色關聯度計算及標準化處理,求得不同數據序列相互間關系的密切程度參數λ,根據需求選出閾值,比較λ與之間的大小,實現無檢測器道路交通流異常數據檢測的目的。運用杭州市某一局部路網的浮動車交通流原始數據,將該方法與基于相似系數和的檢測方法進行對比實驗,結果證明,該方法的檢測效果優于基于相似系數和的檢測方法,平均錯檢率降低了21.00%,平均準確率提高了28.64%。
智能交通;交通流;臟數據;數據清洗;數據質量;灰色系統理論
自20世紀30年代智能交通誕生起便在全球迅速引起關注[1],經過幾十年的發展,它已經成為人們生活中的一部分,成為解決交通擁堵、交通事故、交通污染等問題的有效途徑之一。實時準確的短時交通流預測作為實現城市交通控制與道路誘導系統的關鍵,是智能交通系統(Intelligent Transportation System, ITS)建設的核心內容[2]。目前,交通流預測的模型和方法已經非常豐富[3-5],綜合起來有:線性方法,如時間序列預測方法[6];非線性方法,如小波分析方法[7];智能模型方法,如神經網絡法[8];組合方法,如季節性支持向量機和混沌免疫算法的組合應用[9]。科學技術的迅速發展,交通流數據的來源呈多元化趨勢(如線圈、視頻等),這使得基于數據融合技術的交通流預測成為另一種有效提高預測精度的途徑[10-11]。然而,現實中常常由于交通流數據檢測器處于非正常工作狀態或傳輸通信設備的故障、環境因素的變化等原因,檢測器獲得的數據不可避免地存在丟失、冗余、錯誤等質量問題,通常稱為臟數據。顯然,質量不高的交通流數據不但會影響短時交通流預測效果,而且會給智能交通系統后續的交通應用(如數據融合)帶來諸多問題[12-14]。鑒于此,國內外學者就如何檢測交通流異常數據、清洗臟數據,提高數據質量進行了一定的研 究[15-16]。總之,國內外對有檢測器道路交通流數據的預測與質量研究較多。
在智能交通建設過程中,國外部分先進國家的大部分交叉口都安裝了檢測器,道路基礎交通流數據都可通過檢測器獲得。而我國城市路網過大、交叉口過多、政府資金投入不足等因素導致檢測器并非覆蓋所有交叉口[17],無檢測器道路交通流數據的獲取手段顯得非常有限(如浮動車、人工采集等)。無檢測器道路交通流數據的缺失,不利于無檢測器道路的交通流預測,不利于我國城市整個路網智能化管理的實現。國內部分學者對無檢測器道路的交通流預測進行了研究[18-20],而他們僅在預測前對交通流某一種或幾種數據質量問題進行了簡單處理,并沒有給出一套完整的無檢測器道路交通流臟數據清洗方法[21-22]。
本文在已有研究成果的基礎上,充分考慮無檢測器交通流數據的隨機性和灰色特征[18-19],基于灰色系統理論提出無檢測器道路交通流數據的灰色清洗規則,并運用杭州市某一局部路網的浮動車交通流數據與已有基于相似系數和的方法進行對比實驗。
在臟數據的清洗過程中,清洗規則發揮了關鍵作用。文獻[12]針對交通流數據的錯誤、丟失、冗余這3種經常發生的現象給出了相應的清洗規則,該方法對于通過檢測器(環形線圈檢測器)獲得的大量道路交通流數據是有效的。而無檢測器道路交通流數據通常是由浮動車或人工采集的方式獲得,數據量不但相對不足,而且隨機性和灰色特征更加突出,這就要求有適合無檢測器道路交通流數據的清洗規則。
浮動車作為一種新型的城市交通信息采集平臺,得到了國內外ITS專家和企業的高度重視[23]。目前,北京、上海、杭州、寧波、西安等城市已經擁有了一定規模的浮動車采集終端(由于個人出行的隱私性,出租車是當前唯一能夠支持大規模應用的浮動車數據采集源),這些浮動車為獲得城市無檢測器道路交通流數據提供了有效途徑。浮動車GPS數據生成格式[24]及舉例如表1所示。

表1 浮動車GPS數據生成格式及舉例
然而,由于民用GPS精度限制、地面建筑物遮擋、車載GPS設備故障,及部分浮動車駕駛員在道路上任意停放、不規則變道和加減速等隨意性較大的駕駛行為等原因[25],浮動車交通流存在臟數據在所難免。因此,本文基于浮動車GPS數據格式提出了城市無檢測器道路交通流臟數據清洗規則,如圖1所示。

圖1 城市無檢測器道路交通流灰色清洗規則
灰色系統理論是針對既無經驗,數據又少的不確定性問題,即少數據不確定性問題提出的[26]。灰色關聯分析是灰色系統理論的一個重要內容,其基本思想是根據曲線間幾何形狀的比較進行因素分析,認為幾何形狀越接近,則發展變化態勢越接近,關聯程度越大。另外,灰色關聯分析模型的建立,每一序列可少到3個數據。于是,本文選用灰色關聯分析中的灰色自關聯矩陣,結合閾值理論[27]提出了無檢測器道路交通流異常數據的灰色清洗規則。
(1)
為進行灰色關聯分析,對采集到的交通流數據需進行灰生成。本文結合閾值理論選用區間化生成規則,即:

灰生成后,考慮到并不能確定哪些檢測點獲得的交通流數據質量較高,即并不能確定哪個檢測點的數據可作為參考序列(標準序列),基于此,本文選用灰色系統理論中的灰色自關聯矩陣實現對無檢測器道路交通流數據質量的檢測。灰色自關聯矩陣法能夠將每一檢測點獲得數據本身既作為比較序列又作為參考序列進行處理,進而可以知道各個檢測點獲得數據間關系的緊密程度。另外,對于多屬性的交通流數據而言,多屬性恰恰可以構成一個數據序列,通過計算不同檢測點獲得的交通流數據(不同數據序列)間的灰色關聯度,便可了解交通流數據的整體情況。灰生成后,檢測點x與x間的灰色自關聯矩陣構造[26]過程如下:

1)果園深翻。秋季采果后結合秋施基肥進行,只要方法合適,春、夏、秋季都可進行深翻,其中以秋季果實采收后至落葉期進行為好。針對貴州蘋果產區中的山區薄土層果園,土壤深翻,能夠加厚活土層,促進巖土的風化和熟化,提高土壤蓄水保肥能力。
差異信息集:

灰色關聯差異信息空間:





(4)構造檢測點x與x間的灰色自關聯矩陣:


表2 浮動車部分原始數據
令浮動車交通流數據的速度、經度和緯度構成一個數據序列。其中,x是第個檢測點的數據序列;分別代表第個檢測點交通流數據的速度、經度和緯度值。結合文獻[24]知:= 78,=10,=120.245 253,=120.170 070,=30.289 044,=30.274 070。



表3 10組異常數據序列引入正常數據序列中計算的λi


表4 存在單個異常數據序列時的檢測結果對比

其中,=10。由表4結果可知,本文基于灰色關聯度提出的浮動車交通流數據質量檢測方法的效果明顯優于基于相似系數和的檢測方法,表現為前者的平均錯檢率較后者降低了21.00%,前者的平均準確率較后者提高了28.64%。


表5 4組異常數據序列引入正常數據序列中計算的λi

表6 同時存在多個異常數據序列時的檢測結果對比
由表6的結果可知,當多個異常數據序列同時存在時,本文基于灰色關聯度提出的檢測方法效果同樣優于基于相似系數和的檢測方法,表現為前者的平均錯檢率(0)小于后者的平均錯檢率(5%)、前者的平均準確率(100%)明顯大于后者的平均準確率(70%)。同理,對速度小于10 km/h的 5組數據序列分組實驗的結果同樣顯示,本文提出的檢測方法效果優于基于相似系數和的檢測方法,表現為前者的平均錯檢率較后者下降了13.33%,且前者的平均準確率較后者提高了13.85%。

表7 2種方法檢測有效性對比結果

圖2 交通流異常數據錯檢率對比
本文提出的灰色清洗規則綜合考慮了無檢測器道路交通流數據的灰色特征、多屬性和隨機性,為解決無檢測器道路交通流數據(浮動車數據)質量問題,克服因交通流數據多屬性而逐一檢測所引起的時間復雜度增加和多屬性間關聯割裂等問題提供了一種新的思路。

[1] Machado J A T, Figueiredo L. Special Issue on Modelling and Control of Intelligent Transportation Systems(ITS)[J]. Non- linear Dynamics, 2007, 49(4): 443-444.
[2] 沈國江, 王嘯虎, 孔祥杰. 短時交通流量智能組合預測模型及應用[J]. 系統工程理論與實踐, 2011, 31(3): 561-568.
[3] 高 慧, 趙建玉, 賈 磊. 短時交通流預測方法綜述[J]. 濟南大學學報: 自然科學版, 2008, 22(1): 88-94.
[4] 郭 敏, 肖 翔, 藍金輝. 道路交通流短時預測方法綜 述[J]. 自動化技術與應用, 2009, 28(6): 8-16.
[5] 徐健銳. 短時交通流預測中的若干問題研究[D]. 鎮江: 江蘇大學, 2010.
[6] Ahmed M S, Cook A R. Analysis of Free Way Traffic Time Series Data by Using Box-Jenkins Technique[EB/OL]. (2003- 09-10). http://www.trb.org/Publications/Pages/262.aspx.
[7] 楊立才, 賈 磊, 何立琴, 等. 基于混沌小波網絡的交通流預測算法研究[J]. 山東大學學報: 工學版, 2005, 35(2): 46- 50.
[8] Lint J W C, Hoogendoorn S P, Zuylen H J. Accurate Freeway Travel Time Prediction with State-space Neural Networks Under Missing Data[J]. Transportation Research Part C: Emerging Technologies, 2005, 13(5/6): 347-369.
[9] Hong Wei-Chiang. Application of Seasonal SVR with Chaotic Immune Algorithm in Traffic Flow Forecasting[J]. Neural Computing & Applications, 2012, 21(3): 583-593.
[10] Faouzi N E E, Leung H, Kurian A. Data Fusion in Intelligent Transportation Systems: Progress and Challenges——A Survey[J]. Information Fusion, 2011, 12(1): 4-10.
[11] Bachmann C, Abdulhai B, Roorda M J, et al. A Comparative Assessment of Multi-sensor Data Fusion Techniques for Freeway Traffic Speed Estimation Using Microsimulation Modeling[EB/OL]. (2013-04-10). http://dx.doi.org/10.1016/j. trc.2012.07.003.
[12] 王曉原, 張敬磊, 吳 芳. 交通流數據清洗規則研究[J]. 計算機工程, 2011, 37(20): 191-193.
[13] Chen Shuyan, Wang Wei, Zuylen H. A Comparison of Outlier Detection Algorithms for ITS Data[J]. Expert Systems with Applications, 2010, 37(2): 1169-1178.
[14] Ferraris G B, Manenti F. Outlier Detection in Large Data Sets[J]. Computers and Chemical Engineering, 2011, 35(2): 388-390.
[15] Lin Dung-Ying, Boyles S, Valsaraj V, et al. Reliability Assessment for Traffic Data[J]. Journal of the Chinese Institute of Engineers, 2012, 35(3): 285-297.
[16] Ding Nan, Tan Guozhen, Zhang Wei, et al. Distributed Algorithm for Traffic Data Collection and Data Quality Analysis Based on Wireless Sensor Networks[EB/OL]. (2011- 02-14). http://www.hindawi.com/journals/ijdsn/2011/717208.
[17] 徐玉霞. 大規模路網動態交通流預測模型和算法研究[D].大連: 大連理工大學, 2006.
[18] 孫 燕, 陳森發, 周振國. 灰色系統理論在無檢測器交叉口交通流量預測中的應用[J]. 東南大學學報: 自然科學版, 2002, 32(2): 256-258.
[19] 陳新全, 侯志祥, 吳義虎, 等. 無檢測器交叉口交通流量預測的灰色神經網絡模型[J]. 系統仿真學報, 2004, 16(12): 2655-2656.
[20] Xiao Xinping. Grey Linear Regression Model and Its Application[C]//Proc. of IEEE International Conference on Grey Systems and Intelligent Services. [S. l.]: IEEE Press, 2011: 177-181.
[21] Li Xingyi. Short-term Traffic Flow Time Series Forecasting Based on Grey Interval Forecasts Method[C]//Proc. of International Conference on Educational and Information Technology. [S. l.]: IEEE Press, 2010: 384-389.
[22] Zhang Jian, Li Hua. Traffic Forecasting at Non-detector Roads Based on City Road Network[C]//Proc. of the 19th International Conference on Industrial Engineering and Engineering Management. [S. l.]: Springer, 2012: 1235-1238.
[23] 劉 春, 黃美嫻, 楊 超. 浮動車數據缺失道路的速度推估模型與實現[J]. 同濟大學學報: 自然科學版, 2010, 38(8): 1255-1260.
[24] 楊 濤. 基于浮動車技術的路段交通流量推算研究[D]. 北京: 北京交通大學, 2006.
[25] 辛飛飛, 陳小鴻, 林航飛. 浮動車數據路網時空分布特征研究[J]. 中國公路學報, 2008, 21(4): 105-110.
[26] 鄧聚龍. 灰色系統理論教程[M]. 武漢: 華中理工大學出版社, 2002.
[27] 秦 玲, 郭艷梅, 吳 鵬, 等. 斷面交通檢測數據檢驗及預處理關鍵技術研究[J]. 公路交通科技, 2006, (11): 39-41.
[28] 中華人民共和國建設部. GB50220-95 城市道路交通規劃設計規范[S]. 1995.
編輯 顧逸斐
Quality Detection Method for Non-detector Road Traffic Flow Data
WANG Fang, LI Hua, DU Jin-ling
(School of Economics & Management, Xidian University, Xi’an 710071, China)
Conventional data quality detection method requires large number of initial data while traffic flow data at non-detector road is very limited. A new non-detector road traffic flow data quality detection method based on grey system theory is put forward to deal with the contradiction. The raw traffic flow data obtained by different detection points is processed into a set of sequence data. Through grey generating, calculating and standardizing of the set of sequence data, the closeness of the parametersλwhich reflect the mutual relations between different data sequence is obtained. The purpose of detecting outliers is realized through the comparison of the size ofλandwhich is the selected threshold based on demand. Using the probe car traffic flow data which covers a local road network of Hangzhou, the efficiency of the proposed method is verified by comparing with the detection method based on similarity coefficient. The proposed method is better than the method based on similarity coefficient. For example, the average false detection rate of this method is lower than the method based on similarity coefficient by 21.00%, and the average accuracy rate is 28.64% higher than the latter one.
intelligent traffic; traffic flow; dirty data; data cleaning; data quality; grey system theory
1000-3428(2014)03-0218-06
A
TP18
2012年西安市科技計劃基金資助項目“道路交通與應急指揮系統研發”(CX1240)。
王 方(1987-),男,博士研究生,主研方向:智能交通系統,決策分析;李 華,教授、博士生導師;杜金玲,博士研究生。
2013-01-15
2013-04-11 E-mail:wf.369.abc@163.com
10.3969/j.issn.1000-3428.2014.03.046