向懷坤,袁 媛,曾 松
(1. 深圳職業技術學院 汽車與交通學院,廣東 深圳 518055;2. 深圳前海云創交通科技服務有限公司,廣東 深圳518058)
基于LSSVM的交通運行狀態特征級數據融合研究*
向懷坤1,袁 媛1,曾 松2
(1. 深圳職業技術學院 汽車與交通學院,廣東 深圳 518055;2. 深圳前海云創交通科技服務有限公司,廣東 深圳518058)
目前國內城市道路交通運行指數的計算數據普遍依賴單一的浮動車車速數據,為了進一步探討多源交通傳感器條件下如何有效提高用于指數計算數據的準確性和可靠性,本文以深圳市某快速路的地磁檢測器和浮動車兩種交通傳感器作為實驗對象,在基于云模型云相似度數據修復預處理基礎上,提出一種基于最小二乘回歸支持向量機(LSSVM)的地磁檢測器和浮動車的多源數據融合方法.通過采集該路段的地磁車輛檢測器、自動車牌識別系統和浮動車數據,以自動車牌識別系統的采集數據作為交通運行狀態的真值,對地磁檢測器數據和浮動車數據的融合結果進行校核.實驗結果表明,與地磁檢測器和浮動車的單源數據得到的特征參數相比,LSSVM 多源數據融合方法得到的交通運行特征參數更接近真實值.另外,本文還將該方法與傳統的多傳感器加權數據融合方法、BP神經網絡融合方法進行了對比,結果表明LSSVM多源數據融合方法具有更好的數據融合精度和可靠性.
城市交通;數據融合;運行狀態估計;最小二乘回歸支持向量機;車牌照數據;浮動車數據;地磁檢測器數據
城市道路交通運行指數是對城市路網交通總體運行狀況進行定量評估的綜合指數[1].目前,國內絕大多數城市的道路交通運行指數計算的數據來源是單一的浮動車平均車速數據[1-3].該數據由安裝有定位和無線通信裝置的車輛在行駛過程中采集自身速度和位置信息,并經由通信網絡實時上傳到城市交通管理中心后,通過浮動車數據處理軟件實時處理后得到.
調查表明,目前國內一線城市的路況交通運行指數計算的浮動車數據大部分來源于出租車,而出租車在表征城市道路交通運行狀態時,存在明顯的數量不足和分布不均衡問題.以深圳市為例,目前上線運營的出租車約1.6萬輛,而城市道路里程約 6900km,其出租車交通密度平均值為2.3輛/km.由此可見,僅僅依靠出租車數據來進行城市道路交通運行指數的建模計算,存在較大的誤差,且可靠性較低.為此,有必要研究面向城市道路交通運行指數的多源交通數據融合方法,將城市道路上現有的多種道路交通傳感器所采集的數據進行融合處理,進而提高道路交通運行指數計算結果的精度及可靠性.多源交通數據融合在交通運行狀態估計方面的應用證明其為行之有效的方法.在主題方面有區間速度估計[4-7]、路段行程時間估計[8]等;在數據來源方面,有線圈數據和車聯網檢測數據相結合[9]、浮動車數據和微波檢測器數據相結合等;在融合方法方面,有BP神經網絡[10]、D-S證據理論[10]、支持向量機[11-14]等.
本文提出一種基于最小二乘回歸支持向量機(Least Squares Support Vector Machine, LSSVM)的多源數據融合方法.以深圳市某快速路的地磁檢測器和浮動車兩種交通傳感器采集的車速數據作為實驗對象,在基于云模型云相似度數據清洗預處理基礎上[15],利用所提方法對其進行數據融合,以車牌識別系統采集的平均車速作為數據融合的真值對實驗結果進行評價.另外,本文還將所提LSSVM多源數據融合法與傳統的多傳感器加權數據融合方法、BP神經網絡融合方法進行了對比,對方法的精度和可靠性進行了驗證.
面向道路交通運行指數的數據融合屬于特征級數據融合.交通數據特征級融合是將來自各傳感器的原始記錄信息進行交通運行狀態特征提取,對特征信息進行綜合分析和處理.交通流特征一般采用區間平均車速、區間行程車速、道路綜合阻抗、道路服務水平來表征.數據融合的關鍵是建立一套規則和處理方法,能夠自動識別輸入的多源交通傳感器數據.
結合數據采集現狀,特征級數據融合重點針對區間平均車速進行融合,通過采集試點路段地磁斷面的點車速,獲取試點路段的區間平均車速;并將其與浮動車區間車速進行融合,從而獲取更為準確的區間平均車速.多源特征級交通數據融合方法可分為以下4個步驟:
(1)確定融合數據:重點對既有的多源傳感器進行分析,明確融合數據源;
(2)融合方法選取:依據數據情況,并結合道路交通條件選取使用的融合方法和模型;
(3)融合試點分析:結合傳感器的布設情況和道路交通條件,選取適宜的試點路段,進行特征級數據融合實驗分析;
(4)融合效果評估:制定實測方案并采集數據作為真值,用于評估數據融合效果.
對于任何一種特征級交通參數而言,如果具備2種及以上傳感器數據,即可以進行基于多源傳感器的數據融合,從而提高交通參數分析的質量和可靠性,基于多源交通數據的融合流程如圖1所示.

圖1 多源交通數據的融合流程框架
2.1 支持向量機(SVM)的基本形式
支持向量機(SVM)的工作原理是,通過有限的樣本輸入輸出集信息得到較高精度的訓練模型,進而生成最大限度識別任意樣本的普適模型,因而其所具有推廣能力被廣泛運用于數據預測和模式識別等領域.
實際應用中,較常使用的是非線性數據處理,其 SVM 模型可描述為:取一個映射關系將輸入向量ix映射到新的特征空間中,將原始輸入集輸出集之間的復雜的、不確定的非線性關系:fxy→轉換為在這個空間中具有簡單的、確定性的線性關系.該 SVM 模型的映射函數形式取為:
2.2 基于最小二乘回歸支持向量機的多源數據融合
最小二乘回歸支持向量機(LSSVM)采用最小二乘系統作為損失函數,與 SVM 模型相比,其優勢在于能夠實現大尺度數據優選,簡化運算算法,同時可有效地提高學習速度.基于LSSVM的多源數據融合模型構造過程如下:
1)數據準備.首先選定訓練數據對支持向量機模型進行訓練,通過學習找出多種傳感器的探測數據與真實值之間的函數關系.設在某一時間段內,有n組來自m個檢測器的數據每組來自第m個檢測器的數據記為 xn∈Rm,將訓練輸入數據記為 X = { xi|i = 1 ,2,… ,N,xi∈R},表示每個檢測器第i個數據的集合組成的向量,數據實測值為yi,訓練輸出數據 f (xi).
2)構造支持向量機,求解最優化問題.判決函數構造如下:


輸入數據與目標值之間的決策函數關系為:

3)輸入樣本數據訓練.當支持向量的錯誤率及訓練時長滿足要求時,到LSSVM的核函數和損失函數組合模式及其相關參數.支持向量錯誤率等于支持向量的個數與樣本數的比值,該數據越小表明訓練結果越好,同時訓練時長越短,表明訓練效率越高.
4)基于訓練后的LSSVM模型,輸入測試數據集,完成數據融合測試.基于LSSVM的多源特征級交通數據融合模型的計算過程如圖2所示.

圖2 基于LSSVM的多源交通數據融合模型
為了驗證本文的數據融合方法,本實例分析數據的選取主要考慮了2個因素:一是相同地點,要求多源交通傳感器安裝在大致相同的地點,使所采集的多源交通數據具有可比性;二是相同時間,要求多源交通傳感器在相同的時間內采集車輛數據,確保數據融合對象在時間上的一致性.由于深圳市北環大道僑香村至新洲立交路段安裝了符合要求的地磁車輛檢測器和車牌識別系統,且這一路段的浮動車分布也基本穩定,故本文選取該路段2016年9月14日00:00:00-23:59:59共計24 h的車輛檢測數據作為實驗數據.其中,地磁檢測器數據和浮動車數據為數據融合對象,車牌識別數據用于驗證.在數據融合前,需要分別對地磁數據、浮動車數據和車牌識別數據進行預處理,確保數據融合前數據本身準確可靠.
3.1 數據預處理
數據預處理總體上包括故障數據辨識和故障數據修復兩個步驟.故障數據辨識是指利用計算機程序對原始數據中存在的錯誤數據、丟失數據和較大誤差的數據進行自動識別和定位.由于交通數據本身大部分都是時間序列數據,其數據分布和不同時段下的交通流分布特征有密切的相關性,據此可以自動辨識絕大多數故障數據.比如根據道路設計車速可以辨識那些突變車速值,或者根據某地點在某時段的年平均交通量分布結果對交通量檢測數據的正確性進行判別;如果在正常的數據記錄間隔內發現某一時段內無數據上傳,則大體可以判定這時出現了數據丟失;當交通傳感器由于電氣性能下降導致采集的交通數據超出實際范圍,不符合交通流分布規律,這種情況下需要對該數據進行深入分析以修復較大誤差.故障數據修復是在故障數據辨識的基礎上,對定位后的故障數據進行剔除、平滑或重建的處理工作.對于單個時間片的數據丟失,擬采用指數平滑修復法,對于多個時間片數據丟失,擬研究采用相似度最近的歷史數據修補法,對于相似度的判別,可以在具體實施中靈活考慮K均值聚類、云模型等,設計相應的求解算法.
考慮交通數據分布的不確定性特征,本文充分利用云模型在處理不確定性方面的優勢對交通數據進行預處理.其總體思路是,利用云模型的逆向云發生器,對采集的交通數據轉換成云數字特征(Ex,En,He),再基于云分布的云團之間的相似性和歷史趨勢進行對比,將滿足相似性條件的數據與當前待修復的故障數據進行平滑或重建處理,從而實現故障數據的自動修復[15],限于篇幅下面直接給出該算法的處理流程圖(如圖 3所示).
3.2 數據融合性能評價指標
本文選用的對數據融合結果的誤差評定指標有:
1)平均絕對百分比誤差(mean absolute percentage error,MAPE),其計算公式為:

式中 f (xi)為數據融合值; yi為真值(即車牌識別數據);N為總數值.
2)標準差(Standard deviation error,簡稱SDE),其計算公式為:

圖3 基于云模型的交通數據預處理流程

式中符號含義同式(7).
3)最小誤差平方和(Least square error method,簡稱LSE),其計算公式為:

式中符號含義同式(7).
其中,SDE能夠較好地反映誤差分布的離散程度,從而在一定程度上表明數據的可靠性,MAPE反映了誤差分布的大小且計算簡便,LSE則反映了各類數據的波動大小,可用于數據融合結果與單一傳感器數據質量的對比.
3.3 融合效果評價
利用所提模型對實例數據進行數據融合處理,并利用上述指標對融合后的結果進行評價.對比結果如表3所示,可以發現融合后的結果比單一來源的數據更接近真實值.
在早高峰期多源數據融合結果的 SDE為0.22,MAPE為0.01,LSE為0.03,數據融合結果的SDE、MAPE和LSE指標均好于單一數據來源的檢測結果,可見融合效果較好,數據融合模型應用于該路段該時段的特征級融合是合適的.
將提出的基于LSSVM的數據融合方法與其他常用的方法進行對比,包括基于傳感器性能指標權重的數據融合方法和基于BP神經網絡的數據融合方法,對比匯總結果見表1.結果表明,基于傳感器性能指標權重的數據融合方法相比于單一來源的傳感器數據,在SDE、MAPE、LSE 3項評價指標方面均有所減小.但與另外2種數據驅動的數據融合方法相比,基于傳感器性能指標權重的數據融合方法的融合能力最差,客觀反映了基于主觀經驗的權重估計方法存在較大誤差,難以達到數據融合的要求.基于BP神經網絡的數據融合方法極大改進了融合效果,體現了數據驅動算法在數據融合中相比于權重估計方法的先進性.在算法結構方面,基于LSSVM的數據融合方法都優于BP神經網絡.而且實驗結果也充分證明了,所提方法進一步地減少了多源數據融合的誤差,具有明顯的精度和效率優勢.比如,在SDE、MAPE、LSE 3個指標方面對數據進行對比,BP神經網絡融合方法相對于基于傳感器性能指標權重的數據融合方法分別減少了 42%、62%、45%,LSSVM 融合方法相對于 BP神經網絡法分別減少了 93%、99%、72%.誤差分析結果表明,所提方法的融合效果總體較為良好.

表1 單一檢測器數據與融合結果的精度對比
由于單一交通傳感器設備在日常使用過程中存在突發性故障等問題,導致單一來源的數據不準確.解決上述問題的最好方法是增加交通傳感器設備,從而實現交通參數采集的冗余,增強數據的可靠性,但同時需要研究有效的多源異構交通傳感器的數據融合問題.本文設計了多源交通數據的融合框架,提出一種基于LSSVM的多源交通數據融合方法.從數據融合方法的研究成果來看,基于傳感器性能指標權重的多源數據融合法計算思路簡單、明了,運算速度非常快,可以即時得到數據融合結果,但該方法需要不定期根據傳感器的運行性能確定傳感器性能指標;基于LSSVM的數據融合法和基于BP神經網絡的數據融合法效果相對較為良好,其中,基于BP神經網絡的數據融合方法不需要事先對傳感器的精度和可靠性進行置信度評價,可以方便地進行網絡設計與網絡訓練,但其數據融合精度受網絡結構、訓練樣本等的影響.下一階段有必要對數據采集方案進行優化,同時進一步完善數據融合模型.
[1] 王妍穎,黃宇.基于大數據下的北京交通擁堵評價指標分析[J].交通運輸系統工程與信息,2016,16(4):231-240.
[2] 徐麗香,王云鵬,于海洋.基于局部敏感判別分析的路網狀態特征提取模型研究[J].交通運輸系統工程與信息,2016,16(3):95-100.
[3] 韋清波,何兆成,鄭喜雙,等.考慮多因素的城市道路交通擁堵指數預測研究[J].交通運輸系統工程與信息,2017,17(1):74-81.
[4] Bachmann C, Abdulhai B, Roorda M J, et al. A comparative assessment of multi-sensor data fusion techniques for freeway traffic speed estimation using microsimulation modeling[J]. Transportation Research Part C Emerging Technologies, 2013,26(1):33-48.
[5] Zhang N, Xu J, Lin P Q, et al. An approach for real-time urban traffic state estimation by fusing multisource traffic data[C]// Intelligent Control and Automation. IEEE,2012:4077-4081.
[6] Kong Q J, Li Z, Chen Y, et al. An approach to urban traffic state estimation by fusing multisource information[J]. IEEE Transactions on Intelligent Transportation Systems, 2009,10(3):499-511.
[7] Cipriani E, Gori S, Mannini L. Traffic state estimation based on data fusion techniques[C]// International IEEE Conference on Intelligent Transportation Systems. IEEE, 2012:1477-1482.
[8] 胡小文,楊東援.基于數據融合的路段行程時間估計[J].交通信息與安全,2011,29(4):92-98.
[9] Li J, Bie Y, Gao J, et al. Traffic State Estimation Using Data Fusion with Fixed Loop Detector and Connected Vehicle Data[C]//World Conference on Transport Research. 2016.
[10] 李瑞敏,馬瑋.基于BP神經網絡與D-S證據理論的路段平均速度融合方法[J].交通運輸工程學報,2014(5):111-118.
[11] 麥曉冬.基于支持向量機的室內室外圖像分類方法[J].廣東輕工職業技術學院學報,2010(03):2-4.
[12] 徐華中,吳蘇,劉念.基于多傳感器數據融合技術的短時交通流檢測[J].傳感器與微系統,2009(2):104-105.
[13] 趙娜樂,于雷,耿彥斌,等.基于SVM的數據層多源ITS數據融合方法初探[J].交通運輸系統工程與信息,2007,7(2):32-38.
[14] Shamshirband S, Petkovic D, Javidnia H, et al. Sensor Data Fusion by Support Vector Regression Methodology-A Comparative Study[J]. IEEE Sensors Journal, 2015,15(2):850-854.
[15] 萬佳.基于云模型的路網交通擁堵狀態判別算法研究[D].哈爾濱工業大學,2012:7-12.
Abstract: At present, domestic urban road traffic index calculation data generally rely on a single floating car data. In order to further explore the accuracy and reliability of the data used in the index calculation method,this paper takes the geomagnetic detector and floating vehicle of one expressway in Shenzhen as the experimental object. Based on the data preprocessing on the similarity of cloud model, a multi-source data fusion method based on Least Squares Support Vector Machine (LSSVM) for geomagnetic detectors and floats is proposed. By collecting the geomagnetic vehicle detectors, automatic license plate recognition system and floating car data, the results of the data fusion between the geomagnetic detector data and floating car data are verified by the traffic conditions true value collected and recognized by the automatic license plate recognition system. The experimental results show that the traffic characteristics gained by multi-source data fusion method based on LSSVM is closer to the real value. In addition, the method is compared with the traditional multi-sensor weighted data fusion method and BP neural network fusion method. The results show that the LSSVM multi-source data fusion method has better data fusion precision and reliability.
Key words: urban traffic; data fusion; traffic state estimation; least squares support vector machine(LSSVM); automatic vehicle license plate recognition data; probe data; geomagnetic detectors data
Research on Feature - level Data Fusion of Traffic Operation State Based on LSSVM
XIANG Huai-kun*1, YUAN Yuan1, ZENG Song2
(1. School of Automotive and Transportation, Shenzhen Polytechnic, Shenzhen, Guangdong 518055, China;2. Shenzhen Qianhai Cloud Innovation Traffic Technology Services Limited Co., Shenzhen, Guangdong 518000, China)
U268.6
A
1672-0318(2017)05-0042-06
10.13899/j.cnki.szptxb.2017.05.008
2017-06-14
*項目來源:教育部人文社科資助項目(16YJE630003)
向懷坤(1971-),男,四川人,博士,副教授,主要研究方向:智能交通管理與控制.