邵 鑫, 黃曉紅, 董斯琛
(1.華北理工大學人工智能學院, 唐山 063210; 2.華北理工大學人工智能學院, 唐山 063210; 3.海軍工程大學信息安全學院, 武漢 430032)
隨著中國智慧城市的發展,對交通流數據的質量有了更高的要求,這也是為智能運輸系統(ITS)能夠做出正確決策提供更好的保障。因為毫米波交通雷達具備全天候、高分辨率、可測速、可測距等長處,被廣泛應用于智能交通范疇。鑒于檢測的數據量大和采集周期不規律等因素,交通監控中心經常沉積著海量的交通流數據。為了能夠有效、快速、實時地進行交通管制和規劃,這就需要獲得高質量的道路交通狀況的數據[1]。但當毫米波交通雷達處于非正常工作狀態以及傳輸設備出現故障、環境變化等情況時,采集到的數據會有許多問題,影響后續的數據挖掘處理。針對異常數據如何進行識別和更正,從而對數據挖掘處理提供高質量數據,具有一定的研究意義[2-4]。因此,在數據處理方面,國內外的研究人員有著相應的研究成果。在進行數據管理時,系統闡述了幾種數據質量問題并提出相應的優化方法[5]。在處理異常數據時,對其沖洗規則和步驟進行相應的驗證[6]。在處理異常交通流數據時,對問題的產生、識別和修復方法進行相應的研究[7]。在處理多種類別的交通流預測模型時,利用歷史平均模型進行效果對比,并進行相應的分類[8-9]。上述文獻只是對單方面有問題的數據進行質量問題的分析研究,對數據進行大批量的沖洗處理,有很大的誤差性。通過毫米波交通雷達獲得的數據也存在很多類型的質量問題,如何有效地進行異常數據的識別、修復和減小數據的誤差性,有著很大的挑戰。
在上述的研究的基礎上,現針對城市道路中交通流數據質量優化及交通流變化規律的問題,將原始交通流數據分成三份,然后以三個步驟對其進行處理:第一步,采用組合檢驗和閾值檢驗規則,對異常數據進行識別,有問題的數據進行更正及缺失數據進行修補;第二步,采用交通流狀態基本圖理論以及線性插值等方法,建立時間與交通流參數之間以及各參數之間關系的模型;第三步,采用粒子群多層前饋(PSO-BP)神經網絡模型和歷史均值法,建立交通流量預測模型,通過訓練完成缺失數據的填補,最終得到完整的高質量數據,從而減小數據清洗帶來的較大誤差性,進而驗證其方法的有效性。
毫米波交通雷達,作為新型的信息檢測器,其工作頻率為30~300 GHz、波長為1 mm~1 cm。其工作原理是雷達發射出的射頻信號到空間并識別出由目標反射回來的回波信號,進而識別出目標的存在,通過比較回波信號和發射信號,以便測定目標的距離、速度、角度和目標狀況等相關信息。因此,毫米波交通雷達采用多傳感器融合技術,利用高清攝像頭的功能,可以實現對車輛的測距、測速、流量統計等,并對車輛進行逆行報警、超速抓拍和擁擠檢測[10]。
在交通流檢測中,雷達的工作方式是將該天線波束與車道呈垂直形式進行工作,以便減小多普勒效應對檢測的影響。雷達的電磁波束對道路通道進行全覆蓋,其水平方向的波束寬度略大于車輛長度,以便車輛經過檢測區域,其回波信號發生相應的變化。對于雷達回波信號的處理,為了精確估計檢測區內車輛的運動參數,利用卡爾曼濾波器對車輛的運動狀態進行預測,從而將該時刻的量進行濾波估計[11]。通過多目標跟蹤系統,利用道路上設定的流量計算區間和車道的檢測線,對車輛進行有效的跟蹤,計算每條目標車輛航跡的長度,并對各個車道進行車流量統計,從而得到交通流參數,即流量,速度,時間占有率[12]。
(1)交通流量:車輛計數q是在一個相對較短的時間內完成的,所以,q的最小值為0,最大值為交通道路的通行能力C與特定時間段和更正系數fc的乘積。故交通流量的范圍為

(1)
式(1)中:C為道路通行能力,veh/h;T為數據采樣周期,min;fc為更正系數,一般為1.3~1.5。
(2)平均速度:在較短的時間區間內,由于隨機誤差的存在,需要對速度v進行更正;同時,在實際的情況中,道路會有速度限制,若存在超速的情況,速度v需要進行調整,故平均速度合理范圍為
0≤v≤fvv1
(2)
式(2)中:v1為道路的限制速度;fv為更正系數,一般取 1.3~1.5。
(3)占有率:即時間占有率O,目標在檢測器占有的時間與檢測器整體工作時間的比值,故定義時間占有率的正常范圍為
0≤O≤100%
(3)
在智能交通系統運行中,常常出現人為和通信故障等情況,導致收集的交通流數據出現異常。主要表現為參數類型混亂、未滿足設定的閾值以及格式錯誤等情形。如果不進行更正與識別,直接應用到各類交通場景中,則會發生智慧交通運行異常以及總調度室產生誤判等情況。因此,將原始交通流數據分成3份,記為:data_1、data_2、data_3。
首先對所有數據進行數據清洗,一般步驟:數據特征分析、確定沖洗規則、檢驗沖洗方法、執行沖洗構件和數據更新5個階段[4]。然后進行異常數據識別,對原始收集的交通流數據,采用交通流理論和閾值理論[12],擬定對應規則,從而識別收集的交通流數值是否異常。
(1)閾值理論。①流量q:將道路通行能力設計為1 500 veh/h,則5 min內流量大于187輛;②平均速度v:將道路的限制車速為60 km/h,則5 min內平均速大于120 km/h;③占有率O:設定道路中 5 min 內占有率大于90%。
(2) 交通流理論:①平均速度v為0,流量q不為0;②流量q為0,占有率O和平均速度v同時不為0;③速度v不為0,占有率O為0,流量q大于設定值。
因此,建立異常數據的識別與修復模型,首先,進行交通流參數組合性檢驗,然后,進行交通流參數閾值檢驗,通過前兩步的檢驗,識別出異常數據,再進行數據清洗并采用線性插值方法進行缺失數據修補。最后,根據原始數據信息,選取數據data_1,即采集時間為2019年1月1—31日,采集頻率為 5 min 的數據,并對其進行異常數據的識別與修復檢驗,該模型滿足系統中的通行速度可能會超出道路的速度限制。
按照交通流理論將交通流參數的各限制范圍組合一起,對收集的交通流數據進行篩選與檢驗,進而識別出異常數據,其檢驗結果,如表1所示。

表1 交通流參數組合性檢驗結果
從表1可知:當車流量為0,但時間占有率和平均速度存在非0值占總體數據的0.54%;當時間占有率為0,但平均速度和車流量存在非0值占總體數據的0.28%,對其他條件檢驗并未發現異樣。
將數據data_1中的流量、速度和時間占有率進行閾值檢驗,其中該交通流數據的采集周期為5 min,共8 636條。其閾值檢測的結果,如表2所示。

表2 交通流參數閾值檢驗結果
從表2可知:在流量檢測中,未通過檢驗樣本數量為0;在速度檢驗中,大于120 km/h的樣本數量為791個,占總樣本的9.16%,比例居高;在時間占用率檢驗中,未通過檢驗樣本數量為1個,占總樣本的0.01%。綜上所述,本研究對超過閾值范圍的數據定義為異常數據,并對其進行更正。
首先,對數據data_2實現數據清洗之后,分別在時間序列上,對該數據中的平均速度,流量,時間占有率3個參數進行擬合建模,求解各自的演化過程。采用“分天”的方式進行擬合,通過對每天的數據擬合出的圖像進行整理發現:①速度存在先升后降(早高峰),再升,再降(晚高峰),再升的趨向;②流量存在升(早高峰),降(午間),升(晚高峰),再降的趨向;③時間占有率存在升(早高峰),降(午間),升(晚高峰),再降的趨向。
采用多項式擬合建模并選取其中較好的一天進行擬合可視化,所采用的擬合多項式函數:f(x)=p1x6+p2x5+p3x4+p4x3+p5x2+p6x+p7,其中,設定參數p1=5.784×10-11;p2=-5.125×10-8;p3=1.737×10-5;p4=-0.002 803;p5=0.211 6;p6=-5.504;p7=57.8。
在時間維度上,采取均方差與確定系數對各交通流參數進行擬合評價。
均方差:

(4)
確定系數:

(5)

(1)在速度進行擬合時,選取6次、8次以及12次多項式的擬合結果進行對比,得出6次和8次的擬合結果較好,最后基于模型的可視化,選擇6次多項式作為速度的擬合模型,如圖1(a)所示。
(2)在流量進行擬合時,選取6次、8次以及12次多項式進行比較,通過對擬合均方差差、確定系數(擬合優度)的對比,選定6次多項式作為流量的擬合模型,如圖1(b)所示。
(3)在占有率進行擬合時,選取8次、10次以及12次多項式的擬合結果進行對比,得出10次和12次的擬合結果較好,最后基于模型的可視化,選定10次多項式作為占有率的擬合模型,如圖1(c)所示。

圖1 時間序列下的各交通流參數的擬合圖
綜上所述,在時間序列下,將速度、交通流量和時間占有率進行擬合,所得出擬合評價標準的結果,如表3所示。

表3 擬合評價標準結果
根據交通流狀態理論,將常見的交通流狀態分為自由流和擁擠流[13]。利用線性的速度-密度關系[12],演算出得到流量-速度的關系模型,如圖2所示。由圖2可以看出,當車流量從開始歸零不斷增加到未飽和的情況,流量和速度均處于較高的水平。當車流量達到C值時,路面狀況處于飽和狀態,車流速度為臨界速度vm,此時路面的利用率最高。當車流速度處于vf時,道路的車流量為0,該車流速度稱為自由流速度。

圖2 流量-速度關系理論圖
首先,利用數據data_2中的速度和時間占有率兩個參數,進行聯合擬合,如圖3所示。

圖3 速度-占有率關系圖
由圖3可以看出,當速度減小時,時間占有率增大,與時間占有率的定義相契合。然后,將數據data_2中的流量和時間占有率兩個參數,進行聯合擬合,如圖4所示。

圖4 流量-占有率關系圖
由圖4可以看出,當自由流狀況時,流量與時間占有率之間存在著線性關系;當擁擠流狀況時,流量變化較大,時間占有率較高。然后,將數據data_2中的流量和速度兩個參數,進行聯合擬合,如圖5所示。

圖5 流量-速度關系圖
由圖5可以看出,滿足交通流的基本圖理論,且與圖4的流量-速度的關系模型相符合。
綜上所述,當自由流狀況時,交通流相對較少,道路上的車輛車輛可較快速度行駛。根據流量和占有率關系圖可以看出,當自由流狀況時,占有率和車流量之間表現出線性關系;當擁擠流狀況時,車輛行駛緩慢,車流量降低,時間占有率提升。
由于在訓練過程中,BP網絡的能量函數無法收斂,訓練樣本與網絡參數信息不匹配,樣本找不到合適的“著力點”,常常出現過擬合化發生[14],然而PSO算法與BP網絡相結合使用,可以大大提高網絡學習效率,使網絡快速收斂。因此,采用PSO-BP網絡算法對數據data_3進行預測并識別與修復,從而得到高質量數據。該模型實現步驟:①利用交通流理論對部分為空值(NA)的數據進行填補,并采用歷史均值法修復缺失的流量和時間占有率數據;②訓練預測速度的神經網絡模型,并補全其速度值;③訓練預測流量的神經網絡模型,并采用歷史均值法進行更正和修復流量數據;④訓練預測占有率的神經網絡模型,并采用歷史均值法進行更正和修復占有率數據;⑤完成速度、流量和占有率的預測及對缺失數據的補全。
基于上述經驗,觀察數據data_3可知:“NA型”數據存在兩類。第一類數據中速度、流量和占有率全為NA,而且缺失數據連續,以及缺失一天以上的數據;第二類數據是離散的缺失數據,速度、流量和占有率并不同時為0,而且一般都有取0的參數。因此,首先對第二類離散的缺失數據進行分析,根據速度、流量和占有率其中存在一個為0,其他兩個也應該為0的交通流理論,對存在0值的數據中的NA值用0值替代,這樣簡化了處理過程,也符合交通流理論的要求。
對預測的數據data_3進行可視化,繪制了時間分別與速度、流量和占有率3個交通流參數的變化圖,如圖6所示,可以看出早晚高峰時車流量變大、平均速度變慢和占有率升高,符合上述時間與交通流參數之間的變化規律。

圖6 時間-交通流參數關系圖
一類“NA型”數據的特點是連續缺失且3個交通流參數都為NA,首先采用相鄰6天相同時段的有實測數據的平均值對數據進行修復,然后分別訓練預測速度、流量和占有率的神經網絡模型,從而更正使用歷史均值修復的數據,最終完成預測,即對缺失數據的補全與修復。
同時,該天速度-占有率、流量-占有率、流量-速度的變化關系圖,如圖7~圖9所示。

圖7 速度-占有率關系圖

圖8 流量-占有率關系圖

圖9 流量-速度關系圖
由圖7可以看出,滿足交通流的基本圖理論,當速度下降時,時間占有率上升。由圖8可以看出,滿足交通流的基本圖理論,當到達自由流和擁擠流的臨界區之前,占有率和流量之間存在著一定的線性關系;處于擁擠流狀態時,車速下降導致車流量降低,進而時間占有率提升。由圖9可以看出,滿足交通流的基本圖理論,當路面受到自身通行能力的影響時,車流量處于C值之后,由于車流量逐漸增加,路面車輛處于排隊擁擠狀況,從而產生嚴重互擾情況發生。因此,擁擠車流不會以vm勻速緩解,而是將以小于vm的平均速度通過路面,故能檢測到的車流量最大值為C。如圖9所示,若除去離群點,速度-流量關系的變化趨勢基本與上面的理論模型吻合。因此,利用PSO-BP神經網絡在時間序列下的速度、流量和占有率建模,觀察其變化規律,從而更正使用歷史均值法修復的數據并完成預測及對缺失數據的補全。
最后,采用層次分析法,對優化前后的交通流數據進行質量和完整性的定性分析和定量計算,其評價分析結果,如表4所示。
從表4可知:通過指標權重與優化前后的權重相乘之和,所得比重分別為0.358 7和0.954 2,可以看出優化后的數據比優化前的數據在質量和完整性上得到明顯改善。綜上所述,通過對交通流數據質量優化有著較好的可行性,從而加快大數據城市化進程和道路交通檢測與預警,實現數據利用價值最大化。

表4 評價分析結果
(1)提出了一種改進PSO-BP神經網絡算法,對公路及城市道路中交通流數據清洗及交通流變化規律問題進行研究與分析,為數據處理方法優化及算法的改進奠定了基礎。
(2)采用“三步法”對數據進行分析,首先,通過組合檢驗和閾值檢驗,對異常數據進行識別、更正與修補;然后,通過交通流狀態理論以及線性插值等方法,進行時間序列上交通流參數之間以及各參數之間關系的模型建立;最后,通過改進的PSO-BP神經網絡算法,建立交通流量預測模型,通過訓練完成缺失數據的填補,最終得到完整的高質量數據。