韋學武,朱海峰,劉彥斌,溫熙華,龔方徽
(中電海康集團研究院,浙江 杭州 310012)
交通檢測設備的部署和普及,尤其是電子警察設備的應用,為城市交通管理積累了海量數(shù)據(jù)資源,對于研究交通控制、車輛誘導、公交規(guī)劃等起到至關重要的作用。在實際道路交通環(huán)境中,由于設備故障、線路通信故障或異常交通事件,電子警察采集的部分過車數(shù)據(jù)出現(xiàn)異常,如數(shù)據(jù)延遲、數(shù)據(jù)缺失、異常偏離。現(xiàn)有數(shù)據(jù)異常偏離分析方法大體分為交通流理論分析、歷史統(tǒng)計方法、趨勢挖掘方法等。交通流理論分析通過設置某些交通參數(shù)臨界值,以臨界值的合理區(qū)間判斷數(shù)據(jù)異常偏離;歷史統(tǒng)計方法從歷史數(shù)據(jù)中分析交通參數(shù)變化的合理區(qū)間;趨勢挖掘方法利用機器學習的相關算法實時預測交通參數(shù)的概率分布,當實際交通參數(shù)位于小概率區(qū)間時,則判斷數(shù)據(jù)存在異常偏離。其中交通流理論和歷史統(tǒng)計法不能動態(tài)跟蹤交通參數(shù)的變化趨勢,無法得到準確的交通參數(shù)合理區(qū)間;交通流理論分析法還受限于人工對交通流影響因素的調(diào)節(jié)精度,歷史統(tǒng)計方法則依賴于歷史數(shù)據(jù)的全面性和完整性。趨勢挖掘方法能擬合歷史數(shù)據(jù)的波動趨勢,同時利用實時數(shù)據(jù)進行預測,應用效果較好。該文以交叉口某一車道為統(tǒng)計分析單元,根據(jù)電子警察設備采集的過車記錄信息,以流量為統(tǒng)計指標,對數(shù)據(jù)延遲、數(shù)據(jù)缺失和異常偏離進行分析,基于馬爾科夫模型,考慮流量的周期性和時變性,預測未來15 min流量的概率分布;進而假設流量的概率分布服從K階混合高斯分布,利用期望最大化(EM)算法擬合概率分布并計算得到對應的均值和標準差,根據(jù)均值和標準差判斷實際流量值是否處于合理區(qū)間。
實際中,電子警察設備采集的過車數(shù)據(jù)會存在數(shù)據(jù)延遲、數(shù)據(jù)缺失等異常情況。數(shù)據(jù)延遲是指過車數(shù)據(jù)推送到數(shù)據(jù)庫的時間與采集時間不一致,主要由線路通信故障導致數(shù)據(jù)上傳不及時所引起。過車數(shù)據(jù)中包含采集時間字段和入庫時間字段,以t1表示入庫時間、t0表示采集時間,當t1-t0的時間差大于閾值α時,則這條過車記錄出現(xiàn)延遲。
數(shù)據(jù)缺失是指某一時段電子警察設備發(fā)生長時間故障或數(shù)據(jù)庫通信網(wǎng)絡中斷,導致部分車道數(shù)據(jù)丟失,過車數(shù)據(jù)出現(xiàn)缺失。以交叉口某一車道為統(tǒng)計分析單元,設T0為統(tǒng)計區(qū)間的起始時刻、T1為終點時刻,時間間隔為15 min。在06:00—23:59時段,當車道流量q(t)=0時,統(tǒng)計前1 h內(nèi)車道流量總和是否為零;在00:00—06:00時段,當車道流量q(t)=0時,統(tǒng)計前3 h內(nèi)車道流量總和是否為零。如果成立,則該車道存在數(shù)據(jù)缺失問題,同時判定前1或3 h的數(shù)據(jù)缺失。
先利用上述方法剔除存在延遲和缺失的過車數(shù)據(jù),再以流量為指標,基于馬爾科夫模型識別異常偏離的數(shù)據(jù)。
交通流量的變化趨勢在時間上具有高度的相關性,同時不同天的流量波動具有隨機的相似性,滿足馬爾科夫的時間特性。流量序列的預測可劃分為若干時間區(qū)間單元進行迭代預測,滿足馬爾科夫的Bellman基本公式。因此,利用馬爾科夫模型描述交通流量的變化趨勢?;竟饺缦拢?/p>

式中:si-1、si為時間序列的流量狀態(tài);Psi,si-1為流量狀態(tài)值{si-1,si}間的轉(zhuǎn)移概率矩陣。
以交叉口的單條車道為研究對象,設車道流量的下一時刻預測值與當前時刻車道流量值及前一天和同一星期(考慮流量的周期性)的進口道平均車道流量值存在相關性,且自變量之間相互獨立。將每天的車道流量按15 min的間隔劃分為一組時間序列值{q1,q2,…,q96}。記(t)為車道流量真實為車道流量預測值,為前一個相鄰時間區(qū)間的流量值為進口道平均車道流量預測值為前一天及同一星期當前時刻進口道平均車道流量值。分別以作為模型的觀測序列和狀態(tài)轉(zhuǎn)移序列,確定取值的狀態(tài)空間。圖1為模型結構。

圖1 基于馬爾科夫模型的流量分布預測結構


假定車道流量預測值的分布集合X={xi}已知,則表示當前時刻與昨天相同時刻的平均車道流量對在所有當前時刻的歷史樣本中所占的概率,即:

式中:n(q0Enter,q-1Enter)(t)為當前時刻某一流量值與昨天t時刻某一流量相對應的天數(shù);為t時刻采集到某一流量(流量值已知)的總天數(shù)。

(2)循環(huán)遍歷Q0(t)的集合,令按照車道流量轉(zhuǎn)移概率)查詢得到前一時刻車道流量q0(t-1)的概率值。預測15 min流量時,q0(t-1)的取值以當前采集的過車流量為準;預測時長為15M(M≥2)min時,以預測的概率分布取值區(qū)間{q0(t-1),q0(t-1)∈Q0(t-1)}依次遍歷。

(4)上述馬爾科夫模型計算結果包含流量值和對應的概率,為便于應用混合高斯模型求解參數(shù),先按式(7)計算樣本量。根據(jù)總樣本量和概率計算每個流量的樣本量),獲得樣本量為N的流量值序列{q1,…,qi,…,qN}作為模型的輸入。其中qk的初始值設置為第k/K分位數(shù)對應的樣本均值,σk設置為1,σk設置為1/K。假設服從K階混合高斯模型,樣本間相互獨立[見式(8)]。利用EM算法迭代計算分布參數(shù)qk、σk和權重αk,方法如下:依據(jù)當前模型參數(shù),按式(9)計算樣本數(shù)據(jù)qj屬于每個分模型k的概率;按式(10)~(12)計算新一輪迭代的模型參數(shù)。重復上述計算,直至qk、σk和αk的迭代差值小于指定的閾值或迭代次數(shù)小于某一值,停止迭代,完成收斂。

式中:K表示K階混合高斯模型中高斯分布的個數(shù)。



(5)根據(jù)分布參數(shù)qk、σk和αk計算車道流量預測值的均值和標準差,判斷采集的15 min流量值是否存在異常偏離。若滿足式(13),則過車數(shù)據(jù)正常;否則,過車數(shù)據(jù)存在異常偏離。

采用平均絕對誤差MAE、均方誤差MSE和準確率ACC作為效果評價指標,其中MAE表示預測值與真實值之間相對誤差的均值,MSE表示預測值與真實值之間誤差平方的均值,ACC表示預測值與真實值的準確程度。MAE、MSE越小,誤差越?。籄CC越大,準確率越高。計算公式如下:

式中:qreal、pre分別為某一時刻的真實值和預測值(或統(tǒng)計值),統(tǒng)計值為某一時刻、某一車道所有歷史流量的平均值。
同時采用歷史統(tǒng)計法計算對應時刻的流量均值(統(tǒng)計值)和標準差進行效果對比。統(tǒng)計法的基本思路是根據(jù)樣本均值和標準差計算公式,以車道為統(tǒng)計單元,將某一時刻采集的所有正常流量進行統(tǒng)計得到均值和標準差。公式如下:


以桐鄉(xiāng)市某交叉口進口道(包含3條直行和1條左轉(zhuǎn)車道)為例,歷史過車數(shù)據(jù)記錄車輛通過交叉口停車線的相關信息,包含車輛牌照信息、過車時間、交叉口編號、車道編號等。過車數(shù)據(jù)采集時間為2018年5月24日—2019年1月17日,共239 d。分別采用馬爾科夫模型和歷史統(tǒng)計法對2019年1月17日的流量進行預測,結果見圖2,預測性能評價指標見表1。

圖2 流量預測結果對比

表1 流量預測誤差對比
從表1可看出:馬爾科夫法的車道流量預測準確率為82.9%~89.0%,總體準確率達到86.8%;相比歷史統(tǒng)計法的準確率78.1%有所提高;平均絕對誤差MAE和均方誤差MSE比歷史統(tǒng)計法分別下降37.8%、61.4%。
異常偏離的識別以2倍標準差為標準,當車道流量值低于或高于均值±2倍標準差時,則該車道流量超出合理區(qū)間,識別過車數(shù)據(jù)異常。直行2車道數(shù)據(jù)異常偏離的識別結果見表2。
從表2可以看出:全天96個時段中,算法識別出12個數(shù)據(jù)異常偏離的時段。與現(xiàn)場視頻統(tǒng)計流量相比,相關真實異常(如數(shù)據(jù)庫延遲、數(shù)據(jù)庫流量異常、過車數(shù)據(jù)中斷等)被檢測到,識別準確率達83.3%。但由于均值和方差的預測準確性問題,某些時段被檢測為異常。后續(xù)需進一步考慮上下游路段的影響,同時提取不同天氣和活動情況下流量的變化特征,提高流量預測和異常識別的準確率。
該文結合實際電子警察設備的數(shù)據(jù)異常情況,分析數(shù)據(jù)延遲、數(shù)據(jù)缺失和異常偏離的識別方法。根據(jù)流量序列的周期性和高度相關性,基于馬爾科夫模型預測車道流量的概率分布,利用EM算法計算概率分布的均值和標準差,判斷車道流量的異常偏離情況。通過對數(shù)據(jù)進行驗證,該方法的流量預測誤差和準確率相比統(tǒng)計法均有明顯改善,異常偏離的識別準確率達83%,能應用于電子警察設備的異常識別和數(shù)據(jù)修復作業(yè)。