廖孝勇 崔德冠 孫棣華
(重慶大學,中國 重慶 400044)
公交到達時間預測是智能交通領域研究的熱點問題之一,而公交到達時間預測是一個持續改進的過程。目前以存在了許多公交到達時間預測的方法,如人工神經網絡算法,支持向量機、自回歸時間序列,卡爾曼濾波等等[1-3],這些算法均有自身的優點,但也存在一定的局限性,預測精度還有待進一步的提高。文獻[1]已經建立了公交到達時間預測模型,并且經實驗驗證能取得較好的結果,而進一步分析,其精度還可以進一步提高。
因此,為進一步提高公交到達時間預測的精度,本文在已有模型的基礎上,通過利用海量的公交車GPS 數據進行長期的測試,對分析測試結果做詳細的分析,同時結合公交車GPS 數據,分析產生誤差產生的原因(特別是大誤差產生的原因),針對具體的問題提出相應的解決方案,對公交到達時間預測模型做進一步的改善和優化,以提高模型的精度。
文獻[3]將公交到達時間分成了路段行程時間、車站區域停留時間和其他延誤時間3 部分,提出了公交達到時間預測模型,如下所示:

公交到達時間預測精度的評價是一個相對的指標,既需要考慮到絕對誤差,又要考慮到乘客的主觀感受,因此,本文采用短時精度和長時精度兩個指標進行評價。
(1)短時精度。實際到站時間在5 分鐘內的預測數據的絕對誤差在1 分鐘及以內的數據個數占實際到站時間在5 分鐘內的預測數據總量的比例。
(2)長時精度。實際到站時間在5 分鐘及以上的預測數據的相對誤差在20%及以內的數據個數占實際到站時間在5 分鐘及以上的預測數據總量的比例。
為了對公交到達時間預測模型的測試結果做進一步的分析,根據測試結果所反映的規律來查找公交到達時間的影響因素,利用0811線路從2012 年7 月到2013 年2 月期間約200 天的測試結果的分布情況進行分析,如圖1 所示。
通過長期的測試結果可以看出,利用文獻[3]所建立模型預測公交達到時間可以達到較高的精度,短時精度和長時精度整體上保持在85%-90%之間。但不可否認的是,公交到達時間預測仍會產生較大的波動,有些天的預測精度(主要是長時精度)低于80%。因此,如何進一步提高公交到達時間預測的精度(包括降低長時精度的波動性),是本文研究的主要問題。

圖1 公交線路0811 長期公交到達時間預測結果分布
首先,為了檢驗短時精度和長時精度之間是否存在顯著的差異,對兩者進行T 檢驗,結果如表1 所示。

表1 短時精度和長時精度差異對比
由表1 可以看出,公交到達時間預測結果的短時精度和長時精度具有顯著的差異,短時精度的均值為87.86%,高于長時精度(85.08%),說明將公交到達時間預測結果分為短時精度和長時精度是有必要的。同時,這兩個指標考慮到乘客候車的感受,對公交到達時間預測結果的評價更加合理。
通過長期結合公交到達時間預測模型的預測結果和海量公交車GPS 數據的分析,本文總結公交到達時間預測產生誤差(尤其是大誤差)的影響因素有:(1)數據問題,包括數據缺失和數據錯誤兩方面;(2)道路交通特性的差異影響;(3)司機駕駛行為差異影響;(4)異常事件影響;以下將對這些因素的情況及其對公交到達時間預測結果的影響作進一步的分析。同時,針對這些問題,提出進一步的優化方案。
2.1.1 數據質量問題
數據質量問題主要包括兩點:其一,數據缺失;其二,數據錯誤。具體如下:
(1)數據缺失。數據缺失是造成公交到達時間預測誤差(尤其是大誤差)的主要原因之一。
公交車GPS 數據分為運營數據和報站數據。所謂運營數據是記錄公交運行過程的數據,而報站數據是指公交在進站或者出站的瞬間傳回的數據,記錄了公交進站或者出站的時刻。正常情況下每隔10 秒傳回一條運營數據,即同一輛公交車相鄰兩條運營GPS 數據的之間的時間差為10,而報站數據之間的時間間隔不確定,因此,運營數據與相鄰的報站數據之間的時間差可能小于10。
(2)數據錯誤。數據錯誤是公交車GPS 數據中較為常見的一種現象,數據錯誤情況如果得不到妥善處理,同樣會造成較大的誤差。公交車GPS 數據的屬性包括站點編號、車輛IP、瞬時速度、GPS 時間、里程信息、車輛狀態以及行車方向等信息,且不同屬性的錯誤所造成的影響不同。
2.1.2 道路交通特性差異
由于道路交通上不同路段的地理條件、車道數量、車流量、人流量、與始發站的距離等方面的差異較大,不同路段的交通狀態變化程度不一致,造成不同站點的公交到達時間的預測結果差異較大。在此,以886 線路下行方向的動步公園到大廟連續6 個典型站點的測試結果為例,利用方差分析檢驗不同站點預測結果的差異性,結果如圖2所示。

圖2 公交線路886 從動步公園到大廟路段劃分
可以看出,動步公園和龍湖西苑兩個站點的預測精度較大,而新牌坊開始預測精度逐漸降,直到大廟站其預測精度才有所上升。進一步分析其原因,造成軌道嘉州站預測精度下降的原因是:從新牌坊出站不到50 米為大轉盤,大轉盤處有等待周期較長的信號燈,常造成新牌坊站出站口出發生堵車。加州花園的預測結果下降是因為受到紅旗河溝立交上并道(由兩車道減為一車道)的影響,造成從軌道新牌坊大轉盤到紅旗河溝立交段經常發生嚴重的交通擁堵。
進一步,分析不同路段交通擁擠程度的波動情況,以2013 年6 月1 日到2013 年8 月31 日連續3 個月的數據為基礎,統計出每個車次在以上6 個站點的上一路段的路段行程時間,其分布圖如3 所示:

圖3 公交線路886 部分路段的路段行程時間分布情況
結合以上圖表可以看出,公交到達時間的預測精度與道路交通狀態的波動程度有密切的關系,道路交通狀態平穩,公交車保定穩定運行狀態,得到的公交到站時間的預測精度則相對較高,且較為穩定,反之亦然。
2.1.3 駕駛行為差異
經分析,由于不同司機駕駛習慣不同,有的司機較為冒進,而有的則相對保守,即使在相同的道路交通狀態下,不同的司機的行程時間也可能有較大的差異。利用方差分析檢驗不同司機在相同條件下的路段行程時間,結果表明,車輛行程時間在不同司機之間具有顯著的差異。因此,考慮不同司機的駕駛行為習慣,將會有助于進一步提高公交達到時間的預測效率。
2.1.4 異常事件影響
道路交通上異常事件的發生也是產生公交到達時間預測誤差的主要原因之一。一般對道路交通產生較大影響的異常事件有:車輛故障、貨物散落、異常天氣、交通事故、臨時大型活動、交通臨時管制、道路維修等。這些異常事件雖然出現概率較小,但所造成的影響很大,輕則造成交通擁堵,增大出行成本,重則可能造成生命財產損失。且道路異常事件發生的時間、地點具有高度不確定性,一般難以準確預測。較為可行的辦法是根據公交車GPS 數據及時檢測出異常事件,并且融合多線路多車的GPS 數據,以實現對異常事件影響程度的估計,通知交通管理部門及早采取有效措施,降低交通異常狀態所造成的影響。
以上已分析了造成公交到達時間預測結果產生較大誤差的主要影響因素,接下來需要對這些問題提出進一步的改進方案。由于針對不同的問題,改進的程度不同,而且本文篇幅有限,在此僅著重介紹針對不同交通特性的優化方案,而對于其他問題的解決方案,只作簡單介紹。
2.2.1 針對數據質量問題的改進
(1)數據缺失的處理。文獻[3]以浮動車覆蓋率作為標準,將路段分為有效數據路段和無效數據路段兩種,該方法對公交車GPS 數據的缺失起到了一定的作用(尤其是無效數據路段上),但經分析發現,在有效數據路段也常見數據缺失的情況,因此,亟需一種更為有效的方法應對數據的缺失。為了為數據缺失提供一種更為有效、適用范圍更廣的方法,在此提出利用經過多車信息融合的方法,即考慮經過同一路段多車的數據,充分發揮其他數據的作用。具體方法如下:
第一,利用同一輛公交車的GPS 數據中序列值對數據缺失進行判別,確定是否發生數據缺失。
第二,若確定發生數據缺失,則計算數據缺失的周期。若同一公交車數據缺失周期小于一定的時間范圍(如2 分鐘),利用同一路段上其他車輛的信息就行修正;若同一輛車數據缺失超過預定的時間范圍,則報“通訊中斷”。
其中,利用同一路段其他車輛信息進行修正的具體方法是:確定在一定范圍內在是否有其他公交車輛經過相同的路段,若有,則利用其他車輛離當前車輛距離最近的信息(如車輛狀態、瞬時速度、里程等)來填補當前車輛的信息;若沒有其他線路的車輛信息作為參考,則選擇最近通過相同路段的同一線路的其他車輛的信息填補當前車輛的信息。
(2)數據錯誤的處理。當確定GPS 數據發生有誤時,則將該數據錯誤部分當缺失處理,再利用上述數據缺失的處理方法修正錯誤的那部分的數據。
2.2.2 針對道路交通特性的改進方案
為了消除不同道路交通特性對公交運行時間的影響,首先需要根據道路交通狀態的大小和波動程度對路段和時段進行準確、細致的劃分。對此,可以使用模糊K-均值聚類算法對具有不同交通特性的路段進行劃分,具體如文獻[6]所述。在此,需要解決兩個關鍵問題:
(1)輸入參數。由于不同路段的長度、等級不同,為了消除不同路段的差異,需要定義“路段擁擠度”來表征每個路段的交通特性,具體計算方法如文獻[7]所述。
(2)劃分數目。為了對具有不同交通特性的路段進行更加精確、細致地劃分,需要確定合理的分類數目。由于目前對于道路交通特性的劃分沒有統一的標準,在此利用逐步試驗的方法,確定最終將具有不同交通特性的路段和時段劃分為6 類得到的效果最好。
2.2.3 針對駕駛行為差異的改進方案
司機駕駛行為的差異主要表現在車輛運行過程中的差異,因此,根據司機駕駛行為對模型的改進主要是針對路段行程時間計算方式的改進。主要包括行程時間的計算和根據司機駕駛行為修正兩部分。
(1)計算平均行程時間。考慮到GPS 數據的特點,可利用其中的車輛里程信息可以計算車輛與最近站點間的距離l,其平均速度可以由該路段的路段區間平均速度代替。則該車到下游目標站點的平均行程時間為:

(2)根據駕駛員駕駛行為特性對結果進行修正。為了提高估計的精度,還需要對平均行程時間加以修正,修正后的平均行程時間為:

針對文獻[3]中的模型,本文從數據質量、道路交通特性和駕駛行為修正等3 個方面進行了改進。為了驗證模型的有效性,本文實際的公交車GPS 數據為基礎,以886 線路從動步公園到大廟連續6 個站點作為研究對象,對改進的模型進行驗證。
進一步,為了驗證本文改進模型的穩定性,利用2014 年12 月21日到27 日共一周的公交GPS 數據進行驗證,結果如表2 所示:

表2 改進模型和舊模型連續7 天預測精度對比
從表2 可以看出,針對7 個典型的站點,改進模型在每一天的預測效果在短時精度和長時精度方面都比舊模型有所提升。整體上7 天的預測效果在短時精度提高了1.51 個百分點,長時精度提高了1.88個百分點,說明了本文提出的改進方案是有效的,而且預測結果更具有穩定性。
本文在原有模型的基礎上,從數據質量、道路交通特性差異、司機駕駛行為差異等方面進行改進。實驗結果表明,改進的模型的預測效果有了進一步的提高,尤其是在那些預測精度較差的站點精度提高更大,整體預測效果也更加穩定。
此外,由于交通異常事件是隨機事件,且發生的概率相對較小,難以對異常事件發生的位置、時間及其影響程度進行預測,目前較為可行的方案是在異常事件發生后及時、準確地檢測出來,然后再對其影響作進一步的分析。目前的對道路交通異常事件的研究主要集中于高速公路或快速路,而對城市道路交通異常事件的研究相對較少。如何及時、準確地檢測城市道路交通異常狀態并分析其影響程度,最終以提高公交到達時間預測的精度,是本文下一步工作的重點。
[1]孫棣華,賴云波,廖孝勇,等.公交浮動車輛到站時間實時預測模型[J].交通運輸工程學報,2011(2):84-89.
[2]于濱,楊忠振,林劍藝.應用支持向量機預測公交車運行時間[J].系統工程理論與實踐,2007,27(4):160-164.
[3]Jeong R,Rilett L R.Bus arrival time prediction using artificial neural network model[J].International IEEE Conference on Intelligent Transportation Systems,2004:988-993.
[4]姜桂艷,郭海鋒,吳超騰.基于感應線圈數據的城市道路交通狀態判別方法[J].吉林大學學報:工學版,2008.
[5]李曉丹,劉好德,楊曉光,等.城市道路網絡交通狀態時空演化量化分析[J].系統工程,2008(12):66-70.