楚瀟蓉 山東理工大學建筑工程學院 胡玉龍 中國交通通信信息中心
逯躍鋒 中國科學院地理科學與資源研究所資源與環境信息系統國家重點實驗室
隨著全球定位系統的快速發展,人們可以快速方便地獲取GPS定位數據。軌跡數據存在大量的道路信息,且具有成本低、來源廣,現勢性高等特點,成為道路交通流預測的研究熱點。國內外學者對于交通流預測進行了大量研究,并取得了一定的成果。歷史平均法模型相對簡單,但不能反映交通流的時變性,1981 年,Stephanedes 在交通控制系統中應用了歷史平均模型。賀國光等根據時間序列模型理論和方法構建了行駛時間預測模型,并通過仿真實驗進行了評估;唐毅等人對時間序列模型加以改進,動態選取樣本數據并使用ARIMA(p,d,0)模型進行識別,實驗表明該模型對不同的交通狀況具有較好的適應性。王翔等人利用高速公路收費站數據,使用交叉驗證方法計算K 值,改進了K 近鄰非參數回歸方法,該方法具有較好的預測精度。目前交通流預測面臨的一個問題是大多數短時交通流預測算法仍然使用固定的環路檢測器來獲取交通數據,由于交通流的復雜性,單一的模型具有一定的局限性,多模型組合是未來發展的一個趨勢。
交通流是指在道路上連續行駛的汽車形成的車流,廣義上還包括其他類型車輛形成的車流和人們行走形成的人流。不同的參數對于道路交通來說代表不同的含義,可以據此研究道路交通流的變化規律和特征,同時也可以輔助道路規劃和交通管控。它主要包括交通流量、交通流速度、交通流密度這三個基本參數。
非參數回歸方法是一種非線性的統計建模方法。非參數回歸方法對數據的分布和應用沒有具體的限制,該方法非常靈活,主要取決于歷史數據。其中狀態向量、距離度量函數和預測函數是影響該方法的關鍵要素,需要根據不同的研究對象來進行確定。狀態向量越能夠描繪對象的特征、距離度量方式越能體現相近狀態的相似性,預測結果的準確度也越高。
狀態向量是指能夠影響被研究對象的因素組成的向量,它能夠代表數據庫中的數據特征,是實時數據與歷史數據比較的標準,描述研究對象的狀態向量可以有多個維度,這里主要從時間和空間兩個維度定義狀態向量。
在時間維度上,預測時間段t+1 時刻的狀態與前n-1 個時間段的狀態是相關聯的。由于每個時間段與待預測時間段的接近程度不同,其影響權重也是不同的,本文采用指數權重來表示不同時間段的權重。時間狀態向量由目標路段前若干個時段的交通流和相鄰時段間交通流的變化趨勢組成,其定義為:

交通流的狀態還與相鄰路段的狀態有關,本文將狀態向量從時間維度擴展到時間和空間兩個維度即形成時空狀態向量,其定義為:

度量函數用來度量當前狀態向量與歷史狀態向量間的相似性。結合上文中的時間狀態向量和時空狀態向量,這里的度量函數也定義為時間度量函數和時空度量函數。
時間度量函數指的是當前和歷史時間狀態向量間的距離,其定義為:

時空度量函數指的是當前時空狀態和歷史時空狀態向量的距離,其定義為:

近年來,有不少學者通過驗證發現,基于秩次加權法的性能更好,因此本文選取該方法作為預測函數中的權函數,其定義為:

最終的預測函數為:

本文的實驗數據來源于是2018 年2 月份的某地車輛軌跡數據。
原始軌跡數據覆蓋范圍大,數據量多,造成數據加載等困難,首先截取出研究區域范圍內的數據,然后篩選出符合時間要求的數據。數據屬性信息包括車輛ID、GPS 時間、GPS 經度、GPS 緯度、GPS 速度、經度、緯度等7 個字段。截取出實驗范圍后,選擇預測路段,預測路段如圖1 所示。

圖1 預測路段圖
由于天氣、樹木遮擋等因素,設備會出現定位誤差,導致存在一定的錯誤數據,需對重復數據和偏移數據進行預處理。將預處理后的軌跡數據存儲在數據庫中,前27 天的數據存入歷史數據庫,第28 天的數據存入當前數據庫。本文以10 分鐘為預測時間間隔,預測18:10~18:50 這五個時間段的交通流量和交通流速度,這里的交通流速度指路段的平均速度。
在時空狀態向量中有2 個參數需要確定,通過多次實驗可得,時間狀態向量中的追溯時間d 的取值為1,預測函數中近鄰數量k 的取值為5。
分別對使用時空狀態向量預測的交通流速度和交通流量預測值和僅使用時間狀態向量預測的交通流速度和交通流量預測值使用平均絕對百分比誤差(Mean Absolute Percent Error, MAPE)進行精度評價,評價結果如下表所示。

表1 模型精度評價
從上表中可以看出使用時空狀態向量模型預測的精度比僅使用時間狀態向量模型預測的精度高,且MAPE 值都在15%以內。根據MAPE 模型預測能力評價表,一般MAPE ≤20%,就認為模型預測是有效的。時空狀態向量的MAPE 均在15%以內,故模型的預測能力較好。在預測不同路段時可以根據路段實際情況調整參數設置。
(1)本文將時間和空間兩個因素加入預測模型,實驗表明時間和空間兩個因素共同影響著交通流的變化,利用這兩個因素對交通流進行預測更準確。
(2)本文在對軌跡數據的預處理方面還有待提高,尤其是軌跡數據量較大,會造成空間存儲和查詢方面的問題,后期對這一方面進行研究。