梁弘
[阿波羅智聯(北京)科技有限公司,北京100012]
目前,我國城市公共交通工具主要有地鐵、公共汽車、出租車等,其中覆蓋范圍最大和使用最廣的無疑是公共汽車,具有機動性較強、票價較低、容易操作和投資較少等特點,覆蓋不同層次、線路的乘客,是非常重要的便民交通工具。在城市交通體系日益發達和家用小汽車覆蓋率不斷提升的共同影響下,城市道路的汽車容載量也在不斷提升,給公交車的運行時間和效率帶來了極大的影響。公交車到站時間不穩定,不少乘客無法準確獲取公交車的信息,等待時間不確定,出現了“伸脖子”等公交的情況,導致公交車的優勢無法體現,嚴重影響居民的出行體驗和效率。近年來,隨著大數據技術的成熟,信息技術推動公共交通進入前所未有的領域,并帶動公共交通智能化建設成為智慧城市的重要組成部分。《“十四五”現代綜合交通運輸體系發展規劃》提出:到2025年,綜合交通運輸基本實現一體化融合發展,智能化、綠色化取得實質性突破,綜合能力、服務品質、運行效率和整體效益顯著提升,交通運輸發展向世界一流水平邁進。為此,打造全新的公交管理體系,準確掌握公交車的通行時間,并為乘客做好信息報告,成為現階段城市公共交通優化的重要方向。研究結合公交車的通行時間、速度特點,從時間空間分布特性上,提出了基于多源數據融合的公交車通行預測模型,以期望能夠更好地提升公共交通的服務效率。
B
={b,b,…,b} ,不同的GPS 軌跡點b主要包括了緯度(b.lat)、經度(b.lng)、時間戳(b.ts)以及摩托車的運行軌跡信息M
={m,m,…,m} ,汽車的運行軌跡信息C
={c,c,…,c} 。每一條軌跡均包括了相應的屬性信息,具體包括時間特征、車輛信息以及空間特征。車輛的信息主要為公交車、汽車以及摩托車,在相應軌跡上均有著相應的車輛標簽。時間特征主要分為車輛日期、軌跡運行時間,空間特征是車輛軌跡的總距離。該研究最主要的目標是借助汽車軌跡、公交車軌跡信息以及摩托車軌跡信息,預測未來時間段公交車的通行時間。具體公式(1)為:

運用MSTBTTE 模型進行預測模型構建,具體架構如下:
基于軌跡數據所表現出的空間依賴性,實現數據分析處理。在時空特性分解期間,主要運用非線性函數聯合卷積神經網絡(CNN)完成數據的挖掘處理,提取空間特征信息。若僅是依靠定位系統(GPS)坐標映射信息,很難充分掌握數據的原始空間信息。為此,結合公交車的特性,配合較細的粒度,實現對車輛軌跡序列的空間依賴性的轉變,從而獲取最為全面的空間特征信息。
考慮到不同時間段內,各種交通軌跡數據之間表現出的時間依賴性特征。在對各子路段空間特征信息提取之后,需要從獲取的空間圖中再次進行時間信息的提取。運用循環神經網絡(GRU)來實現空間信息的提取,一方面能夠滿足隨著訓練時間的延長,數量集持續增加而帶來的計算復雜度問題;另一方面能夠非常準確地完成空間特征信息的提取,更好地發揮長序列特征信息的優勢,完成時空動態變化的捕捉。
ν
,計算公式為:
式(2)~式(4)中:
A
={W
eather、D
ataID
、W
eekID
、D
rierID
、T
ype、D
is} ;W
eather 表示天氣狀況;D
ataID
、W
eekID
表示采樣日期;D
rierID
表示車牌號信息;T
ype 表示一條車輛軌跡中每個GPS 點與前一個GPS 點之間的時間間隔;D
is 表示一條車輛軌跡中每個GPS 點與第一個GPS 點之間的間隔距離。a用于表示屬性向量;β
用于表示可學習的權重;exp 表示外部因素機制的輸出;i ∈A
表示嵌入分類變量。該模塊主要用于對公交車的通行時間進行預測,同時將子路徑的通行時間預測作為主模型的輔助,以便提升通行時間的預測準確性。
在子路徑預測中,主要采取2 個全鏈接層,將所有時空特征序列的映射為相應的標量數據rloc,用于對子路段的通行時間的預測。為了更好地實現對整個路段通行時間的預測,模型融合了注意力機制,即結合不同路段的重要程度確定權重。同時,配合深度殘差學習,通過學習相應的附加“殘余”,完成對前一單元輸出的微調。這種跨單元的快捷連接方式能夠提升深度神經網絡的最大表示能力,從而實現對網絡退化的規避。殘差單元的計算公式(5)為:

W
表示可學習參數;ReLU
表示激活函數。在訓練的過程中,為確保模型能夠滿足最佳的訓練效果,對整體路徑的通行時間和子路徑時間進行預測,同時定義為2 個目標損失函數。第一個為子路徑平均值,具體公式(6)為:

第二個為整體路段平均值,具體公式(7)為:

L
與L
的加權和,通過訓練模型使得損失最小化。β 則表示一個系數來平衡L
與L
的權重。
式(6)~式(8):在多任務學習機制部分,分別預測子路徑和整體路徑的通行時間。在子路徑時間預測中,使用兩個全連接網絡層將時空特征序列{r1,r2,r3,...,r|T|+k+1}映射為時間序列{h1,h2,h3,...,h|T|+k+1},h表示子路徑q→q→...q預測的通行時間。
以2017年1月—2021年12月的真實數據為數據集進行模擬試驗。數據集中涉及的GPS 軌跡主要是基于時間順序完成的點序列排列,每個點均有明確的海拔和經緯度等相關資料(見表1)。根據表1來看,數據集涉及距離達到了140300km,共有17621 條軌跡,時長共計12950h。基于模型完成對數據的標記和挑選,確定汽車、摩托車、公交車的出行數據,同時結合時間戳形成軌跡。取數據中的80%進行模型驗證,另外20%則作為評估和測試集。

表1 數據集信息介紹
在實驗期間,主要基于Linux 系統、Pytorch1.2 庫版本、Python 編程語言來構建運行系統,通過均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)3 種指標完成模型預測性能的評估。RMSE 表示預測數據與真實數據之間偏差的平方與預測次數比值時間的平方根,用于判定2 項數據的偏差結果;MAE 表示預測數據與真實數據之間的偏差平均值,用于對2 項數據誤差情況的判定;MAPE 表示預測數據與真實數據和真實值比值的平均值,用于對誤差大小進行衡量。訓練以Adam 優化算法基于5 倍交叉驗證方式下來實現模型訓練。并運用GBDT、HA兩種模型進行對比。實驗結果見表2。
根據表2來看,與GBDT、HA 兩種模型相比較,所構建的MSTBTTE 模型具有更好的優越性,其能夠基于真實數據,實現預測準確度的顯著提升,精準度分別為RMSE=10.2%、MAE=8.8%、MAPE=10.1%。

表2 實驗結果比較
研究提出了混合多種數據集的多源數據融合的公交車通行時間預測模型,綜合考慮汽車、公交車與摩托車行動軌跡的關聯性,打造全新的公交車時空特征預測模型,以2017年1月—2021年12月的真實數據為數據集進行模擬實驗,證實該模型預測準確度的顯著提升,其精準度分別為RMSE=10.2%、MAE=8.8%、MAPE=10.1%。