范禮乾
(中鐵第四勘察設計院集團有限公司,湖北武漢 430063)
客流預測是現代城市軌道列車運營的必然需要,也是長期以來備受關注的研究熱點。目前,客流預測方法主要分為參數方法和非參數方法。
在參數模型中,自回歸模型、自回歸滑動平均模型和自回歸綜合滑動平均模型,是傳統而有效的客流預測方法[1]。由于時滯變量之間的線性假設,這些模型的應用受到了限制。為了跟蹤真實客流的非線性特征,研究人員引入并改進了各種非參數模型,基于神經網絡的機器學習方法作為非參數方法的代表,在對任意函數具有良好映射能力的同時,具有非常好的泛化能力,備受關注。現有研究已經提出了許多機器學習方法用于客流預測,其中,遞歸神經網絡(recurrent neural network,RNN)、長短時記憶(long shortterm memory,LSTM)網絡等可以很好地捕獲數據的時間序列特征,在客流預測課題上得到了廣泛的應用[2]。客流表現出來的空間特征可以通過卷積神經網絡(convolutional neural network,CNN)進行提取[3]。一些研究也將注意力機制(attention mechanism,AM)用在客流預測中以提升模型性能。為彌補傳統機器學習在面對大量客流數據時出現的學習不足或者過度的問題,出現了組合神經網絡預測模型[4]。
綜上,該研究基于深度學習的網絡架構,實現對客流的精準預測。該研究的貢獻主要體現在兩個方面:第一,綜合了基于客流時間序列數據的時間特征和基于地鐵站間連接和旅客出行網絡的空間特征實現多站點客流數據的動態預測。第二,提出了一種具有注意機制的時空卷積網絡(attention mechanism spatio-temporal network,AMSTN)模型,將嵌入AM模塊的CNN 與LSTM 網絡融合在一起,實現客流數據時空特征的有效捕捉。
式(1)中:μ表示AMSTN 模型,相鄰的站點編號站在地理上彼此相鄰。矩陣的每一行都表明客流預測依賴于歷史數據,是一個時間序列問題;矩陣的每一列描述了不同站點之間的客流關系,增強了模型預測的空間相關性。因此,μ的回歸可以實現客流數據時空維度的雙重捕獲。
針對客流數據表現出來的空間特征,選用CNN 網絡用于數據空間特征的捕獲。CNN 由三個主要網絡層組成:卷積、池化和全連接。卷積層和池化層的任務是過濾輸入數據并提取有用的信息,以用作全連接層的輸入;全連接層主要是對特征信息進行合并;之后,經指數函數或邏輯函數輸出最終分類標簽。
在對數據表現出的時間特征捕獲上選用了LSTM網絡單元。LSTM 解決了RNN 的隨內環深度增加帶來的反向傳播相關梯度消失問題,將存儲單元與柵極結構相結合,以學習何時忘記先前的記憶并更新記憶,使得網絡具備了長序列學習能力。
為了增加網絡對關鍵因素的關注度,集成了AM模塊。AM 有軟注意力和硬注意力。硬注意機制集中于輸入信息中的一個元素,基于最大或隨機抽樣來選擇信息。軟注意機制為所有輸入信息賦予權重,使輸入信息能夠更有效地使用。因此,試驗中采用軟注意機制,增加網絡中重要特征的信息流權重。結構見圖1。

圖1 AM 結構圖
最終整合了CNN、AM 和LSTM 三個網絡單元,形成具有雙重注意力和時空特征捕獲能力的AMSTN 網絡。在確定AM 位置作為每個卷積模塊的輸出后,AM 單元首先集成到CNN 網絡中,后連接到Reshape層對數據降維。這是因為在CNN 階段,原始的二維客流數據經過切片處理后變為三維,為了能順利連接到LSTM 需要再降至二維。在Reshape 層之后,連接LSTM 網絡單元,使網絡具有處理長時間序列的能力。網絡架構見圖2。

圖2 AMSTN 網絡架構圖
在數值試驗中,共收集了北京地鐵13 號線西直門至東直門的16 個地鐵站的客流數據,選取上午5 時至晚上11 時的數據,以5 分鐘為間隔進行整理。從眾多的字段中去除不相關的信息后進行數據歸一化將數據映射到同一量綱:
考慮到神經網絡的不確定性,將每個試驗重復100 次,并以平均絕對誤差(mean absolute error,MAE)指標的均值作為最終的試驗結果。定義如下:
式(3)中:pi為實際客流數據;為預測客流數據;N為預測客流總數。
對于神經網絡,模型參數很大程度上決定了模型性能,因此,需進行一系列的試驗來對其進行選擇。首先,確定網絡中CNN 和LSTM 層數。一般情況下,隨著神經網絡層數的增加,訓練效果會從欠擬合到良好擬合再到過擬合。由于CNN 和LSTM 共同影響AMSTN 模型的性能,同時為平衡試驗精度及成本,將兩種神經網絡的最深層數設置為3,通過試驗,找到合適的網絡層數組合。對于神經網絡來說,網絡深度和神經元數量相互依賴[5],因此,在試驗中將CNN 和LSTM 神經元數量均設置為64,以確定網絡的層數。通過表1 可以看出,當CNN 層數為2,LSTM 層數為1時,網絡性能最好。

表1 各網絡深度的模型性能
通常,每個神經網絡層的神經元數量為32、64、128 等。隨著網絡深度的增加,神經元數量逐漸增加。因此,將可能的神經元數量組合試驗,找到最適合的神經元個數,結果見表2。

表2 各神經元個數組合的模型性能
結果表明,當CNN 神經元數量為32 和128,LSTM中為64 時,網絡性能最好。
其次,對步長即輸入序列的滑動窗口長度n進行確定。AMSTN 模型使用前n時刻的客流數據來預測下一時刻的客流數據,其中,時刻是數據中最小的離散時間單位。將n的值從6 增加到20,表3 試驗結果表明最合適的步長為10。

表3 各步長的模型性能
首先,驗證AMSTN 模型的穩定性。通過多次迭代,發現隨著訓練輪數的增加,在經過20 次迭代后,模型損失逐漸穩定,并在后續的訓練中一直在特定的容差范圍內波動,圖3 所示為模型損失收斂曲線。表明模型是收斂的,具有一定的穩定性。

圖3 AMSTN 模型收斂曲線
將AMSTN 模型的預測性能與其他標準預測模型的預測性能進行比較,基線模型的神經網絡單元組成及對應神經元個數如表4 所示。

表4 網絡模型組成
使用四種模型對同一車站同一天的客流進行預測,得到各模型的性能表現指標如圖4 所示,各個模型的預測情況如圖5 所示。

圖4 各模型預測性能指標

圖5 各模型預測效果
可以得出:第一,三種基線模型中,AMCN 模型表現更好,因為CNN 和LSTM 單元使模型能夠捕獲數據之間的時空相關性。第二,相比而言,AMSTN 模型的預測效果最好,不僅可以捕捉數據之間的時空相關性,同時AM 的添加使模型能夠聚焦于關鍵特征。第三,從預測曲線可以看出,在客流變化復雜的區域,AMSTN 的表現更為突出,說明AM 能夠捕捉到影響模型的主要因素。通過模型的性能指標以及預測曲線,表明相較于其他三種基線模型,AMSTN 模型更適合客流的預測。
該研究探討了城市軌道交通不同站點的客流預測問題,在CNN 上集成AM 和LSTM,捕獲客流數據的時空相關性同時提高模型對關鍵影響因素的聚焦能力。基于實際客流數據的仿真結果,比較了不同模型的預測性能。結果表明,所提出的模型在客流預測問題上更有優勢。在未來的研究中,還可以考慮天氣等因素對研究進行改進。