蔣哲遠,葛承宇,陳 超,米希偉
(北京交通大學,交通運輸學院,北京 100044)
運輸時間預測是交通運輸領域的一個經典問題,近年來,很多學者圍繞公路、航空、水運運輸時間預測方面開展研究,一些模型已取得較好的效果。然而,相比于這些研究,鐵路貨運時間預測至今仍是一個難點,這是因為鐵路貨運專業背景較強、貨物列車運營模式復雜、受到各種因素的影響和制約較多。準確預測鐵路貨物運輸時間不僅能給鐵路部門、貨主及收貨人帶來直接利益,而且對解決列車調度、物流交付、運輸合同制定等諸多重要問題有著重要的意義。
國內外已提出了許多經典的運輸時間預測模型,差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)是一種經典的時間序列預測模型,該模型結構簡單,計算方便,預測結果可以外延,但模型對數據規律具有依賴性,抗干擾能力較差,難以適應日趨復雜的時間序列預測問題。模糊模型、卡爾曼濾波模型等非線性參數回歸模型也是一類經典的時間序列預測模型,相比于ARIMA 類模型,這類模型的抗干擾能力得到增強,但仍存在預測數據外延性差,鄰近特征點或訓練集需要及時更新的缺點。
近年來,伴隨著人工智能理論的快速發展,機器學習方法在諸多領域中顯示出優勢,在時間序列預測方面,隨機森林模型[1]、支持向量機[2]、人工神經網絡[3]等模型得到了廣泛應用,一些學者已將這些模型應用于運輸時間預測。Huang 等[4]提出一種基于SVR(Support Vector Regression)算法和KF(Kalman Filter)算法的混合模型來預測列車運行時間,該模型結合了2 種算法的特點,可以實現更短計算時間下的高準確率預測,其研究表明,支持向量機在對小樣本和高維數據集預測時能取得良好的預測效果,但不適用于大規模訓練樣本和高度稀疏數據。袁志明等[5]采用隨機理論研究了列車的到站時間預測,在分析列車到站時間不確定性的基礎上,提取特征指標,挖掘歷史行車數據,以提高列車到站時間預測準確性為優化目標,提出一種基于隨機森林的列車到站時間預測模型,其研究表明,隨機森林模型能在大數據集和高維數據集預測中取得優良的預測結果,但由于其本身的復雜性,預測所需時間和空間較大,當數據噪音較大時,會出現過擬合現象。隨著深度學習的飛速發展,神經網絡已成為目前運輸時間預測的主要研究方向。孫略添等[6]運用灰色模型對技術站列車晚點進行預測,再綜合運用馬爾可夫和改進的神經網絡模型進行修正和預測,最后將2種方法進行了對比,結果顯示文中所建的神經網絡模型在大規模數據集情形下預測精度更高。He等[7]提出了一種基于卷積神經網絡的深度時空預測模型(Deep Spatial-Temporal,Deep ST),文中在考慮外部因素的基礎上對不同時間尺度的歷史數據特征進行建模。之后He 等[8]又提出了深度時空殘差網絡(Spatial-Temporal Resnet,ST-Resnet),此模型先將不同時間尺度分別用殘差單元建模,再進行特征融合。但這種方法難以顯式地對時間序列的時序依賴關系進行建模,為解決這個問題,一些研究者提出了利用卷積計算和循環神經網絡對時序依賴關系進行建模的方法[9]。Yu 等[10]提出了一種時空圖卷積網絡(Spatio-Temporal Graph Convolutional Networks, ST-GCN)來解決時空序列預測問題。Kong等[11]提出了一種分層時空長短期記憶(Hierarchical Spatial-Temporal Long-Short Term Memory Network,HST-LSTM)模型,該模型可以結合雙向歷史信息進行位置預測。范光鵬等[12]提出一種基于長短期記憶(Long-Short Term Memory Network, LSTM)和Kalman 濾波的混合時間預測模型,其中LSTM 模型用來預測車輛到站的基礎時間序列,Kalman濾波模型用于對基礎時間序列數據動態調整。Che 等[13]提出了基于GRU 的多變量缺失時間序列遞歸神經網絡(Deep Learning Model Based on Gated Recurrent Unit,GRU-D),該模型可以準確地捕捉到時間序列的長期依賴關系。雖然相比于經典預測模型,基于深度神經網絡的運輸時間預測模型取得了更好的預測效果,但目前已提出的模型仍然難以深入挖掘運輸時間中復雜的顯式特征交互信息和高階特征關聯信息。
鐵路貨物運輸時間受線路長度、線路數目、限速、列車優先級、列車速度、車站到發線數、貨場配線數、車站作業計劃等相關因素的影響,且這些相關因素存在復雜的交叉關系。現有的鐵路貨物運輸時間預測模型大多沒有充分考慮特征交叉或者僅通過人工經驗進行特征交叉,而當特征量較多、特征交叉較復雜、計算量較大時,人工方法難以提取出所有關鍵交叉特征。不同于運輸時間預測領域,在推薦系統領域[14],特征交互的研究眾多,一些模型已取得很好的效果。因此,本文引入推薦系統領域中壓縮交互網絡(Compressed Interaction Network,CIN)算法,并結合深度神經網絡(Deep Neural Network,DNN),設計了面向鐵路貨物運輸時間預測的xDeepFM(Extreme Deep Factorization Machine)模型。
本文的主要貢獻如下:
(1)針對鐵路貨物運輸時間受諸多復雜因素耦合影響的情況,提取較為重要的影響因素,并把各影響因素的特征交互納入考慮,創新性地將智能推薦算法領域的xDeepFM 算法引入運輸時間預測問題,為鐵路貨物運輸時間預測提供了新方法。
(2)在以ReLU 函數為激活函數的基礎上引入了稀疏規則算子正則化函數,減少無用特征,生成有限的關鍵特征,有利于自動選擇特征,優化算法效率。
(3)xDeepFM 預測模型既能兼顧低階和高階特征交互,又能兼顧顯式和隱式特征交互,同時也具備記憶與泛化的學習能力,可以有效提高鐵路貨運時間預測精度,為具有多種影響因素、不同因素交叉影響的復雜場景預測問題提供新思路。
本文以一列具有貨物運輸任務的列車按照列車運行時刻表準時從起點站發車,途經各個中間站并根據列車改編計劃、乘務計劃等完成相關任務,最終到達終點站的一個OD 貨運[15]過程為研究對象,預測單列車一個OD對的貨物運輸時間。
本文所采用的數據來自于由運籌學和管理科學研究協會(Institute for Operations Research and the Management Sciences, INFORMS)于2020 年舉辦的“鐵路運籌學應用大賽”所提供的比賽數據,其中數據信息包含了列車運行時刻表、列車改編信息、乘務計劃信息、列車優先級、列車最大運行速度等列車信息,以及站間距離、線路數目、線路允許通過最大速度、貨場配線數、車站到發線數量等車站線路信息。
根據預處理和特征提取的原始數據,以單列車從起點站出發完成一次貨運任務到達終點站為一次完整的貨運過程,提取該過程中影響貨物運輸時間的因素如下所示:
(1)列車運行區段線路長度,即列車從起點站出發到達終點站的總路程。該參數對鐵路貨物運輸時間造成直接影響,為主要影響因素之一。
(2)最大允許速度,即列車在運行區段所允許的最大速度。該參數為軌道限速和列車最大運行速度中的較小值,對鐵路貨物運輸時間造成主要影響。
(3)列車改編信息,即列車在編組站是否需要編組。
(4)乘務人員變更,即在中間站乘務人員是否需要換班。
(5)線路數目,即列車運行區段線路軌道數。
(6)貨場配線數,即貨場的可用裝卸線數量。
(7)車站到發線數,即車站貨物列車到發線數目。到發線數目對列車到發、列車會讓造成影響,從而間接影響鐵路貨物運輸時間。
(8)各優先級列車數,即在列車運行區段范圍內存在的不同優先級列車數。由于不同優先級列車相遇時,低優先級列車需要會讓高優先級列車,對貨物運輸時間造成一定影響。
將上述特征因素組成特征向量,作為模型的一組輸入參數。對樣本進行編號分組,樣本編號i包含特征如下:列車運行區段線路長度為x(i);車站到發線數為m(i);貨場配線數為D(i);相同方向相同優先級列車數量為p1(i);相反方向相同優先級的列車數量為p2(i);相同方向較高優先級的列車數量為p3(i);相反方向較高優先級的列車數量為p4(i);相同方向較低優先級的列車數量為p5(i);相反方向較低優先級的列車數量為p6(i);最大允許速度為v(i);乘務人員變更為O(i);列車改編信息為B(i)。
輸入特征向量為:

貨物實際運輸時間為Y(i)。
根據上述方法,在原始數據中一共提取4 000條樣本數據,每一樣本數據有12維度。
鐵路貨運受影響的特征因素多、數據量大,而DNN擁有處理高階特征、海量數據的優點,在預測上有優勢,因此本文選用DNN 作為模型框架的一部分,旨在利用其強大的非線性映射能力學習高階特征交互。本文采用的DNN 為多個全連接層搭建,其基本結構如圖1所示。

圖1 DNN網絡結構

在基于深度學習的特征融合模型中,特征交互的方式可以分為隱式特征交互和顯式特征交互兩種[16]。由于DNN 模型有黑箱性質,其學習的是隱式的特征交互,特征形式未知、不可控,同時,模型最終的輸出表現為一種特殊的向量擴張,特征交互發生在元素級而不是特征向量之間。
為使模型可自動學習顯式的高階特征交互,并使特征交互發生在向量級上,本文引入壓縮交互網絡(CIN)模型。在CIN 中,隱向量是單元對象,將輸入的原特征和神經網絡中的隱層都分別變換成一個矩陣,記為X0和Xk。CIN 中每一層的神經元全是依據前一層的隱層以及原特征向量演算得來,其計算公式如下:



其中第k層隱層含有Hk條神經元向量。隱層的計算可以分成兩個步驟:(1)根據前一層隱層的狀態Xk和原特征矩陣X0,算出一個中間值Z^k+ 1,在此中間值上,用Hk+1個尺寸為m×Hk的卷積核產生下一隱層的狀態,最后學習出的特征交互階數由網絡的層數確定,每一隱層都通過一個池化操作連接到輸出層,確保輸出單元可以產生不同階數的特征交互模式。
由于影響鐵路貨物運輸時間的因素具有特征階數高,存在復雜特征交互且主要在特征向量之間存在互相影響關系等特點,本文將DNN 模型與CIN 模型合并到端到端框架中,生成一種新的顯式交叉高階特征方法xDeepFM 模型[17]。此模型結構可以分成四個模塊,分別是嵌入層、CIN、DNN 和線性模塊。嵌入層的作用是將特征向量轉換為具有固定大小的向量,將多個方面組成的高維稀疏分類特征通過神經網絡嵌入到低維密集特征。CIN 模塊的作用是進行顯式特征交互,而

式中:λ*表示正則項;θ表示參數集。
其模型結構如圖2所示。

圖2 xDeepFM模型結構
本文選取均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分誤差(MAPE)來評估xDeepFM模型的性能,其公式如下:

式中:N為貨物運輸時間預測的總樣本數目;yi為貨物運輸時間預測值;yi為貨物實際運輸時間。
本節對模型超參數的敏感性進行分析,使用上述處理完成的數據,對以下參數進行具體分析,包括:(1)CIN 隱含層的數量;(2)CIN 每層神經元數量;(3)DNN 隱含層的數量;(4)DNN 每層神經元數量;(5)batchsize 的大小。在研究分析某一具體參數時,固定其他參數為最佳參數,同時改變研究參數的設置來進行實驗,訓練次數都設置為150 次,最后使用最優參數訓練模型。
CIN 隱藏層數量的影響如圖3(a)所示。圖中可以看到xDeepFM 的模型性能在開始時隨著網絡深度的增加而增加。但當網絡深度設置大于3時,模型性能下降,這可能是由于網絡深度加深引起的過擬合造成的。基于此本文將CIN 隱含層的數量設置為3。
由于3.1表明CIN 隱含層的數量設置為3時有最佳效果,在此實驗中將CIN 隱含層數量固定在3。每層神經元數目的增加,表示CIN 中特征映射數目的增加。如圖3(b)所示,當神經元數量從6 增加到40 時,xDeepFM 的模型性能先增長后下降,每層神經元數量設置為10時,模型性能相對更優。因此本文最終選用的CIN網絡結構為[10 10 10]。
圖3(c)展示了DNN 隱藏層數量的影響。可以觀察到xDeepFM 的模型性能在開始時隨著網絡深度的增加而明顯優化。但當網絡深度設置大于4時,模型性能下降,且模型訓練時間增加,隱藏層數量的增加可能引起網絡的過擬合。所以本文將DNN 隱含層的數量設置為4,模型既有較好的訓練效果,也有比較快的訓練速度。
由于3.3 表明DNN 隱含層的數量設置為4 時有最佳效果,在此實驗中將DNN 隱含層的數量固定在4。經訓練發現,DNN 網絡每層神經元數目設置為[2x2x x x]時,模型有較好的性能。此次實驗主要研究DNN 每層神經元數量對模型的影響。當神經元數量較少時,模型訓練效果較差;當神經元數量改變較少時,模型性能變化不顯著。因此,本文從神經元數量x=200 開始,以100 為增量增加到x=500 進行實驗。如圖3(d)所示,xDeepFM 的模型性能剛開始時隨著神經元數量的增加而增長,在x=400 時達到最優,隨后模型性能開始下降。因此最終將DNN 網絡結構設置為[800 800 400 400]。
batchsize的大小是機器學習中一個重要參數,表示一次訓練所選取的樣本數。batchsize 的大小影響模型的優化程度和速度,batchsize 設置大,通常收斂快,需要訓練的次數少,準確率上升較穩定,但精度不高。batchsize設置小,通常精度較高,但收斂慢,準確率易出現震蕩。如圖3(e)所示,當batchsize 從400 增加到1 000 的過程中,訓練次數固定在150 次,將batchsize 設置為800 時,模型在有較高精度的同時也有較快的收斂速度。因此,本文的batchsize設置為800。

圖3 參數敏感性分析
在完成了上述數據處理、特征映射及模型參數尋優后,將數據處理得到的4 000 條樣本數據以3:1的比例劃分訓練集和測試集,前3 000條數據作為訓練集,剩下的1 000 條數據作為測試集。設置CIN 網絡結構為[10 10 10]、DNN 網絡結構為[800 800 400 400]、batch 為800、訓練次數為150 次,以最優參數進行模型訓練,最后得到的預測結果,其性能指標如表1。

表1 xDeepFM性能指標
較小的MSE 和RMSE 以及較小的MAE 和MAPE 都表明xDeepFM 預測模型的高預測準確度。針對鐵路貨運受很多復雜因素耦合影響的實際情況,xDeepFM預測模型擁有其獨特優勢:(1)擁有嵌入層模塊,對數據進行Embedding 映射,將特征向量轉換為具有固定大小的向量,將多個方面組成的高維稀疏分類特征通過神經網絡嵌入到低維密集特征。(2)擁有CIN 模塊提取顯式特征交互,能夠使特征交互發生在特征向量與向量之間,解決傳統深度神經網絡特征交互發生在特征元素之間、與實際鐵路貨物運輸時間影響因素交叉影響情況不相符的問題。(3)在ReLU 函數為激活函數的基礎上引入了稀疏規則算子正則化函數,去除無用特征,產生少量關鍵特征,有利于特征自動選擇,提高算法效率。(4)擁有線性模塊,把原始特征數據作為輸入進行線性回歸,使得模型具有更強的記憶與泛化學習能力,有利于模型在鐵路貨物運輸時間預測的推廣與應用。
通過實驗表明,xDeepFM 預測模型既能兼顧低階和高階特征交互,又能兼顧顯式和隱式特征交互,同時也具備記憶與泛化的學習能力,對受復雜交叉因素影響的鐵路貨物運輸時間預測具有不錯的預測準確度。
為了研究本文建立的xDeepFM 模型的預測性能,在訓練集和測試集相同的條件下,本文使用最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)模型、隨機森林模型、DNN 模型、卷積神經網絡(Convolutional Neural Networks,CNN)模型和LSTM 模型對鐵路貨運時間進行預測。選取樣本編號400 到500 的預測結果進行可視化,五種比較模型和xDeepFM 模型預測效果對比結果如圖4所示。

圖4 不同模型預測效果圖
總體而言,xDeepFM 模型預測的運輸時間與實際運輸時間基本相符,擬合效果好。其優越性能更體現在復雜貨運情況中,如圖5 所示,當貨運作業環節多、干擾多、運輸時間較長時,對比模型并不能較好地考慮影響因素的交互,導致預測效果不佳,而xDeepFM 模型,在引入學習高維特征交互的能力后,能夠對復雜特殊情況做到一個較好的預測。實驗表明,xDeepFM 模型預測精度更高、魯棒性更好、對隱式特征提取能力更強,并能顯式呈現特征交互,因此更適用于解決該問題。

圖5 預測效果放大圖
MSE 和RMSE 度量預測值與真實值的偏差,MAPE和MAE度量預測誤差相對于真實值精度的指標,能夠評價模型的預測精確度。通過表2可以發現,xDeepFM 預測模型的預測效果不僅明顯優于LSSVM 模型、隨機森林模型此類經典模型,而且與DNN 模型、CNN 模型以及LSTM 模型這些新穎的深度學習模型相比,也顯示出其優越的預測性能。

表2 模型性能指標對比
xDeepFM 預測模型具有其獨特的優點:(1)它可以學習高階和低階、顯式和隱式的特征交互。(2)表達能力強,精度高,可以發掘出向量級的交互特征。(3)在向量級而不是元素級發生特征交互。但xDeepFM 預測模型也有其不可忽視的缺點,其訓練速度相對較慢,難以在幾秒之內迅速得到較好的預測結果。實驗結果表明,本文所建的xDeepFM模型具有更好的預測性能。
本文改進了多應用在廣告點擊率預測[18]的推薦系統模型,將CIN 和DNN 合并融合,兼顧低階、高階特征和顯式、隱式特征,構建了一種基于xDeepFM 的鐵路貨物運輸時間預測模型。本文所建的xDeepFM 模型預測精確度高,和LSTM 模型相比,本文模型的MSE 提升了31.1%,MAPE 提升了60.3%,且實際案例分析表明所建的xDeepFM模型可以適用于具有多種影響因素、不同因素耦合影響的復雜預測場景,在鐵路貨物運輸時間預測方面有較大的優勢和發展前景。