






摘 要:在高鐵大數據時代,基于海量出行數據對旅客選擇行為進行精準建模與預測,不僅可為產品設計提供支持,還可進行差異化運力調整,意義重大。本文融合前沿深度學習技術,聚焦北京滬線的工作日OD票務數據,考量旅客進行選擇決策時各類屬性(到達-出發站,到達-出發時間等)的綜合影響,構建用戶偏好模型,通過挖掘屬性間的復雜關聯模式,對乘客選擇行為進行準確歸納與模擬。研究表明,與傳統模型相比,該方法可以顯著提升選擇預測精度。
關鍵詞:出行選擇行為分析;深度學習;客票數據;京滬高鐵
中圖分類號:U 293" " " " " " 文獻標志碼:A
分析高鐵旅客出行選擇行為對高鐵產品設計和運輸組織至關重要。相關研究主要有2類,即基于調查(RP/SP)數據的分解模型和基于客票大數據的聚合模型[1]。張航等[2]利用京滬高鐵旅客出行RP調查數據構建了旅客出行計劃的MNL模型。陳凱[3]建立高鐵公司收入最大化的分時定價模型,并利用遺傳算法進行求解,增加了高鐵運營企業的客運收益。羅鈞韶[4]利用空間匹配算法挖掘車輛出行軌跡,分析乘客出行分布特征等,并將其應用于城市交通規劃。隨著大數據處理技術發展,馬書紅等[5]將旅客屬性、心理感知和選擇行為進行了融合,構建了基于出行鏈的混合選擇模型。黃欣等[6]提出旅客行程服務記錄(PSR)概念,設計了鐵路電子客票技術方案。強麗霞等[7]基于離散選擇框架,建立描述旅客選擇行為的模型,闡明了出行分析的回歸方法。崔愿等[8]發揮不同數據源的比較優勢,構建覆蓋多運輸方式、旅客流總量和過境比例分析模型。
本文以京滬虹橋高鐵平時的車票數據為基礎,將車票數據的屬性作為深度學習模型的映射特征,研究旅客對不同類型列車的偏好,為運用大數據支撐智能決策奠定基礎。
1 高鐵旅客選擇的影響因素分析
旅客出行選擇的影響因素主要有2個方面,即旅客社會經濟特征和列車特征。有學者將影響因素分為旅客主因素、列車特性和隨機因素,研究了鐵路旅客的選擇行為,包括到發站、到發站的GDP(萬億元/年)、到發時間、車票票價、乘車時間和座次。此外,列車運力約束和鐵路售票策略也會對旅客的實際選擇行為產生一定影響。從車票數據中可以反映出許多信息。1)OD里程。2)座位容量。座位容量與票務銷售策略有關,列車運力越大,選擇乘客的可能性就越大。3)負載系數。負載系數反映了列車張力和列車運力,列車的載客率越高,列車運力越緊張,乘客可選擇的自由度越小。4)原點站系數。起源站的車票較多,車票較容易購買,旅客也有較充裕的上車時間和較好的列車環境。5)服務頻率。服務頻率是一天內相同OD可服務的列車數量,服務頻率越高,乘客的選擇性自由度越高。6)總人次。總人次反映了旅客對車票的競爭程度。乘客總數越大,競爭越激烈,乘客選擇的自由度就越小。
2 基于深度學習的模型概述
2.1 模型概述
深度學習是一種從數據中學習表示的新方法,強調從連續層學習,這些連續層對應越來越有意義的表示。深度學習模型的基礎是感知器,感知器接收來自n個其他感知器Xn的輸入信號。這些輸入信號通過加權連接Wn傳輸。將感知器接收到的輸入值與感知器的偏置bn進行比較,再通過激活函數σ(z)輸出感知器結果。它一般有3層或3層以上的神經網絡,包括一層輸入、一層輸出和幾個中間層。神經網絡各層的輸出為σ(WnXn+bn)。
目前,深度學習網絡模型主要分為密集前饋網絡模型、卷積網絡模型和遞歸網絡模型。由于本文中的數據沒有考慮時間,并且數據間沒有序列關系,因此采用前饋網絡模型。深度學習的前饋網絡模型可以通過一系列簡單的數據轉換(層)并由一系列輸入特征映射到目標。
本文采用的深度學習前饋網絡與上層、下層完全連接,產生的信號向前傳輸,反饋誤差信號向后傳輸。將計算出的損失函數的輸出值作為反饋信號,并對權重和偏置進行微調以減小損失值,直到達到最小損失,從而得到訓練好的網絡。此調整由優化器完成。
2.2 模型構建
數據處理完成后,將京滬高鐵客票數據的屬性作為深度學習全連網絡的輸入特征。通過一系列圖層變換,最終映射到選擇不同列車的人數,得出不同列車的乘客選擇概率。建立深度學習網絡模型的步驟如下。
2.2.1 數據處理
數值和文本數據被處理為適合模型輸入的張量類型。將列車到達時間-出發時間作為0~1440的分鐘數進行處理,并將距離系數擴大100倍,以方便處理,文本數據通過one-hot編碼進行處理。在本文中,到達和出發站、座位類型以及是否為始發站均通過one-hot編碼進行處理。最后,對每個特征進行標準化處理,即減去輸入數據的每個特征(輸入矩陣的列)的平均值,將其除以標準偏差,并使特征的平均值為0,標準差為1。
2.2.2 損失函數
在本文中,損失函數為MAE(平均絕對誤差),計算過程如公式(1)所示。
(1)
式中:yi為預測選定列車旅客數;xi為實際選定列車旅客數;n為樣本數據的大小。
2.2.3 模型超參數調整
模型超參數包括網絡層數、每個中間層的節點數以及優化器。深度學習網絡模型包括輸入層、輸出層和若干中間層。為了獲得最適合模型數據的網絡層,選擇相對較少的層(3層)。在本文中,數據經過一次one-hot編碼處理后具有64維。因此,選擇的中間點必須>64,以更好地表示數據形成的三維空間,并根據平均損耗逐步調整具有不同節點數的網絡層中間層,直至平均損耗無明顯變化,最終實現中間節點數的最優組合為256-128-64-1。不同網絡層的平均最小預測損耗值如圖1所示。
從圖1可以看出,隨著中間網絡層數逐漸增加,模型預測的平均最小損耗值逐漸變小,而模型的中間網絡層數>7,預測結果沒有明顯改善,因此模型最終選擇了7個中間層的組合。目前,Adam優化器、隨機梯度下降(SGD)和RMSprop算法是深度學習模型中的常用算法。根據不同優化器下的損失,選擇最合適的模型數據的優化器。通常,RMSprop比SGD具有更好的優化效果,而Adam獲得的損失值較小,因此本文將Adam作為該模型的優化器。本文共有5617個訓練樣本。為了盡快獲得最佳質量和偏差并加快訓練效率,批量大小選擇128。
調試后選擇的深度學習模型的超參數結構如下:一層輸入,7個中間層,一層輸出;每一層的節點分別為輸入層-256-128-64-1(輸出層);優化器是Adam;激活函數選擇通常用于機器學習的Relu函數。深度學習開發環境為TensorFlow 2.0 PyCharm。
2.3 參數設置
本文模型中共有5個參數,包括輸入序列的時間步長T、預測序列的時間步長T'、高鐵站附近的距離閾值D、空間子網的多頭注意機制數量K以及時間子網的隱藏狀態維數M。設T=18,T'=6,即利用過去3h內多個車站的客流量來預測一個高鐵站未來1h內的客流量。將一個高鐵站的距離閾值設定為1000m,即預測某一地點的車站未來客流量時,考慮1000m內的高鐵站客流對該車站未來客流量的影響。多頭注意機制的數量K和時間子網的隱藏狀態維數M均設置為16。
3 案例分析
將2019年4月某周二京滬高鐵線路的OD客票數據作為訓練數據。原因是這段時間列車運力充裕,對乘客限制較少,因此可以盡可能選擇自己滿意的列車。樣本數為5617。將2019年5月的周二作為預測數據,樣本總數為5373。為了減少個人主觀選擇的偶然性帶來的誤差,對于4月3個周二(20190410、20190417和20190424),以選擇不同列車的平均乘客數作為訓練數據的目標;對于五一假期后的3個周二(20190508、20190515和20190522),選取平均人數作為預測目標,剔除人數較少(一般<10)的OD,以減少隨機誤差。部分原始票證數據見表1,數據包括日期、列車、始發站、始發時間到達站、到達時間、里數、座位類型、旅客和票價等。為了更好地分析旅客出行行為,對數據進行擴充和優化,增加服務頻次、始發站以及達站GDP等數據,處理后的數據見表2。
由于同一地區的旅客具有相似的選擇特征,為了更好地進行分類,利用模糊聚類分析方法,根據到發交通流量、車站節點的位置、經濟水平以及人口水平,將京滬高鐵線路的站級劃分為4個等級。分類結果見表3。
根據客票數據,可以從深度學習網絡模型中獲得京滬高鐵不同ODs不同列車的實際選擇概率,并與擬合結果進行比較,總體擬合效果良好。以北京南-上海虹橋為例,實際乘客選擇與擬合結果的比較如圖2所示。可以看出,深度學習模型在預測上海虹橋到北京南的乘客選擇概率方面具有很好的擬合精度。不同節點的不同OD的選擇精度數據見表4。
由于頭等艙節點通常是相對較大的綜合樞紐節點,客流量較多,乘客的出行選擇行為非常復雜,并涉及大量影響因素。因此,第一級節點的OD與其他節點間的擬合效果不理想。對于這種類型的OD,在后續的研究中將進一步增加映射特征維度,并增加票數據量,以提高擬合精確度。
4 結論
鑒于獨特的模式識別能力和數據規則提取能力,深度學習模型在大量數據的支持下不需要領域知識,越來越多的非參數機器被用于新興的行為選擇研究。本文采用深度學習網絡模型對京滬高鐵市場進行了分析,將車票數據的屬性作為深度學習模型的特征向量,映射出不同類型列車的高鐵旅客選擇概率。結果表明,深度學習模型可以較好地預測設計指標。本文僅對周二的門票數據進行分析,數據量有限。后續研究可以通過增加特征向量來提高預測精度,并增加數據訓練量。
參考文獻
[1]曹堉,王成,王鑫,等.基于時空節點選擇和深度學習的城市道路短時交通流預測[J].計算機應用,2020,40(5):1488-1493.
[2]張航,趙鵬,喬珂,等.高速鐵路旅客出行時間選擇Logit模型與分析[J].鐵道運輸與經濟,2017,39(1):55-60.
[3]陳凱.基于旅客出行方式選擇的高速鐵路客運分時定價方案研究[J].鐵路計算機應用,2022,31(9):57-62.
[4]羅鈞韶,潘嘉杰.基于GPS數據挖掘的出租車出行特征分析[J].交通與運輸,2020,33(增刊2):49-54.
[5]馬書紅,李陽,岳敏.考慮出行鏈的城際旅客換乘選擇行為研究[J].北京交通大學學報,2020,44(6):74-81.
[6]黃欣,張志強,單杏花,等.基于電子客票的鐵路旅客智能出行研究[J].中國鐵路,2019(11):1-6.
[7]強麗霞.基于客票數據的高速鐵路旅客出行選擇行為研究[J].鐵道運輸與經濟,2018,40(4):52-57.
[8]崔愿,陳璟,李可等.基于多源數據的區域綜合運輸通道旅客出行特征研究[J].公路交通科技,2023,40(1):252-260.
通信作者:劉睿(1993-),甘肅蘭州人,工程師,研究方向為電力能源、城市軌道交通運輸工程。
電子郵箱:3382300395@qq.com。