孔德越,程 默,顏 穎,呂曉艷
(1.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081;2.中國國家鐵路集團有限公司 客運部,北京 100844)
隨著我國鐵路客運市場化改革程度不斷加深,傳統面向客運市場的整車、整區間的宏觀客流特征分析方法逐漸無法滿足管理部門精準營銷、精細化管理的現實需要。對于新時代高度市場化的鐵路客運,要做好針對性服務營銷與個性化產品設計,就需要有意識地根據旅客出行目的進行客流成分結構劃分,精準把握不同客流的共性出行需求。但目前對不同旅客群體出行行為特征及客流結構的研究仍屬空白,不同出行目的旅客的獨特出行特征和實際需求被湮沒在宏觀市場呈現的表象之中。這造成鐵路客運管理時,各旅客群體的出行需求沒有得到足夠關注,更導致鐵路客運產品不能更好滿足旅客需求的問題日益凸顯,構建合乎實際的鐵路旅客全年出行特征分析體系迫在眉睫。
目前,國內外相關研究均缺乏對不同客流結構年度出行特征的深入分類分析。國內對旅客行為特征的研究主要停留在畫像層面,即總結提煉旅客出行偏好,形成旅客標簽,并將其應用于客流預測或產品改進,如文獻[1-7]基于旅客出行選擇偏好,分別從不同層面提煉出旅客需求,針對性制定營銷方案策略。在國外,相關研究如文獻[8-10],主要根據旅客出行需求的不同,或構建數學模型或基于機器學習算法,研究列車能力安排、旅客換乘選擇、客流發生預測等具體運營問題。總之,既有的旅客出行偏好研究雖是對旅客行為特征研究的良好探索,但常用的分析方法還停留在歸納與總結層面,對旅客出行需求的挖掘不夠深入。對鐵路客運管理來說,旅客出行偏好的提取結果是旅客選用鐵路客運產品的必要不充分要素,因此實踐中往往難以準確了解旅客出行動機并預判旅客需求。
旅客在某個時間段內的1 個往返行程可抽象為1 個行程環,按日期順序排列的一系列行程環可抽象為1個出行鏈,鏈上相應匯集空間、時間、活動類型及出行方式等信息。以單一出行鏈為研究對象,按旅客在空間和時間上的出行順序梳理行程特征,從而更深入地分析旅客出行習慣偏好與路徑選擇。當前,關于城市出行鏈的研究主要集中于一次出行中不同交通方式的出行選擇及換乘行為上,如文獻[11-13]。而鐵路出行鏈研究,則更側重于通過一段時間內旅客的出行頻次、目的地等特征分析出行習慣,推斷出行動機與目的。然而,如果要開展更深程度地旅客行為特征屬性挖掘,則有必要系統、全面、成體系地通過特定分析手段進行深入分析,以便相關決策部門能夠準確判斷客流結構成分并理解其具體需求,從而更加準確、及時地調整運力,改進產品。
傳統技術手段著重于宏觀客流規律的總結、提煉,在大數據全樣本下的客流結構劃分與出行特征分析問題中顯得力不從心。在此背景下,首次提出基于鐵路旅客常住地與行程環的旅客群體年度出行特征分析體系,包括旅客常住地識別、行程環劃分、行程環與出行鏈的拓撲結構構建。先通過隨機森林算法,識別旅客群體的唯一常住地;再構建基于常住地特征的改進DBSCAN基本元聚類模型,用于劃分旅客行程環;然后,分類圖形化展示行程環和出行鏈,得到兩者的拓撲結構,用于分析旅客全年出行規律。通過構建基于旅客常住地與行程環的鐵路旅客年度出行特征分析體系,以期充分利用出行信息挖掘旅客需求,為相關管理部門提供決策支持。
分析旅客年度出行特征時,常住地與行程環是最重要的構建單位,是挖掘旅客行為特征的分析基礎。其中:常住地指旅客在1年中停留時間最長的城市,是旅客鐵路出行主要的出發地與目的地;行程環指旅客從離開常住地至返回常住地的一次出行中所有鐵路行程的集合,是分析旅客出行目的的基本單位。
建立旅客年度出行特征分析體系,首先要基于鐵路出行大數據構建數據集并訓練機器學習模型,對常住地與行程環進行準確識別和劃分。旅客出行行為受主觀因素影響,具有較強隨機性,為保證數據建模的可靠性與普適性,構建數據集時須以真實、主流的鐵路行程數據為基礎。
選用2019年10 萬份經脫敏處理后的全年鐵路行程數據構建數據集,數據來自線上問卷(12306的APP 及微信公眾號)、線下調研(車站和車廂)等渠道,并采用人工分析及問卷獲取的方式標記數據集中的常住地與行程環。
構建常住地識別與行程環劃分模型時采用交叉驗證法,取數據集中的8萬份數據作為訓練集,用于模型參數訓練;另2 萬份數據作為測試集,用于模型精度驗證。
旅客出行行為隨機,不同個體出行習慣差異較大。為提高模型使用和運算效率,需要排除少數極端情況,使模型對主要旅客群體有效。故建立分析體系時,對旅客年度出行特征進行以下合理化假設,從而圈定主要研究范圍。
1)假設1:旅客在1年中有且只有1個常住地
絕大多數旅客僅圍繞唯一城市往返出行,這個城市就是他們的主要居住城市,即常住地;小部分旅客會在多城市有居住點(如異地求學的學生、在多子女家中輪換居住的老人等),則認為其在1年中實際停留時間最長的城市是唯一主要常住地。
2)假設2:旅客行程環全部為閉環,且起止城市為常住地
如果數據集中出現鐵路行程停留在非常住地的情況,則認為當前行程或尚未完成,會在未來某時刻會返回常住地;或已經完成,屬于采取其他交通方式返回的單邊行程。
3)假設3:旅客抵達常住地時,如果未銜接常住地的同城換乘出行,則當前行程環結束
旅客抵達常住地后即回家休整,結束當前行程。如果旅客抵達常住地后短時間內進行同城換乘出行,則認為旅客換乘后抵達常住地;如果旅客抵達常住地后短時間內又從常住地出發至其他城市,則認為其開始了1個新行程。
4)假設4:旅客在常住地有鐵路出行記錄
識別旅客常住地時需參照其鐵路出行行為。如果旅客在常住地未發生鐵路出行,難以通過既有鐵路出行數據判斷其真實常住地點,則認為鐵路出行時首選車站所在的城市是其常住地。
基于行程特征數據構建模型時,需要從數據集中旅客的全年所有到發城市中分析、推斷出鐵路行程中圍繞的主要核心城市,這即是旅客常住地識別。經過數據訓練并優化后的模型,能夠根據全年所有行程的出行順序、出行時期、出行次數、停留時長、與籍貫地相關性等一系列要素特征,判斷出旅客在某年度的唯一常住地。
根據假設4,旅客在常住地有鐵路出行記錄,因此常住地需要在歷史到發城市中篩選、判斷得出。而常住地的候選城市,是旅客具有較高出行傾向特征的主要核心城市,通常具有以下一系列特征:停留時長最久、到發次數最頻繁、與籍貫地相關、是全年第1 次出行的出發點或最后1 次出行的到達點、是節假日出行的起止點以及持特殊票種出行等。根據常住地具備的主要特征,篩選出以下6類常住地候選城市。
1)時長地
時長地指旅客1年內停留時間最長的城市,主要屬性包括旅客在該市的停留時長和停留期間的日期屬性。當鐵路行程連貫時,任意城市的停留時長可根據相鄰2 次行程的出行日期差計算得出;旅客在某市的停留時間越長,將其作為常住地的可能性就越高。旅客總傾向于在節假日期間外出旅游或探親,此時經停的城市大概率不是常住地,因此通過在某市的非節假日停留時長,能夠輔助判斷該市是否為旅客的常住地,即:當旅客在2個城市的總停留時間相同時,可進一步使用日期屬性判斷其常住地。
2)次數地
次數地指旅客1年中到發次數最多的城市,主要屬性為旅客經由該市的出行次數,即行程中在某市的乘車出發次數與到達次數之和,此時換乘行為(在該市停留時間不超過4 h且不屬于往返出行)的到發次數不計入其中。當兩地距離過近且旅客在兩地均有鐵路出行、但沒有兩地間行程時,考慮旅客可能居住在兩市之間,會根據出行、換乘的便捷度自行選擇出發地點,這種情況下,計算次數地時考慮將兩地出行次數合并,計入兩地中到發次數更多的城市。
3)首末地
首末地指旅客1年中首次出行的出發城市(首發地)及末次出行的到達城市(末達地)。旅客全年僅出行1次時,旅客的首末地分別是該行程上的出發車站所在城市和到達車站所在城市。全年內首次出行前,旅客在首發地的停留時長與末次出行后在末達地的停留時長決定了模型中首末地的權重大小,停留時間越長,首末地對應的權重越大。
4)籍貫地
籍貫地多為本人出生時祖父居住地、父親籍貫地或本人出生地。截至2019年底,我國流動人口占比僅16.9%[14],多數旅客的常住城市仍是其籍貫城市。
5)節假日首末地
旅客在節假日中的行程通常連貫、完整,因此節假日行程環的首、末地具有較高參考價值。但由于出行時可能拼假,因此確認節假日首末地時還須進行如下特殊處理:①充分考慮拼假可能,拉長數據觀察范圍;②根據行程連貫性,過濾節假日行程途徑地;③根據停留時長,剔除換乘城市。
6)學生旅客的學校所在地
1年之內,學生旅客在學校停留時間相對更長,因此以學校所在地標識學生旅客的常住地。特別地,根據《鐵路旅客運輸規程》,學生票優惠區間為家庭至院校,因此學生旅客購買學生票出行時,常住地可根據出行區間精準識別。
常住地識別問題的本質是基于全年復雜出行特征的分類問題。考慮到模型數據集具有數據量大、數據屬性多、屬性間有相關性、數據項存在空值的特點,且模型輸出結果應有較高的可解釋性,相較其他分類模型方法(如支持向量機、近鄰算法以及樸素貝葉斯模型等),決策樹方法的求解效果更優。該方法屬于白盒模型,其建模結果不僅能夠很好地還原到旅客的出行行為特征上,而且對大數據量、多維數據集的建模效率較高。
考慮到異常值和過擬合對單一決策樹建模效果的影響,選用多決策樹方法來構建常住地識別模型,即隨機森林算法。隨機森林算法具有準確率高、運算效率高、結果易解釋的特點,在圖像處理、特征分析、行為識別等諸多領域均有良好的應用實例[15-16]。
基于隨機森林算法的常住地識別模型(簡稱為“隨機森林模型”)構建主要分為5步,如圖1所示。首先,在構建初始數據集后,對其進行數據預處理并將其分為訓練集和測試集;其次,通過可放回地抽樣,選取訓練集中部分樣本和特征,構建多個不同的子數據集;然后,針對每個子數據集分別采用ID3 算法訓練決策樹,形成隨機森林;接著,采用測試集對模型進行交叉驗證,計算當前森林的計算率;最后,不斷調整隨機森林的主要參數(樹的棵數、葉子節點最小記錄數等),進一步提高算法效率。隨機森林算法是較為成熟的算法,具體建模過程不做贅述。經反復測試,常住地識別建模過程中當決策樹的棵數取100 棵、葉子節點最小記錄數取500時,模型的分類效果最佳。

圖1 常住地判斷算法建模過程
常住地識別模型建成后,翻譯模型中每棵決策樹獨立決策流程的對應規則,篩選整理所有決策樹均采用的共性規則,并按屬性權重與決策順序進行排序,形成常住地識別的整體規則流程,梳理結果如圖2所示。

圖2 隨機森林算法識別旅客常住地具體流程
從圖2 可以看出:旅客全年出行頻次不同,算法流程也有所不同;當旅客全年僅出行1次時,籍貫地是判斷常住地的重要依據,這與實際情況相符,旅客出行頻次較低,表明旅客出行需求較少,停留在籍貫地的可能性較高;旅客全年出行2 次時,出行的首末地是判斷常住地的重要依據,2 次出行時往返出行的可能性較高,因此首末地大概率相同且為旅客實際常住地;旅客全年出行3次以上時,因有更多行程參考,次數地與時長地就成為權重更高的常住地判斷依據;當旅客在次數地的到發次數、在時長地的停留時長高于某定值時,參考這2項要素后能夠輸出符合預期的常住地識別結果。
以高效劃分并歸集旅客雜亂出行軌跡為目標,對鐵路出行信息進行拓撲抽象,將單一旅客的全年鐵路出行行程中的出發城市與到達城市視為“點”,將出行的單次行程視為“線”,將其中所有行程的拓撲結構視作“面”,按拓撲性質相應定義基本元、斷元、行程環與出行鏈。在此基礎上,為清晰梳理旅客年度出行特征,先根據常住地劃分行程環,再根據旅客年度出行的行程環特征得到全年出行鏈拓撲結構。
1)基本元
基本元指旅客鐵路出行行程中,1 張火車票票面對應的發站—到站單次行程。旅客的1個基本元嚴格對應1張車票行程;鐵路聯程票(多張車票聯程)、空鐵聯程票(鐵路與航空票聯程)、同站或同城換乘均算做多條基本元。
2)斷元
斷元指旅客鐵路出行中出現的不連貫行程間的基本元,此時易出現的2 種情況如圖3 所示。圖中:實心節點(A地)表示旅客常住地;空心節點(B 地和C 地)表示旅客的其他到發城市;實線和虛線箭頭分別表示行程中相應方向的基本元和斷元。由圖3(a)可知:在某次行程中,當旅客上一基本元的到達城市B 與下一基本元的出發城市C不同時,判斷旅客采取其他交通方式產生了從B地至C地的位移,且認為此時旅客在兩地之間有且僅有1條斷元出行。由圖3(b)可知:只有當B 地和C 地均不是旅客常住地,且A—B,C—A 分屬于2個不同行程時,可認為B地和C地之間有可能存在2 條斷元,且均連接常住地;其他情況下,B 地和C 地之間僅可存在1 條斷元,這是因為對于普通的不連貫行程,若B 與C 之間出現2 條斷元,那么這2條斷元之間的非常住地節點將無法被唯一確定。
3)行程環
行程環指旅客目的性的單次出行行程中,所有鐵路基本元和斷元的集合,是由旅客常住地出發、經過一段時間、一系列行程后返回常住地的完整出行閉環,如圖4 所示。旅客行為特征分析體系中,行程環分析是最重要的分析基礎,也是實現客流成分分類及出行目的劃分的基礎分析單位。

圖4 行程環
4)出行鏈
出行鏈指旅客一段時間內所有完整行程環的集合,是旅客在一段時間內所有出行軌跡按日期順序相連形成的完整出行鏈條。出行鏈中的節點即為旅客全年鐵路出行行程中所有到發過的城市;出行鏈中的線段即為基本元或斷元,如圖5所示。因研究時關注年度為單位的旅客出行特征,文中所有出行鏈時間段長度均指1年。

圖5 出行鏈
針對出行鏈和行程環,定義:m為旅客出行鏈中鐵路基本元的總個數;n為旅客出行鏈中的所有完整行程環總個數;Ci為旅客出行鏈中所有行程按日期順序排列后的第i個鐵路行程環,是這1年中旅客第i個目的性行程中所有基本元和斷元的集合,i=1,2,…,n;C為旅客本年度的出行鏈,也是所有完整行程環的集合,C={Ci,i=1,2,…,n};ni為行程環Ci的全部節點個數。
針對基本元和斷元,定義:K 和K'分別為旅客出行鏈中基本元和斷元的總個數;ki和k'i分別為行程環Ci中基本元和斷元的個數;t(a),t(b)分別為按日期順序排列后第a 個和第b 個基本元的乘車日期(采用符合GB/T 7408—2005 的日歷日期基本格式記錄(yyyymmdd)),a,b=1,2,…,m,a
針對行程環中的城市節點,定義:Sscz(xt(a))和Sxcz(xt(a))分別為基本元xt(a)的上車站、下車站所在城市節點;Sscz()和Sxcz()分別為斷元的出發、到達城市節點;Sczd為旅客的常住地;N為出行鏈中全部節點的個數;Nj為出行鏈中某城市節點j的總個數,1,2,…,n};NSczd為出行鏈中常住地節點的個數;ni,j為行程環Ci中某城市節點j的個數。
針對旅客換乘行為,定義:Nhj為出行鏈中旅客在某節點j的換乘總次數,j∈{Sscz(xt(a)),Sxcz(xt(a)),Sczd|?a=1,2,…,n};NhSczd為旅客在常住地節點的換乘次數。
結合概念和定義,可以得出出行鏈具有如下4點性質。
性質1:完整出行鏈開始于常住地、停止于常住地,即

性質2:完整出行鏈中,任意非常住地節點不連接2條斷元,即

性質3:行程環及出行鏈中所有節點個數均等于所有基本元和斷元個數之和加1,即

性質4:出行鏈中常住地節點個數為旅客常住地同城換乘次數與行程環個數和的2倍,即

性質1—性質3 可以根據行程環的定義或基本假設直接得出;性質4中,除同城換乘外旅客抵達常住地后行程環即停止,因此出行鏈中常住地節點個數只與行程環個數和常住地同城換乘次數相關。
行程環劃分問題要依據出行特征對所有基本元進行歸集和識別,將屬于同一次出行的基本元劃分至同一行程環,不同出行行程的基本元劃分至不同行程環,從而實現對全年出行鏈的準確拆分,并對行程環中的不連貫行程進行斷元補充。
定義任意2 個基本元xt(a)與xt(b)間距離為da,b,為保證行程環的劃分結果能夠滿足同一行程環內的基本元距離最小、不同行程環間的基本元距離最大,考慮采用同行程環內基本元距離之和與不同行程環間基本元距離之和的比值,構造目標函數Z為

3.4.1 基礎DBSCAN基本元聚類模型
從行程環劃分問題的描述可知,其屬于機器學習問題中的聚類問題。在行程環識別完成前,由于出行行程個數未知,即聚類簇個數不能作為已知參數代入模型,因此以基于密度的聚類算法DB?SCAN 作為解決該問題的首選。DBSCAN 算法無須預先設定簇數量,具有效率、準確度和魯棒性均較高的特點,已成功應用于多個領域[17-18],十分契合行程環識別問題。
DBSCAN 算法基于數據要素本身的歐式距離或絕對值距離對所有數據進行聚類,已較為成熟,具體建模過程不再贅述。
3.4.2 基于常住地特征的改進DBSCAN 基本元聚類模型
采用常用的歐式距離構建DBSCAN 算法基本元聚類模型(簡稱為“基礎模型”),但其聚類結果無法完全捕捉旅客出行行為的主觀性與隨機性,導致模型精度差強人意,需要改進。為此,引入旅客的常住地屬性及旅客年齡、出行日期、行程特征等一系列要素,深度捕捉旅客出行行為特征,提高模型精度。構建基于常住地特征的改進DBSCAN基本元聚類模型(簡稱為“改進模型”)的具體步驟如下。
1)步驟1:定義距離
基本元與基本元之間的距離計算是構建聚類算法的主要依據,對算法的精度具有重要影響。建模數據集是按出行順序排列的行程記錄集合,因此基本元間出行日期的時間距離可被視為定義距離的首要條件;之后,根據假設2 和假設3,基本元是否途徑常住地是劃分行程環的重要標準,若某基本元途徑常住地,則可定義其與相連的基本元距離極大,從而進一步劃分行程環;此外,基本元的其他相關出行屬性也應作為參數計入距離之中。
因此將距離da,b的定義方式進行如下改進

其中,

式中:I1(·)和I2(·)均為邏輯變量;d0為模型設定的行程環劃分閾值,當da,b 因所有距離項均不取負值,通過設定dp(xt(a),d0以滿足業務上的行程環劃分需求。所有距離不應小于閾值d0,即當出現da,b≥d0時,認為基本元xt(a)與基本元xt(b)不屬于同一簇類、不在同一行程環之內。 對模型進行初始化設定,使X0=?,X,為進入步驟2做好準備。 2)步驟2:準備新行程環Ci并隨機選取初始基本元xt(a) 3)步驟3:將與初始基本元xt(a)屬于相同行程環的基本元歸入Ci 重復式(11)—式(15),直至Xb=?。 4)步驟4:劃分所有基本元 Xb為空后,表明未分類的基本元集合里無基本元可劃入當前行程環Ci,當前行程環Ci包含的基本元劃分完畢。此時若不為空,則繼續重復步驟2—步驟3,直至=?,表明基本元劃分完畢。 5)步驟5:補充所有斷元 (1)補充行程環內部的斷元。若行程環內部斷元出現在同一行程環內相鄰的2 個基本元xt(a),xt(a+1)之間,當上一基本元的下車站與下一基本元的上車站不相同時,在該行程環內補充從xt(a)的下車站城市至xt(a+1)的上車站城市的斷元,即 (2)補充行程環未在常住地結束的斷元。當行程環Ci的最后1 個基本元xt(a)的下車站城市不是常住地時,在該行程環最后補充基本元xt(a)的下車站城市至常住地的斷元即 (3)補充行程環未從常住地開始的斷元。當行程環Ci的首個基本元xt(a)的上車站城市不是常住地時,在該行程環內補充常住地至基本元xt(a)的上車站城市的斷元。根據斷元的上一程分別為無行程(xt(a)為全年首個基本元時)、基本元或斷元,其補充結果有所不同。 當xt(a)為全年首個基本元時,需補充斷元即 6)步驟6:結束 當所有行程環斷元補充完成時,計算結束。 3.4.3 行程環劃分準確度驗證 為驗證對行程環劃分的準確程度,將2019年的2 萬份年度鐵路行程數據作為測試集,分別代入基礎模型和改進模型進行聚類分析并劃分行程環,得到的結果見表1。由表1 可知:以常用的歐式距離為要素進行建模后,基礎DBSCAN 模型的準確率為82.3%,實際應拆分行程的準確率略高于不拆分行程的準確率;引入旅客的常住地并采用通勤、跨節假日、基本元行程不連貫等出行行為特征屬性后,改進模型對行程環的識別準確率大幅提升,達到97.4%;改進模型識別結果中發生第一類錯誤(拒絕正確值)和第二類錯誤(接受錯誤值)的概率相當,不存在顯著偏差。 表1 2種DBSCAN模型的行程劃分情況對比 劃分得到所有旅客的行程環后,便可基于行程環對旅客的宏觀行為特征進行深度分析。為直觀展現旅客行程環狀態、方便分類分析,將行程環按總行程個數分類后進行圖形化展示,形成基本拓撲結構,直觀展現旅客1個完整的行程環。在劃分行程環拓撲結構的基礎上,進一步形成旅客出行鏈拓撲結構,從而實現對旅客全年出行規律的直觀、深入分類分析與總結沉淀。 3.5.1 行程環拓撲 對2019年全部鐵路行程環進行統計,得到的行程環拓撲結構及其占比見表2。表中:行程環包含行程次數統計了所有的基本元和斷元。由表2 可知:常住地的同城或往返行程環占比達75.3%;絕大多數旅客的行程環結構簡單,出行目的地單一,行程環內基本元加斷元不超過4個的行程占比超95%。 表2 旅客行程環拓撲結構 3.5.2 出行鏈拓撲 將旅客全年所有的行程環拓撲進行聚合,合并常住地與常到發目的地,會形成不同的出行鏈拓撲結構。基于不同的出行鏈拓撲狀態,可以對旅客的年度出行特征進行直觀、準確歸類。 雖然旅客的單一行程環結構通常簡單明確,但多數旅客的全年出行鏈為1種或多種不同類型的行程環結合形成。為實現對旅客出行鏈的清晰劃分,按出行鏈中占大多數的行程環結構對出行鏈進行分類,可以形成6類不同的旅客出行鏈拓撲結構,分別將其命名為蒲公英型、宮燈百合型、荷花型、石竹花型、向日葵型以及白子蓮型,如圖6所示。 圖6 常見出行鏈拓撲結構 每類出行鏈具有不同的行為特征,因此可以對應不同類型旅客的出行習慣,有效輔助相關決策部門判斷旅客的出行需求與客流成分,為旅客全年出行規律與行為特征的深度挖掘與探索提供明確的分析框架和基礎。 1)蒲公英型 對于呈現蒲公英型出行特征的旅客(簡稱為“蒲公英型旅客”,后同),全年出行鏈中超過50%的基本元屬于關于常住地的同城或往返行程環,且這些行程環不是針對單一城市出行的。這類旅客群體的工作和生活均圍繞唯一常住地展開,出行有較明顯的規律,多為城市常住人口。 2)宮燈百合型 對于宮燈百合型旅客,全年出行鏈中超過50%的基本元屬于圍繞常住地和另一目的城市(通常為籍貫地)的往返或通勤行程環。這類旅客常在兩地間往返出行,這種出行形式也是我國多數鐵路旅客的典型出行狀態。旅客群體多為學生、離鄉在其他城市工作/通勤的人群、雙城生活的老人等。 3)荷花型 對于荷花型旅客,全年出行鏈中超過50%的基本元屬于“8”字形行程環。這類旅客在常住地停留時間最長,有較多行程環途徑另一城市,或圍繞該城市起止;也很可能短時間內居住于另一城市,并在該城市有較多出行,或者每次出行均需要經過大城市節點進行換乘。旅客群體多為異地長期項目、實習或者培訓的人群。 4)石竹花型 對于石竹花型旅客,全年出行鏈中超過50%的基本元屬于三角形、四邊形或多邊形行程環拓撲。這類旅客的行程環均圍繞常住地起止,但通常每個行程環的目的地不只1個。旅客群體多為常在多地講座的教師、多地出差的職員、多地旅游的旅客等。 5)向日葵型 對于向日葵型旅客,全年出行鏈中超過50%的基本元集中在同一個行程環中,且該行程環有多個目的地,并且持續時間也較長。這類旅客群體全年多數時間在外漂泊,僅在大型節假日或特定時點返回常住地;除常住地外,這類旅客在任意城市不會停留太久時間,出行也較為隨機。旅客群體與石竹花型類似,但出行頻次更高。 6)百子蓮型 對于百子蓮型旅客,全年出行鏈為多種類型行程環的組合,且每類行程環占比均未達到50%。這類旅客的出行不明顯具備某特定鏈型的特征,或在不同時間段內的出行呈現不同的特征。 3.5.3 出行鏈拓撲結構統計 對2019年全年的旅客出行鏈進行分類,各類出行鏈拓撲結構比例如下圖7 所示。由圖7 可知:各類出行鏈中,蒲公英型與宮燈百合型旅客占比最多,合計占比72.4%,表明多數鐵路旅客為單常住地散射狀出行或雙城間頻繁出行;石竹花型旅客占比21.9%,這部分旅客的行程環會途徑多個城市,每次出行目的地不單一或需要較多次換乘;荷花型和向日葵型旅客占比較低,僅存在于小部分特定旅客群中。 圖7 2019年出行鏈拓撲結構占比 基于旅客常住地與行程環構建的年度出行特征分析體系使得許多傳統鐵路客運營銷分析與管理難點問題得到解決,其中最具代表性的1項工作是實現了對鐵路客流成分結構的劃分。 傳統面向宏觀市場的營銷分析手段無法有效識別旅客每次出行的目的,而不同的出行目的,如探親、旅游、出差,旅客在出行時的經濟承受度、時間緊迫度與旅行舒適度需求均不盡相同,并形成了不同的客流結構特征,傳統的綜合性鐵路客運產品往往無法面面俱到地滿足不同成分客流的實際出行需求。 旅客出行鏈拓撲結構為出行目的的識別提供了方法。在旅客出行鏈拓撲結構的基礎上結合常住地、出行習慣、出行時期以及其他重要屬性和要素,將復雜的客流結構識別問題簡化拆分,實現旅客出行目的分類,其基本規則框架見表3。對于其中未涵蓋到的類別,則可以在深入引入其他要素后進一步進行判斷,不在此過多羅列。可以看出,在出行鏈拓撲結構的分類基礎上,不同旅客的行程特征都得到清晰、準確的劃分,使后續相關部門對旅客出行目的的判斷更為準確、高效,并為鐵路客流成分結構劃分提供良好基礎。 表3 旅客出行目的劃分基本規則框架 運用2019年(疫情前)和2020年(疫情后)的全部鐵路行程數據對鐵路客流結構進行劃分,并結合實際經驗,驗證劃分效果及模型在實際業務中的適用性。根據2019—2020年的全部鐵路行程數據對鐵路客流結構進行劃分的結果如下圖8 和圖9所示,可以看出許多顯著的出行規律,與實際經驗相符合。 圖8 2019—2020年鐵路客流成分結構劃分 圖9 2019—2020年不同客流結構占比月波動 (1)2年內的鐵路客流中,公務客流占比最大,其次為探親、旅游客流;對比2019年,2020年公務及探親客流同比提升、旅游客流同比下降,符合疫情影響下的旅客出行需求變化規律。 (2)1年之中,1—2月春運期間的探親客流占比顯著提升,與春節傳統習俗相符;五一假期、十一假期及暑期期間旅游客流占比顯著提升,與旅客出游季節相符;其他時期,尤其是年底期間公務客流占比較高,符合生活經驗。 (3)2020年2—4月疫情較嚴重期間,公務、旅游客流受影響最大,占比顯著下降;剩下的鐵路客流以剛需探親(返程)為主;4月之后,全國疫情不斷反復,旅游客流因此也維持在較低比例。直至“十一”長假,疫情全面好轉,旅客“報復性出游”,旅游客流占比達到40%;5月起公務客流快速回升,并維持在35%~40%左右。 (4)對比不同客流結構在不同時期的占比表現可以發現,疫情對不同類型客流影響程度不同:探親客流出行是“剛需”出行,受疫情影響相對較小;旅游客流最敏感,受疫情影響最大;公務客流受疫情影響后恢復速度最快。 可以看出,基于旅客年度出行鏈拓撲結構的客流結構劃分與實際出行習慣基本相符,能夠較好地反映旅客出行目的。基于不同客流結構所展現的不同特性,可以為管理部門靈活調整運力提供了輔助決策支撐。旅客年度出行特征分析體系的建立,為鐵路管理部門深入了解旅客需求與市場動態提供了良好的分析手段和技術支撐。 除客流結構成分劃分外,基于常住地與行程環的年度出行特征分析體系在許多重要的鐵路客運日常工作中可以起到良好的應用效果。借助旅客的常住地與行程環,可以判斷高峰期旅客的越站乘車風險,從而實現高峰期列車的超員預警,保障列車行車安全;借助旅客常住地的遷移和出行城市的變化,可以對未來不同地區的客流需求量變化進行預測,從而為構建車、時、價相協調的市場化定價機制提供助力,提質增效;通過分析旅客出行習慣的變化,可以對列車折扣票實施效果進行深入評價,為客運管理部門精準施策提供輔助參考。在許多傳統客運營銷手段表現得差強人意的場景中,年度出行特征分析體系能夠為管理部門解決問題提供新角度、新思路,使客運管理部門能夠更加準確、深入地把握旅客需求,從而提升產品服務能力,最大化能力運用效率。 未來,基于年度行為特征分析體系可進一步深入探索挖掘旅客真實出行需求的方法與手段,拓展在客運市場化營銷工作中的潛在應用場景,輔助客運管理部門了解旅客出行習慣,捕捉客運市場變化趨勢,實現面向旅客的客運服務質量升級與個性化客運產品優化。 (1)為研究旅客出行特征規律,提出旅客常住地、行程環、出行鏈拓撲結構等概念,構建能夠全面覆蓋旅客全年出行行為中所有點(到發城市)、線(單次行程)、面(出行鏈拓撲結構)的鐵路旅客群體年度出行特征分析體系。 (2)基于隨機森林算法構建旅客常住地識別模型,經數據訓練并優化后,能夠根據旅客全年行程數據,準確判斷其在該年度的唯一常住地。 (3)在明確出行鏈性質的基礎上,構建基于常住地特征的改進DBSCAN 基本元聚類模型。統計2019年2萬份年度鐵路行程數據,證實改進模型對行程環的識別準確率大幅提升,達到97.4%,且識別結果符合實際工作經驗。 (4)根據2019年旅客鐵路行程數據,得到旅客行程環與出行鏈的拓撲結構,結合工作經驗可知拓撲結構及占比均符合實際工作經驗,能夠將旅客雜亂的出行軌跡高效劃分與歸集。從行程環來看,當年常住地的同城或往返行程環占比達75.3%;絕大多數旅客的出行目的地單一,超95%的旅客鐵路年內出行次數不超過4次;從出行鏈來看,當年多數鐵路旅客為單常住地散射狀出行或雙城間頻繁出行,占比72.4%。 (5) 利用旅客年度出行特征分析體系分析2019~2020年全部鐵路行程數據,證實這一體系得到的客流結構劃分結果與實際出行習慣基本相符,能夠將傳統復雜的客流結構識別問題簡化拆分,對旅客出行目的進行判斷和識別。該分析體系可為相關管理部門挖掘旅客出行需求、靈活調整運力提供輔助決策支撐。







3.5 行程環與出行鏈拓撲結構



4 模型結果應用
4.1 鐵路客流成分結構劃分

4.2 實例分析


4.3 應用拓展及展望
5 結 論