文/席磊 陳恒 范陽明 李耀(甘肅省科學院自動化研究所;蘭州金誠視頻技術有限公司)
以鐵路為例,隨著我國鐵路建設大潮以及高鐵網絡的成型,使得我國鐵路旅客的運行能力得到極大釋放,同時高鐵所具有的高密度、高速度、安全性、舒適性和準時性使其成為鐵路旅客的主流出行方式。根據近年中國國家鐵路集團有限公司召開的工作會議,會議明確了鐵路工作的總體思路要堅持以供給側結構性改革為主線,深入實施客運提質計劃和復興號品牌戰略,實現鐵路高質量發展。高鐵客流作為高鐵客運的基礎,也是服務對象,高鐵的客流分析統計系統極其重要且極具意義。高鐵客流的快速增長給高鐵發展帶來新契機的同時,也對現有的高鐵運營狀況提出了更高的要求。高鐵客流組織的理念需從運能緊張的供給需求向需求驅動轉變,客流的組織方式也需從以前“粗放型”向現在的“精細化”轉變。而大數據分析、人工智能、網絡通信等技術的飛速發展和成熟應用,也給新環境、新目標下的高速鐵路客流分析統計系統研究提供了可行性。
我國經濟的飛速發展和日益增長的旅客出行需求帶來了大規模的高速鐵路客流,而高速鐵路客流是高速鐵路運營最重要的基礎和依據。與此同時,高速鐵路旅客出行需求的數據爆倉,傳統的客流分析技術已無法滿足高鐵成網下的多樣化、非常規以及時空變化的旅客出行需求。現階段,大數據背景下的高速鐵路客流分析統計是一個迫切需要研究的課題。
隨著高速鐵路客流信息的多源采集,高速鐵路客流數據規模逐漸龐大。基于大數據技術的客流分析能夠更科學、更全面、更合理地把握高速鐵路客流的成長規律、分布規律以及出行規律,可以突破數據瓶頸,建立以需求為導向的客運產品設計,形成精細化的高速鐵路客流組織,促進高速鐵路客運資源的高效利用,提高高速鐵路客運服務質量和經濟效益,更好地滿足高鐵旅客的出行需求。
在大數據的鐵路運營管理方面,法國設有鐵路運輸營銷機構,通過整合網絡售票信息和旅客問卷調查能掌握大量的鐵路客流數據,為鐵路市場開發和客運運營設計提供數據支撐。日本鐵路運輸的信息化程度較高,大數據技術在鐵路運輸行業已得到廣泛應用,如其在鐵路貨運開發的鐵路列車貨物運輸GIS系統,能為鐵路貨運提供高效分析和有益決策。德國鐵路股份有限公司通過規劃建設統一的數據中心平臺,實現鐵路的分析與預測、決策與管理等。俄羅斯設立了鐵道部門計算中心,通過全路聯網構建大型數據信息倉庫,研究旅客選擇趨勢和客運結構,實現對客運信息資源的實時把握和管理。
(2)相比于國外的鐵路運營管理大數據研究,國內大數據技術的發展和應用起步都比較晚。自20世紀初大數據作為一種新興技術掀起了全球思維變革的浪潮,我國對大數據技術也給予了極大重視和期待。2017年是鐵路大數據的全面開局之年,指明了鐵路大數據的工作方向,也為鐵路大數據應用奠定了技術基礎。在大數據鐵路應用研究的宏觀層面,代明睿等針對我國鐵路應用大數據技術的發展方向,從開展客戶關系管理、加強市場分析預測、發展鐵路現代物流等多個方面,探討鐵路應用大數據技術的發展方向,提出鐵路應用大數據技術的發展策略。在大數據鐵路應用研究的微觀層面,崔世卿等基于大數據的鐵路旅客服務設備狀態監測系統進行研究,實現對旅客服務設備全生命周期的信息管理、設備故障預警及告警和設備檢修方案智能輔助決策等功能。
(1)國外鐵路技術的發展比國內的要早,鐵路運營時間較長,同時在鐵路客流分析這方面也做了不少研究。他們指出,隨著現代化信息技術發展,基于大數據、人工智能的客流分析是大趨勢。在鐵路客流分析研究方面,以韓國高速鐵路為研究對象得出了運輸服務質量對旅客出行行為有很大影響;基于協方差分析和回歸分析研究了列車車門寬度對韓國城鐵客流時間的影響;東京都市圈城市軌道交通客流分配模型。
(2)國內的鐵路客流研究分析可以分為定性分析和定量分析。鐵路客流的定性分析是指根據已有的歷史資料和研究成果,通過訪問、查閱文獻等,結合研究者本身的工作經驗和分析能力,再綜合考慮多方意見,對客流構成、特點、趨勢、分布以及規律所做的研究,此分析法古老且較為主觀,對于現今的鐵路客流分析研究意義不大。鐵路客流的定量分析是根據客流的歷史數據,基于數據統計分析、大數據技術分析、人工智能等各種方法,對客流數據進行統計分析、歸納總結、數據挖掘等,旨在分析客流結構、客流分布、客流時空特征、客流成長規律趨勢及演變機理、客流與運輸組織間的匹配度等。在現有的鐵路客流分析研究中,鐵路客流的定量分析已成為主流。
基于數據挖掘Apriori算法對高鐵客票數據進行先驗分析,提取數據挖掘產生的旅客出行關聯規則,總結、歸納得到旅客出行行為、客流時空特征以及票額分配狀態等客流分析內容。
高鐵旅客出行是指旅客乘坐高鐵從出發地到目的地的一次出行,包括但不限于購票方式選擇、車次選擇、席別選擇、時空出行選擇以及提前購票時間等旅客出行行為。旅客出行先驗分析是基于數據挖掘Apriori算法對客票數據中旅客出行信息的關聯分析,目的是通過先驗分析發掘潛在的、不易被發現的旅客出行行為關聯。現以京廣高鐵為例:京廣高鐵2020年11月23日(周一)至2020年11月29日(周日)一周的上下行本線列車的客票數據,先經數據預處理,再基于Apriori算法分析旅客出行關聯規則,對關聯規則進行提取、總結歸納后可為客流分析提供方向,能最大限度挖掘客票數據中旅客的出行信息。
根據數據挖掘Apriori算法產生的旅客出行行為關聯規則,旅客出行行為關聯分析可以從旅客提前購票時間與平日周末、購票方式與提前購票時間、發車時段與旅行時間等角度分析。通過對旅客出行行為的關聯分析,可以更好地把握客流出行規律、更好地滿足各類型旅客的出行需求,更加科學合理地指導高鐵客運產品的設計、調整。在京廣高鐵客票數據中,旅客購票方式有窗口購票、代售點購票、電話購票、互聯網購票、手機購票以及自售機購票,各購票方式的占比如表1所示:

表1 旅客購票方式占比
從表1可知,手機購票的高鐵旅客比例最高,其次是窗口、代售點、互聯網、自售機,電話購票的旅客占比極少。在旅客出行行為中,旅客的出行習慣不同其提前購票時間也不一,而不同購票方式的便捷程度也會影響旅客的提前購票時間。
高速鐵路客流從高速鐵路建成通車到往后的各個時期都是在不斷發生變化的,而在一定時期內高速鐵路客流會逐漸趨于穩定。通過客票數據分析高速鐵路客流在時間、空間上的分布特性,可以得到一定規律,從而可以根據高速鐵路旅客的出行需求每日動態調整列車運行方案,實施“一日一圖”,精準匹配運力投放與客流需求。客流時間特征分析是通過對某一地區一定時期內高鐵客票數據進行分析而得到其在不同時間粒度(時段客流、日客流、周客流、年客流等)、特殊時間節點的不同分布特征。客流空間特征分析是由于高鐵沿線地區經濟發展狀況、人口數量、城市功能定位等因素造成旅客出行需求不同,在不同空間呈現不同的客流分布規律。高鐵客流的空間分布特征可以從客流流向、站點客流、區段客流、客流運距等來進行分析。
本文總結了國內外的高速鐵路客流分析現狀,針對現有研究不足,提出了基于大數據分析的高速鐵路客流研究;接著論述了數據挖掘等大數據分析技術,并詳細介紹了數據挖掘Apriori算法原理;然后針對本文基于客票數據和客座率數據的高速鐵路客流分析闡述了其基礎理論;再對基于Apriori算法的客票數據分析得到的旅客出行行為、客流時空特征逐一分析,并對分析結果給出了優化建議。通過研究可知,隨著我國高速鐵路的飛速發展,高速鐵路客流的數據膨脹,傳統的客流分析已無法滿足市場化下的高鐵旅客出行需求,而大數據技術的發展與應用也為高速鐵路客流分析帶來了新的契機。本文認為,客流分析統計系統離不開大數據技術的支持,只有不斷加大大數據技術的投入,才能滿足人們日益增長的出行需求。