李得偉 張天宇 周瑋騰 尹浩東
(北京交通大學交通運輸學院 北京 100044)
?
軌道交通大數據運用現狀及發展趨勢研究
李得偉 張天宇 周瑋騰 尹浩東
(北京交通大學交通運輸學院 北京 100044)
為了確保大數據在軌道交通領域規范運用、良性發展,在總結大數據基本概念的基礎上,系統梳理軌道交通行業內大數據的基本特點、數據類型、主要內容、處理流程及關鍵技術,并選擇其中的某個典型專業,總結軌道交通大數據在統計分析、應急輔助決策、乘客出行誘導、客流預測和調度管理等方面的運用現狀。最后,闡述大數據在軌道交通應用方面的挑戰,從軌道交通數據系統內部和外部兩個方面提出軌道交通大數據應用的發展趨勢。 關鍵詞 軌道交通;大數據;運用;發展趨勢
進入21世紀以來,隨著信息、傳感和移動互聯網技術的快速發展,社會各個領域數據呈現爆炸式增長態勢。這些數據具有海量、多源異構、產生和傳播速度極快等特征,并且蘊含了許多有用的信息,由于運用常規數據管理、數據統計、回歸分析等技術處理數據所耗時間超過可容忍時間[1],因此,這些信息難以挖掘,使人們開始高度關注對這 類 數 據 運用和 處 理 問 題 的 研究,這類數據和所采用的技術也被專門稱為大數據和大數據技術。
軌道交通領域涉及運輸、土木、車輛、機電、供電、通信、信號、環控等多個專業,每天各專業通過人工、設備等方式采集產生的數據量以百萬條計,應用大數據運用和處理技術,深入探索軌道交通系統的規律,進而指導運營實踐,對提升軌道交通的運營管理水平和乘客服務水平具有重要的理論和現實意義。
然而,目前對軌道交通領域大數據運用問題的研究還很有限。基于這一背景,本文通過系統梳理軌道交通行業的大數據運用現狀、存在的問題,探討其發展趨勢,以期對大數據在本行業的發展提供參考。
1.1 軌道交通大數據的特點
軌道交通大數據相比于其他領域大數據具有獨特的特征。
1) 數據動態性強。軌道交通系統處于時刻變化之中,大部分人和物的數據動態性強、隨機性強、個體化差異明顯、變化粒度多樣,并且數據之間的連帶性強,尤其遇到干擾或擾動時,某一方面的故障或延遲往往會影響其他方面。
2) 數據異構性更加廣泛。首先,數據來源廣,軌道交通系統涉及多個部門,業務復雜多樣,數據存儲分散,難以集中;其次,數據種類紛繁復雜,非結構化數據占比較大,且較難形成統一的結構;再次,數據產生周期參差不齊,有的數據隨時產生,有的數據按天、周、月為周期產生等;另外,數據產生方式多樣,有的由設備產生,有的則是通過人員記錄產生,有的在車站產生,有的隨車產生。
3) 數據依賴外部環境。一方面,軌道交通系統處于城市大環境中,運營載體和服務對象都與城市息息相關;另一方面,軌道交通大系統易受外界因素的影響,天氣變化、重大活動、國家政策、節假日等對軌道交通的客流和計劃會產生很大的影響。
4) 數據呈一定規律性。軌道交通系統在各種計劃的指導下運營,如列車運行計劃、人員排班計劃、動車組檢修計劃等,客流按照年、月、日、時呈現時間和空間周期性,空調通風等設備呈現季節周期性,因此軌道交通大數據具有一定的規律性。
5) 保密性要求較高。如對涉及技術或安全方面信息的保密性要求較高。
6) 數據帶有明顯的時空特性。如乘客流線、列車運行數據都在時間和空間兩個維度上同時變化。
1.2 軌道交通數據的主要類型
根據與軌道交通運營的關聯性可以將軌道交通數據分為內部數據和外部數據兩大類。
1.2.1 內部數據
內部數據主要指在軌道交通系統內部產生的數據,如表1所示。

表1 軌道交通內部數據
1.2.2 外部數據
外部數據指與軌道交通直接或間接相關的軌道交通系統外部的數據(見表2)。
1.3 軌道交通大數據運用的流程
軌道交通大數據的處理流程需要面向決策需求,從數 據 來 源 入手,按照 數 據的采集、存儲、處理、分析、解釋架構進行[4]。后者又可以統稱為數據處理技術。通過對廣泛異構的數據源進行抽取、集成、統一存儲,進行知識挖掘和結果呈現,具體流程如圖1所示。

表2 與軌道交通系統相關的外部數據

圖1 軌道交通大數據處理階段
軌道交通大數據運用的決策需求貫穿軌道交通生命周期的全過程,數據對軌道交通的規劃、建設、管理起著重要的決策支撐作用。這種決策支撐主要體現在可視化規律挖掘、預測、預警與控制等方面。僅以運輸專業為例,主要的決策需求包括:線網規劃中平行、交叉線路的規劃,確定合理的線路開通時序,列車運行圖編制,日常客流組織中客流預警,列車運行調整,限流方案確定,突發客流組織,客運營銷方案的確定,票款清分,軌道交通運營效果評價,運營節能方案的動態評估與優化,應急資源配置優化等方面。
然而,從運用現狀來看,目前軌道交通大數據的運用還處于初級階段,由于軌道交通專業繁多,其需求具有較強的多樣性。以下僅就運輸專業為例,總結主要的運用方向。
2.1 統計分析方面
對軌道交通運營中產生的數據進行平臺化管理,方便查詢、分析。如:開發具備大數據分析能力的運營數據管理系統,采集全樣本的數據,記錄包含客流信息、行車信息、運營指標、運力配置、客運服務和運營大事件等在內的重要運營數據[5],為運營管理提供動態分析依據(如圖2所示)。

圖2 運營動態統計分析
2.2 應急輔助決策方面
根據物資、設備的數據制定電子化預案,自動啟動應急處理機制,調配人力物力。例如上海地鐵中將人、電、車等資源按時間和空間進行分布,對各條線路的各類資源進行調配。又如在京港地鐵中,全線設備受系統監控,分析在各站點的員工對企業制度的貫徹情況、維修任務的執行狀況、備品備件的詳細信息等數據,系統派工,對資源進行合理部署和調配,實現了效率更高、響應更及時的管理[6]。筆者通過對歷史設備設施故障發生頻次和客流數據的深層次挖掘,確定合理的應急資源配置方案(見圖3)。

圖3 基于大數據的應急資源配置
2.3 乘客出行誘導方面
在北京、上海、廣州等地鐵中,對軌道交通各線路區段的客流密度與運營狀態進行實時監控,并根據即時運營狀態,用“綠、黃、紅、黑”表示路線運營情況,便于乘客調整出行計劃,避開擁堵和發生故障的區段(見圖4)。此外,上海地鐵乘客還可以通過站臺、車廂顯示屏、自助查詢屏、上海地鐵網站等載體,在出行前進行網站路徑查詢,出行中利用微信、手機進行信息發布,出行后使用手機電子地圖,對周邊資源進行搜索等[7]。

圖4 基于大數據的客流誘導
在深圳,基于手機APP,獲取用戶位置信息。根據用戶的居住地、工作地、APP使用習慣、消費習慣等關聯信息,識別用戶性別、年齡、職業、愛好等信息,區分不同類別人群,精細化分析用戶行為特征,針對不同人群的多樣化出行制定交通改善方案[8]。
2.4 客流預測方面
大數據技術的一個重要應用是對客流數據的運用和處理。通過動態獲取票務系統和自動售檢票系統中的數據,以及天氣、大型活動等外部數據,采集海量的原始信息,通過分析客流特征,實時分析客流出行的時空分布規律,發掘客流規律,進而預測未來客流的走勢,為運營管理提供必要的參考信息(見圖5)。

圖5 基于大數據的客流在線預測
2.5 調度管理方面
在京港地鐵,通過對運營信息的二次提煉、分析,大數據運營平臺可以及時掌握乘客出行習慣,預測早、晚高峰時間,實現了實時調度[6](見圖6)。又如在深圳,滾動識別擁堵區以及近期擁堵明顯加劇片區,為交通綜合治理工作的開展提供依據。

圖6 基于大數據的運營調度
3.1 數據采集
軌道交通數據采集的來源有兩種:1) 來自于人。人在出行及運營管理中產生、記錄的數據。2) 來自于設備。各類計算機信息系統、數字設備所采集的數據,如全球移動通信系統(GSM)、閘機、手機、交通服務平臺、攝像頭、傳感器、WiFi等。
為保證數據的完整性與準確性,大數據時代的數據采集將更加突出設備的自動化采集,采集內容將基于全量而非基于采樣的方式,采集方式多樣化而非只采集基本數據。采集數據的類型將涵蓋結構化數據、半結構化的用戶行為數據、文本或音頻類型的用戶意見和反饋數據、設備和傳感器采集的數據,以及網絡爬蟲獲取的互聯網數據等。
除了常規采集技術外,城市軌道交通大數據可以采用如下新型的采集技術:
1) 應用移動互聯網技術采集移動設備的數據(如統計APP的基礎數據,包括用戶數、活躍情況、流失比例、使用時長及用戶的位置等)[9]。
2) 應用網絡爬蟲采集全網信息、輿情監控等。
3) 應用無線射頻標簽(RFID)技術解決物品信息與互聯網自動鏈接的問題。
4) 應用傳感器(Sensor)采集自動檢測和控制等環節的數據。
5) 其他數據采集方法。對于保密性要求較高的數據,可以使用特定系統接口等方式采集。
3.2 數據處理
軌道交通大數據處理的主要技術包括數據存儲、數據清洗和云計算技術。
3.2.1 數據存儲
對數據進行分類,通過過濾和去重來減少存儲量,便于檢索。由于軌道交通數據量龐大,以往一般采用Oracle數據管理系統,并采用分布式存儲方式。目前在大數據存儲、管理和處理方面,BigTable和Hadoop技術應用廣泛。
3.2.2 數據清洗
數據量的增加導致數據質量低劣,噪聲增多。由于數據采集設備、安裝位置以及數據傳輸能力的限制,軌道交通大數據一般存在數據的準確性缺陷、完備性缺陷和時效性缺陷,這些缺陷極大地降低了數據的可用性。因此,為保證數據質量和可信性,在數據集成過程中,應對數據進行清洗。同時清洗粒度要適中,應既達到清洗效果,又能保留有用信息。
3.2.3 云計算
云計算是一種基于互聯網模式的計算[10],以虛擬化技術為基礎,以網絡為載體[11],提供平臺、軟件等服務,是進行協同工作的超級計算模式。大數據和云計算相輔相成,大數據是云計算的材料,大數據的挖掘,又必須依托云計算的分布式處理、分布式數據庫、云存儲和虛擬化技術。
3.3 數據分析與解釋
數據分析階段最重要的技術是數據挖掘,即分析數據間及類別間的關系,揭示數據間的內在聯系,發現深層次的模式、規則及知識。適用大數據挖掘的處理技術有MapReduce(當前廣泛采用的大數據計算模型和框架)、NOSQL類數據庫(在查詢與索引方面適用于大量的非結構化或半結構化數據)。
數據解釋旨在更好地呈現數據分析結果,不恰當的解釋方法可能導致理解很晦澀,甚至誤導用戶。大數據分析結果的呈現要更加注重交互式和可視化。傳統的數據呈現形式難以應對海量的數據分析結果。目前大數據解釋技術主要有可視化和人機交互[12]。
3.3.1 可視化技術
可視化既是數據分析的關鍵技術也是分析結果呈現的關鍵技術[3]1897。多維數據的對比、映照通過圖形、動畫等視覺化手段展現出來時,易于揭示出數據中的規律、各因素之間的相關關系,發現異常數據等,同時方便對大數據分析結果的溝通與理解(見圖7)。

圖7 客流數據的可視化
大數據可視化不同于傳統的信息可視化,最大的挑戰是能夠適用于分析大規模、高維度、多來源、動態演化的信息,并輔助做出實時決策。
3.3.2 人機交互
即讓用戶在一定程度上參與分析的具體過程,引導用戶進行分析,讓用戶得到結果的同時更好地理解分析結果的由來,有助于用戶理解結果。
4.1 軌道交通大數據運用面臨的挑戰
除了保護個人隱私和數據安全等大數據應用時普遍存在的挑戰外,從現有軌道交通大數據的應用情況可以看出,還存在以下典型問題:
1) 在決策內容和方式方面,與軌道交通每天產生的大量數據相比,現有的應用內容還很簡單,軌道交通生命周期各階段數據之間的反饋應用幾乎沒有,多源數據的交叉應用還很少。從運用的方式上看,目前對于大數據的應用還只存在于進行決策支持,尚未達到智能化。
2) 數據采集方面,在由人員記錄的數據中,存在數據缺失、記錄格式不統一現象,造成原始數據的語義不明、甚至缺失;且各部門之間存在數據編碼和分類的差異,數據缺乏統一管理和標準。因此,鑒于當前數據采集技術參差不齊,自動化程度不一致,導致獲取數據質量存在差異。所以應該創新某些數據采集方式;同時在獲取海量原始交通數據的同時,應對數據進行初步處理,便于分析,從而及時、準確、快速地獲取交通數據。
3) 數據集成方面,軌道交通涉及的大數據種類和數量繁雜,且散布于不同的數據管理系統和部門中,數據壁壘現象嚴重,存在公用數據重復建設現象,數據維護和保障不健全、數據共享度低,為便于數據分析需要進行數據的集成。
4) 在人才需求方面,目前軌道交通領域主要是管理人員較多,缺乏高級IT人才,即技術與數據相分離現象嚴重[13]。
5) 在數據交叉分析方面,目前對于多源異構數據的挖掘比較少,大部分數據挖掘還是基于對軌道交通系統內部數據的分析,只有少量與外部數據的交叉分析,且都與交通信息有明顯的相關性,缺乏更廣泛的數據交叉分析。
6) 在系統內部物聯網方面,對軌道交通內部資源進行聯網跟蹤記錄,便于人力、物力的合理配置。
7) 在思維方式的轉變方面,由傳統的粗放型向大數據精細化轉變,讓數據分析指導決策,進行事前預測,而非事后統計。
4.2 軌道交通大數據運用的發展趨勢
通過以上分析可以發現,未來軌道交通大數據運用將有必要打破軌道交通數據系統內部的障礙,全面融合匯總數據,對軌道交通內部大數據和外部大數據進行綜合分析,指導軌道交通規劃、設計、建設、運營的良性發展。
4.2.1 軌道交通大數據的內部應用
除上文中提到的大數據技術已實現的應用外,還應該深層次、多角度挖掘數據,詳見表3。
此外還可對軌道交通大數據按運營中的各環節對多類數據進行評估。例如,可以評價線路間連接、運力與運量匹配關系,尋找車站客流聚散瓶頸,進行實時、短期的客流預測等。

表3 軌道交通大數據的內部應用
4.2.2 與外部多源異構數據的交叉分析應用
開放的交通系統由于受各種外因的影響,因此需要建立多方的信息基礎環境,融合并深度分析各個行業的數據,對多源異構數據進行融合,并進行多角度精準分析,多層次關聯處理,打破數據壁壘,真正做到數據共享,更大發揮各個行業數據的價值,同時使預測結果為多方利用。
根據當前軌道交通大數據的應用對可進行交叉分析的數據方向進行分級,詳見表4。

表4 外部數據與軌道交通數據交叉分析應用
本文總結了軌道交通大數據運用的主要內容,特別以運輸專業為例分析了大數據運用的決策需求和關鍵技術,提出了軌道交通大數據運用面臨的挑戰以及發展趨勢。通過分析,將有助于軌道交通行業做好大數據運用的頂層設計,促進大數據在軌道交通行業的
良性發展。由于軌道交通涉及專業較多,因此本文無法較全面地涉及每個專業。對于各專業大數據應用的深入挖掘,將是本文進一步拓展的方向。
[1] 維基百科:大數據[EB/OL].(2016-08-09)[2016-08-12] https://en.wikipedia.org/wiki/Big_data.
[2] 王荃.地鐵及城市軌道綜合安防規劃設計[J].現代建筑電氣, 2012,2(3):46-51.
[3] 程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J]. 軟件學報,2014,25(9):1889-1908.
[4] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[5] 京港地鐵4號線開通運營四周年[EB/OL].(2013-09-08)[2016-08-25] http://www.mtr.bj.cn/content/details34_12215.html.


[9] 張蘋.數據挖掘技術在企業中的應用[J].科技廣場,2011(8):41-44.
[10] 鄭瑋.Hadoop釋放大數據潛能[J].軟件和信息服務,2012(10):9.
[11] 姜浩.云計算環境下的安全應用[J].信息安全與通信保密,2013(7):41-44.
[12] 馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2014,37(1):246-258.
[13] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報, 2013,25(8):142-146.
(編輯:曹雪明)
Li Dewei Zhang Tianyu Zhou Weiteng Yin Haodong
(School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044)

rail transit; big data; application; trend
10.3969/j.issn.1672-6073.2016.06.001
2016-08-15
2016-08-27
李得偉,男,副教授,博士,交通運輸規劃與管理專業,運輸組織現代化方向,lidw@bjtu.edu.cn
教育部高等學校基本科研業務費(2016JBM030);北京市科委課題(Z151100001315004);朝陽區科委課題(CYXC1607)
U231
A
1672-6073(2016)06-0001-07
編者按 城市軌道交通成網建設與運營的快速發展,產生巨量的數據和信息流,呈現大數據井噴式發展,使傳統的數據統計分析、應用、評估不能適應這一發展的需求。近年來,大數據的研究應用成為行業發展的新熱點,本期《熱點研討》欄目發表3篇文章,期望提升城市軌道交通行業對大數據采集、分析挖掘、管理決策、融合應用的技術研究和工程化水平,為行業發展提供新動力。