丁軍
【摘要】? ? 地鐵軌道交通信息化水平隨著城市軌道工程的發展而持續提升,而伴隨著地鐵軌道交通的持續運行,其形成的數據量規模也逐漸龐大。在此背景下,若基于傳統數據處理方法展開操作,會存在成本高、管理難度大等問題,并且不利于程序的編寫。對此,本文將地鐵信息系統作為基本出發點,對地鐵軌道交通發展需求進行分析,基于云計算平臺創建出高度成熟化的軌道交通數據挖掘平臺,同時展開有關于地鐵軌道交通大數據的深度分析工作。
【關鍵詞】? ? 地鐵工程? ? 云計算? ? 大數據? ? 分析方法
當前,我國多數大中型城市都紛紛推行了地鐵工程,總體建設運營里程正在持續增加。就地鐵運營企業而言,需要做好客流分析工作,這是線網規劃以及運營組織的關鍵前提。在當前信息技術持續發展的大背景下,地鐵系統已經累積了大量的乘客出行信息,基于對地鐵AFC刷卡數據的分析,能夠達到資源合理配置的效果,并且可以更好地滿足地鐵客流的基本需求,有效緩解了供需不平衡的問題,從根本上滿足了地鐵客流需求。而基于云計算技術,能夠為此項工作提供有效指導,所以本文重點對云計算技術展開探討。
一、云計算介紹
在當前的地鐵客流大數據分析工作中,重點圍繞政策性、前沿性兩大方面展開,由此探尋出客流的基本特征。相較于傳統的交通數據而言,現代化的交通大數據與之存在明顯的區別,在大數據特征描述時涉及到了3V、4V和5V這3方面內容。除此之外,加之交通大數據基本特性的影響,可以進一步延展出6V特征,具體為:體量巨大、處理快速、模態多樣、真假共存、價值、可視化[1]。
二、大數據分析方法
(1)數據讀取。基于Jave展開編程操作,在此基礎上實現對原始數據集的分析,讀取其中的數據結構,主要涉及到行與列的分隔符,此時能夠確保數據集順利的上傳到云端數據庫中,諸如“2aa2a04|/N|104.063028|30.508351|雙流縣|1|104.127465|30.26802|雙流縣|1|27459.749617”,則列分隔符為“|”,行分隔符為“/n”。(2)數據存儲。基于MapReduce分布式上傳功能可以實現對大數據的讀取工作,以便將豐富的大數據完整的存儲于云端數據之中。(3)數據清洗。基于云平臺展開對數據的清洗工作,例如,對String類型的值進行轉換,使其變更為Int類型,此舉能夠為后續的匹配計算提供良好的條件,如果列中存在一些不規則字符,則可以對其格式統一操作。將其中的無效數據篩除,以統計客流情況為例進行分析,則可以將員工卡進出站這一無效數據隔離出來,此后再對缺失部分做以自動填充處理。(4)數據分析。當完成對數據的清洗操作后,便可以展開SQL分析操作,對AFC數據記錄進行全面篩選,從中獲得客流情況、高峰期分布特性等多方面內容。(5)在上述的基礎上,將會得到相關數據結果,對其進行存儲并基于百度地圖API作進一步的程序開發,以展開可視化分析。
三、云計算技術效率測試
云計算的方式具有更強的適應性,能夠從根本上避免資源集中消耗的現象,而分布式的處理機制則可以創造出更為優良的數據處理效率。本次分析工作圍繞阿里云計算服務大數據平臺展開,將其與傳統數據庫展開對比分析,探尋二者在效率方面的差別。在阿里云大數據服務體系之中,可以有效地支持SQL等相關模型,其可以在極短的時間內做好相關計算任務。其中Tunnel服務發揮出重要的作用,其每天都可以滿足TB/PB級的數據傳輸要求,這點對于歷史數據的導入導出尤為適用,且吞吐量高,具有優良的可擴展水平,能夠為數據的批量處理提供良好的條件。MaxCompute SQL建立在標準SQL算法的基礎上,所帶來的計算框架能夠有效地服務于SQL計算模型,相較于常規的MapReduce模型而言,帶來的執行效率得到了顯著的提升,借助于在線運維以及離線任務調度等一系列豐富功能,離線調度任務量可以達到百萬級別。若PC的內存為4G,同時配置有AMD處理器(其主頻可以達到2.2GHz),將此作為硬件條件展開各方法對于SQL運算速度的分析工作,具體操作對象均為成都地鐵AFC刷卡數據。實際結果表明,相較于常規的SQL Server數據庫,基于MaxCompute所帶來的運算效率明顯提升,如果SQL語句復雜度較高,此時運行優勢將會更為明顯。在實際操作中,如果基于云MaxCompute展開首次運算,此時所需要的時間將長達4s,而相比之下SQL Server僅需1s便可以完成[3]。對此現象進行分析可得,在阿里云計算平臺的作用下,將會對MaxCompute進行拆分處理,使其變為一個分布式的任務以便后續調用,但相比之下,MapReduce在初始化過程中便會耗費大量的時間,盡管SQL較為精簡,但依然需要得到充足的時間支持。在上述基礎上持續進行SQL運算,發現SQL Server需要的運算時間表現出了成倍增長的特性,但無論運算次數如何發生變化,MaxCompute需要的運算時間都處于相對穩定的狀態。由此可以得知,在數據規模持續擴大的背景下,加之SQL復雜度的提升,基于云計算平臺所需要的初始化時間明顯縮短,其在整體時間中占比較低,相比于傳統的數據庫技術而言,通過云計算平臺展開的分布式調用方法具有高度的可行性。
結束語:綜上所述,當前的城市居民交通出行半徑表現出明顯的規律性,即普遍集中在地鐵45min區域內,日常出行時間主要以15~30min居多,部分情況下將會達到30~45min。無論是工作日還是非工作日,地鐵車站的人流量都相對較大,此時運營管理部門的監管工作至關重要,需要為之制定可行的疏導方案。在可視化技術的作用下,能夠推相較于傳統數據處理技術而言,基于云計算技術可以創造更高的效率,在運行過程中不會占用過多的計算機資源,在此背景下圍繞大數據的地鐵客流分析工作具有高度的現實意義。而大數據發展需要得到云計算的支持,換言之,在云計算的作用下能夠提供彈性可拓展設備,以便大數據分析工作的順利展開。
參? 考? 文? 獻
[1]殷瑋川,何世偉,李玉斌,等.基于云計算的地鐵大數據分析方法研究[J].鐵道科學與工程學報,2018,15(11):2995-3002.
[2]朱建生,汪健雄,張軍鋒.基于NoSQL數據庫的大數據查詢技術的研究與應用[J].中國鐵道科學,2014(01):135-141.
[3]蔡昌俊,姚恩建,張永生,等.基于AFC數據的城軌站間客流量分布預測[J].中國鐵道科學,2015(01):126-132.