林珠+吳佩珊
摘要:現階段交通數據呈指數增長,并具有結構類型復雜、信息價值較大的特點,為更好地促進交通數據與現在服務業的結合,充分利用其價值為人類生活的便利創造條件,本文研究交通大數據與其它信息平臺交互過程中遇到的問題。通過對交通大數據的采集、標準轉換、數據流處理等多方面進行研究,建設了面向交通大數據的智能處理平臺,提高了數據與其它信息系統的交互能力,為交通數據的深度挖掘做充分準備。
關鍵字:交通大數據;數據處理平臺;HDFS
中圖分類號:TP274文獻標識碼:A
Abstract:
The traffic data increase exponentially at this stage,and has the characteristics of complex structure types and larger value of information.
For combing the traffic data with services,making full use of its value and creating conditions for the convenience of human life,this paper to research the traffic data interaction and other problems in the process of information platform.Based on the research of traffic data collection,conversion,data stream processing and other aspects,the construction of intelligent processing platform for traffic data,improve the ability to interact with data and other information system,make full preparations for the traffic data mining.
Key words:traffic big data;data processing platform;HDFS
0引言
交通大數據包括結構化、非結構化的各類交通數據,包括交通工具GPS地理位置、線圈、微波、智能卡、視頻、電子地圖、路網、調度資料、基礎設施、班次、航班、地鐵、氣象、從業人員資料……數以千計的數據類別,每日以GB級別增長,海量、動態、實時是重要特征[1]。而不同群體對數據的訴求又體現出不同要求,例如交通主管部門關注交通擁堵狀況,車輛異常集結,行業性平均收入等宏觀數據;企業關注車輛調度準確,經用收入等關乎運營收入數據;公眾關注交通運輸的服務是否便利,交通是否順暢,以及能夠隨時隨地獲取交通信息;研究部門希望獲得多樣化的交通數據,構筑立體的城市交通分析模型等;城市應急處理部門更希望得到事故地點的交通情況以便組織應急救援;公安部門需要從交通視頻獲得辦案證據等[2]。為解決這一系統的問題,交通大數據的研究成為關注的熱點,如何充分利用這些數據為各類交通信息系統服務,建設面向交通大數據的處理平臺已成為迫切的需求[3]。
1國內外研究現狀
在國外,發達國家對城市交通基礎設施建設非常重視并已基本完成,在此基礎上,開展了一系列的智能交通信息系統搭建,用以實現交通數據的采信、整理、共享、應用,以推動交通有序運營,促進社會民生的全面發展。英國國家交通控制中心研究的ERTICO項目中,通過開發共用規范實現了不同運輸方式的多模式交通之間的數據交換與共享;近期英國DETR組織開展UTMC(Urban Traffic Management&Control)項目,通過建立交通數據的處理平臺全面推動城市智能交通系統的研發和建設[4]。
在國內,北京已建成了綜合交通信息平臺,包含了交通數據的采集、整合、標準制定、加工處理和發布的全過程,是一項復雜的交通領域集成信息化工程,北京市專設數據處理平臺,開展對交通數據進行預處理、存儲和加工等[5]。綜觀我國各大城市的智能交通發展現狀,交通信息化已得到較大的重視并具有一定的地位和作用,普遍的研究著眼于根據用戶的實現需求進行信息系統的建設,重點在于數據挖掘技術的決策支持,為交通出行提供便利。
然而,在大量的交通數據應用中,往往容易忽視對數據的預處理研究[6],傳統的交通數據預處理需要對數據源到應用的整個流程進行修改,通過ETL的方式再加載和計算,其適應變化的周期較長,在交通大數據應用中,這種模式將難以適應新的需求,智能交通大數據已經突破了以前所限定的結構化數據范疇,具有數據類型多樣化、規模化和高速化的特點,數據類型包括了結構化、半結構化和非結構化數據多種類型,尤以非結構化數據為主,因此,需要專門建設面向交通大數據的智能處理平臺。
2數據處理平臺架構設計
面向交通大數據的處理平臺采用Hadoop分布式基礎框架解決數據的動態擴展和彈性增長問題,面對大規模的數據,該框架能夠對其進行分割與合并,然后結合MapReduce 技術進行并行處理,通過任務的分配解決數據量巨大的問題。平臺由三層架構組成,分別是訪問層、處理層和展示層組成,三個層次相互連接,通過HDFS 分布式文件系統、HBase 分布式數據庫和MapReduceAPI進行結合。通過該平臺的構建,可以將采集的各種原始交通數據進行導入、規范化、數據流處理等,最后通過接口或定制數據,為各類型的交通系統提供服務,充分利用分布式處理技術提高數據處理效率,同時也保障了數據的安全。簡化后的平臺三層架構如圖1所示。
其中,數據訪問層是處理平臺的最底層,包括數據模式設計模塊和數據錄入、導出模塊,主要用于外部數據與該處理平臺的交互,數據錄入、導出模塊能夠將外部的關系型數據進行導入,同時也能將經過處理平臺后的數據導出到別的系統。對于非結構化的數據,采用數據模式設計,將交通數據中的一系統特征指標,如經緯度、時速、車輛號、線路號等存入Hbase數據庫。endprint
數據處理層是平臺的核心層,包括數據查詢模塊、數據加載模塊、計算模塊。數據加載模塊主要處理數據訪問層接收過來的信息,并轉化為數據處理層可以直接運用的數據,加載過程中主要采用特定的數據表模式將數據存入分布式的Hbase數據庫。數據查詢模塊則將加載后的數據進行并行計算,通過MapReduce技術快速進行數據查詢,不僅可以對處理前的數據進行查詢,也可以對處理后的數據進行查詢,并最終展示給前端用戶,同時,該模塊也為計算模塊服務,為更快速的數據計算和處理提供保障[7]。
數據計算模塊與查詢模塊相結合,采用MapReduce框架進行并行計算,充分調動Hbase中存儲的數據,保障平臺的可靠性和數據存府的一致性。
3采用關鍵技術
31平臺數據采集與存儲
從交通引入信息化技術改善管理開始,交通數據的處理經歷了從文本文件,到平面數據庫,到關系型數據庫廣泛應用,這些應用均及時地處理了數據的存儲和操作所面監的一系列問題[8]。然而,隨著交通數據量的與日劇增,已經不能單純采用關系型數據庫進行處理,而需要采用能夠適應數據動態、高速增長的新型技術,同時,交通信息系統多種多樣,面向不同的應用采用不同類型的數據分析,因此也需要采用能夠適應其動態擴展的技術[9]。
平臺的具體數據采集和存儲如下圖2所示:
平臺采用Hadoop分布式文件系統與HBase分布式數據庫相結合的方式進行交通數據的存儲,在Hadoop基礎上構建HBase例存儲系統[10]。主要包括GPS數據、城市一卡通數據、結算清分數據、設施管理數據、交通地理信息、從業人員資料信息等。
一方面,Hbase存儲方式能夠滿足大規模的擴展,列存儲的方式有利于數據的并發查詢,特別是交通大數據在利用方面更注重數據的查詢和讀取,在此基礎上進行數據的分析與應用,而較少用于數據的修改,因此列存儲的方式更適合交通大數據的存儲和管理[11];另一方面,該存儲模式可以實現動態數據的擴展和時間戳版本的管理,特別是交通實時數據,依賴于車載的GPRS模塊上傳GPS數據(移動終端),一個移動終端識別號總會在不同的時間向同一個基站發送數據。此外,該存儲方式有利于對大規模數據進行分割計算且最后進行結果合并。
32規范化的數據流處理
在數據庫設計上,充分考慮業務差異性與數據共性,由近20個部分組成,分別是:公交 GPS 數據,出租GPS數據,重點營運車輛GPS數據,視頻管理數據,客運票務數據,一卡通刷卡數據,和交通服務數據等等。原始的數據通過信息手段采集后,進入Hbase分布式數據庫,通過數據的分類處理API進行分類處理,并根據需求進行數據展示和服務定制。在收到接入系統的數據后,對接入的數據進行有效性的檢驗,保證進入平臺的交通信息數據是準確有效的,并將經過驗證的數據入庫,具體數據流處理過程如圖3所示。
根據業務規則,對不同來源的數據間建立關聯并進行融合,對融合后的數據進行匯總及分析。例如線圈、微波、視頻、文件等非結構化數據,與其他信息的融合,得出立體化的,更準確的交通態勢分析等,具體工作內容如圖4所示。
33數據標準格式
數據標準化處理系統從數據庫中取出經過清洗后的數據,根據業務規則將外部系統的數據格式轉化為平臺定義的標準格式。格式轉化流程如下圖5所示,并例舉部分規則,如圖6所示。
4數據處理平臺主要功能
交通信息接入平臺的功能是從政府管理部門、科研機構等不同機構接入數據,對多源異構的信息數據進行標準化處理后在平臺內進行一體化存儲。信息接入需遵循統一的數據交換規范,也遵循統一的數據控制策略,以及安全機制。平臺主要實現對四類交通信息的接入,即交通基礎信息、交通實時信息、交通歷史信息、交通視頻信息。獲取數據的方式包括FTP、socket、webservice、直接數據庫獲取等多種方式,主要功能如圖7所示。
5總結與展望
本文通過對交通大數據現狀的分析,提出建設面向交通大數據的處理平臺的必要性,對該平臺進行架構設計,并介紹其采用的關鍵技術和主要功能。在現階段交通大數據的越來越復雜,其應用越來越廣泛,因此,建設該處理平臺具有深刻的社會意義。
參考文獻
[1]何承,朱揚勇.城市交通大數據[M].上海科學技術出版社,2015.
[2]王文靜.大數據時代下智能交通系統發展機遇和挑戰[J].交通企業管理,2016,31(10):3-5.
[3]曹星艷.基于交通行業的大數據處理平臺應用[J].鐵路通信信號工程技術,2016,13(2):74-79.
[4]邵志驊,崔林山,盧夢奇.基于Hadoop集群的公安交通信息云共享技術應用研究[J].中國公共安全:學術版,2016,(1):65-69.
[5]劉成,李劍仕.北京市高速公路泵站監控系統架構設計與研究[J].中國交通信息化,2016,(2):124-125.
[6]王冰楊,鄧亞.城市軌道交通網絡信息平臺的研究[J].數碼世界,2016,(3).
[7]ANJALI P P,BINU A.A Comparative Survey Based on Processing Network Traffic Data Using Hadoop Pig and Typical Mapreduce[J].International Journal of Computer Science & Engineering Survey,2014,5(1):1-9.
[8]張昕,曾鵬,張瑞,等.交通大數據的特征及價值[J].軟件導刊,2016,15(3):130-132.
[9]盧彪,李悅,張萬禮.基于大數據技術的智能交通數據分析平臺系統的研究與設計[J].湖北科技學院學報,2016,36(5):6-9.
[10]LIU J,LIU F,ANSARI N.Monitoring and analyzing big traffic data of a largescale cellular network with Hadoop[J].IEEE Network,2014,28(4):32-39.
[11]PARK H W,YEO I Y,LEE J R,et al.Study on Big Data Center Traffic Management Based on the Separation of LargeScale Data Stream[C]// International Conference on Innovative Mobile & Internet Services in Ubiquitous Computing.IEEE Computer Society,2013:591-594.endprint