張紅+王曉明+曹潔+朱昶勝

信息通信技術的發展,使交通運輸從數據貧乏轉向數據豐富的大數據時代,北京市6萬余輛出租車一天就會產生數億條GPS數據,車牌識別、交通監控視頻等數據量更大,交通相關的數據量級已從TB級別躍升到PB級別,對智能交通系統的運營和管理產生了巨大影響。面對眾多的交通大數據,如何對其進行準確、高效的處理和分析及預測,挖掘其中蘊含的深層應用,做出即時和正確的交通誘導和疏通,以有效改善實際交通擁堵狀況成為智能化交通信息處理分析的核心內容。
交通大數據應用帶來變化
交通大數據的活化應用對交通的發展將帶來巨大的變化,這主要體現在大數據技術的實時性、分布性、高效性及預測性方面。在實時性方面,傳統的海量數據模糊查詢和統計分析無法達到交通實時性的需求,大數據能夠實時地對交通大數據分析、處理,提供秒級響應,幫助人們在海量的交通數據中快速發現交通異常,并定位癥結,方便交通管理,使交通運行得更加合理。
從分布性角度入手,傳統的數據應用多為單表挖掘分析,一旦涉及到跨表關聯就會因效率問題而無能為力,大數據的分布式并行處理擅長復雜的塊表關聯分析,推動數據串并關聯,提高數據處理能力,支撐高并發多用戶訪問,協同人們在交通緊急事件中多方協作、快速處置。高效的交通大數據挖掘能力,能夠快速發現海量交通數據中的內在關聯規律,進而提高交通運營效率以及路網的通行能力。倫敦市利用大數據減少了交通擁堵時間,提高了交通運轉方面的效率。
大數據技術較高的預測能力可降低交通狀態誤報和漏報的概率,通過建立區域交通狀態的監測及預測模型,共享交通運行與路況環境數據,隨時對交通的動態性進行實時監控,幫助駕駛者及用戶預先了解交通擁堵狀況,避開擁堵路段。
數據對交通的巨大影響除了以上幾個方面外,對交通環境的安全性也有巨大影響。大數據的實時性和可預測性以及綜合的決策模型有助于提高交通安全系統的數據處理能力;大數據快速整合各個傳感器數據,結合車輛運行軌跡數據,綜合分析車輛行駛安全性,為應急決策提供輔助,提高應急救援能力,有效降低交通事故的發生。由此可見,大數據技術的出現及應用能夠有效地解決智能交通面臨的好多難題。為了利用大數據技術,深入挖掘交通數據的潛在價值,就迫切需要一個數據管理平臺來處理各種類型和規模的數據。
交通大數據處理平臺
交通大數據處理基本流程與傳統數據處理流程基本相似,整個處理流程可以概括為數據采集、數據錄入和預處理、數據存儲、數據處理和結果展現。由于交通大數據要處理大量的、非結構化的數據,如視頻數據及監控數據,而且要求處理的強實時性,所以在各個處理環節中采用MapReduce分布式計算框架以及實時流數據處理計算框架;數據存儲采用支持文本和圖像存儲,面向列、可伸縮,支持事務以及B樹范圍查詢和排序的分布式數據庫HBase和分布式文件存儲系統HDFS依據大數據處理流程及交通數據處理的特性。
整個平臺的構建分為兩部分,依次是對交通大數據離線批處理、深度挖掘的Hadoop生態系統以及對交通大數據進行強實時流式計算的Storm處理系統,使用構建在Hadoop生態系統上的分布式日志處理系統Chukwa收集交通數據源,用數據同步工具Sqoop實現各種交通數據源和Hadoop分布式文件系統HDFS間的數據轉移和傳輸。
鑒于交通流數據處理的強實時性,系統構建對Hadoop平臺進行了擴展,引入實時大數據流處理系統Storm。因此在交通大數據處理層包含基于Hadoop的分布式離線處理計算框架和基于Storm的實時流數據處理計算框架。其中,MapReduce通過Map和Reduce兩個步驟實現交通數據的并行處理;Impala提供SQL語義,對存儲在Hadoop的HDFS和HBase中的PB級交通大數據實現交互式的快速查詢;利用Mahout提供的可擴展的機器學習和數據挖掘的分布式框架,實現交通大數據的并行分析與實時挖掘。
Storm平臺克服了Hadoop平臺不能有效適應實時數據處理的缺陷,提供全內存計算,實現對流式交通數據的實時處理,它提供的輸入流組件Spout負責將數據傳遞給另一個組件Bolt并執行任務,例如交通流數據的過濾、計算、訪問文件、數據庫等方面,并創建新的流作為下一個Bolt的輸入流。
數據展現層利用大數據分析工具實現結果數據的可視化,迅速有效地簡化提煉數據流,提供具有交互功能的動態圖表,幫助人們探索和解釋復雜的數據,理解和分析數據的內涵與特征,更好地從復雜數據中得到新的發現。
交通大數據處理體系框架
交通數據不僅量大而且異構源多,實時性要求強,處理速度快,是典型的大數據,如何利用好這些多源的大量數據為交通決策與誘導提供便利,有效緩解交通擁堵是交通領域的難題,也是智能交通首要解決的問題。在綜合考慮了交通數據的特性以及應用需求的基礎上,交通異構數據源有結構化的數據大部分都是非結構化的數據,這些數據源主要包括無線射頻識別數據、視頻監控、卡扣數據(包括ETC、交叉口信號燈等)、GPS軌跡數據、IC卡刷卡數據、交通應用服務數據等。
數據處理層是大數據處理體系框架的核心層,Sqoop整合數據源數據,存儲于分布式數據庫HBase中。這里采用基于HDFS的HBase和Impala的存儲系統,Impala提供實時的交互式SQL大數據查詢功能,直接從HBase中用SELECT、JOIN和統計函數查詢數據,實現快速的大數據存儲和分析。
根據不同的交通需求,系統設計了兩套計算框架,MapReduce離線計算框架用作交通模型的預測和交通運行規律的挖掘,Storm實時交通流計算框架用于處理實時交通流數據,并對交通流進行短期的預測,數據處理結果進行可視化分析,以動態圖表的形式展現給用戶。
交通大數據的處理就是要對數據進行深層分析、挖掘數據所蘊含的深層知識,尋找數據內部隱藏的規律,這里主要包含居民日常出行行為、居民的出行模式、依據城市特點的交通運營決策及規劃、居民個體活動知識、城市的動態性特征、城市的空間分布規律等。對交通視頻及圖像采用CUDA架構,快速提取其特征和摘要以備挖掘分析,對卡扣和應用服務數據及GPS等數據基于MapReduce計算模型用Mahout進行并行分析與挖掘,形成知識,為智能交通系統提供更高層的應用與管理。
眾所周知,所有的研究都將歸結于應用,大數據為智能交通的進一步發展起到了極大的促進作用,主要產生了以下幾個方面的應用:交通擁堵自動檢測、路網地圖更新、交通供求分析、道路規劃、交通費用預測、實時路況展現、交通異常檢測、智能電子停車、出行信息服務、交通誘導等。數據是驅動智能交通發展的基礎,大數據技術的開發利用將為智能交通的進一步發展帶來質的飛躍,同時為人們的生活帶來便捷。