鄭紹振 遼寧金洋集團信息技術有限公司
近年來,隨著信息技術的發展,互聯網絡應用的普及,人們的生活、工作方式發生了改變。智能手機帶來的技術革命,每天在各行各業產生海量的數據。城市交通、高速公路、鐵路、航空等交通運輸業從傳感器、感測移動設備、照相機等各種設備采集大量的交通數據。智能交通系統(Intelligent Traffic Systems, ITS)是將先進的信息技術、數據通信技術、傳感器技術、電子控制技術以及計算機技術等有效地綜合運用于整個交通運輸管理體系,從而建立起一種大范圍內、全方位發揮作用的,實時、準確、高效的綜合運輸和管理系統[1]。智能交通系統需要處理各種設備收集的大量數據,以進行分析處理,為交通運輸、道路規劃等提供輔助決策。
車輛的增多,使得城市交通擁堵日益嚴重,二氧化碳排放量嚴重超標,交通事故、環境污染等問題已經成為亟待解決的問題,傳統的交通管理方式已不能滿足現代交通發展的需求。智能交通系統利用現代信息技術、基于交通大數據分析,改善城市交通網絡的效率,緩解城市交通問題,減少不必要的損失并改善公共交通效率[2]。目前,車輛中的新型傳感器和通信功能交通基礎設施的建設,現代信息應用和通信技術等運用在智能交通領域中,使得實時監控車輛行駛速度、行駛路徑成為可能,使用這些數據實時評估城市道路交通狀況得以實現[3]。感測移動設備、空中傳感技術、軟件日志、相機、麥克風、射頻識別讀取器和無線傳感器網絡等設備無處不在的收集著各種信息,數據爆炸式地增長,如何處理和建模這些非結構化的大量數據,為智能交通系統提出了挑戰。
大數據一詞用于表示非常大和復雜的數據集,使用傳統的方法和工具無法正確處理。大數據代表資產具有高容量,高速度和多樣化的特點,需要特定的技術和分析方法將其轉化為價值[4]。
智能交通系統融合了很多先進技術包括電子傳感器技術,數據傳輸技術和運輸系統的智能控制技術等。智能交通系統包括六個基本組成部分:先進的運輸管理系統、智能出行信息系統,先進的車輛控制系統,商務車輛管理、先進的公共交通系統和先進的城市交通系統。智能交通系統的數據每天在數以萬億的產生,而且數據越來越復雜,綜合各種異構數據源的數據來看,可以從數據種類、數據量和速率三個方面來表示交通領域大數據的特點。
數據種類是指交通大數據的數據格式和協議具有多樣性、異構性。交通數據采集設備種類繁多,包括傳感器、探測器、社交軟件等等,都能提供交通運輸相關的數據,并且數據質量不一、類型不同,這為如何融合及協調交通大數據帶來了困難。
數據量即數據體積,從收集到的不斷增加的數據中得出數據數量。各種軟硬件設備數據源采集的數據仍在不斷地增長,隨著交通工具、傳感器等數量的增長,運輸數據也已經大大地增長。此外,當定位裝置被使用時,旅客、貨物、車輛會生成更多的數據。來自基礎設施、環境、氣象等方面監測的數據也作為交通大數據中重要的一部分,為決策者提供數據支持。
速率指隨著通訊技術的發展交通數據采集的速度增快,數據采集、檢測和處理的能力和速度也增強。比如,目前應用的電子售票及收費交易系統,可以立即生成記錄和報告,而傳統的人工紙質售票,需要人工處理才能匯總交易數據。當前的智能交通系統極大地提高了各種數據的處理效率。
智能交通系統能夠處理和建模大量原始流量數據,其系統體系結構需要考慮到數據質量,適應交通領域的現有數據標準,保證數據之間的協調,并且提供強大且可擴展的存儲系統。開發大數據融合和協調異構數據、動態的智能交通平臺,共享各部門提供的交通運輸數據流,解決數據互操作性是智能交通系統架構首要解決的問題。
目前大數據技術應用較為廣泛的框架是來自Apache的Hadoop,Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,它運用一種可靠、高效、可擴展的方式進行數據處理。Hadoop的并行工作方式、多個工作數據副本、依賴社區服務等特點,使用戶可以輕松、便捷地在Hadoop上開發、處理、運行海量數據的應用程序。Apache Spark是一個高級且完整的通用內存并行計算框架,它包含Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件。它運行在Hadoop上,但使用了另一種工作數據集,以及彈性分布式數據集(RDD),RDD可在發生故障后提供有效的恢復。Spark的另一個巨大優勢是可以在內存中運行,在某些操作中效率更高。Apache Storm是一種免費的開源實時分布式計算系統,專注于數據流處理或者一些調用復雜的事件處理。Storm用于實時分析,在線機器學習,連續計算,分布式RPC,ETL等。Storm 速度非常快,并且可擴展,確保數據得到實時處理,易于設置和操作。關于數據存儲,常規SQL關系數據庫并不支持當今的大數據,通常采用NoSQL技術。大數據存儲方面,常用的工具有Hive,Cloudera,Cassandra和MongoDB。前兩個是基于Hadoop,后兩個基于NoSQL。
CRISP-DM是1999年首次發布的較為成熟的跨行業標準數據挖掘過程的方法論。它分為六個步驟,(1)業務理解:主要理解業務需求,理解數據采集目標和要求,及相關業務術語和技術術語。(2)數據理解:主要工作是數據收集,檢查數據質量,發掘隱藏數據信息。對數據進行可用性評估,確定數據源級別。(3)數據準備:最終數據的選擇和準備數據集。此階段包括許多任務,例如記錄,表和屬性選擇以及數據清理和數據轉換。(4)建模:選擇和應用建模技術,針對具體問題設置不同的參數,構建不同的模型。(5)評估:評估所建模型和決策的準確性及效率,給出模型算法使用結果,評估其是否實現了預期目標。(6)部署:確定獲取的可能用到的知識和結果。這個階段還著重于組織,報告和展示發現的知識。
及時準確的交通流信息為運輸管理提供有價值的數據參考。智能交通系統中的大數據分析能夠進行交通流量預測。本文以交通流量擁堵計算模型為應用場景,提出一種有效提取、轉換和存儲數據的體系結構,體系結構滿足以下技術要求:(1)能夠處理多種格式和大小的原始數據;(2)確保數據質量;(3)高效的大數據轉換和存儲;(4)能夠在數據級別解決互操作性;(5)強大而高效的分布式存儲系統,可擴展,以便處理來自其他交通傳感器的數據。
本模型的原始數據集來源于交通部門,數據集上傳到Hadoop數據系統,并使用Hive數據轉換以進行分析。本模型使用Python和Pandas庫完成對6268個JSON文件的解析,導出兩個CSV表文件,并將文件上傳到Hadoop文件系統,使用HiveQL創建表結構,對數據進行清洗,為數據分析和采樣創建匯總表,以便預測和輸出結果。大數據預測及分析的體系結構如圖1所示。

圖1 大數據預測及分析體系結構
輸出文件被下載到本地計算機后,能夠可視化顯示交通事故或交通擁堵狀態。在預測模型中,需要對上傳的樣本數據集進行應用數據轉換,并將數據集切分為訓練集和測試集,建模,預測及評估模型準確性。大數據預測及分析的體系結構如圖2所示。
解析后的文件,上傳并存儲到Hadoop分布式文件系統中,用于數據分析。但是此時的數據文件中存在不準確、不完整或不合理數據,需要在數據集中發現并對這些數據進行修補或移除以提高數據質量。本體系結構中,分為五步完成交通領域數據清洗工作,首先定義錯誤類型,其次搜索并標識錯誤實例,然后改正錯誤,再次文檔記錄錯誤實例和錯誤類型,最后修改數據、錄入程序。在數據清洗的過程中,特別注意數據格式檢查、數據完整性檢查、數據合理性檢查和極限檢查。
比如,采集的交通警報信息和個體車輛信息,兩者具有不同的數據格式,因為交通警報信息可能是通過交通部門的應用程序采集,例如道路擁堵、道路封閉、危險路況、交通事故等數據;另一個信息可能通過用戶的移動設備采集,比如車輛的位置、速度、路線等。兩者設備和程序采集的信息格式不同,參數屬性不同,因此需要進一步進行數據清洗,以便后續進行數據分析。本系統使用正則表達式,條件語句,子字符串,表聯接,日期和時間格式以及時間轉換等,清理并清除無關字段,使數據規范可用。此外,本體系結構中還創建了一個摘要表來描繪有關流量的基本信息,匯總表來顯示按時間,天數交通擁堵的程度。
清洗后的數據用于準備進一步分析,本系統采用Microsoft Excel和Power BI進行數據可視化顯示。在設計可視化顯示過程中考慮不同的交互式視覺效果,來顯示交通事件。包括3D地理地圖顯示,通過帶有時間軸的動畫地圖和熱圖來顯示交通堵塞情況,并報告事故數量和封路情況等。通過使用時間軸,我們建立一個隨時間變化的動態地理地圖,顯示時間線在地圖上的流量。通過分析不同設備采集的數據,可以顯示用戶端設備跟蹤的交通擁堵情況,交通事故報告;也可以按周或者按小時來顯示交通狀況。可視化顯示交通狀況讓用戶更直觀地了解交通情況。
智能交通系統中,交通堵塞數據集是從用戶設備的GPS中捕獲的,擁有超過9800萬行數據。使用這個采樣數據集訓練機器學習模型,數據集大小為10MB,以CSV格式保存,將訓練數據集上傳到預測模型中。
對上傳后的樣本數據集計算和過濾不必要的列,選擇一個標簽列用來記錄擁堵水平,用數字1―5來表示,1表示暢通無阻,5表示紅色飽和,此標簽類用來建立分類模型。采用數據中存在數據不平衡情況,即水平1到水平5所占數據比例差距大,導致預測模型不準確,因此對5類數據進行分組,分組后數據如果還存在偏差,則補充特殊時段采集的數據到數據集中。
在進行模型訓練之前,我們分別選擇數據集中90%的數據作為訓練集,10%的數據作為測試集;和80%的數據作為訓練集,20%的數據作為測試集。經過多次迭代模型和訓練,得出90%數據作為訓練集預測更為準確。通過調整模型參數,確定參數最優值。在評估驗證階段,選取了分類精度、精度/靈敏度、召回率三個指標來驗證模型預測結果。
通過介紹大數據特征,及大數據平臺的相關技術,本文介紹了智能交通系統體系結構搭建過程,數據分析和預測過程。通過智能交通系統,用戶能夠了解城市公路及高速公路上交通更擁擠時間;識別交通早、晚高峰時間,識別易擁堵道路和路段。智能交通系統的數據集是不斷變化的,因此本文智能交通平臺支持擴展數據集,兵提供交互式工具,用于數據分析、處理和數據預測。未來進一步的工作是豐富更大的數據集和更多的分類模型,以便更準確地分析和預測交通情況。隨著移動應用設備的普及,網絡基礎設施的升級換代,大數據處理和挖掘技術在智能交通領域的應用將會越來越廣泛和深入,智能交通產業化發展將是未來的發展趨勢。