李 曉(成都師范學院物理與工程技術學院,成都,611130)
基于大數據分析的智能交通系統
李 曉
(成都師范學院物理與工程技術學院,成都,611130)
大數據發展至今,已為眾人所知,被眾多行業和企業所用。尤其在天文、氣象、醫療健康等領域已取得較好的應用價值。我國是汽車大國,快速發展的汽車行業也隨之帶來了城市交通擁堵和污染嚴重等諸多問題。如何將汽車與大數據有效的融合,通過大數據為政府決策提供數據支撐,為智能交通做貢獻。
大數據;智能交通;隱馬爾科夫
2008年,《Nature》推出Big Data專刊,首次提出大數據的概念。2010年4月21日,大數據首次列入“維基百科”條目。2011年2月,《Science》推出《Dealing with Data》,說明大數據對于科學研究的重要性。緊接著,2011年5月,麥肯錫全球研究院(MGI)發布了一份報告——《大數據:創新、競爭和生產力的下一個新領域》,推動了工業界和學術界對大數據的關注;11月,IBM在產品發布會上主推大數據概念,這標志著大數據進入快速發展的時期。2012年,美國國家科學基金就發布了大數據指南。
隨著大數據時代的到來,大數據的分析與利用已滲透到電子商務,公共服務與安全以及諸多實體企業等多個行業。在第十二屆全國人民代表大會第二次會議上,“大數據”首次出現在政府工作報告中,這預示著大數據已經脫離“是什么”的概念階段,正式進入“怎么用”的實施階段。數據儲備和數據分析能力將成為未來新型國家最重要的核心戰略能力。
什么是大數據,簡單地說,大數據就是海量數據加復雜計算。具體而言則是面對規模巨大、高速產生的形式多樣的數據,只有通過復雜計算才能獲取其中有價值信息的計算模式。其中,規模巨大(Volume)與高速產生(Velocity)反映出海量數據的特點;形式多樣(Variety)與信息價值(Value)反映出復雜計算的特點。
物聯網、云計算、大數據、移動互聯等技術在交通領域的應用和發展,對智能交通系統的模式、理念將產生巨大影響。目前,國際智能交通領域的車路協同系統、公眾出行便捷服務、車聯網等熱點技術領域,都在廣泛研究和應用云計算、大數據、移動互聯等新技術。隨著研究和應用的深入,可運用大數據技術對交通需求進行全面客觀的精準分析和分類研判,大數據分析在交通運行管理優化、面向車輛和出行者的智能化服務,以及交通應急和安全保障等方面都將形成巨大的市場。目前北京、上海、廣東等地都在廣泛地研究和應用大數據技術,其中廣州、深圳已經利用大數據為本地市民出行提供了便利。
但城市交通仍面臨諸多嚴重問題,以成都為例,成都作為西南地區的大型城市,路網體系日趨完善,承載能力不斷加強,但汽車保有量也強勁增長,供需關系依然緊張,截至2014年3月,成都地區的汽車保有量突破268.59萬輛大關,中心城區114.18萬輛,僅次于北京。根據成都交管局數據,成都已連續62個月月均增2萬新車。根據2011年至2013年的完整數據,2011年成都非私家車數量約為27萬,到2013年達到31萬,每年增加2萬輛;而私家車的數量從2011年的166.82萬輛,增加到2013年底的228.39萬輛,占據了汽車總保有量的87.86%。根據增長數據,交通部門將汽車平均長度和道路公里數,進行了簡單的加減法,得到的結果是:預計到2017年6月,成都人開車出門,會發現繞城以內的每一條道路上都停滿了車。城市環境承載已趨于飽和,按年均標準統計,6類污染物中有4類超標,其中PM2.5超過標準濃度250%。因此必須采取更有效的措施,才能保證城市交通系統有效運行。
我國大數據在智能交通領域中的應用僅僅是開始,在大數據背景下,交通相關的數據量已從TB級躍升到PB級,大數據分析交通除了流量、車輛信息之外,還應該包括路面情況、突發情況、天氣、周邊環境等諸多因素。
采集各種交通基礎設施數據,動態實時信息與天氣、政策法規等影響交通的其他因素。數據種類繁多,數據結構多樣,數據資源分散在各個部門。首先,大數據能夠在最大程度上利用記錄道路信息與人類出行信息進行分析。以傳統建模方式處理的數據都需要前期進行結構化處理,并記錄在相應的數據庫中。而大數據技術對于數據的結構的要求大大降低,可以通過人們留下的道路信息、行為習慣信息、偏好信息等各種維度的信息進行實時處理,立體完整地勾勒出每一個個體的各種特征,來發現大量交通流信息中隱含的模式和規則。其次,大數據將分散在不同部門的交通數據,例如,個人信息、公交網信息、鐵路信息、航空信息等各種交通相關部門的信息匯總整合,使各部門信息開放互通,實現多層次、跨部門的信息資源交換與共享。做到對交通網絡的統籌規劃,提高對交通系統的管控能力。最后,異構數據的協同計算是為了增強知識發現能力,不僅要解決信息的融合問題,還要解決多源數據的跨域關聯問題,由此,實現多源數據的知識增強。
大數據通過對海量數據進行分析給整個社會帶來從生活到思維上革命性的變化:管理人員在進行決策的時候,會出現從“經驗即決策”到“數據輔助決策”再到“數據即決策”的變化。利用大數據分析對具有時空特征的交通數據進行智能分析,可獲取豐富的、有價值的知識,如:時空分布、時空關聯規則、時空變化趨勢等,這些知識能夠為交通調度、路徑規劃、交通相關規則制定等提供決策支持。該項目存儲大量交通數據,而一些動態實時的交通數據要求快速處理,因為有些數據存在時效性,而基于大數據的智能交通系統同時需要較快的處理速度。該系統通過大數據算法使對數據處理分析的速度大大提高.首先,以隱馬爾可夫算法來預測天氣為例來說明,用一個通俗易懂的故事舉例說明:當一個隱士不能通過直接觀察天氣狀態來預測天氣時,但他有一些水藻。民間的傳說告訴我們水藻的狀態與天氣有一定的概率關系。也就是說,水藻的狀態與天氣時緊 密相關的。此時,我們就有兩組狀態:觀察狀態(水藻的狀態)和隱含狀態(天氣狀態),這樣在沒有直接觀察天氣的情況下得到天氣的變化情況。這一點也是和傳統的數據挖掘技術有著本質的不同。其次,可以通過spark技術處理數據,這是一種優于Hadoop集群的梳理方式,它提供快速的信息交互處理,提高了對系統的輸入輸出速度,從而提高智能交通系統的響應速度,與用戶的體驗滿意度。
城市交通系統作為一個動態系統,在其中包括了眾多復雜因素,如,人、環境、道路、交通規則等,這些因素相互關聯又相互制約,是一個典型的復雜系統。社交網絡中人的關系、不同地區之間的人口流動、道路上的交通流等等都可表達為復雜網絡模型。智能交通的應用中更多會用到帶有時空屬性的復雜網絡模型,每個節點都有空間坐標信息,并且邊和點的屬性(甚至結構)會隨時間而變化。因此,基于復雜網絡的數據管理和模式發現技術尤為重要。除此之外,可視化以直觀的方式幫助我們理解獲取的知識和模式。例如,將到達各個區域的人數畫成熱度圖(顏色越深,人越多)。將不同時間段的此類熱度圖連續播放,便可以動態反映整個城市的人口流動規律。與單一數據可視化不同,智能交通中的可視化技術需要同時考慮多個維度,其中空間和時間是兩個至關重要的維度。
交通數據由交通基礎設施數據和動態交通數據構成。動態交通數據可以通過磁頻、波頻、視頻和移動通信等技術采集。比如,通過在交叉路口埋設感應線圈或安裝在固定地點的視頻監控設備,可以獲得路口的交通流量;用安裝在車內GPS等移動定位設備,可記錄車輛位置、瞬時速度、行程時間、行程速度、行駛軌跡等交通信息;基于RFID技術可采集關鍵斷面的分車型流量、速度等信息,并獲取車輛行駛軌跡;基于手機信令可獲取用戶運動線路和運動速度等。動態交通數據記錄著隨時間變化的空間和屬性信息,具有動態、多源、連續、無限、時變等特征,是進行實時監控和動態分析的數據基礎。
但是這些原始數據中信息多且復雜,噪聲數據、缺失數據、冗余數據和不一致數據大量存在,嚴重影響了數據的質量。因而需要對基礎數據進行清洗工作,主要步驟:
1)數據分析。利用團隊已有的創新性大數據分析方法,對基礎數據有針對性地詳盡分析, 獲得關于數據屬性的元數據,從而發現數據集中存在的質量問題。
2)定義清洗轉換規則。根據上一步數據分析得到的結果定義清洗轉換規則與工作流。
3)檢測屬性錯誤并標準化。基于統計的方法、聚類方法、關聯規則的方法檢測數據集中的屬性錯誤,并糾正錯誤,使數據標準化。
4) 數據回流。利用干凈的數據替換數據源中原來的“臟數據”。
有效的交通數據組織管理和交通數據提取與分析是進行動態交通流和路網擁堵狀態分析的兩個關鍵環節。
根據交通管理部門和出行者對交通信息訪問的實時性和智能化需求,以動態交通流和路網擁堵狀態分析為導向,結合交通數據的時空特征和交通領域約束,深入分析數據之間潛在的相似性、相關性和關聯性,并對交通數據進行聚類分析、預測分析、關聯分析、異常檢測等深度挖掘,從而發現不同特征維度、不同數據粒度隱含的知識,利用降維技術分析和處理數據。
基于大數據分析,可以利用隱馬爾科夫模型建立智能交通預測模型。隱馬爾科夫模型用于描述隨機過程統計特性的概率模型,是一個雙重隨機過程,由馬爾科夫鏈和一般隨機過程兩部分組成。其中,馬爾科夫鏈用來描述狀態的轉移,一般隨機過程用來描述狀態與觀察值之間的對應關系。一個可以用五元組
來表示,其中,描述了馬爾科夫鏈,描述了隨機過程模型結構如下圖所示:
各參數描述如下:
2.O為一組可觀察符號的集合,。
3.M為從每一狀態可能輸出不同的觀察值數目。
道路的流量在時間上是一個馬爾科夫過程,當前時間段的交通情況是受上一時間段的情況影響的。在地理位置上相關聯的路段的交通情況也是一個馬爾科夫過程,當前路段的流量會受到與之相連的路段的影響。
對采集的數據進行處理和統計,通過設定預測窗口,對預測窗口起始時刻測得值以及預測窗口內參數平均值和序列對比度離散化,構成隱馬爾科夫模型的隱狀態和觀察狀態集合。最后進行道路的流量進行預測。
采用預測準確度作為評價指標,考慮系統預測流量和實際流量之間的相似度。預測準確度的一個經典方法是度量系統預測流量和實際流量的平均絕對誤差(Mean Absolute Error,簡稱MAE)。

與平均絕對誤差相關的其它指標有平均平方誤差 ( Mean Squared Error, 簡稱 MSE) 和標準平均絕對誤差 (Normalized Mean Absolute Error,簡稱 NMAE)。平均平方誤差定義為

[1] (英)邁爾-舍恩伯格,(英)庫克耶 著,盛楊燕,周濤譯.大數據時代[M]. 浙江人民出版社,2013.1
[2] 吳忠澤.迎接中國智能交通的新時代[J].科學,2010,62(1):3-6.
[3] 畢然,黨梅梅.智能交通系統標準化現狀及發展趨勢[J].電信網技術,2011,4:44-47.
[4] 叢新宇,虞慧群,范貴生.基于組合模型的交通流量預測方法[J].華東理工大學學報(自然科學版),2011,37(3):340-345.
[5] 楊勝,李莉,胡福喬,施鵬飛.基于決策樹的城市短時交通流預測[J].計算機工程,2005,31(8):35-36.
Intelligent transportation system based on big data analysis
Li Xiao
(ChengDu Normal University,College of physics and Engineering,ChengDu,611130)
Today,big data has been known for everybody,and is used by many industries and enterprises. Big data have got to a good application value in the astronomical,meteorological,health care and other fields.China is a major car producer,and the rapid development of the auto industry has brought many problems in city traffic congestion and pollution.How to integrate the cars and big data effectively,how to use the big data to provide data support for the government,and how to makes the contribution for the intelligent transportation.
Big data;Intelligent;transportation;Hidden Markov
