耿興隆,王麗(河北軟件職業技術學院,河北保定071000)
?
基于Hadoop的交通流量統計分析系統的應用研究
耿興隆,王麗
(河北軟件職業技術學院,河北保定071000)
摘要:隨著信息技術和物聯網技術在城市交通領域的廣泛應用,城市交通流量數據已經呈現出大數據的諸多特征。采用傳統的信息處理技術對交通大數據進行分析時不可避免地遇到了性能瓶頸。基于Hadoop的交通流量統計分析系統可以很好地統計和分析這些數據。通過基于Hadoop的平臺對交通流量信息的處理方法展開研究,設計了交通流量統計分析系統,并給出相應研究數據,最后對系統進行仿真并驗證系統的可行性與有效性。
關鍵詞:智能交通;大數據;Hadoop;MapReduce
云計算、大數據和物聯網技術的不斷發展,引領著智能交通相關應用技術的快速發展,信息技術越來越廣泛并深入地應用于智能交通中。在人們生活條件不斷提高的前提下,汽車走進了千家萬戶,城市交通擁堵,引起了國家和社會的廣泛關注,智能交通就顯得尤為迫切,而智能交通越來越依賴于信息處理技術。
Hadoop是針對互聯網應用而提出的一種被廣泛認可的、面向大數據計算的、開源的大數據計算系統開發框架,其以HDFS和MapReduce編程模型為核心,在大數據計算方面表現出優越的運算效率。隨著在網絡搜索、數據挖掘和用戶行為分析等眾多的互聯網領域的大量成功應用,基于Hadoop的行業應用研究已經成為計算機領域的研究熱點。Hadoop是一個分布式體系結構,它是由Apache基金會負責研究和開發的,用戶不需要透徹地了解位于該體系非常底層的實現過程,就能夠用常用的編程語言編寫出相應的應用程序。運用集群來進行快速運算和儲存。Hadoop的一個重要組成部分是分布式文件系統(System File Distribute Hadoop),簡稱為HDFS。HDFS的一個優點是它的高容錯性,對硬件的要求非常低,并且它具備對應用程序數據的高數據速率,適用于超大數據集的應用。HDFS對POSIX的要求比較寬,在文件系統中對數據的讀取操作是通過流的方式進行的。
在城市中,每天都產生大量的交通信息,Hadoop HDFS的出現可以很好地利用這些信息數據,對城市交通進行合理的引導,從而緩解城市交通擁堵的壓力,為人們的日常生活和工作提供便利。
本課題組首先對Hadoop中的HDFS和MapReduce編程模型進行了深入研究,并對目前常見的幾種大數據計算平臺進行了分析比較;然后,在實際布署的Hadoop集群環境中,設計并實現了一種分布式引導交通流分配方法,該方法在已知城市路網數據集的條件下可以兼顧交通引導和優化交通流分配,同時也提出了一種獲取城市路網數據集的搜索算法。圍繞上述方法設計并實現了一種基于Hadoop的交通信息服務系統,能夠根據實際出行需求,兼顧優化城市路網交通流分配的目標,向用戶提供分布式交通引導服務。通過構建中間層實現了根據接入的用戶請求,自動觸發Hadoop計算任務的功能,解決了Hadoop原有的離線式批處理工作方式不適合實時在線信息服務的問題。
以深入理解Hadoop系統結構為前提,在實驗環境下對三個節點的Hadoop集群進行了完全分布式部署,并分析了怎樣在該集群上進行相應的MapReduce程序編寫。
通過統計數據分析了交通信息服務系統的需求,對交通信息服務系統做了基于Hadoop的MapReduce模式的設計和實現,并對交通信息服務系統進行了測試。
通過采集系統獲得了交通流量方面的海量數據,需要搭建計算能力超強的數據運算平臺(數據的冗余度高),研發該系統的主要目標為:(1)代替傳統數據并行處理方法,以減小編程工作量;(2)充分利用資源,提高應用效率;(3)高效管理數據,及時反饋處理結果;(4)擴展系統靈活性,增強系統可用性。
系統設計的原則有兩個。第一,經濟原則。在搭建基礎設施時充分利用了當前資源。第二,高效原則。系統以大數據作為技術依托,根據平臺的典型特征,可以很好地分配現有的資源,極大地提高了資源利用率,并且對系統構架進行合理的調整,最終實現了大規模數據的高效處理。
4.1系統模型體系結構設計
基于Hadoop的交通信息服務系統模型如圖1所示,系統包括三層,分別為服務器、中間件以及底層。

圖1 系統結構圖
4.2功能子模塊設計
系統功能如圖2所示。整個系統管理層包括六大功能模塊:
(1)客戶端通信模塊:負責發送請求和接收結果。
(2)結果顯示模塊:負責將服務器發送的結果,通過Google Maps繪制并顯示在客戶端。
(3)數據預處理模塊:負責將交通道路網中的所有連通的路徑進行處理,得到任意兩個節點間的最短路徑集合。
(4)服務器通信模塊:負責監聽客戶端的請求,并把請求傳遞給中間層去處理,并在處理結束后把結果發送給客戶端。
(5)中間層模塊:負責銜接通信模塊和底層基礎設施模塊,負責用程序實現Linux命令行操作等。
(6)底層基礎設施層:即Hadoop集群,主要負責后臺運算。

圖2 系統功能模塊圖
4.3 MapReduce實現統計分析算法
根據交通道路網的所有路徑集合得出最短路徑集合關鍵代碼如下。


Reduce過程實現的是key值相同的value進行權值計算,最小值為最短路徑,并把所有的最短路徑輸出,輸出的格式是鍵值對
根據交通道路網的路徑請求統計各個OD對出現的次數程序。


Reduce過程實現的是將所有key相同的數據都進行相加,得到一個新的數據,輸出的格式是
根據最短路徑集合和各個OD對出現的次數,給出推薦路徑程序。
Map過程實現的是對讀取的每一行字符串進行分割,把前三個字符作為key,把后面的字符作為value。


Reduce過程實現的是對key值相同的value進行處理,根據字符串中是否包含”=”來判斷是請求次數還是最短路徑。輸出的結果即為對于各個路徑請求給出推薦路徑。
在對Hadoop體系結構和城市交通路徑導航有了較為深刻的理解的基礎上,在實驗室內利用普通臺式機構建了Hadoop集群,并在集群上進行城市交通信息服務系統的開發和測試。
當然,Hadoop并不是萬能的解決方案,Hadoop適合于海量數據的計算處理等應用場合,而且Hadoop目前的版本還不夠完善,有的功能特性還沒有實現,如果Hadoop能支持更多的數據類型,并且能使數據關聯更加容易,則會使Hadoop適應更多的領域。
參考文獻:
[1]劉鵬.云計算[M].北京:電子工業出版社,2010.
[2]王鵬.云計算的關鍵技術與應用實例[M].北京:人民郵電出版社,2010.
[3]Tom White.Hadoop:The Definitive Guide[M].O’Reilly-Media,Inc.,2012.
[4]MapReduceTutorial[EB/OL].(2015-10-15)[2011-08-19].http://hadoop.apache.org/common/docs/current /mapred_tutorial.html.
The Application of Traffic Statistical Analysis System Based on Hadoop
GENG Xing-long,WANG Li
(Hebei Software Institute,Hebei Baoding 071000,China)
Abstract:With the wide application of information technology and Internet of things technology in urban transportation,urban traffic flow data have been presented with many features of large data.The bottleneck of the traffic data is analyzed with the traditional information processing technology.Hadoop based traffic flow statistics analysis system can be very good for the statistics and analysis of these data.Based on the Hadoop platform,this paper studies the processing method of traffic flow information,designs the corresponding traffic flow statistic analysis system,gives the corresponding research data,and finally,simulates and validates the system.
Key words:intelligent transportation;big Data;Hadoop;MapReduce
作者簡介:耿興?。?982-),男,河北衡水人,講師,碩士,主要研究方向為軟件技術開發與應用;王麗(1982-),女,河北衡水人,講師,主要研究方向為會計、統計分析等。
基金項目:2014年河北省統計科研計劃項目“基于Hadoop的城市交通流量統計分析平臺的設計與研究”(2014HY19)
收稿日期:2015-10-16
文章編號:1673-2022(2016)01-0044-04
中圖分類號:TP311.03
文獻標志碼:A