蔣雄 沈平 常彬
摘 要: 當前通過交通基礎設施采集的信息越來越復雜。應用一種改進版的TDH Hadoop大數據技術,通過采集異構、動靜結合的交通基礎信息數據,對數據進行分析挖掘,在公安交通管理方面運用,改善了交通運行狀況。
關鍵詞: TDH Hadoop; 交通基礎信息數據; 大數據技術; 交通誘導; 數據分析
中圖分類號:U491 文獻標志碼:A 文章編號:1006-8228(2016)10-40-03
Application of big data in public security traffic administration industry
Jiang Xiong, Shen Ping, Chang Bin
(The traffic police detachment of Huzhou public security bureau, Huzhou, Zhejiang 313000, China)
Abstract: At present, the information collected by means of transport infrastructure is becoming more and more complex. Application of an improved version of the TDH Hadoop big data technology, which collects the heterogeneous, dynamic and static traffic basic information data, analyzes and mining the data, put it to use in public security traffic administration to improve the traffic operating condition.
Key words: TDH Hadoop; traffic basic information data; big data technologies; traffic guidance; data analysis
0 引言
步入汽車普遍使用社會,道路擁堵幾乎是我們每個人都要面對的問題。而引發道路擁堵的原因有多方面因素,如道路設計,信號配時,交通事故、節假日、早晚高峰等時段性常發問題等。緩解以上問題,一是借助交通長遠規劃,加強路網建設、改造,二是借助科技、優化交通組織,強化交通管理,提高道路通行與管控能力。下文是我們的工作實踐,希能拋磚引玉。
1 相關技術研究
1.1 系統框架
交通基礎信息數據的采集有其行業特征,一是采集方式多樣,例如通過手機信令、攝像機、微波、雷達、地感線圈、地磁棒等設備等采集到的文本、圖片、視頻數據;二是數據容量龐大,目前地市級交警支隊每年的數據量已從原來的TB級向現在的PB、甚至ZB數量級增長;三是數據種類廣泛,不但包括駕駛人、車輛等基本信息,還有的各種行車數據等,以及其他部門的接入數據等。面對海量異構數據,如何進行準確高效的分析和處理,對存儲、查詢和計算能力都提出了很高的要求。大數據技術有快速、實時的優勢,但Hadoop技術對海量數據進行分析和利用效率很低,這就需要完備的決策分析工具集運行在Hadoop架構之上,TDH Hadoop技術應運而生。系統框架圖如圖1所示。
1.2 大數據技術介紹
TDH Hadoop是針對大規模分布式數據而開發的軟件框架,inceptor采用專有的高效列式內存存儲格式和為內存優化的Spark計算引擎,相比Map-Reduce框架消除了頻繁的磁盤I/O。Spark引擎還采用了輕量級的調度框架和多線程計算模型,具有極低的調度和啟動開銷,執行速度更快,系統MTTR大大縮短。實時在線應用方面,Hyperbase構建了全局索引、輔助索引和全文索引,擴展了SQL語法,滿足在線存儲和在線業務分析系統(OLAP)的低延時需求。Discover高效快速的數據挖掘能力與TDH對主流可視化和BI工具的支持,綜合在執行引擎及數據存儲層上的優化,使得TDH性能全面領先開源Hadoop 2.0,比主流MPP數據庫快1.5到10倍。軟件邏輯架構[1]如圖2所示。
1.2.1 HDFS分布式文件處理系統
HDFS是一個高效的分布式算法,將數據的存儲和訪問分布在大量服務器之中,在可靠地多備份存儲的同時,還能將訪問分布在集群中的各個服務器上,是傳統存儲構架的一個顛覆性的發展。
Namenode登記采集到的基礎交通信息作為元數據,將不同來源的基礎數據按塊,分配到服務器,例如:數據塊a放在datenode3中……,實現基礎信息的分布式處理。
1.2.2 Hbase數據庫
Hbase是運行在Hadoop上的NoSQL數據庫,是一個分布式、可擴展的大數據倉庫,也就是說HBase能夠利用HDFS的分布式處理模式,并從Hadoop的MapReduce程序模型中獲益。這意味著在一組硬件上存儲著具有數十億行和上百萬列的大表。同時,除Hadoop本身具有的優勢外,HBase還是十分強大的數據庫,它能夠融合key/value存儲模式具有實時查詢的能力,以及通過MapReduce進行離線處理或者批處理的能力。總之,Hbase能夠滿足在大量的數據中查詢記錄[2]。
1.2.3 Hive數據倉庫技術
它提供了類似于傳統SQL的編程模型,為海量機動車軌跡分析過程提供了友好的編程模型和方法,同時能利用Map/Reduce的高并發特性。
1.2.4 Storm
是一個分布式的、容錯的實時計算系統,可以方便地在一個計算機集群中編寫與擴展復雜的實時計算。Storm保證每個消息都會得到實時處理,每秒可以處理數以百萬計的消息。
1.3 交通網絡平衡
面對擁堵的路網狀態,要達到路網的平衡,流量分配也至關重要。交通流中的wardrop平衡原理:假設道路使用者都知道各條道路的行駛時間,并選擇行駛時間最短的路徑作為自己的出行路徑,也就是動態交通分配模型,即總路段的阻抗最小,為交通流誘導提供最佳的流量分配,以路網總行程時間最小為目標,同時兼顧路網流量的均衡。模型粗略描述如下[3]。
J-系統總阻抗;
xa(t)-t時刻弧段a上的交通流量(兩節點之間道路稱為弧);
ca(x,t)-t時刻弧段a上的行程時間。
在實際應用中,我們只需通過對研判分析反應出來的交通運行狀態進行評價,利用手機端、誘導屏、廣播、互聯網等載體發布誘導信息,進而對交通流進行誘導,優化民眾出行路徑、時間、方式等,緩解交通擁堵,降低總出行成本。
2 公安交通管理行業應用
運用TDH Hadoop技術,實現全市交通流量、車輛平均通行速度等信息的匯聚、查詢、統計、分析、預測等,為社會化服務提供實時流量數據,主要在以下方面:
⑴ 交通運行狀態分析
按照時間、空間規律對指定的道路進行平均速度、平均旅行時間、交通路況等信息的綜合統計,通過歷史變化規律對比分析,對交通運行狀態變化趨勢進行評價。交通運行狀態分析時間跨度1周,單道路查詢響應時間5秒內。
⑵ OD分析
通過對采集到的數據進行OD分析,分析每個交通參與者的出行習慣,統籌交通信號控制,提高出行者的整體出行效率。
⑶ 指揮調度
以事件為觸發的交通警情調度,通過中心平臺的信息共享,形成類似事件的模版化預案。包括日常交通管理調度、道路施工交通調度、交通管制交通調度、警力定位、協調調度等。
⑷ 交通誘導
通過匯總交通流量、車輛平均通行速度等信息,實現按道路、按車道、方向、時間范圍、等進行交通流量和速率的分析、預測等,提供海量數據下道路交通狀態判別功能,提供實時、有效的出行信息。情報板誘導發布如圖3所示。
⑸ 交通運行指數[4]
通過計算得到路網中各路段的運行車速,再按各道路的擁堵權重將所有道路的運行狀況以簡潔直觀的數字圖形描述,實現對道路交通運行的量化評價,為市民出行提供及時準確的信息,為政府決策提供數據支撐。根據浙江省評價指標體系[5]開發的運行指數系統如圖4。
⑹ 交警大數據實戰查緝毒駕應用成效
支隊自2015年11月部署實戰應用查緝毒駕以來,短短幾個月,就發揮了大數據實戰緝查優勢,查獲一批毒駕人員。2015年底,公安部交管局刊載《湖州支隊以信息化引領精確警務嚴查毒駕違法行為》,詳細介紹了我市公安交警以信息化引領嚴查毒駕取得的成效。
3 結束語
汽車社會、海量數據,運用TDH Hadoop技術,探索在公安交通管理的應用,目前還在探索階段,仍然存在一些問題。今后需要在數據接入的統一性、數據與視頻的海量存儲擴展性、大數據的可管理性、與業務結合的可用性上加強研究與應用。
參考文獻(References):
[1] http://www.cnblogs.com/xia520pi/archive/2012/05/28/
2520813.html Hadoop集群(第8期)_HDFS初探之旅.
[2] http://wenku.baidu.com/view/d1c2a780ec3a87c24028-
c4d0.html Hbase分布式數據庫.
[3] 武文斌.路網交通流量分配模型[J].山西交通科技,2002.6:
15-16
[4] 浙江省交通運輸廳.城市道路交通運行狀態評價規范.
(DB33/T998-2016).