丁巖 楊萬祥 汪清 楊樂 胡曉


【摘 要】近幾年來,由于智能卡口設備的廣泛部署,全國各地都積累了海量的車牌識別數據,這些數據為智慧城市分析提供了有力保障。車輛特征的分析,可以為城市交通、城市犯罪和城市治理等方面做出決策依據。因此,本文根據車牌識別數據,采用數據挖掘k-means聚類分析方法,分析路網中的車輛行為特征,對車輛行為進行時空刻畫。分析發現,一般情況下,地域、時間和車輛屬性共同決定了部分車輛的行駛規律。除此之外,攝像頭的安裝位置也會對卡口記錄的數據產生極大影響,攝像頭區域設有停車區域,極其容易造成車輛停滯車輛產生很多重復數據的情況。更多的情況,家庭用通勤車在工作日表現出很明顯的早出晚歸特征,并且只在早晚高峰出現行車記錄,且軌跡固定,車輛活動具有區域性。研究結果表明,從車輛的角度解析城市交通,從交通的角度剖析城市發展,對智慧城市,智慧交通的研究和政策制定具有重大意義。
【關鍵詞】車牌識別數據;數據挖掘;行駛規律;城市交通
中圖分類號: TP391 文獻標識碼: A 文章編號: 2095-2457(2019)28-0004-004
DOI:10.19694/j.cnki.issn2095-2457.2019.28.002
【Abstract】Recently, large number of license plate recognition data have been accumulated throughout the country due to the extensive deployment of intelligent card port equipment. These data provide a powerful guarantee for the analysis of intelligent cities.The analysis of vehicle characteristics can provide decision-making basis for urban traffic, urban crime and urban governance. Therefore, according to the license plate recognition data, this paper uses the data mining K-means clustering analysis method to analyze the vehicle behavior characteristics in the road network, and describes the time and space of the vehicle behavior. The analysis shows that in general, the driving rules of some vehicles are decided by region, time and vehicle attributes.In addition, the installation position of the camera will have a great impact on the data of the recording of the card. The camera area has a parking area, which is extremely easy to cause a lot of duplication of data in the vehicle stagnant vehicle. More and more, the home use commuter car shows a clear feature of early arrival and evening return in the working day, and only in the morning and evening peak running record, and the track is fixed, the vehicle activity is regional. The research results show that the analysis of urban traffic from the angle of vehicles and the analysis of urban development from the perspective of traffic is of great significance to the research and policy making of intelligent cities, intelligent traffic.
【Key words】License Plate Recognition Data; Data Mining; Driving Rules; Urban Traffic
0 引言
近年來,隨著人民生活水平的穩步提升,汽車已經成為生活中不可或缺的交通工具,隨之而來,機動車的數量也逐年遞增。據統計,截止2017年底,我國機動車保有量達3.10億輛。2017年在公安交通管理部門新注冊登記的機動車3352萬輛,其中新注冊登記汽車2813萬輛,均創歷史新高[1]。與此同時,經過多年信息化建設的推進和大數據云計算人工智能技術的不斷完善,公安道路監控系統建設得到了長足進步,越來越多的城市路口、高速檢查站和橋梁隧道都部署了監控攝像頭,每輛機動車上也都安裝了全球定位系統或者行車記錄儀[2]。在這些設備的幫助下,車輛的行駛行為被記錄下來,公安信息化部門也都搭建了一體化的大數據平臺,以供交通大數據存儲和查詢分析。基于這些數據,人們可以對車輛軌跡進行研究,監控道路交通情況,檢測異常車輛行為[3-4]。與此同時,生產研究工作也在逐步推進。目前投入使用的分析系統基本都是以基于記錄的數據比對,查詢碰撞來完成相關任務。除此之外,很多學者也根據車輛軌跡的時空信息進行了特定車輛的研究,如出租車載客地點分析、城市交通擁堵預測等[5]。這些工作對城市交通安全,打擊犯罪和恐怖主義活動有著重要的意義。
卡口數據是使用車牌識別技術后的二次結構化數據,可以監控所有道路車輛的行駛記錄,獲取數據容易,且部署和維護成本低廉。本文針對卡口數據,基于數據挖掘技術,建立車輛行駛軌跡流程,對海量卡口數據進行了分析和梳理,建立車輛分析特征體系。特別的,我們針對提取的車輛軌跡特征,結合無監督學習算法K-means對車輛進行聚類分析。通過指標體系分析發現,一般情況下,地域、時間和車輛屬性共同決定了部分車輛的行駛規律。除此之外,攝像頭的安裝位置也會對卡口記錄的數據產生極大影響,攝像頭區域設有停車區域,極其容易造成車輛停滯車輛產生很多重復數據的情況。更多的情況,家庭用車在工作日表現出很明顯的早出晚歸特征,并且只在早晚高峰出現行車記錄,且軌跡固定,車輛活動具有區域性。
1 相關工作
目前,車輛行為分析的研究工作層出不窮。得益于深度學習技術的飛速發展,大量的研究直接利用視頻圖像技術識別車輛行為,以此來分析車輛在監控區域內的短期行為模式。例如,監控區域的車輛違章行為或者檢測高速道路上的行人等潛在危險目標[6]。也有針對公共安全領域,研究車輛在重點區域的異常行為檢測[5]。另一方面,得益于全球定位系統(GPS)的發展,車輛行駛軌跡分析技術通過對海量車輛軌跡和時間序列的分析,進行預測城市交通、出租車載客優先選擇點、車輛超速異常行為監測(超速,逆行等)和城市尾氣污染等工作[7]。面對道路卡口數據,研究者們主要通過分析性查詢來識別伴隨車、套牌車和軌跡預測等任務[8-11]。然而,大量的研究工作只是研究了特定數據的分析工作,缺少推廣作用。一方面,基于視頻圖像的分析技術,只能針對監控區域額進行分析判斷,無法分析車輛的長期行為特征。再者,基于神經網絡的圖像分析算法時間復雜度高,很難快速檢測車輛行為,目前還無法做到海量視頻的大規模快速檢測。另一方面,基于GPS數據的研究工作必須采取車載GPS記錄數據檢測,設備成本高昂,同時還要考慮數據的遠程傳輸成本,不符合現階段公共安全領域車輛監控的實際情況。面對海量卡口數據,目前的分析型任務主要是基于數據比對等方法實現或者特定任務制定,很少有對卡口數據的綜合分析和實證。其他的,針對車輛卡口數據,研究者們還針對性地進行了車輛分析,例如識別和提取危險化學品車輛,對車輛進行行車軌跡和行車時間預測[12-17]。
2 模型及方法
交通卡口系統通過車牌識別(車牌號碼,車牌顏色)等信息進行二次分析,形成結構化數據,每個記錄包含車輛車牌號碼、車牌顏色、抓拍時間,卡口編號等主要信息。我們首先根據車牌編排規則,過濾了特定車牌的特殊車輛,如軍車,警車或者大使館車輛,例如車牌以“WJ”開頭的特殊車牌車輛等。由于隱私保護,在保證車牌唯一性的前提下。
我們使用hash函數對過濾后的車牌號碼信息進行了加密模糊。
根據卡口數據特點[14],車輛的軌跡可用一個時序順序的軌跡點集合表示Pathj={p1,p2…pn},其中pi表示該車輛在第i時刻的抓拍卡口位置,j表示車輛j,j為標注車輛的唯一編號。根據實際情況,車輛的行駛一般不會具有持續性,往往會發生停車等情況。因此,我們將整個軌跡集合切分為多個子軌跡的集合PathSetj={S1,S2…Sm},以此來表示車輛的行駛記錄,每個子軌跡Sh代表車輛的一個獨立行程。我們規定,如果兩個相鄰記錄的間隔時間大于一個閥值T,則將這條軌跡切段,前一個點為上一條軌跡的終點,后一個點為下一條軌跡的起始點。如圖1是車輛的軌跡切分過程示例。
正常模式概率(normal pattern):定義車輛以天為單位的軌跡相似概率。
軌跡循環概率(trip cycle):車輛軌跡之間的最長公共序列的比例。
最高卡口頻次(max frequency):定義車輛最常經過的卡口為p,則最高卡口頻次表示為經過該卡口的總次數。
以上特征再與每天起始點是否主城區,每天終點是否主城區、是否是本地車和平均每天軌跡點數量等4個特征組合形成21個特征體系(軌跡段閾值時間為30min)。
3 實驗及結果分析
與某市相關部門合作,我們提取了該市實際運行的卡口數據系統中從2017年11月中完整三周的數據。該市的卡口系統一共包括1507個卡口,我們截取了2017年11月6日至2017年11月26日完整三周的數據記錄,其中記錄車輛為10783380輛,本地車4204556輛。本地車根據車牌顏色統計,藍色車牌為3664300輛,黃色車牌為326048輛,白色車牌為24845輛,黑色車牌為17854輛。由于車牌號碼和車牌顏色為車輛的唯一標示,經過數據清理,首先清洗了車牌號碼不完整的車輛34500輛,清洗車牌顏色記錄不正確的車輛,清洗后剩余車輛總數為8685600輛。
本文首先使用提取的特征集合構造分析集合,使用無監督學習算法K-means對整體數據進行聚類分析。通過分析,我們將全部車輛聚類后分為18類[18-19],如圖2所示。
車輛的行駛行為受到駕駛目的的直接影響,通過分析發現,有一類車輛的活動只活躍于高速公路檢查站或者臨近市區的郊區道路,且郊區道路皆屬于高速公路卡口記錄,如圖3所示為該類車輛通過卡口記錄的分布。該類車輛中,包含本地車數量為1133740輛,其余均為外地車輛。不難發現,該類車輛主要為過境車輛,且外地車輛居多。這類車鮮少進入主城區,只在高速通過,可歸類為過境車輛。
城市車輛的用途大多為市民的上班通勤車,通過聚類分析,我們發現通勤車的駕駛行為表現因人而異。如圖4所示,結果中第3類通勤車的主要特征表現為出行行為集中分布在早6:00至9:00,晚18:00至21:00。在早晚高峰階段,其中大于50%的通勤車輛主要分布在主城區核心區域(城市中心區域)和新興高新科技區域(雨花區軟件谷),江北新區的通勤車輛較少。但經過細致分析,江北新區的車輛有其獨特的晝伏夜行出行特征,即該區域車輛表現為凌晨夜間活動較多,但白天鮮少活動,如圖5所示。另一方面,由于住家與工作單位的地理位置十分接近,一類車輛軌跡記錄點較少,但特定是在其最高卡口頻次指標上,這類通勤車的最高卡口頻次是一般通勤車的2倍。可見,這類通勤表現為近距離、中心化的早出晚歸通勤車特征。在城際高速公路出入口,通勤車的比例較小,幾乎沒有通勤車通過。
另外,由聚類結果知,有兩輛車分別單獨處于一類。經過分析,其最高卡口頻次分別為4574和9240次,這兩輛車為停車位置位于卡口拍照區域,每次有車路過,他們就會被記錄一次。因此可見,攝像頭的安裝位置也會對卡口記錄的數據產生極大影響。
通勤交通車的管理對城市交通治理政策的出臺非常關鍵,直接關系著城市交通資源的配置和平衡,交通擁堵的緩解,對是否出臺機動車限行限牌等措施的推行有很強的指導作用。因此,通勤交通車的分析可以對交通政策精細化實施提供有效的指導。
4 結束語
得益于電子卡口設備的廣泛部署,海量車牌識別數據的分析能幫助我們更全面地了解車輛的行為特征與身份標識,為分析車輛出行行為和城市智慧發展提供了有力保障。因此,本文在該市車牌卡口數據的基礎上,基于數據挖掘技術,建立車輛行駛軌跡流程,對海量卡口數據進行了分析和梳理,建立車輛分析特征體系。特別的,我們針對提取的車輛軌跡特征,結合無監督學習算法K-means對車輛進行聚類分析。通過指標體系分析發現,一般情況下,地域、時間和車輛屬性共同決定了部分車輛的行駛規律。除此之外,攝像頭的安裝位置也會對卡口記錄的數據產生極大影響,攝像頭區域設有停車區域,極其容易造成車輛停滯車輛產生很多重復數據的情況。更多的情況,通勤車在工作日表現出很明顯的早出晚歸特征,并且只在早晚高峰出現行車記錄,且軌跡固定,車輛活動具有區域性。車輛的時空特性分布是城市智慧化運營的重要指標之一,在未來的研究中,我們還將深化車輛行為分析,建立更完善的車輛畫像體系,探索道路路網的流量結構,研究城市機動車行為的預測算法,從車輛的角度解析城市交通,從交通的角度剖析城市發展,對智慧城市,智慧交通的研究和政策制定具有重大意義。
【參考文獻】
[1]喬永鋒.汽車行業正邁入新時代[J].中國汽配市場,2017(06):10.
[2]楊健,顧濤.公安視頻專網安全管理系統的設計與研究[J].網絡安全技術與應用,2017(3):154-155.
[3]黃衛.道路視頻監控中的車牌自動識別算法分析[J].電子技術與軟件工程,2017(16):79-79.
[4]馬春香.基于海思平臺的智能視頻車牌識別算法[D].杭州電子科技大學,2012.
[5]Ma X,Koutsopoulos H N.A New Online Travel Time Estimation Approach using Distorted Automatic Vehicle Identification Data[C].International IEEE Conference on Intelligent Transportation Systems. IEEE, 2008:204-209.
[6]邱凌赟,韓軍,顧明.車道模型的高速公路車輛異常行為檢測方法[J].計算機應用,2014,34(5):1378-1382.
[7]吳子珺,于重重,孫利民,等.一種針對特定車輛潛在群體的行駛軌跡預測方法[J].計算機應用研究,2014,31(7):1951-1955.
[8]暢玉皎,楊東援.基于車牌照數據的通勤特征車輛識別研究[J].交通運輸系統工程與信息,2016,16(2):77-82.
[9]郭昕,陳川.基于車牌識別數據的車輛使用特征研究:以上海市快速路非滬車牌識別數據為例[J].綜合運輸,2016(1):77-84.
[10]韓國華,蔣雨薇,丘建棟,等.基于車牌識別數據的出行特征研究[J].黑龍江交通科技,2017,40(9):213-214.
[11]孫劍,馮羽.自動識別環境下車輛的出行矩陣估計新方法[J].同濟大學學報(自然科學版),2011,39(12):1800-1804.
[12]李曉莉,石建軍.行程時間異常值處理方法研究[J].武漢理工大學學報(交通科學與工程版),2012,36(1):116-119.
[13]侯立文,譚家美.城市交通中利用Gram—Charlier分布估計行程時間可靠性[J].中國管理科學,2009,17(6):139-146.
[14]孫玉硯,孫利民,朱紅松,等.基于車牌識別系統車輛軌跡的行為異常檢測[J].計算機研究與發展,2015,52(8):1921-1929.
[15]Liu S, Liu Y, Ni L, et al. Detecting Crowdedness Spot in City Transportation[J].IEEE Transactions on Vehicular Technology, 2013, 62(4):1527-1539.
[16]Bacon J,Bejan A I,Beresford A R,et al.Using Real-Time Road Traffic Data to Evaluate Congestion[M].Dependable and Historic Computing.Springer Berlin Heidelberg,2011:93-117.
[17]Mohamad I, Ali M A M, Ismail M. Abnormal driving detection using real time Global Positioning System data[C]// IEEE International Conference on Space Science and Communication. IEEE, 2011:1-6.
周世兵.聚類分析中的最佳聚類數確定方法研究及應用[D].江南大學,2011.
T. Caliński, J Harabasz. A dendrite method for cluster analysis[J].Communications in Statistics, 1974,3(1):1-27.
[18]周世兵.聚類分析中的最佳聚類數確定方法研究及應用[D].江南大學,2011.
[19]T.Caliński,J Harabasz.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1-27.