昝雨堯,王 翔,俄文娟,宗維煙,陶硯蘊(yùn)
(蘇州大學(xué),軌道交通學(xué)院,蘇州 215131)
城市居民普遍面臨“停車難”問題,相關(guān)數(shù)據(jù)顯示,大城市小汽車與停車位的平均比例為1.0:0.8,中小城市約為1.0:0.5,全國(guó)停車位缺口超過5 000 萬個(gè)[1],而停車供需矛盾的精準(zhǔn)識(shí)別與分析是緩解“停車難”問題的前提。
隨著停車資源基礎(chǔ)數(shù)據(jù)普查工作的開展,城市區(qū)域內(nèi)停車位數(shù)量已逐漸清晰,但是停車需求不能簡(jiǎn)單地用小汽車擁有量來表示,而是需要獲取時(shí)變停車量。目前,已有面向路內(nèi)停車位與路外停車場(chǎng)應(yīng)用的高位視頻[2]、視頻樁[3]、智慧地鎖[4]、地磁傳感器[5-6]、車牌識(shí)別[7]等技術(shù)進(jìn)行時(shí)變停車量監(jiān)測(cè)的方法。此外,有學(xué)者進(jìn)行了針對(duì)違章停車行為[8-9]和路邊停車行為監(jiān)測(cè)的研究[10]。可以發(fā)現(xiàn),已有研究的停車量監(jiān)測(cè)對(duì)象通常為停車位、停車場(chǎng)或某條街道。然而,上述方法在城市區(qū)域級(jí)空間尺度下進(jìn)行停車量監(jiān)測(cè)時(shí)(見圖1)存在以下問題:(1)由于配建停車場(chǎng)、公共停車場(chǎng)、路內(nèi)停車位等經(jīng)營(yíng)權(quán)與管理權(quán)的差異,難以收集城市區(qū)域內(nèi)所有停車場(chǎng)與停車位狀態(tài)信息;(2)部分老舊停車場(chǎng)尚未實(shí)現(xiàn)信息化管理,難以提供停車數(shù)據(jù);(3)視頻監(jiān)控等設(shè)備無法實(shí)現(xiàn)全覆蓋,難以捕捉所有違章停車。城市區(qū)域停車量監(jiān)測(cè)有助于掌握時(shí)變停車需求,為制定相關(guān)停車規(guī)劃方案與管理措施提供數(shù)據(jù)支持。因此,本研究期望利用城市已有交通信息采集設(shè)備,實(shí)現(xiàn)城市區(qū)域范圍內(nèi)時(shí)變停車量的監(jiān)測(cè)。

圖1 城市區(qū)域停車量構(gòu)成示意圖
城市電警卡口通過車牌識(shí)別技術(shù)可為經(jīng)過車輛提供信息化身份標(biāo)簽。目前已有利用城市電警卡口采集車牌識(shí)別數(shù)據(jù)的應(yīng)用研究,集中在出行特征分析[11-12]和時(shí)間[13-15]、速度[16-17]、交通量[18]等交通參數(shù)采集。此外,還有研究利用車牌識(shí)別數(shù)據(jù)分析交通政策對(duì)出行行為與路網(wǎng)交通狀態(tài)的影響[19-20]。近年來,已有學(xué)者嘗試?yán)密嚺谱R(shí)別數(shù)據(jù)分析停車需求及停車行為[21-23],主要采用經(jīng)驗(yàn)法確定閾值(例如車輛經(jīng)過前后兩個(gè)卡口的間隔時(shí)長(zhǎng)、平均車速等)來判斷某車輛在相鄰卡口過車記錄中是否存在停車行為。盡管已有經(jīng)驗(yàn)閾值法在部分場(chǎng)景實(shí)現(xiàn)了停車行為識(shí)別,但難以區(qū)別低速行車與停車,并存在識(shí)別精度與區(qū)域卡口密度及位置分布相關(guān),同時(shí)受經(jīng)驗(yàn)閾值影響較大的問題。
值得注意,僅利用來自城市電警卡口的車牌識(shí)別數(shù)據(jù)難以準(zhǔn)確判斷車輛在連續(xù)卡口過車記錄間的行停狀態(tài)。例如,經(jīng)過連續(xù)兩個(gè)卡口的時(shí)間間隔較長(zhǎng)或速度較低可能是由于交通擁堵,而并非車輛存在停車行為。為了獲取車輛在連續(xù)卡口過車記錄間的真實(shí)行停狀態(tài),本研究利用停車場(chǎng)進(jìn)出車輛數(shù)據(jù)獲得車輛的準(zhǔn)確停車時(shí)段,同時(shí)利用出租車GPS 數(shù)據(jù)捕捉出租車的行駛時(shí)段。通過車牌號(hào)建立上述兩類數(shù)據(jù)與城市電警卡口車牌識(shí)別數(shù)據(jù)的關(guān)聯(lián),則可準(zhǔn)確判斷樣本車輛連續(xù)卡口記錄間的行停狀態(tài),這為應(yīng)用機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn)停車行為識(shí)別提供了可能。
然而,由于兩類數(shù)據(jù)與車牌識(shí)別數(shù)據(jù)進(jìn)行匹配時(shí)存在數(shù)據(jù)量的差異(本研究案例中可匹配的停車與行車數(shù)據(jù)量約10:1),存在樣本類別不平衡的問題,直接訓(xùn)練難以獲得有效的分類器。目前,部分機(jī)器學(xué)習(xí)方法具備處理類別不平衡問題的能力,如本文采用的梯度提升決策樹(GBDT)可通過降低損失值來改進(jìn)分類器。這種基于Boosting 的集成算法每步會(huì)更關(guān)注上一步的錯(cuò)分樣本,通過提高錯(cuò)分樣本的權(quán)重實(shí)現(xiàn)少數(shù)類樣本的正確分類[24]。但是,這類算法存在以下不足:(1)算法目標(biāo)是最小化分類器損失值,在類別不平衡情況下分類器性能無法得到較大提高;(2)算法通過對(duì)誤分類樣本的反復(fù)學(xué)習(xí)來提高分類器的識(shí)別度,使得Boosting 算法容易受到噪聲的影響;(3)分類器更加關(guān)注誤分類樣本,增加了過擬合的風(fēng)險(xiǎn)。
為此,本文從訓(xùn)練數(shù)據(jù)集本身出發(fā),采用SMOTE+ENN 算法組合處理數(shù)據(jù),對(duì)少數(shù)類樣本進(jìn)行過采樣的同時(shí)對(duì)多數(shù)類樣本進(jìn)行欠采樣,從而達(dá)到平衡數(shù)據(jù)集的目的,使分類器更好地對(duì)少數(shù)類樣本進(jìn)行預(yù)測(cè),并且能夠剔除樣本集中的噪聲樣本和異常點(diǎn),解決樣本邊界模糊問題[25]。上述方法通過改變數(shù)據(jù)集分布來平衡數(shù)據(jù)集,再輔以機(jī)器學(xué)習(xí)算法從數(shù)據(jù)層面和算法層面共同解決類別不平衡問題。
綜上,本研究利用卡口車牌識(shí)別數(shù)據(jù)提取車輛出行軌跡,結(jié)合停車場(chǎng)進(jìn)出車輛數(shù)據(jù)和出租車GPS 數(shù)據(jù)標(biāo)定車輛行停狀態(tài);同時(shí)采用SMOTE+ENN 算法對(duì)行停車輛不均衡數(shù)據(jù)集進(jìn)行組合采樣,從而克服訓(xùn)練類別不均衡的問題;并在此基礎(chǔ)上提出基于GBDT 的停車行為識(shí)別方法,實(shí)現(xiàn)城市區(qū)域級(jí)范圍時(shí)變停車量的監(jiān)測(cè)。
本文的算法模型框架如圖2所示,主要可以分為兩個(gè)部分:基于SMOTE+ENN 的數(shù)據(jù)處理和基于GBDT 的停車識(shí)別與監(jiān)測(cè)。首先,結(jié)合停車場(chǎng)進(jìn)出數(shù)據(jù)和出租車GPS 數(shù)據(jù),標(biāo)定車牌識(shí)別數(shù)據(jù)中樣本車輛的真實(shí)行停狀態(tài),在此基礎(chǔ)上考慮連續(xù)卡口間的時(shí)間間隔、車速、交通狀態(tài)等特征,建立車輛行停樣本數(shù)據(jù)集;其次使用SMOTE+ENN算法處理行停類別不均衡問題;然后建立基于GBDT 的停車行為識(shí)別模型,并進(jìn)一步分析了卡口密度對(duì)識(shí)別準(zhǔn)確性的影響;最后將模型應(yīng)用于完整車牌識(shí)別數(shù)據(jù),統(tǒng)計(jì)城市范圍內(nèi)時(shí)變停車量。

圖2 算法模型框架圖
本文利用停車場(chǎng)進(jìn)出車輛數(shù)據(jù)確定車輛的停車時(shí)段、出租車GPS 數(shù)據(jù)確定車輛的行駛時(shí)段。由于上述兩種數(shù)據(jù)來源不同,前者是全市停車場(chǎng)內(nèi)車輛,后者僅是出租車,導(dǎo)致停車樣本集和行車樣本集的數(shù)據(jù)量差異較大,需要對(duì)原始數(shù)據(jù)集做采樣處理以解決類別不均衡問題。
采樣法主要分為三類:過采樣、欠采樣和組合采樣[26]。過采樣指通過生成少數(shù)類以均衡數(shù)據(jù)集,這會(huì)使少數(shù)類樣本中增加較多相似數(shù)據(jù),導(dǎo)致過擬合風(fēng)險(xiǎn)增加,或產(chǎn)生噪聲數(shù)據(jù),影響模型準(zhǔn)確性;欠采樣是指通過減少多數(shù)類以均衡數(shù)據(jù)集,可能會(huì)造成關(guān)鍵信息缺失。因此,本文采用合成少數(shù)類過采樣技術(shù)(SMOTE)+最近鄰(ENN)的組合采樣法來處理不均衡數(shù)據(jù)集。首先以少數(shù)類為對(duì)象,選擇某個(gè)少數(shù)類樣本以及其周圍K1個(gè)近鄰樣本,對(duì)該少數(shù)類樣本和其某個(gè)近鄰隨機(jī)做線性插值,生成新的樣本,然后以多數(shù)類為對(duì)象,選擇某個(gè)多數(shù)類樣本以及其周圍K2個(gè)近鄰樣本,若其中大部分是少數(shù)類樣本,則刪除該多數(shù)類樣本。SMOTE+ENN組合采樣示意如圖3,具體步驟如下:

圖3 SMOTE+ENN組合采樣法
①選定某個(gè)少數(shù)類樣本xsmote,根據(jù)歐氏距離確定該少數(shù)類樣本周圍K1個(gè)近鄰樣本;
②從K1個(gè)樣本隨機(jī)選擇xk,合成新的少數(shù)類樣本xnew:

③選定某個(gè)多數(shù)類樣本xenn,根據(jù)歐氏距離確定該多數(shù)類樣本周圍K2個(gè)近鄰樣本;
④若周圍K2個(gè)樣本中,大部分都與該選定樣本xenn的類別不一致,則刪除該多數(shù)類樣本。
利用經(jīng)過SMOTE+ENN 算法處理后的車輛行停樣本數(shù)據(jù)集,基于梯度提升樹算法構(gòu)建停車行為識(shí)別模型,可實(shí)現(xiàn)車輛行停狀態(tài)判斷。梯度提升決策樹(GBDT)將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合,具有比單一學(xué)習(xí)器更優(yōu)越的泛化性能,并能靈活處理各類型數(shù)據(jù),包括連續(xù)值和離散值,已在分類任務(wù)中有廣泛的應(yīng)用,而本文研究的停車行為識(shí)別是典型的分類問題。
GBDT 模型的輸入數(shù)據(jù)集合是T={(x1,y1),(x2,y2),…,(xm,ym)},其中x={x1,x2,…,xm}為樣本特征集合,xi={x(i,1),x(i,2),…,x(i,k)}為第i個(gè)樣本的特征集合,y={y1,y2,…,ym}為樣本標(biāo)簽集合,m為樣本數(shù)量,k為特征向量中屬性的數(shù)量,本文k=5。f(x)為目標(biāo)函數(shù),L為損失函數(shù),具體步驟如下[27]:
(1)初始化:

式中:c為常數(shù)項(xiàng);yi為第i個(gè)樣本的標(biāo)簽值。本文采用的損失函數(shù)為對(duì)數(shù)似然指數(shù)函數(shù)。
(2)對(duì)于n=1,2,…,Nt,其中Nt為決策樹數(shù)量,有:
①對(duì)于樣本i=1,2,…,m,計(jì)算負(fù)梯度:

②利用(xi,rni)(i=1,2,…,m),擬合一棵決策樹,即第n棵決策樹,其中對(duì)應(yīng)的葉子節(jié)點(diǎn)區(qū)域?yàn)镽nj(j=1,2,…,J),其中J為該決策樹的葉子節(jié)點(diǎn)的個(gè)數(shù)。
③對(duì)于葉子節(jié)點(diǎn)區(qū)域j=1,2,…,J,計(jì)算最佳擬合度:

④更新:

式中:I為指示函數(shù),當(dāng)輸入為True時(shí),輸出為1;輸入為False時(shí),輸出為0。
(3)確定最終模型:

時(shí)變停車量指在某時(shí)段內(nèi)有停車行為的車輛數(shù)。以全天車牌識(shí)別數(shù)據(jù)作為輸入,應(yīng)用訓(xùn)練好的停車行為識(shí)別模型可判斷每輛車的行停狀態(tài),從而獲取區(qū)域內(nèi)的時(shí)變停車量。設(shè)分析時(shí)段長(zhǎng)度為1 h,以7:00 pm為例,時(shí)變停車量是7:00 pm~8:00 pm 時(shí)段內(nèi)發(fā)生停車行為(單次停車30 min以上)的車輛數(shù)。根據(jù)上述定義,停車量的計(jì)算流程如下式:

式中:Nr為總車牌識(shí)別數(shù)據(jù)記錄數(shù)量;第n條車牌識(shí)別數(shù)據(jù)記錄的車牌號(hào)碼為vn;出行次序(根據(jù)車輛行停狀態(tài)打斷車輛出行鏈)為cn;經(jīng)過卡口時(shí)間為tn;卡口編號(hào)為ln;sk為時(shí)段k的開始時(shí)刻;Aarea為目標(biāo)區(qū)域卡口編號(hào)集合。
本文使用某市2021 年1 月的多源交通數(shù)據(jù),包括車牌識(shí)別數(shù)據(jù)、停車場(chǎng)進(jìn)出車輛數(shù)據(jù)和出租車GPS數(shù)據(jù)。
①車牌識(shí)別數(shù)據(jù)。電警卡口可記錄經(jīng)過車輛的車牌號(hào)碼(脫敏后)與經(jīng)過時(shí)刻,數(shù)據(jù)量約2 000萬條/日,相鄰卡口間距大部分在2 km 以內(nèi),密度較高,如圖4 所示。因此,可根據(jù)記錄的車牌號(hào)碼與經(jīng)過時(shí)刻提取車輛行駛軌跡。

圖4 卡口行程距離分布圖
②停車場(chǎng)進(jìn)出車輛數(shù)據(jù)。該市493 個(gè)停車場(chǎng)流水?dāng)?shù)據(jù),包括配建停車場(chǎng)、公共停車場(chǎng)、路內(nèi)停車位,記錄了停車場(chǎng)名稱、車牌號(hào)碼、駛?cè)霑r(shí)刻、駛出時(shí)刻等信息,數(shù)據(jù)量約30 萬條/日,停車場(chǎng)內(nèi)車輛停車時(shí)長(zhǎng)分布如圖5所示。

圖5 停車場(chǎng)車輛停車時(shí)長(zhǎng)分布圖
③出租車GPS 數(shù)據(jù)。來源于該市3 649 輛出租車,包含出租車在運(yùn)營(yíng)時(shí)段內(nèi)各時(shí)刻的經(jīng)緯度、速度、方向等信息,時(shí)間粒度為30 s,數(shù)據(jù)量約770萬條/日。
車牌識(shí)別數(shù)據(jù)存在車輛丟失、車牌丟失與車牌失準(zhǔn)的問題,故需進(jìn)行質(zhì)量控制,如表1所示。

表1 車牌識(shí)別數(shù)據(jù)的問題
其中,車輛丟失和車牌失準(zhǔn)的情況2僅靠車牌識(shí)別數(shù)據(jù)難以處理,故本文數(shù)據(jù)質(zhì)量控制主要針對(duì)車牌丟失和車牌失準(zhǔn)的情況1。由于問題車牌識(shí)別數(shù)據(jù)難以還原,本研究直接剔除問題數(shù)據(jù)。經(jīng)質(zhì)量控制后,有效車牌識(shí)別數(shù)據(jù)占總量的89.6%。
3.1.1 行停標(biāo)簽確定
本研究重點(diǎn)監(jiān)測(cè)單次停車時(shí)長(zhǎng)大于30 min的車輛,不考慮短時(shí)停車(例如接送孩子、購(gòu)買早餐等臨時(shí)停車)。值得注意,僅通過車牌識(shí)別數(shù)據(jù)難以準(zhǔn)確區(qū)分車輛在相鄰卡口記錄間的停車狀態(tài)和行車狀態(tài)。為了獲取車輛的真實(shí)行停狀態(tài),本研究利用停車場(chǎng)進(jìn)出車輛數(shù)據(jù)獲取車輛的真實(shí)停車時(shí)段,并利用出租車GPS 數(shù)據(jù)獲取車輛的真實(shí)行駛時(shí)段,然后通過車牌號(hào)分別建立停車場(chǎng)進(jìn)出車輛和出租車與車牌識(shí)別數(shù)據(jù)的關(guān)聯(lián),如圖6 所示。

圖6 行停狀態(tài)標(biāo)定示意圖
這為應(yīng)用機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn)停車行為識(shí)別提供了訓(xùn)練數(shù)據(jù)基礎(chǔ),具體步驟如下:
①訓(xùn)練對(duì)象預(yù)篩選。考慮到卡口漏檢問題以及夜間停車、長(zhǎng)時(shí)間停車問題,本文在確定樣本時(shí)結(jié)合前后多天的車牌識(shí)別數(shù)據(jù)(例如在統(tǒng)計(jì)2021年1 月14 日的樣本時(shí),需要1 月11 日~17 日共七天的卡口數(shù)據(jù))。為了減少關(guān)聯(lián)數(shù)據(jù)的工作量,先提取車牌識(shí)別數(shù)據(jù)中相鄰記錄時(shí)間間隔大于30 min的車輛作為初步對(duì)象。圖6 中,t1、t2、t3、t4是車輛被卡口捕獲的時(shí)刻,t1~t2、t3~t4是根據(jù)時(shí)間間隔確定的初步對(duì)象。
②真實(shí)停車樣本獲取。停車場(chǎng)進(jìn)出車輛數(shù)據(jù)記錄了真實(shí)停車車輛信息。若某車輛在停車場(chǎng)的停車時(shí)段(>30 min)被完全包含在相鄰車牌識(shí)別記錄時(shí)段內(nèi),則將此車輛標(biāo)識(shí)為停車。圖6中卡口記錄的時(shí)段t3~t4是步驟①確定的初步對(duì)象,若該時(shí)段內(nèi)車輛在停車場(chǎng)的停車時(shí)長(zhǎng)超過30 min,則可證明車輛在t3~t4時(shí)段發(fā)生了較長(zhǎng)停車行為,故標(biāo)識(shí)該車輛在時(shí)段t3~t4為停車車輛。
③真實(shí)行車樣本獲取。出租車GPS 數(shù)據(jù)的速度信息可用于判斷車輛行車狀態(tài)。若出租車相鄰車牌識(shí)別記錄的時(shí)段不包含GPS 數(shù)據(jù)的停車時(shí)段(>30min),則將此車輛標(biāo)識(shí)為行車。利用t1~t2時(shí)段的出租車GPS 數(shù)據(jù)來判斷該時(shí)段的車輛狀態(tài),若出租車GPS 數(shù)據(jù)顯示車速未連續(xù)30 min 為0 km/h,則可標(biāo)識(shí)該車輛在時(shí)段t1~t2為行車車輛。
3.1.2 特征向量構(gòu)建
為了體現(xiàn)行車與停車在相鄰卡口車牌識(shí)別記錄中的差異,選擇車輛在相鄰卡口間的時(shí)間間隔、速度、出發(fā)時(shí)段、到達(dá)時(shí)段與交通狀態(tài)五個(gè)特征來構(gòu)建特征向量,具體含義如表2所示。

表2 GBDT特征向量及含義
將上述特征兩兩組合來繪制散點(diǎn)圖,可發(fā)現(xiàn)行車和停車兩種狀態(tài)下的特征空間分布差異,如圖7(部分樣本的特征值在統(tǒng)計(jì)范圍之外)。

圖7 GBDT模型特征散點(diǎn)圖
(1)“速度-時(shí)間間隔”特征組合。95%行車樣本的速度在15 km/h 以內(nèi),時(shí)間間隔在2.5 h 以內(nèi),而95%停車樣本的速度在2.5 km/h以內(nèi),時(shí)間間隔在24 h 以內(nèi)。說明行車樣本速度更快,停車樣本時(shí)間間隔更長(zhǎng)。
(2)“出發(fā)時(shí)段-到達(dá)時(shí)段”特征組合。行車樣本的出發(fā)時(shí)段和到達(dá)時(shí)段較接近,通常在5 小時(shí)內(nèi),而停車樣本的分布幾乎包含全天所有時(shí)段。
(3)“速度-交通狀態(tài)”特征組合。行車樣本的交通狀態(tài)車速與自身速度之間的平均差為3.76 km/h,而停車樣本為9.55 km/h。這說明,行車樣本與周圍路段的車輛速度比較接近,停車樣本的速度明顯低于周圍車輛,當(dāng)樣本速度較低時(shí),行車樣本可能是因?yàn)橹車范伟l(fā)生擁堵,而停車樣本的確發(fā)生停車。這為區(qū)分通過相鄰卡口間車輛是道路擁堵還是存在停車行為提供了條件。
上述行車和停車在特征空間上分布的差異為基于機(jī)器學(xué)習(xí)方法的停車行為識(shí)別提供了可能。
3.1.3 樣本預(yù)處理
部分區(qū)域的卡口過于稀疏,不具備停車監(jiān)測(cè)條件,故剔除卡口間距大于10 km 的樣本。此外,根據(jù)圖7(a)可以發(fā)現(xiàn),少量行車樣本在相鄰卡口間同時(shí)出現(xiàn)行駛速度低和持續(xù)時(shí)間長(zhǎng)兩個(gè)特征,可能原因是出租車在同片區(qū)域(相鄰卡口間)低速來回繞行以尋找乘客,如圖8所示。考慮到這部分樣本的特殊性,故刪除速度低于1 km/h 和時(shí)間間隔超過2.5 h的行車樣本。

圖8 車輛繞行示意圖
為了提高模型訓(xùn)練的收斂速度和精度,本文采用z-score 方法對(duì)樣本特征做標(biāo)準(zhǔn)化處理[28],將數(shù)據(jù)映射到均值為0 且標(biāo)準(zhǔn)差為1 的分布上,如下式:

式中:x′為標(biāo)準(zhǔn)化后的特征數(shù)據(jù);x為原始特征數(shù)據(jù);μ和σ分別為該特征原始數(shù)據(jù)的均值和方差。
使用2021 年1 月11 日至17 日數(shù)據(jù),根據(jù)停車場(chǎng)進(jìn)出數(shù)據(jù)和出租車GPS 數(shù)據(jù)標(biāo)定車牌識(shí)別數(shù)據(jù)前后兩次卡口間車輛狀態(tài),獲得真實(shí)停車樣本846 204 條,行車樣本81 654 條,用于停車行為識(shí)別模型的訓(xùn)練和測(cè)試,其中訓(xùn)練和測(cè)試樣本比例為7:3。原始數(shù)據(jù)集中停車樣本約為行車樣本的10倍,存在嚴(yán)重的類別不均衡問題,故本文采用SMOTE+ENN 算法對(duì)訓(xùn)練集進(jìn)行組合采樣。由于采樣過程受到每個(gè)樣本周圍若干個(gè)近鄰樣本的影響,即SMOTE 中K1值的選擇和ENN 中K2值的選擇會(huì)對(duì)結(jié)果產(chǎn)生重要影響。根據(jù)圖9可以發(fā)現(xiàn),隨著K1和K2變大,行車準(zhǔn)確率逐漸提高,停車準(zhǔn)確率逐漸降低,當(dāng)SMOTE 中K1值和ENN 中K2值分別取3 和11 時(shí),行車判斷準(zhǔn)確性和停車判斷準(zhǔn)確性均較高。

圖9 SMOTE+ENN算法的參數(shù)選擇
3.2.1 參數(shù)優(yōu)化
為了驗(yàn)證本文提出的基于GBDT 的停車行為識(shí)別方法的準(zhǔn)確性,與經(jīng)驗(yàn)閾值法(以速度閾值低于5 km/h 來判斷停車)、機(jī)器學(xué)習(xí)方法(SVM、RF、Adaboost)進(jìn)行比較。SVM、RF、Adaboost 和GBDT 的超參數(shù)選擇對(duì)模型效果具有較大影響。因此,需要在訓(xùn)練集上評(píng)估各模型在不同參數(shù)組合下的效果。參數(shù)及調(diào)整范圍如表3所示。

表3 不同模型的參數(shù)優(yōu)化范圍
貝葉斯優(yōu)化是機(jī)器學(xué)習(xí)調(diào)參的主要方法之一,具有計(jì)算效率高、考慮信息全面、求解問題穩(wěn)健的特點(diǎn)[29-30],故本文采用貝葉斯優(yōu)化確定最優(yōu)參數(shù)。設(shè)置貝葉斯優(yōu)化的迭代次數(shù)為30次,優(yōu)化目標(biāo)為5折交叉驗(yàn)證的AUC(Area Under Curve)均值,即ROC(Receiver Operating Characteristic Curve)曲線的線下面積。一般認(rèn)為,當(dāng)AUC 大于0.85 時(shí)模型效果較好。各模型的貝葉斯優(yōu)化過程如圖10所示。

圖10 貝葉斯優(yōu)化過程
3.2.2 特征重要性
為判斷不同特征變量對(duì)停車行為判斷的影響程度,根據(jù)GBDT 模型得出特征重要性,如圖11所示。可以發(fā)現(xiàn),特征變量按重要性百分比從大到小依次為:速度、時(shí)間間隔、交通狀態(tài)、結(jié)束時(shí)間和開始時(shí)間。盡管時(shí)間間隔和速度是停車行為識(shí)別的關(guān)鍵特征,重要性分別28%和59%,但并不足以單獨(dú)作為判斷車輛行停的指標(biāo),因此傳統(tǒng)經(jīng)驗(yàn)法選擇速度閾值或者時(shí)間閾值作為單一指標(biāo)來判斷車輛行停時(shí),與基于全部特征得到的準(zhǔn)確率會(huì)存在一定差距。

圖11 特征重要性
4.1.1 不同數(shù)據(jù)集結(jié)果比較
為評(píng)估停車行為識(shí)別模型的效果,采用準(zhǔn)確率Racc、精確率Rpre、召回率Rre作為誤差分析指標(biāo),如下面幾個(gè)式子所示:

式中:NP和NN為測(cè)試集中的停車樣本量和行車樣本量;NTP和NTN為識(shí)別正確的停車樣本量和行車樣本量;NFN為被識(shí)別為停車的行車樣本量。
分別以原始數(shù)據(jù)集、隨機(jī)欠采樣數(shù)據(jù)集和SMOTE+ENN 算法處理后的數(shù)據(jù)集作為訓(xùn)練集,采用GBDT 算法構(gòu)建停車行為識(shí)別模型,并在相同測(cè)試集下比較模型結(jié)果,如表4所示。原始數(shù)據(jù)集的準(zhǔn)確率(84.1%)和召回率(98.5%)差異最大,主要原因是原始數(shù)據(jù)集中行停樣本類別不均衡,行車樣本僅為停車樣本的10%,導(dǎo)致模型對(duì)行車判斷不準(zhǔn)確;數(shù)據(jù)集經(jīng)過隨機(jī)欠采樣處理后,停車樣本量明顯減小,使得模型訓(xùn)練過程中損失部分關(guān)鍵信息,從而導(dǎo)致準(zhǔn)確率、精確率、召回率均下降;SMOTE+ENN 算法處理后,行車樣本量增加,停車樣本量減少,準(zhǔn)確率(93.1%)和精確率(99.6%)大幅度提升,召回率(86.5%)略微下降,原因可能是在生成行車樣本的同時(shí),產(chǎn)生大量相似的行車樣本,造成模型過擬合,干擾對(duì)停車的判斷,以及在對(duì)停車樣本進(jìn)行ENN處理噪聲數(shù)據(jù)時(shí),丟失部分信息。可以看出,單獨(dú)依靠GBDT 算法并不能有效處理樣本類別不均衡問題,而SMOTE+ENN算法的應(yīng)用能改善識(shí)別效果。
4.1.2 不同方法結(jié)果比較
五種方法識(shí)別結(jié)果如表5 所示。經(jīng)驗(yàn)法的召回率(99.1%)最高,但準(zhǔn)確率(68.7%)和精確率(61.0%)明顯較低,說明經(jīng)驗(yàn)法對(duì)停車樣本的判斷較為準(zhǔn)確,對(duì)行車樣本的判斷比較差,將部分行車誤判為停車,兩種樣本的判斷準(zhǔn)確性十分不均衡。這是因?yàn)榻?jīng)驗(yàn)法的結(jié)果受到速度閾值(5 km/h)的影響,直接將低速車輛判斷為停車,忽略了擁堵造成的低速行車。

表5 不同模型的結(jié)果比較
而機(jī)器學(xué)習(xí)模型中,由于添加了交通狀態(tài)這一特征,能夠根據(jù)周圍車輛的行駛證狀態(tài)較好地區(qū)分出停車和低速行車,從而準(zhǔn)確率和精確率有了大幅度的提升,都達(dá)到了90%以上,召回率雖然有所降低,但是仍然保持在85%以上。這表明,相較于經(jīng)驗(yàn)法,機(jī)器學(xué)習(xí)方法比較穩(wěn)定,對(duì)兩種樣本的判斷準(zhǔn)確性均較高。同時(shí),在四種機(jī)器學(xué)習(xí)模型中,GBDT 模型的三個(gè)指標(biāo)均最高,測(cè)試集的準(zhǔn)確率、精確率和召回率分別為93.1%、99.6%、86.5%,從而證明GBDT 模型具有更好的停車行為識(shí)別效果。
在本文中,經(jīng)驗(yàn)法根據(jù)速度閾值判斷車輛是否在連續(xù)卡口間發(fā)生停車,因此選擇速度特征來比較經(jīng)驗(yàn)法和GBDT 模型的誤差分布,如圖12 所示。可以看出,兩種方法的誤差分布存在差異,尤其是在1~5 km/h 的速度區(qū)間。0~1 km/h 的速度區(qū)間內(nèi)停車行為識(shí)別精度為100%,同時(shí)隨著速度的提高,行車行為識(shí)別精度持續(xù)提高。這是由于在對(duì)行車樣本處理后(即剔除速度低于1 km/h 的行車樣本),速度接近于0 km/h 時(shí)車輛更符合停車特征。當(dāng)車輛處于中低速時(shí)(例如1~5 km/h),經(jīng)驗(yàn)法與GBDT 模型的識(shí)別結(jié)果精度均較低,但是誤差存在差異。經(jīng)驗(yàn)法直接根據(jù)速度閾值判斷車輛狀態(tài),直接將低速行車誤判為停車,無法有效識(shí)別低速行車行為,而GBDT 模型同時(shí)存在停車誤判為行車以及行車誤判為停車的情況,但依然能有效識(shí)別部分低速行車行為。這主要是由于中低速情況下易造成擁堵狀態(tài)行車與真實(shí)停車之間的誤判。當(dāng)車輛速度較高時(shí),行車準(zhǔn)確率逐漸提升到100%。


圖12 不同速度特征下的誤差分布
4.1.3 卡口數(shù)量敏感度分析
為分析卡口數(shù)量對(duì)停車行為識(shí)別效果的影響,依次隨機(jī)減少5%的卡口數(shù)量,篩除該部分卡口的所有數(shù)據(jù)不再使用。在重新標(biāo)定停車樣本并建立停車行為識(shí)別模型后,計(jì)算指標(biāo)如圖13所示。

圖13 卡口敏感度分析
由圖13(a)可以發(fā)現(xiàn),當(dāng)卡口數(shù)量保持在80%以上時(shí)停車樣本量變化不大,和100%卡口數(shù)量時(shí)相比停車樣本量減少1%。然而,當(dāng)減少的卡口數(shù)量超過50%,此時(shí)卡口數(shù)量較少、分布密度較低,能被卡口捕捉到的停車樣本量會(huì)大幅度下降。
由圖13(b)可以發(fā)現(xiàn),卡口數(shù)量變化對(duì)停車行為識(shí)別準(zhǔn)確性的影響不大。準(zhǔn)確率、精確率和召回率略微降低的原因是,卡口密度較高時(shí),卡口能夠比較完整地捕捉車輛軌跡,進(jìn)而有效判斷行停,隨著卡口密度降低,停車識(shí)別的準(zhǔn)確性也降低。這說明,盡管卡口數(shù)量的減少會(huì)影響能夠感知的停車樣本量,但針對(duì)能夠被卡口感知的車輛,本文采用的停車行為識(shí)別方法依然穩(wěn)健。
4.2.1 城市區(qū)域級(jí)時(shí)變停車量統(tǒng)計(jì)
在進(jìn)行時(shí)變停車量統(tǒng)計(jì)時(shí),先判斷車輛是否在前后兩次相鄰卡口車牌記錄間發(fā)生停車,如果發(fā)生停車,則將前一次卡口檢測(cè)時(shí)刻作為開始停車時(shí)刻,后一次卡口檢測(cè)時(shí)刻作為結(jié)束停車時(shí)刻,分時(shí)段集計(jì)停車量。當(dāng)卡口密度較高時(shí),卡口檢測(cè)時(shí)刻與真實(shí)停車時(shí)刻的差異應(yīng)該在一定范圍內(nèi),如圖14所示,數(shù)據(jù)集中停車樣本的前后兩次卡口檢測(cè)時(shí)刻與停車場(chǎng)駛?cè)搿Ⅰ偝鰰r(shí)刻的時(shí)間差大部分在1 h 以內(nèi)。因此,可以按照1 h 的時(shí)間粒度來集計(jì)時(shí)變停車量。

圖14 卡口檢測(cè)時(shí)刻與真實(shí)停車時(shí)刻的時(shí)間差分布圖
以某個(gè)城市區(qū)域?yàn)檠芯繉?duì)象,將該城市車牌識(shí)別數(shù)據(jù)輸入模型,得到區(qū)域級(jí)時(shí)變停車量。選擇2021 年1 月20 日為研究時(shí)間,根據(jù)分析的結(jié)果(見圖15)可以發(fā)現(xiàn),時(shí)變停車量在白天較低,夜間較高,并且在早晚通勤時(shí)間達(dá)到一天中的最低,與實(shí)際情況較為吻合。同時(shí)根據(jù)該市停車普查數(shù)據(jù),區(qū)域停車位(包括配建停車場(chǎng)、路外公共停車場(chǎng)、路內(nèi)停車位)在30 萬左右,時(shí)變停車量與實(shí)際可用停車位在數(shù)量上基本吻合。

圖15 時(shí)變停車量的監(jiān)測(cè)結(jié)果
4.2.2 停車場(chǎng)進(jìn)出數(shù)據(jù)校核
以停車場(chǎng)為研究對(duì)象,從微觀層面分析真實(shí)的停車車輛能否通過本文提出的監(jiān)測(cè)方法識(shí)別。比較車牌識(shí)別數(shù)據(jù)和停車場(chǎng)進(jìn)出數(shù)據(jù),如果車輛在車牌識(shí)別數(shù)據(jù)的停車時(shí)間完全包含車輛在停車場(chǎng)的停車時(shí)間,則認(rèn)為是能夠通過本文算法識(shí)別的停車。在實(shí)際分析中發(fā)現(xiàn),由于停車場(chǎng)的時(shí)鐘難以統(tǒng)一,導(dǎo)致停車場(chǎng)的停車時(shí)間與車牌識(shí)別數(shù)據(jù)的停車時(shí)間不一致,因此當(dāng)車輛的兩個(gè)停車時(shí)間有部分重合時(shí),就視作可以識(shí)別為停車。在校核前,還需要剔除停車場(chǎng)停車時(shí)間小于等于30 min 的車輛和車牌識(shí)別數(shù)據(jù)中記錄較少的車輛(無法判斷停車),避免造成誤差。
以市區(qū)范圍內(nèi)的41 個(gè)停車場(chǎng)為例,校核結(jié)果如圖16(a),絕大部分停車場(chǎng)的可以識(shí)別停車量占比在90%以上,平均值為96%。同時(shí)校核單個(gè)停車場(chǎng)的時(shí)變停車量,如圖16(b)、(c),可以看出,算法識(shí)別的停車量和真實(shí)停車量的時(shí)變特征一致。這證明本文方法效果較好,大部分真實(shí)的停車車輛可以通過算法識(shí)別。結(jié)合停車場(chǎng)周圍的卡口分布情況,發(fā)現(xiàn)識(shí)別停車量占比90%以下的停車場(chǎng)周圍500m 以內(nèi)的平均卡口數(shù)為22,而識(shí)別停車量占比90%以上的平均為45,這證明停車量監(jiān)測(cè)的準(zhǔn)確性與卡口密度相關(guān)。此外,個(gè)別停車場(chǎng)的可識(shí)別停車量占比較低,但周圍卡口數(shù)量并不稀少(明顯高于22,但是仍然低于45),還可能與卡口的數(shù)據(jù)質(zhì)量和位置分布等有關(guān)。


圖16 停車場(chǎng)校核結(jié)果
本文結(jié)合多源城市交通數(shù)據(jù),包括電警卡口的車牌識(shí)別數(shù)據(jù)、停車場(chǎng)進(jìn)出車輛數(shù)據(jù)與出租車GPS 數(shù)據(jù),應(yīng)用SMOTE+ENN 算法處理不均衡行停樣本,提出基于GBDT 算法的停車行為識(shí)別方法,最終實(shí)現(xiàn)城市區(qū)域時(shí)變停車量監(jiān)測(cè),主要研究成果包括:
(1)結(jié)合停車場(chǎng)進(jìn)出車輛數(shù)據(jù)和出租車GPS數(shù)據(jù),提出了準(zhǔn)確標(biāo)定車牌識(shí)別數(shù)據(jù)中車輛行停狀態(tài)的方法。
(2)使用SMOTE+ENN 算法處理行車樣本和停車樣本數(shù)據(jù)量不均衡問題,與原始數(shù)據(jù)、隨機(jī)欠采樣相比,經(jīng)過SMOTE+ENN 算法處理后,模型的準(zhǔn)確率(93.1%)和精確率(99.6%)得到了較大幅度提高。
(3)提出了基于GBDT 算法的停車行為識(shí)別方法,同時(shí)與經(jīng)驗(yàn)法、SVM、RF、Adaboost等方法比較,結(jié)果證明GBDT 方法的停車行為識(shí)別效果最好(準(zhǔn)確率93.1%,精確率99.6%,召回率86.5%),并且在卡口數(shù)量減少時(shí)識(shí)別方法具有穩(wěn)健性。
(4)以某市為例統(tǒng)計(jì)區(qū)域時(shí)變停車量,相對(duì)趨勢(shì)與數(shù)據(jù)結(jié)果符合預(yù)期,根據(jù)停車普查數(shù)據(jù),區(qū)域停車位可以滿足當(dāng)前停車總量。同時(shí)利用停車場(chǎng)數(shù)據(jù)從微觀層面驗(yàn)證時(shí)變停車量監(jiān)測(cè)結(jié)果,其中可通過本文算法識(shí)別的停車量為96%。
然而,本研究提出的停車量監(jiān)測(cè)方法仍存在有待完善的地方。經(jīng)分析總結(jié)整個(gè)研究過程,未來研究方向如下:
(1)進(jìn)一步完善停車地點(diǎn)的判斷。目前研究面向城市區(qū)域范圍的停車量監(jiān)測(cè),如何更準(zhǔn)確判斷停車地點(diǎn),是下階段的研究方向。
(2)進(jìn)一步提高停車行為識(shí)別的召回率。通過獲取多樣化的停車與行車樣本,持續(xù)改進(jìn)停車行為識(shí)別方法,在保證準(zhǔn)確率和精確率的同時(shí)降低將停車誤判為行車的比例,以提高召回率。