李 青
(武漢市公安局洪山區交通大隊,湖北 武漢 430071)
智慧城市的建設以物聯網、大數據、云計算等科學技術為核心,對城市中產生的海量數據進行采集、處理、分析和利用,實現對城市各方面信息的全面感知和資源調度[1]。智慧城市的建設離不開交通網絡。城市交通的發展情況與智慧城市的建設緊密相關,能夠改變產業不均的問題,促進經濟發展。近年來,私家車數量逐漸增多,給城市交通道路帶來負擔,增大了城市交通壓力[2]。
針對智慧城市交通流量預測方法,相關文獻進行了大量技術研究。文獻[3]提出了動態貝葉斯網絡預測方法,建立視頻信息高速公路,并將其應用在交通信息網絡平臺,對車輛進行定位和對城市交通進行控制,以實現數字交通執法。由于系統模型的輸入維度過多,進行預測需要花費較長時間。文獻[4]建立了1種基于神經網絡和統計算法的混合模型,對城市中某區域內的交通流量進行模擬。但該方法沒有結合道路交通的速動性,導致交通流時間序列中的預測精度較差。
針對上述技術的不足,本文提出利用人工智能(artificial intelligence,AI)視頻技術進行車輛識別的方法。該方法通過統計局部的梯度方向直方圖(histogram of oriented gradients,HOG)特征,并將HOG特征作為車輛識別的特征,以建立XGBoost融合模型對交通流量進行預測。由于該方法加入了多個分類器,故能提升模型的預測效果,提高模型的預測能力。
基于AI視頻監控的智慧城市交通系統以視頻采集為基礎,應用AI和大數據技術進行車輛檢測、人臉識別、圖像識別等,進而獲取城市道路交通車輛信息,并對采集的海量信息作大數據分析處理[5-6]。
基于AI視頻監控的智慧城市交通系統框架如圖1所示。

AI車輛識別過程如圖2所示。

基于AI視頻監控的智慧城市交通系統主要分為基礎層、數據層、應用層和業務層。基礎層包括計算、存儲、網絡資源池和視頻圖像庫,完成存儲資源的云化,通過對原始數據、視頻解析部分的視頻資源進行整合,實現各業務數據和運行數據的整合處理,形成多種數據庫[7]。數據層共享和交互各智慧城市的交通視頻,為系統的應用層提供視頻資源。數據層應用AI技術,對視頻共享平臺中的圖像、視頻資源進行分析,提取車輛、人物、行為、特征等結構化數據[8]。物聯網平臺搭載智能調度算法,為視頻共享平臺和硬件設備提供算法支持。同時,根據不同的數據模型對多維度的結構化數據進行關聯、分析、挖掘,輸出多維度有價值的融合數據,支撐系統業務層中業務的進行。系統的應用層基于數據層提供的視頻資源,為用戶提供基礎視頻應用和智能應用[9]。業務層主要展示城市交通的運行狀態、監測預警指標、交通控制等。AI視頻技術以車輛為識別目標,對車輛的類型、品牌、顏色等特征信息進行識別,并且能夠識別駕駛人員信息和駕駛狀態[10]。AI視頻監控可實現AI車輛信息特征提取。在對AI車輛數據信息特征進行提取時,構建了支持向量機(support verctor machine,SVM)分類器[11]。SVM分類器如圖3所示。

圖3中,不同類型的點為需要進行分類的城市交通圖像數據信息的正負類別,H1、H2、H3代表3種不同的分類器。其中,H3不能較好的分類出正負類別的數據;H1和H2能夠分離正負類別的數據,但分類器H2抗噪能力和泛化能力較差。分類器H1具有較好的抗噪能力,同時能夠取得較好的分類效果。SVM分類器通過(p-1)維的超平面將p維數據分為正負類別。H1是滿足要求的超平面[12]。SVM分類器是在所有超平面中選擇1個最大間隔將兩類不同數據進行分離。SVM的超平面如圖4所示。

SVM分類器中,線性可分SVM要求數據集是線性可分的。對此,本文設定需要進行分類的車輛數據集為(X1,y1),(X2,y2),…,(Xn,yn)。Xi為p維的車輛數據。當yi=+1時,Xi數據為正類別數據;當yi=-1時,Xi數據為反類別數據[13]。yi為SVM的超平面輸出數據信息。SVM的超平面可表示為:
XTW+b=0
(1)
式中:X為城市交通圖像數據信息;W為法向量;b為截距;T為轉置。
為了找到最大間隔的超平面,可以先找到平行且兩者之間間隔最大的2個超平面。最大間隔超平面位于兩者中間,可為:
(2)
式中:d為2個超平面的間隔[14]。
為了解決出現少量樣本不可分的現象,本文引入了軟間隔,加入懲罰參數和松弛因子得到軟間隔SVM。
(3)
式中:C為懲罰因子;ξ為松弛因子;ξi為像素i數據信息的松弛因子。
將圖像灰度化后,計算灰度圖像每個像素點的梯度值,得到梯度圖。
(4)
式中:G為最終的梯度值;Gx為水平方向的梯度值;Gy為垂直方向的梯度值;(i,j)為數據像素。
對block數組進行歸一化,得到最終的HOG特征向量。對于64×128的圖像,共有105個block。因此,將所有blcok得到的數組進行組合,可以得到1個長度為3 780的HOG特征[15]。
系統中,視頻監控到的數據受到各種因素的影響,使數據集出現數據缺失、噪聲數據和數據冗余等情況。因此,需要對數據集進行預處理,以提高數據質量和可利用率。本文使用系統中AI視頻監控的開源交通數據集。數據集包含的字段如表1所示。

表1 數據集包含的字段
道路ID能夠作為交通特征,屬于類別型特征,使用Label Encoding進行編碼。時間片靜態特征為時間維度的屬性,包括星期、節假日、小時、分鐘等,能夠在時間維度上描述道路特征。星期和小時的映射方式為one-hot Encoding。預測函數可以為:
(5)
式中:K為決策樹數量。
決策樹函數可以為:
F={f(x)=wq(x)}(q:Rm→T,w∈RT)
(6)
式(6)為評價城市交通函數時交通數據信息所占的決策樹空間。q(x)為將交通數據信息樣本x映射到構建的決策樹函數上的葉子節點。決策樹的葉子節點記作wq(x)。評價城市交通數據信息的正則化目標函數可以為:
(7)
(8)
式中:N為決策樹模型中的葉子節點個數;w為所構建的決策樹模型中的葉子節點的權重;γ和λ均為可以調節的參數。
在計算過程中,要注意設置迭代次數,前(t-1)步迭代次數后,輸出的模型為ft-1(x)。在第t步的優化過程中,輸出目標函數為:
(9)
將式(9)進行二階泰勒展開,可以得到:

Ω(ft)]
(10)
式(10)可以記作:
(11)
(12)
則葉子節點迭代次數輸出數據信息可以為:
(13)
XGBoost模型在計算智慧城市交通時,需要對模型進行優化。在完成 XGBoost模型初始化參數訓練時,優化參數主要包括樹的最大深度max_depth、學習率learning_rate、列采樣比率colasmaple_bytree和樣本采樣比率subsample。模型參數的調節范圍和調節步長如表2所示[16-17]。

表2 模型參數的調節范圍和調節步長
XGBoost模型在不同的max_depth下預測評價指標變化如圖5所示。

隨著max_depth值的增加,模型開始出現過擬合的情況。當max_depth的值為4時,預測評價指標最小。預測評價指標隨max_depth的增加而增加,說明模型出現過擬合。由此可以確定參數max_depth的值為4。對上述數據模型進行預測,通過提取的交通特征和優化后的參數對建立的XGBoost融合模型進行訓練。使用訓練好的模型對城市交通未來一段時間內的流量進行預測。通過對道路靜態特征的提取可知,道路長度對車輛的旅行時間影響較大,而道路寬度對車輛的旅行時間影響較小。因此,道路長度的區分度比其他道路靜態特征更高[18]。
根據預測結果可知,交通流量一般為逐漸變化,不會出現突然增大或突然減小的情況。時間連續性決定了前一時刻的平均旅行時間對后一時刻的影響較大。根據XGBoost融合模型輸入的交通流量預測結果對城市交通情況進行控制,并及時作出相應的調整,以避免交通擁堵。
為驗證基于AI視頻監控的智慧城市交通系統的性能,分別使用文獻[3]系統、文獻[4]系統和本研究系統進行試驗,對比3種系統的車輛識別效果和流量預測能力。試驗環境需要搭建在配置好的服務器上,并進行Tomcat和Java的Jdk配置和安裝。中心管理服務器采用64位E5系列處理器,內存為32 GB DDR4,硬盤為600 GB SAS。視頻接入服務器為64位E5系列處理器,內存為32 GB DDR4,硬盤為600 GB SAS。數據轉發服務器為64位E5系列處理器,內存為32 GB DDR4,硬盤為600 GB SAS,平臺網關為4個千兆網口。數據庫服務器采用64位E7系列處理器,內存為512 GB DDR4,硬盤為1.2 TB SAS,服務端操作系統為Windows Server 2008 R2(64 bit),服務端JDK為jdk1.8.0_66,接入交換機的參數為交換容量598 Gbit/s。本研究試驗選用的訓練樣本為64×64×3的RGB 圖像。
訓練樣本為10 000張車輛圖像和10 000張非車輛圖像。其中,車輛圖像基本包含了所有常見車型,而非車輛圖像主要以道路環境中非車輛圖像為主。數據樣本中:車輛類型數據信息為12 684 MB;車輛標志數據類型為8 542 MB;車輛顏色數據類型為1 635 MB;車牌數據類型為782 MB;道路圖像數據類型為22 450 MB。試驗架構如圖6所示。

通過試驗,將數據樣本分為6組,設定每組中有500個車輛圖像,使用3種系統對每組樣本進行識別。車輛識別結果如圖7所示。

由圖7可知,本研究系統對數據樣本識別到的車輛數量最多,AI車輛識別效果最好。本研究系統先對樣本圖像進行HOG特征提取,通過滑動窗口滑動到不同的位置獲取特征信息,再輸入到SVM分類器中進行判斷。其中,第4組和第5組識別到的車輛數量均為500個,識別率高達100%。
文獻[3]系統的最少識別個數低至483個,在第4組識別到的車輛數量最高可達到494個,車輛識別過程中可能受到圖像質量的限制,如光照不均勻、畫面不清晰、存在噪聲干擾的影響等,導致識別效果不好。文獻[4]系統識別第2組樣本數據得到的識別數量最低為471個,第3組上升到490個,系統識別效果不穩定,也可能存在誤識別的情況。
為驗證3種系統對城市交通流量的預測效果,輸入城市中某區域內的歷史交通流量,使用3種系統對未來一段時間內的交通流量進行預測,并與真實流量值進行比較,計算誤差百分比。
(14)
式中:yi為預測值;xi為實際值。
3種系統的預測誤差如圖8所示。

由數據點預測值的誤差百分比可知,本研究系統得到預測數據的誤差百分比在[-0.1,0.1]之間,誤差百分比相對穩定,說明本研究系統對交通流量的預測效果較好。文獻[3]系統的誤差百分比最大可達到0.48,而文獻[4]系統的誤差百分比超過0.5,且變化幅度較大,預測精度不穩定。
針對城市交通信息管理能力、城市交通數據信息交互能力滯后的問題,本文提出1種基于XGBoost融合模型的交通流量預測技術。該技術通過AI視頻監控,以HOG特征信息模型實現流量數據信息的分析,由SVM分類器實現城市交通信息的分類與識別,提升了道路信息識別能力。同時,本文構建了XGBoost融合方法,能夠提高交通流量預測能力,并通過分類回歸樹(classification and regression tree,CART)作為基分類器,實現原始數據集的編碼,最終集成多個決策樹模型。在試驗過程中,車輛圖像的識別率比較高,對交通流量的預測數據的誤差百分比始終低于0.1。該研究能夠加強城市交通系統監控,提高交通數據信息分析和應用能力。