郭 磊,李進強,黨 磊
(正元地理信息集團股份有限公司,北京 101300)
城市監控視頻采集和處理技術是智慧城市建設的關鍵技術.目標檢測算法是深度學習算法中重要的一部分,已經在人臉識別、機械設備故障檢測等領域有了較好地應用[1].在智慧城市案件圖像識別領域,目標檢測算法能夠根據事物的不同特征在一定重復學習的基礎上,精確判斷圖像內容的分類,在一般城市案件識別中能夠發揮重要作用,如車輛違章停放、違規張貼廣告等.該算法還可以通過群體行為判斷案件的嚴重性,能夠及時向系統反饋異常情況.有效的城市案件圖像識別技術對提高城市案件發現和處理效率,節省城市人力物力資源有極大的影響[2].目標檢測算法在目前城市管理案件圖像自動識別的實際應用上還存在一定問題,識別精度不高、檢測速度較慢等.有鑒于此,本次研究以提高檢測城市案件圖像識別的速度和精度為目標,構建了基于改進卷積神經網絡的目標檢測算法和圖像評價網絡模型.
卷積神經網絡訓練模型會涉及到大量且復雜的計算,其實質是通過卷積層將初始特征圖像中提取出有效特征,實現圖像濾波[3].假設每個卷積層的初始特征圖是xi,則卷積運算表達式為:

式(1)中,Mj是初始特征圖像的集合,f(·)是激活函數,*是卷積運算的數學符號.將第i和j個初始特征圖像的卷積層卷積核標記為Ki.
對第l層的神經元的權重及更新值進行求解,首先需要計算節點處的靈敏度δ.

式(2)是位于第l層的j神經元的靈敏度的計算公式.其中連接層l至連接層l+1之間結點的靈敏度的和為,其權重值為W.為一常數,是第l+1下采樣層的初始特征圖像的權重.f′(ul)是第l層神經元在輸入為u的情況下的激活函數的倒數.
Bias 基的梯度的計算表達式為[4]:

卷積核梯度運算公式為:

此次研究使用卷積神經網絡對智慧城市案件圖像進行自動識別,檢測網絡的基礎網絡為VGGNet,并增加了輔助層,共有cnv5_3、conv4_3 等8 個卷積層,其中cnv5_3、conv4_3 卷積層提供小目標特征.cnv5_3、conv4_3 兩個卷積層可將圖像中的某些具體特征進行提取分析,從而提高識別精度.小目標特征提取之后的圖像將通過儀器處理最終輸出尺寸相等的圖像.
檢測網絡在進行訓練模型時,各網絡層可能由于相互連接造成輸入數據偏移或增大,影響訓練效果[5,6].為了加快訓練速度,防止偏移情況發生,本次研究構建的卷積神經網絡在傳統模型的激活函數前加入批次規范化(Batch Normalization,BN)層,將輸入激活函數的所有數據進行均值和標準差歸一化處理.

式(5)是BN 算法的向前步驟,其中B是單批次圖像特征,γ和β是學習重構參數,μB是BN的平均值,σB是BN的方差,代表規范化.在BN 算法運算時,輸入對象是γ和β,經過批次規范化標準差和方差處理之后,輸出為yi.
傳統的神經卷積層在處理非線性和存在一定抽象化特征的圖像時,精確率和速度都有所下降.針對智慧城市案件處理的特殊性,本次研究構建的網絡使用多層感知層.針對城市案件圖像特征復雜導致的網絡參數過多的情況,此次研究在原來網絡的基礎上加入一個函數逼近器.研究構建的帶逼近器的多感知層網絡與傳統線性卷積層對比情況如圖1所示.

圖1 典型和改進之后的卷積層對比
圖1(a)是典型的線性卷積層,圖1(b)是加入1×1卷積之后的卷積運算網絡.函數逼近器的加入可以改變感知野中的網絡結構進行抽象和非線性特征的提取.相比于典型的卷積層,改進之后的卷積層添加了一個1×1的卷積,并加入了一個經過修正的線性激活函數,表達式為:

式(6)中,x是輸入數據.當輸入數據為正數時,經過線性激活函數處理之后得到的數值為原數值.若輸入數據小于零,則核函數將輸入數值縮小十倍之后輸出.使用該線性激活函數可以降低特征圖的維度,擴大網絡的應用規模,進而增加卷積神經網絡的深度和寬度.
本次研究構建的卷積神經網絡算法流程如圖2所示.在圖像信息的前向傳播階段,算法會對初始權值進行隨機賦值.經過多層感知層、函數逼近器和池化層處理,可以得到待測圖像最為全面的特征.之后全連接層會對多個隱含層的信息進行變換并傳輸至輸出層.輸出層的輸出結果與預期結果比較,若誤差函數滿足要求;則直接輸出結果,若不滿足要求,誤差和權值信息反向傳播,算法對其進行重新賦值.

圖2 改進的卷積神經網絡算法流程圖
BP 神經網絡的分布式存儲和并行協同處理機制能夠快速對的大量數據進行分析[7].典型的BP 神經網絡的拓撲圖包含三層前饋網,并且各層神經元只與相鄰神經元之間全連接,同層神經元之間無連接,各層神經元之間無反饋連接.
智慧城市案件識別模型的評價網絡結構示意圖如圖3所示,共有輸入層、隱含層和輸出層3 部分構成.輸入層的輸入數據是案件圖像中關鍵內容的中心偏移量x,y和尺寸w,h.通過輸入數據的正向傳播和出現誤差后實施的反向傳播,不斷縮小誤差函數值,從而實現提高輸出數據精確度的目的.

圖3 城市案件圖像的評價網絡圖
在對評價網絡進行訓練時,需要將案件圖像進行處理,獲取關鍵內容的主要數據.這些數據輸入訓練網絡,通過圖像分類和不同圖像關鍵內容的區別進行BP 神經網絡的訓練,從而對案件類型做出準確地判斷.如果訓練樣本集的內容較少,很容易出現訓練結果擬合的現象[8,9].針對這一情況,本次研究使用數據集擴充的方式增加樣本數據,對原始圖片設置0°、90°、180°和270°的旋轉角度,從而擴充數據,提升網絡學習圖像不變性特征的能力.本次研究的損失網絡可以分為兩個部分:回歸誤差和類別誤差.

式(7)是本次研究的網絡損失函數表達式,其中c是置信度,l是預測框,g是真實的框.N表示匹配到的默認框的數量,α反映定位損失和置信度損失權重的比例情況.
本次研究中目標物的位置損失表示如下:

目標檢測算法在對彩色圖像進行處理時所消耗的時間和數據容量遠超于處理灰色圖像,而智慧城市的管理系統要求目標檢測算法能夠快速對案件圖像進行識別[10].由此,灰度化圖像的過程必不可少.
本次研究采用加權平均的方法對圖像進行處理,公式具體內容如下:

式(2)中,灰度化加權系數a,b,c分別取值為0.3、0.59、0.11.
案件圖像的像素灰度值的公式為:

式(10)中,R為案件圖像的紅色分量,G為綠色分量,B為藍色分量.
城市案件圖像灰度化處理結果如圖4所示.圖4(a)是未經處理的城市車輛違章停靠圖像;圖4(b)是經過灰度變換之后的圖像.灰度化處理之后圖像的關鍵信息的清晰度并未有下降,并且明暗、陰影、對比等信息均可以通過對比不同部分的灰度值獲取.

圖4 城市案件圖像灰度化處理結果
從案件圖像中提取關鍵目標信息還需要克服背景和噪聲因素影響,本次研究采用灰度閾值化的方法提取圖像的關鍵內容,將復雜的背景設置為0,前景目標值設置為255[11,12].由此經過處理之后得到的圖像便只有黑色和白色兩種顏色,更加有利于對案件圖像進行分析,提高案件處理的速效率.此次研究采用二值化方法,通過最大類間差法計算得到:

式(11)中,w0、w1分別是圖像前景、圖像點數占據整張圖的比例值,u0、u1分別是前景和背景的平均灰度值,g是類間方差值.

式(12)是對式(11)的進一步推導.當類間方差值取最大值時,圖像的前景和背景的差異度達到最大,此時分割前景和圖像背景的閾值為T處于最佳狀態.
圖5(a)是經過灰度化處理之后得到的案件圖像,圖5(b)是經過灰度閾值化之后的圖像.經過處理之后,圖像僅有黑白兩種顏色,并且圖像特征更加鮮明,目標檢測算法對圖像的處理效率和精確度也會因圖像特征的鮮明而顯著提高.

圖5 案件圖像的二值化處理結果
目前在城市案件圖像檢測領域并沒有明確的標準數據集,本次研究以實際城市管理系統常見的案件為分類依據,以網絡上公開來源的案件圖片為數據集來源,以城市管理監控視頻中提取的關鍵幀為補充,構建了8 個典型城市案件的圖像數據庫,8 種分類包括非機動車違章停放、共享單車違規停放、雨水算子損壞、井蓋損壞、亂涂亂畫張貼廣告、暴露性垃圾、交通護欄破損和機動車違章停放等8 類.將不清晰、內容真實性存疑的圖片進行刪除,最終得到的數據集中共有9345 張圖片,每類城市案件約有1168 張圖片.每類圖片的60%為訓練集,其余圖片為測試集.
圖6是數據集中4 類案件類型的示例圖,每張圖片的案件類型具有鮮明的特征,并無車輛、綠化、建筑等遮蔽物的遮擋.8 類典型城市案件類型的編號分別為event 0551、event 0552、unite 0550、unite 0100、event 0201、event 0102、unite 0211、event 0550.
本次研究對構建的基于卷積神經網絡的目標檢測算法的測試在Ubuntu18.04 操作系統上進行,采用TensorFlow 深度學習框架.研究提出的算法與Fast RCNN、Faster R-CNN、YOLO、SDD 算法的測試結果對比情況如圖7所示.

圖6 智慧城市案件圖像數據集示例圖(部分)

圖7 5 種算法的案件圖像識別結果
圖7是幾種算法的對比實驗結果情況,本次研究構建的目標檢測算法在8 類典型城市案件圖像的識別上具有較好的識別效果,對各種類型的案件識別的準確率均在72%以上,識別“亂涂亂畫張貼廣告”類型圖像的準確率達到了83.4%.Faster R-CNN 算法的識別效果略遜于本文算法,但是相較于YOLO 算法等具有較高的識別準確率.這是由于本次研究構建的目標檢測算法在卷積神經網絡中增加了提取小目標特征的層數.此次研究構建的自動識別技術的mAP 值為76.8%,高于其他技術.
圖8是圖像幀數為10 fps的情況下,不同自動識別技術對測試集中所有圖像的處理情況.圖像直觀顯示,各類算法檢測速度的情況為:SDD 算法(48 s)>YOLO 算法(47 s)>本文算法(40 s)>Faster R-CNN 算法(32 s)>Fast R-CNN 算法(25 s).本次研究構建的算法處理圖像速度處于中等水平,并且與最高水平相差不大.而檢測速度最高的SDD 算法的識別精確度最低,實際應用價值不大.本次研究構建的算法在圖像識別精度和檢測速度中有一定均衡,在保證識別效率的同時,也確保了識別的準確性.

圖8 5 種算法識別案件圖像類型耗時對比
以VOC2007+2012為數據集對100 Hz DPM、30 Hz DPM、YOLO、SDD 以及本文算法進行訓練和檢測,檢測結果如圖9所示.從圖中可以看出,雖然100 Hz DPM的檢測速度最高,但是其檢測精度卻很低,并不能滿足城市案件處理中對識別算法精確度和處理速度的要求.而本次研究構建的算法雖然在檢測速度上處于中等水平,但是精測精度最高.由此證明該算法具有較優的有效性和魯棒性.

圖9 VOC2007+2012 環境下的實驗結果
城市案件的發現和識別速度是體現智慧城市管理水平的重要標準之一,傳統的人工檢測方式處理速度較慢、識別精度較低.將深度學習與智能檢測技術相結合是目前學術界研究的熱點方向.有鑒于此,本次研究構造了基于改進卷積神經網絡的目標檢測算法,運用多層網絡結構提取小目標特征.研究將改進之后的算法與YOLO 算法等典型目標檢測算法進行對比,結果表明,改進之后的算法相比于其他算法,魯棒性和精確度有了明顯提升,在檢測準確率上可達83.4%.本次研究提出的識別技術能夠為建筑智慧城市、提升城市安全提供一定的保障.但是目前缺乏標準、權威且成熟的城市案件數據集,因此后續還需要進行數據擴充,進一步檢驗自動識別技術的性能,改進其中可能存在的問題.