陶為翔,郭 磊,李 京
(正元地理信息集團股份有限公司,北京 101300)
在智慧城管智能目標檢測的過程中,目標檢測算法具有一定的多樣性與適用性,能夠根據圖像或事物的不同表象,來提取相應的特征點,進而實現對各種案件圖像的分類與處理[1]。目標檢測算法的應用已較為成熟,被廣泛應用于各大領域,在對特征圖像進行識別處理后,還可迅速向系統進行精確的反饋。然而在長久以來的應用中,該算法仍然暴露出了一系列弊端[2]。鑒于此,文中實驗將對傳統目標檢測算法進行深入的探究,采用優化卷積神經網絡對傳統目標檢測算法進行改進,旨在提高城市案件圖像識別的效率與準確度,實現真正意義上的智慧城市管理。
在智慧城管智能目標檢測案件的識別處理中,往往對圖像處理的效率具有較高的要求,因此通常需要將彩色圖像快速轉換為灰色圖像,以保證圖像處理的即時性與有效性[3]。基于加權平均的圖像灰度化是一種行之有效的圖像處理手段,計算公式如式(1)所示:

式(1)中,(i,j)表示圖像像素坐標位置;a、b、c均表示灰度化處理的加權系數,其取值通常分別為0.3、0.59、0.11。所有待處理圖像中的像素灰度值均被定義為Gray,如式(2)、式(3)所示:

式中,R表示待處理圖像像素中的紅色分量;G表示圖像像素中的綠色分量;B表示目標圖像像素中的藍色分量[4]。在完成圖像灰度化處理后,立即進行圖像二值化處理,來有效避免圖像中復雜背景與噪聲帶來的干擾。圖像二值化主要包含3 類方法,分別為全局閾值、局部閾值、動態閾值,文中采用全局閾值的手段,具有運算速度快、處理效果好的優勢,且能夠有效處理物體灰度值與背景差別較大的圖像[5-7]。首先將待檢測圖像的前景與背景的閾值設定為T,令其灰度的平均值為u;前景點數在圖像整體中所占的比例值為w0,其平均灰度值即u0,背景點數所占比例值為w1,其對應的平均灰度值為u1,類間方差值表示為g,得到公式如式(4)、式(5)所示:

聯立式(4)與式(5),得式(6):

根據式(6)可知,當待檢測圖像前景與背景之間的差異最大化時,g可達到最大值,此時T也可達到最佳閾值。在經過該種圖像處理技術的操作后,可獲取到待檢測圖像的二值化處理結果示意圖,如圖1所示。

圖1 待處理圖像的二值化處理結果示意圖
圖1(a)表示在經過二值化處理后所獲取到的智能目標檢測案件灰度圖,圖1(b)是在此基礎上進行灰度閾值化處理后的圖像。通過采用灰度化閾值處理,能夠有效實現針對待檢測圖像進行的提取,從完整待檢測圖像中準確地提取出相應的目標檢測物[8]。圖1(a)與圖1(b)中均只存在黑與白兩種色彩,能夠顯著提高目標檢測算法的識別精度與處理效率。
在卷積神經網絡中,主要包含輸入層、卷積層、池化層、全連接層4 種結構。其中輸入層作為一個像素矩陣,承擔著對目標圖像進行簡單處理的任務,包括統一圖像尺度、歸一化處理、降維處理等[9-11]。在輸入層中進行一系列操作后,可獲取到目標圖像的幾何特征。卷積層指的是包含多個特征圖的卷積神經網絡結構,其主要作用為學習特征表達。在對目標圖像進行檢測識別時,卷積層會通過局部感知的手段對所有特征進行一一識別處理,最終實現對全局信息的掌握[12]。池化層通常位于兩個不同的卷積層之間,能夠有效控制參數矩陣的大小,且該矩陣的尺寸大小與全連接層中參數數量的多少呈正相關,池化過程如圖2 所示。

圖2 卷積神經網絡中的池化過程
通過圖2 可知,池化運算分為兩個步驟,第一為最大池化,第二為平均池化。若原始的參數矩陣特征圖大小為4×4,且其步長為1,則會按照最大池化與平均池化的不同規則分別實現池化。池化層的作用主要在于防止過擬合現象,并能有效提高卷積層的運算效率。卷積神經網絡中存在的全連接層,通常位于其末端,呈現出單層或多層相連接的狀態。全連接層的主要作用為對前面提取出的局部特征進行處理,以權值運算的形式進行準確的拼接,進而獲取到最高層次圖像特征[13-14]。
在卷積神經網絡中,其網絡訓練覆蓋了大量的復雜運算,主要為卷積運算與卷積梯度運算,其中前者的實質在于提取有效特征。在卷積層的作用下,卷積運算可從初始特征圖中進行有效的提取,不僅可對卷積層的輸入進行表示,同時還可表示為卷積層的輸出。根據不同的權重卷積核,提取到大相徑庭的初始特征圖,即feature map。若令任一卷積層中輸入的feature map 為xj,則有式(7):

式(7)中,i與j表示提取處理時的匹配結果;f(·)表示激活函數;Mj表示所有初始特征圖feature map 的集合;*表示卷積操作;Kij表示卷積層中輸入的第i個初始特征圖與輸出的第j個初始特征圖的卷積核。
在文中智慧城管智能目標檢測案件的課題實驗中,應用卷積神經網絡對目標圖像進行信息識別與提取,其檢測網絡的基礎網絡為VGGNet。在此基礎上,對卷積神經網絡進行了一定的優化改進處理,在網絡架構中添加了輔助層,并采用conv5_3 與conv4_3 這兩個不同的卷積層。在進行卷積運算的過程中,首先分別將述兩個卷積層的步長設置為8 與4;隨后再進行卷積運算,對其提取的特征圖進行歸一化處理,令其尺寸保持一致;最終將其進行連接。在檢測網絡進行訓練時,往往需要調整其參數與學習率來避免由于數據偏移造成的影響,但這會令網絡訓練的計算量顯著增大,進而導致網絡模型的訓練效率有所下降[15-16]。基于此,文中對卷積神經網絡進行優化的另一措施為增加批次規范化(Batch Normalization,BN)層,BN 層的作用在于標準差歸一化處理激活函數數據,能夠有效提升訓練效率,防止網絡訓練產生偏移[17]。BN 算法的計算公式如式(8)所示:

式(8)中,B表示單批次的圖像特征,且B={x1,x2,…,xm} ;μB表示進行批次規范化后獲取的平均值;網絡學習的重構參數用γ與β來表示;σB表示批次規范化的方差;代表著規范化。在BN 算法中,輸入的內容主要包含單批次的圖像特征與網絡學習的重構參數,輸出結果為yi。文中實驗采用的是多層感知卷積網絡層,傳統與優化卷積神經網絡的對比示意圖如圖3 所示。

圖3 傳統與優化卷積神經網絡的對比示意圖
圖3(a)為傳統的卷積神經網絡為線性卷積層,圖3(b)為優化后的卷積神經網絡添加了1×1 的卷積,并接入一個已完成修正的線性激活,這是一個復雜化的卷積神經網絡結構。采用添加1×1 卷積的優化卷積神經網絡,能夠高效地完成特征圖的降維處理,且增大卷積神經網絡的深度與寬度,保障其應用性能的穩定性。線性激活函數可表示為式(9):

通過式(9)有助于實現對輸入內容的限制,使輸入的所有小于零的數縮小至其初始值的十分之一,否則輸入值不發生任何變化。該優化卷積神經網絡中可提取到每個卷積層的圖像特征,并在池化作用下完成對圖像的子抽樣,不僅能夠在減少網絡訓練參數使用量的基礎上,最大化保留圖像的有效特征,還可有效避免過擬合的現象,顯著提高對目標圖像特征的檢測精度與效率。
針對當前城市管理智能目標檢測案件類型的多樣化,需要構建一個可供直接使用的標準化成熟數據集。目前我國智慧城管智能目標案件檢測領域中,這一部分仍是空白,因此文中將智慧城管作為應用背景,將城管案件作為目標打造了一個囊括較多種類的案件圖像標準數據集,如圖4 所示。

圖4 智慧城管智能目標檢測圖像數據集實例
根據圖4 可知,智慧城管的圖像數據集中主要囊括6 種類型,該圖像數據集來源于A 省智慧城市管理智能目標檢測案件中,廣大人民群眾上傳的城市案件圖像,文中對該批案件圖像進行整理,最終獲取到一個標準化的案件圖像數據集,包含6 種案件類型、4 785 個注釋對象,共計8 741 張圖像。為確保該數據集的可靠性與檢測工作的高效性,對所有圖像進行篩選、剔除,并對選定的圖像進行整理與編號。將圖4(a)雨水箅子破損案件圖像統一保存至一個文件夾,并將其命名為unite-20211;圖4(b)非機動車亂停的案件圖像文件夾則命名為event-20212;圖4(c)交通護欄破損案件圖像所屬文件夾為unite-20213;圖4(d)亂涂寫亂張貼為event-20214;圖4(e)機動車亂停的案件圖像為文件夾unite-20215;圖4(f)井蓋破損則表示為unite-20216。
文中對優化后的卷積神經網絡進行了應用,將其應用至智慧城管智能目標案件檢測算法中,并利用A 省的檢測圖像數據集進行了測試。將文中提出的基于優化卷積神經網絡的檢測算法,與4 種不同的檢測算法進行對比,即Fast R-CNN、Faster RCNN、YOLO、SSD。上述5 種算法在檢測圖像數據集上的檢測結果如表1 所示。

表1 不同算法的目標案件圖像檢測結果
由表1 可知,文中算法具有較為客觀精確的識別檢測效果,在識別“亂涂寫亂張貼”event-20214 時表現得格外突出。Fast R-CNN、Faster R-CNN、SSD在識別該類目標圖像時,識別率分別為71.30%、72.30%、79.40%;YOLO 算法的檢測率最低,僅為58.00%;然而基于優化卷積神經網絡的案件檢測算法識別率卻達到了83.50%,遠超上述4 種檢測識別算法。主要是由于在優化卷積神經網絡的過程中,大幅增加了待檢測圖像的小目標特征層數。就檢測精度mAP 值而言,實驗提出的算法仍然居于榜首,YOLO 算法最低,余下3 種算法的檢測精度相差較小,梯度差保持在2個百分點左右。實驗選取了2 000張機動車亂停與2 000 張非機動車亂停兩種事件的圖像,分別進行檢測分析,其中針對機動車亂停進行的檢測結果如圖5 所示。

圖5 機動車亂停的檢測結果示意圖
圖5 中直觀地呈現出4 種算法在檢測機動車亂停的圖像時,出現的3 項數據結果,即F1_Score、召回率、準確率。采用優化后的YOLO 算法,能夠有效提高機動車亂停圖像檢測的準確率與召回率。相較于Faster R-CNN 算法與SSD 算法,文中采用的算法具有極高的準確率與召回率,能夠在2 000 張機動車亂停的圖像中實現有效檢測識別。除此以外,非機動車亂停的檢測結果如圖6 所示。

圖6 非機動車亂停的檢測結果示意圖
據圖6 可知,在對2 000 張非機動車亂停的圖像進行檢測時,采用優化后的YOLO 算法具有一定的優越性。盡管不如對機動車亂停圖像檢測的準確率與召回率高,但相較其余3 種算法,仍然處于最優水平,能夠為智慧城市管理提供有力支撐。
作為智慧城市建設的關鍵要素,城市管理系統受到了愈加廣泛的重視。當前城市管理的智能化程度仍然較低,主要是依靠人力來對城市案件進行識別、整理,耗費了大量的時間與金錢,但收效甚微。為了提高城市管理的高效性與精確性,文中針對智慧城管的目標檢測算法進行了細致的研究,將優化的卷積神經網絡應用其中,將A 省圖像數據集作為測試材料,對比分析文中算法與其他算法,結果顯示,該算法針對6 大主要案件類型的識別率分別為83.50%、72.30%、74.00%、74.40%、75.70%、78.30%,平均水平與最高值均顯著高于其他算法。這表明文中算法具有較高的魯棒性與識別檢測精度,能夠為智慧城管貢獻力量。盡管如此,在未來還需對該算法進行更為深入的研究與細致的優化,不斷提升案件識別效率與準確性。