





摘要:針對人口流量統計數據存在精確低等缺點,提出了一種多尺度輕量級對抗神經網絡的人數統計方法,該神經網絡通過多尺度CNN層與Mobilenet V3層的結合、基于Resnet-50殘差網絡的分塊判別器模型設計和郊狼算法的優化參數等措施提高了神經網絡的精度,仿真實驗說明該文算法在算法精度上相比于CNN算法具有一定的優勢,具有較好的統計識別效果。
關鍵詞:對抗神經網絡;分塊判別器;郊狼算法
中圖分類號:TP18? ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)01-0092-03
人口流量的統計在諸如公共場所、活動策劃和空間設計的等工作中占據著重要作用,而計算機視覺技術相比于傳統人口流量統計方法使得人口流量統計數據更加準確。尤其是存在場景干擾等情況下,人口流量精確統計就顯得更加尤為重要[1]。針對人口流量的統計的方法,國內外學者進行了不同方面的研究。文獻[2]提出一種基于卷積神經網絡和密度分布特征的人數統計方法, 該算法在PETS2009、UCSD等數據集上進行了測試,實驗結果表明所提算法具有更好的統計精度;文獻[3]提出一種基于卷積神經網絡與嶺回歸聯合的人數統計方法。實驗說明該結果具有一定的有效性;文獻[4]提出了一種基于局部密度分類的人數統計算法,仿真實驗說明與目前主流的人數統計算法相比,該算法的平均估計誤差降低了18.9%。
從以上的研究中發現,在人口流量的方法統計中,傳統的統計方法經過改進后雖然能夠獲得精確度提高,但受限于自身算法,導致性能提升不明顯,而人工智能的神經網絡算法具有速度快,精確度高等優點,本文提出了一種新的神經網絡算法用于人口流量統計,仿真實驗說明該算法具有較好的統計識別效果。
1 基于多尺度輕量級對抗神經網絡的人數統計方法
基于多尺度輕量級對抗網絡的人數統計模型(The population statistical model based on the multi scale lightweight Residual network, MS-LResNet),其整體構架如圖1所示。
從圖1可知,MS-LAN從結構上包括多尺度卷積神經網絡(CNN)層、Mobilenet V3層、backbone層、池化層等構成的編碼網絡結構,其對應的解碼網絡結構以及由Resnet-50構成的殘差網絡組成,整個神經網絡的參數則通過郊狼優化參數搜索法進行調整。
1.1 多尺度CNN層與Mobilenet V3層的結合
在人口流量統計的過程中,由于計算機攝像頭等視覺工具存在視角遠近的問題,因此在統計人數的時候會存在人員大小不一致的問題,從而導致圖像中的人物大小會不一樣。傳統的CNN卷積神經網絡在特征提取過程對較遠處的人員數量統計將產生較大的誤差。針對以上存在的問題,本文提出通過大小不同的縮放比例從而對圖像的不同區域進行處理,但是由于多個大小不同的卷積神經網絡會在一定上增加網絡處理的復雜度,因此,在本文中使用Mobilenet V3輕量級網絡來替代傳統的CNN網絡,從而實現一種輕量級的多尺度網絡模型,其結構如圖2所示。
因此在Mobilenet V3的模型中,本文采用了h-swish激活函數代替傳統swish函數,能夠有效地減少神經網絡的運算量,從而提高神經網絡的計算性能。而h-swish激活函數的表達式如下所示:
[h-swishx=xReLU6x+36]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
在Mobilenet V3模型中,該模型具有較好的線性瓶頸的逆殘差結構,因此可以處理在不同尺度下的CNN特征信息,這樣能夠最大限度地保證獲取的不同尺寸的特征圖片,從而能夠獲得盡可能多的圖像特征。
1.2 基于Resnet-50殘差網絡的分塊判別器模型設計
在前述的MS-LresNet的結構中,將真實的人員密度圖像數據與通過深度學習網絡解碼器得到的輸出的人員密度圖像進行對比,從而確定較為精確的結果。輸出的結果為1或者-1來分別表示對比的結果是與否。在判決的過程中,本文采用Resnet-50網絡能夠有效解決在深度學習過程中存在的網絡退化的問題。尤其是當人員密度比較大時,能直接通過整體判別,但存在高精度條件下,判別出現不確定的問題,為了避免這種不確定性,使用一種分塊方式進行判別,其判決流程如圖4所示:
從圖3中發現,通過分塊局部判決的方式,能有效地對每一個網格中的圖像區域進行判決,當識別的結果如果是人員的話,則結果輸出1,否則,則輸入-1。本文假設的輸入圖像大小為R*C,分塊大小為N*N,那么在訓練過程中,定義損失函數如下:
[LOSS=N2R×Ci=1RNj=1CNGxij,θ-Yij]? ? ? ? ? ? ? ? ? ?(2)
公式(2)表示為在當前訓練參數[θ]條件下,由網絡解碼器輸出的人群密度估計圖[xij]與實際真實的人群密度圖[Yij]各個塊之間的平均誤差值作為網絡訓練損失函數,顯然,當損失函數LOSS越接近零,則說明人員檢測的精度越高。
1.3 通過郊狼優化參數搜索法進行網絡調參
復雜的深度學習網絡其訓練性能受到多個參數的影響,如學習率,卷積核大小,卷積深度以及網絡的局部結構等。通過郊狼優化搜索算法獲得最優的網絡訓練參數,其算法流程圖如圖4所示:
從圖4中可知,將參與優化的網絡參數構成待優化向量X,X作為網絡模型MSLResNet的輸入變量,將網絡模型MSLResNet的訓練誤差作為輸出,通過郊狼優化過程的迭代獲得最優的網絡參數向量X,使得網絡模型MSLResNet訓練誤差達到最小值。
2 算法仿真
為了更好地說明本文算法與普通的人口流量統計的方法的效果對比,選擇了硬件結構為CPU酷睿i7,內存為8GB,硬盤為512GB,軟件環境選擇了Windows10系統,仿真軟件為Matlab2012b。選擇NDC2020的數據集,ShanghaiTech數據集進行人口流量的測試。采用平均絕對誤差MAE和平均絕對方差MSE作為評價指標定量對不同的人群計數方法性能。利用同一個攝像裝置在不同道路下拍攝的視頻,大致選擇了幾個時間段進行對比人數識別效果的對比。圖5和圖6分別顯示了NDC2020的數據集對應的MAE和MSE的對比結果,圖7和圖8分別顯示了ShanghaiTech數據集對應的MAE和MSE的對比結果。圖9顯示了在不同時間段兩種算法獲取人數統計真實率。
從圖5的結果來看,兩種算法在MAE方面的對比具有比較大的差異,本文算法的數值明顯低于CNN算法,而在圖6的結果發現,兩種的算法的MSE之間相差具有一定的距離,但總體上本文算法仍然低于CNN算法;從圖7和圖8中說明本文算法相比于CNN算法在MAE和MSE方面都具有明顯的優勢。為了更好地說明本文算法具有的效果,選擇了一條路段上4個不同的時間段人數統計的對比情況,設定每次采集時間為5分鐘,從每一個時間段每隔10秒,選擇一張圖片進行識別,識別效果如圖9所示,從圖9中發現本文算法的識別統計效果明顯優于CNN算法,這說明了經過優化的對抗神經網絡算法具有較好的效果。
3 結束語
針對人口流量統計結果存在數據不準確等缺點,本文提出了一種多尺度輕量級對抗神經網絡的算法,該算法采用多尺度CNN層與Mobilenet V3層的結合、基于Resnet-50殘差網絡的分塊判別器模型設計措施提高了算法性能,仿真實驗說明該算法具有較好的識別效果。
參考文獻:
[1] 張君軍,石志廣,李吉成.人數統計與人群密度估計技術研究現狀與趨勢[J].計算機工程與科學,2018,40(2):282-291.
[2] 郭繼昌,李翔鵬.基于卷積神經網絡和密度分布特征的人數統計方法[J].電子科技大學學報,2018,47(6):806-813.
[3] 馬海軍,王文中,翟素蘭,等.基于卷積神經網絡的監控視頻人數統計算法[J].安徽大學學報(自然科學版),2016,40(3):22-28.
[4] 范龍飛,姜子政,李海豐,等.基于局部密度分類的人數統計算法[J].控制工程,2019,26(6):1015-1020.
【通聯編輯:朱寶貴】
收稿日期:2021-06-25
基金項目:浙江省統計局統計重點研究項目—“城市道路監控下的基于人工智能技術的人口流量的統計分析研究”(項目編號:21TJZZ29)
作者簡介:陳暄(1979—),男,副教授,碩士,主要研究方向為算法設計等。
3412500338208