顏冰 劉佳慶 池強



關鍵詞:模式識別;神經網絡;人群計數;YOLOv3;計算機視覺
中圖分類號:TP391.4 文獻標識碼:A
文章編號:1009-3044(2023)03-0030-04
1 概述
隨著機器學習和計算機視覺技術的發展,人們對視頻監控的智能化水平的需求逐步提高,其中的人群自動計數有著重要的社會意義和市場應用前景,如公共安全、應急疏散等領域[1-2]。本文主要針對教室人群的精確檢測統計問題,在YOLOv3[8]檢測框架下展開研究,為室內人群智能化監控提供支持。檢測場景設定為室內人群,以教室和會議室人員檢測統計為應用背景,該場所決定了場景中的人的行為大多時間都為坐著,導致檢測目標的身體大部分都是處于桌椅或周圍人群的遮擋,對目標全身輪廓檢測產生不考慮。除此之外,被大量使用的人臉檢測也由于學生在教室學習時存在低頭狀態導致人臉識別困難,以及攝像機對目標的遠距離采集特征不足,而造成漏檢、精度低問題始終存在,同時訓練時由于背景噪聲而產生的負樣本影響,使得依賴人臉和輪廓檢測技術來實現人數統計得到的結果效果并不是很好。
鑒于在標注目標時對可能在檢測時因為物體等遮擋造成加大漏檢率的情況,本文采用具有較好魯棒性的人頭作為檢測對象,通過改進YOLOv3的錨點(Anchor)參數更新、目標真實邊界框和模型預測框的交并比(In?tersection over Union, IoU) ,并將批量歸一化(Batch Nor?malization, BN) 層參數合并到卷積層以改進人頭的精確檢測,從而達到室內人群精確檢測統計的目的。
2 YOLO 框架與改進
2.1 YOLO v3檢測網絡結構
YOLOv3對輸入的圖片處理與卷積神經網絡不同的是將圖片整體進行輸入,不需要對目標進行分割處理,通過這種方式加快了檢測的速度,在YOLO-v3中網絡將輸入的圖片下采樣到第一檢測層,在該檢測層中檢測使用步長為32的層的特征映射。
在YOLOv3中引入了殘差(ResNet) [4]作為主干網絡結構(Darknet-53) 的部分,在殘差網絡中通過使用網中網結構[5],使網絡在卷積的計算過程中減少通道數和參數以及模型的體積。該模型采用5個下采樣層,設置每次采樣的步長為2,結構如圖1所示。
2.2 聚類Anchor 參數更新
YOLO在對輸入圖像目標進行檢測時預測3種尺度的Anchor,通過對不相同尺寸輸入處理,使之變為相同尺寸的輸出,對所標記的圖片中不同大小的目標進行計算得到最適合Anchor的值。
為此,本文基于聚類思想,設計Anchor參數更新方法。為提高效率,選擇無監督學習典型算法kmeans作為聚類算法,在聚類時,使用歐式距離公式或曼哈頓公式進行計算距離,分別定義為:
3 訓練與測試
3.1 數據準備
實驗數據主要來自普通監控攝像機采集,同時從網絡中收集、篩選并進行適當處理后的教室環境中的圖片,它們具有不同的對象姿勢、光亮、角度與像素,從而豐富數據集。驗證數據集、測試數據分別由120、30張樣本組成實驗驗證主要針對教室人群的精確檢測統計,所以訓練數據集通過對同一教室不同時間段、不同坐姿、站姿等行為進行采集的圖像數據構成,使用上文提出的算法進行訓練從而得到特征模型分別在不同的測試數據集上進行測試,測試結果對訓練時的參數進行更改選擇使其達到模型最優化。
在圖片的預處理過程中,為了增加網絡的魯棒性進行了以下處理方式:縮放、色彩調節、反轉等圖片處理,在數據增強上通過在線增強使用了隨機翻轉、隨機剪裁、隨機旋轉、顏色抖動等處理方法來達到樣本的擴充從而增大訓練的數據量。
實驗中對教室現場環境(Identify the scene, ITS)分別取不同的時間段、學生姿勢將其分為6類,分別記為:C1(早晨)、C2(中午)、C3(晚上)、C4(上課)、C5(下課)、C6(自習),C1、C2、C3圖片的時間狀態均處于上課狀態,C4、C5、C6樣本背景均處于普通光強,每類測試樣本為5張。
3.2 實驗環境
實驗主要在普通PC機上完成,基本配置包括:Windows 10系統,i5處理器,顯卡為NVIDIA GeForceGTX 1060(顯存6G) ,16G運行內存,對YOLO-V3的訓練使用Darknet-53框架,配置CUDA9.0和CUDNN7.0進行加速計算。部分測試數據如圖2所示。
3.3 實驗結果及分析
3.3.1 訓練參數優化及預測精度值分析
在學習率(Learning rate, LR) 訓練選擇上,所選的學習率分別為0.010、0.009、0.007、0.005、0.003、0.001,對應的1200張訓練樣本模型的預測估計概率值(Esti?mated probability of prediction, EPP) 和真實預測值(True prediction probability, TPP) 如圖4和表1所示。
由表1與圖4可以看出,預測概率估計值和真實概率估計值隨著學習率的改變先增大后減小,當學習率小于0.01時,學習率的減小,使得訓練產生的模型的預測概率估計值與識別準確率均有明顯的增大趨勢。當學習率為0.007 時,真實預測值達到最大為0.94。在越過此點后當學習率從0.007減小到0.001的整個過程中,預測概率估計值處于0.90附近,真實預測值處于0.92左右,此時的學習率的變化對上述兩個性能指標的影響較小。當學習率從0.007 減小到0.001時,預測概率估計值先上升至最大點后下降,真實預測值隨著學習率的變小而下降。
綜上分析可以得出結論,當學習率設為0.007時,對訓練產生的模型具有較好的預測表現能力,在使用時可以選擇此學習率作為經驗值。
3.3.2 不同迭代次數下的模型預測精度
本次實驗針對訓練的1200個樣本,設置了8種訓練的迭代次數,由上一節的學習率分析可知,學習率的最佳選擇為0.007,迭代次數(iterations) 、改進前預測值(Prediction before improvement, PBI)、改進后預測值(Improved predictive value, IPV)和關系如表2所示,改進前預測值和改進后預測值與迭代次數變化趨勢如圖5所示。
可以看出,在訓練的整個過程中,在訓練過程中預測值均呈上升趨勢,其中改進后的模型預測值上升速度較快,改進前模型的預測值上升速度較為緩慢,如圖5所示,當迭代次數為16000時,預測值最高,兩個模型結果分別為0.94、0.97,由此可知,改進后模型在訓練時的預測值明顯優于未參加改進的模型。
3.3.3 不同場景識別性能
在前兩節通過對學習率和迭代次數的分析過程中,得到了較好的模型,本節實驗內容主要包括模型對上述不同場景的實驗模型的測試。所選學習率為0.007,迭代次數為16000次,表3表示模型對6類不同場景下測試數據的識別誤差(Number of recognition er?rors, NORE) 與單圖識別時間(Single graph identifica?tion time, SGIT)關系。
由表3可以看出由于遮擋(低頭狀態或背影)、環境等造成的漏檢問題,該模型在檢測圖片中C4(上課)的識別誤差明顯低于其他狀態,這是因為學生在上課時保持抬頭姿勢便于識別,處于C2(中午)和C6(自習)的識別誤差較高,這是因為C2(中午)時間受光源影響,在光照較強情況下的識別誤差高于普通光照(C1、C3) 的誤差,C5(下課)和C6(自習)時學生處于低頭、站立、走動、聚集聊天等狀態下容易造成目標間的遮擋問題,使得識別誤差大。由實驗識別的時間可以看出該檢測模型能夠滿足實時檢測應用需求。
4 結束語
本文所提方法通過使用聚類算法對Anchor的設定使網絡可使用符合室內人群數據集特征的參數,同時采用基于G-IoU進行邊界框的優化方式加大網絡模型的適應力和表現力,使得網絡在處理應對具有特定室內場景圖像數據時,可以有較好的性能,在室內人群檢測統計任務中性能優于原有算法,可以為室內人群精準檢測和識別等智能監控應用提供參考。