





摘" 要: 為改善運動目標檢測效果,降低目標漏檢率,提出一種基于改進神經網絡的視頻序列運動目標識別方法。構建改進YOLOv3的運動目標識別模型,以不同幀視頻圖像為模型輸入,經過卷積層的初步特征提取后,輸入到由5個殘差模塊組成的深層網絡中。通過以上采樣方式構建特征金字塔,實現對運動目標四尺度特征的捕捉。在特征金字塔的每一層,應用K?means算法對運動目標真實框進行聚類,確保候選框尺寸和比例與真實運動目標的統計特性相匹配;再利用獲得的候選框和分類器對特征圖上每個位置進行目標檢測,運用非極大值抑制技術剔除重疊框,將斥力損失函數引入到網絡訓練總損失之中,使預測框無限貼近運動目標真實框,實現對運動目標的精準識別。實驗結果表明,所提方法具有顯著的運動目標識別能力,當聚類數目為12時,運動目標識別的AUC、F1指標可達到0.92、0.90,且計算量較少。
關鍵詞: 視頻序列; 運動目標識別; 改進YOLOv3網絡; 特征金字塔; K?means算法; 候選框聚類
中圖分類號: TN911.23?34; TP391.41" " " " " " " " " "文獻標識碼: A" " " " " " " "文章編號: 1004?373X(2024)20?0118?05
Method of video sequence motion target recognition based on improved neural network
FAN Jianwei, LI Lin, JIN Zhixin
(Taiyuan University of Science and Technology, Taiyuan 030024, China)
Abstract: A method of video sequence motion target recognition based on improved neural network is proposed to improve the motion target detection and reduce target missed?detection rate. An improved YOLOv3 motion target recognition model is constructed, which takes different frame video images as model input. After preliminary feature extraction by convolutional layers, the model is input into the deep network composed of 5 residual modules. The feature pyramid is constructed by means of the above sampling method to capture the four scale features of the motion target. At each layer of the feature pyramid, K?means algorithm is used to cluster the real boxes of the motion target, ensuring that the size and proportion of the candidate boxes match the statistical characteristics of the real motion target. The obtained candidate boxes and classifiers are used to detect targets at each position on the feature map. The non?maximum suppression technology is used to remove overlapping boxes, and the repulsive loss function is introduced into the total loss of network training to make the predicted boxes infinitely close to the real boxes of the motion target, so as to realize the precise recognition of sports goals. The experimental results show that the proposed method has significant ability in motion target recognition, when the number of clusters is 12, the AUC and F1 score indicators for motion target recognition can reach 0.92 and 0.90, and the computation is less.
Keywords: video sequence; motion target recognition; improved YOLOv3 network; feature pyramid; K?means algorithm; candidate box clustering
0" 引" 言
隨著科技的飛速發展,視頻序列分析作為計算機視覺領域的一顆璀璨明珠,正逐漸展現出其不可或缺的研究價值[1]。從視頻序列中智能識別運動目標,不僅可提高視頻監控效率,而且可及時發現不同場景中的異常情形,對預防和處理各類安全事件產生有利影響[2?3]。因此,運動目標識別在智能監控、自動駕駛、人機交互等應用場景中展現出廣泛的應用潛力[4]。為了充分發揮其效能,迫切需要采取有效措施不斷優化算法模型,提升視頻序列目標識別的效果,以滿足日益增長的安全和智能化需求[5]。
張震宇等人為了實現對電力倉庫中運動目標的精確識別,采取了一種構建高斯混合模型的方法[6]。然而,隨著高斯模型數量的增加,相應的計算量也會顯著上升,這對計算資源和處理速度提出了更高的要求。其次,盡管混合高斯模型能夠適應多種場景下的背景建模,但在面對光照突然變化等復雜情況時,其識別效果可能會受到一定影響。王立玲等提出的運動目標檢測算法通過引入光照變化因子對高斯混合模型進行了創新性改進,顯著降低了光線變化對目標識別的影響[7]。該算法在對視頻圖像進行四幀差分處理的基礎上,巧妙地結合了邊緣檢測算法,使得目標邊緣在檢測過程中始終保持顯著且連續的形態。最后通過對圖像進行形態學處理,實現了對運動目標的準確識別。對于某些復雜背景或遮擋情況,該方法可能面臨一定的挑戰,需要進一步的研究和優化以提高其魯棒性和適應性。文獻[8]通過一維卷積神經網絡對目標的局部特征進行挖掘,引入注意力模塊自適應地為每個局部特征分配權重,不僅有助于定位目標區域,還增強了模型對重要目標信息的關注。該方法不僅在處理長時間序列時可能面臨信息丟失或計算復雜度增加的問題,而且在運動目標特征提取方面也存在性能缺陷。劉坤等構建改進的InceptionV3網絡對視頻圖像中的艦船目標進行檢測,當云霧遮擋達到極高比例時,艦船目標特征可能存在嚴重丟失[9]。YOLOv3網絡在運動目標識別上展現出顯著的效率和精度優勢[10],當目標在視頻中運動時,其尺度可能會發生變化;而YOLOv3原始算法在處理這種尺度差異時存在難度,可能造成誤檢和漏檢問題。因此,本文提出一種基于改進神經網絡的視頻序列運動目標識別方法,保證目標識別效率的同時,改善識別效果,避免造成漏檢。
1" 基于改進YOLOv3視頻序列運動目標識別
1.1" YOLOv3網絡結構的改進
YOLOv3網絡以其出色的實時性和較高的準確性在視頻運動目標識別領域占據了一席之地[11]。YOLOv3網絡在面對小目標和密集目標時檢測效果可能受限[12],且對于復雜背景的識別能力仍有提升空間。為實現不同視頻場景多尺度運動目標的準確識別,本文對YOLOv3網絡進行了改進,提出了一種創新的多尺度檢測結構,該結構能夠精準地捕捉13×13、52×52以及104×104三種不同尺寸特征圖。通過引入特征金字塔的概念,YOLOv3網絡在若干次卷積處理視頻幀圖像后,能夠完成不同層次特征圖的初步提取。采用上采樣技術處理13×13尺度特征圖后,可將特征圖放大到26×26尺寸,隨后與上一個檢測尺度的特征圖作拼接。這一處理過程在4個檢測尺度上均被采用,構建出一個完備的多尺度特征金字塔。這樣的設計使得目標識別模型能夠同時利用高分辨率圖像中的細節信息和低分辨率圖像中的高級語義信息,從而在不同尺度上實現對目標位置和類別的精確預測。
在訓練YOLOv3網絡時,網絡梯度變化可通過式(1)進行確定。
[?Lloss?X1=?FiXNi,WNi,bNi?XN×…×?F2XN2,WN2,bN2?X1]" " "(1)
式中:[Lloss]為YOLOv3網絡訓練損失;[XN]為網絡第[N]層的輸入;[Ni]層的權重矩陣以及偏置量分別表示為[WNi]、[bNi];[Ni]層訓練損失表示為[FiXNi,WNi,bNi]。
隨著YOLOv3網絡深度的不斷增加,訓練梯度呈不斷減小的規律變化,直至梯度降低為0。為避免運動目標識別模型出現梯度消失現象,本文設計殘差模塊,用于取代YOLOv3網絡中的各個卷積層。改進YOLOv3網絡結構圖如圖1所示。
以各幀視頻圖像為模型輸入,首先經過一個3×3×32的卷積層進行初步特征提?。浑S后,這些特征被輸入到由5個殘差模塊組成的深層網絡中,對圖像中的運動目標特征進行捕捉。為了處理不同尺度目標,模型通過上采樣操作構建了一個特征金字塔,確保能夠同時捕捉到大目標和小目標的特征信息。在特征金字塔的每一層,模型都利用預設的錨點框和分類器對特征圖上的每個位置進行詳盡的目標檢測。每個位置都會產生多個候選框,經過非極大值抑制(NMS)等處理步驟的篩選,去除冗余和重疊的框,最終輸出精確的目標檢測結果。
1.2" 基于K?means的候選框聚類
初始候選框參數的設定會對基于改進YOLOv3的視頻序列運動目標識別模型的計算效率產生顯著影響。為提高模型的目標識別性能,應用K?means算法實現視頻序列運動目標真實框的聚類處理,完成初始候選框參數的優化處理,確保候選框尺寸和比例與真實運動目標的統計特性相匹配,從而最大程度地提升改進YOLOv3模型的計算效率。本文以交并比(IoU)作為距離度量標準,更直接地反映目標預測框與真實目標框之間的重疊程度。IoU計算公式為:
[IoUtp=areaboxp?boxtareaboxp?boxt]" " " " " " (2)
式中:[boxp]表示運動目標預測框,其尺寸為[box];[boxt]表示真實目標框。
定義一個距離度量函數來衡量真實目標框與運動目標候選框之間的距離,公式為:
[Disbox,c=1-IoUbox,c]" " " " (3)
式中[c]表示聚類中心。
對真實目標框進行K?means聚類后,可得到一組最優初始候選框,用于預測視頻序列運動目標的位置和大小。由于其與真實運動目標更加匹配,因此模型可以更快地收斂到最優解,并有利于提高目標識別速度和準確性。
1.3" 斥力損失函數設計
視頻序列運動目標之間存在遮擋關系時,預測框可能會錯誤地與其他非負責回歸的標注框或相交的預測框重疊,導致目標識別不準確[13]。為解決此問題,本文設計斥力損失函數,并將其加入到改進YOLOv3目標識別網絡損失中,以使預測框[Boxp]無限貼近運動目標真實框,加大與錯誤目標之間的距離,避免造成運動目標誤檢和漏檢。
改進YOLOv3的目標識別模型的總損失公式如下:
[Loss=LYOLOv3+αLBoxp?GBox+βLBoxp?Boxp]" " " (4)
式中:目標預測框[Boxp]和真實目標標注框之間的損失運算結果用[LYOLOv3]表示,由位置損失、分類損失和置信度損失三部分構成;目標預測框貼近其他不相關標注框[GBox]帶來的損失用[LBoxp?GBox]表示;多個目標預測框之間距離不斷縮小帶來的損失用[LBoxp?Boxp]表示;權重系數為[α]、[β],用于實現對[LBoxp?GBox]、[LBoxp?Boxp]的調整。
當目標預測框與標注框之間距離過小時,標注框會對運動目標識別結果產生干擾,本文通過斥力項[LBoxp?GBox]對此行為進行懲罰,以最小化模型訓練損失。通過式(5)定義該斥力項:
[LBoxp?GBox=P∈P+SmoothlnIoUBoxp,GPGBox] (5)
式中:不同運動目標預測框構成的集合表示為[P+];[P]為目標候選框,與之相對的預測框表示為[Boxp];不考慮真實目標框且和[Boxp]的IoU最大的標注框表示為[GPGBox]。[IoUBox,G]通過式(6)求得:
[IoUBox,G?areaBox?GareaG] (6)
[Smoothln]通過式(7)求得:
[Smoothln=-ln1-x," x≤σ,σ∈0,1x-σ1-σ-ln1-σ," xgt;σ,σ∈0,1] (7)
式中[σ]為超參數。
若目標預測框與標注框之間的距離過小,非極大值抑制可能會錯誤地去除一些實際上與真實標注框重疊程度較高的預測框,產生運動目標漏檢測現象,此時可通過斥力項[LBoxp·Boxp]使目標預測框之間具有較大的斥力,避免目標預測框被錯誤抑制。斥力項[LBoxp·Boxp]通過式(8)得到:
[LBoxp?Boxp=i≠jSmoothlnIoUBoxpi,Boxpji≠jIIoUBoxpi,Boxpjgt;0+ε] (8)
式中[ε]表示常數項,且其值極小。
2" 實驗分析
為驗證研究方法在視頻序列運動目標識別方面的性能優勢,通過高清攝像機對交通監控視頻信息、體育運動視頻信息進行采集,構建實驗樣本數據集。監控視頻中包括體育運動人員、行人、電動車、機動車、貨物運輸車等多種不同類型目標,視頻總量為6 840條。本文通過旋轉、調整對比度等方式實現樣本數據增強處理,以滿足數據多樣性要求。將擴充后的32 000條監控視頻數據按照4∶1比例進行分配,確定訓練、測試樣本集。在Python深度學習框架進行目標識別模型的搭建,并設定學習率初值為1×10-3,權值衰減系數為5×10-4,以優化模型性能。
聚類中心數量[k]是影響視頻序列運動目標識別結果的重要參數,利用平均交并比(AvgIoU)指標反映候選框聚類效果。不同[k]值下的AvgIoU差異如圖2所示。
分析圖2可知,隨著[k]值不斷增大,反映候選框聚類效果的AvgIoU指標總體呈逐漸增大變化規律。這表明聚類數目的增多,可使相似運動目標候選框聚集在一起,達到提高聚類效果的目的。當[k=12]時,AvgIoU指標值達到收斂狀態,繼續增大[k]值對聚類效果的改善已不再顯著,甚至可能引入過多的冗余,導致計算資源的浪費和聚類性能的下降。因此,確定最優[k]值為12。
為驗證研究方法在運動目標識別上的性能優勢,將其與基于Faster?R?CNN(VGG16)的識別方法、基于YOLOv3的識別方法、基于YOLOv3?9anchors的識別方法以及YOLOv3?tiny的識別方法進行對比。不同方法下的AUC、F1、計算量指標差異對比結果如表1所示。
分析表1得出,本文方法在運動目標識別任務上展現出了顯著的性能優勢。在AUC指標上,本文方法達到了0.92,相比其他方法有著明顯的提升,說明該方法在識別運動目標時具有更高的準確性;本文方法在F1指標上也取得最大值,達到0.90,確保了運動目標識別在精確率和召回率之間取得良好的平衡;本文方法的計算量略高于基于YOLOv3?tiny的識別方法,但其性能上的顯著提升足以彌補這一差距。綜合考慮AUC、F1 和計算量指標,本文方法在運動目標識別任務上表現出色,具有良好的實際應用前景。
將晴天、雨天、霧天條件下采集的原始視頻圖像作為本文方法的輸入,通過對運動目標識別結果進行分析,驗證其實際應用性能。實驗結果如圖3、圖4所示。通過黑色矩形框標記運動目標識別結果。
分析圖4得出,本文方法在不同天氣條件下均展現出良好的穩定性和準確性,可有效應對光照變化、雨霧干擾等挑戰,視頻圖像中的運動目標得以精準識別,未出現漏檢、錯誤檢測等問題。實驗結果表明,本文方法在體育運動智能監控、交通管理等領域具有強大的應用潛力,可為現代社會的安全管理與監控提供強有力的技術支持。
3" 結" 論
本文以YOLOv3為基礎網絡,針對視頻序列運動目標識別,提出了一種創新的多尺度檢測結構。通過捕捉運動目標的四尺度特征圖,結合殘差模塊替代傳統卷積操作,有效避免了梯度消失問題,提高了網絡的學習能力。此外,引入斥力損失函數使得預測框能更緊密地貼合真實目標邊界,從而顯著提升了檢測精度。展望未來,將持續優化網絡結構和算法,以期望在保持高準確性的同時,進一步提升運動目標識別的實時性,滿足更廣泛、復雜場景下的應用需求。
注:本文通訊作者為李琳。
參考文獻
[1] 趙明宇,苗玉彬.基于RGB?D視頻序列的動態手勢識別[J].機械設計與研究,2023,39(4):27?31.
[2] 閆賀,黃佳,李睿安,等.基于改進快速區域卷積神經網絡的視頻SAR運動目標檢測算法研究[J].電子與信息學報,2021,43(3):615?622.
[3] 譚熊,孫一帆,張晉,等.光流網絡的無人機視頻運動目標檢測方法[J].測繪科學技術學報,2021,38(3):272?279.
[4] 高明華,楊璨.基于改進卷積神經網絡的交通目標檢測方法[J].吉林大學學報(工學版),2022,52(6):1353?1361.
[5] 吳嵐虎,李智瑋,劉壘燁,等.基于場景幾何信息的顯著性目標檢測方法綜述[J].模式識別與人工智能,2023,36(2):120?142.
[6] 張震宇,董丹慧,馮曙明,等.基于高斯混合模型的電力倉庫視頻運動目標檢測[J].計算機與數字工程,2021,49(8):1580?1583.
[7] 王立玲,劉超杰,馬東,等.改進自適應混合高斯模型和幀間差分的運動目標檢測[J].機床與液壓,2022,50(21):26?32.
[8] CHEN J, DU L, GUO G B, et al. Target?attentional CNN for radar automatic target recognition with HRRP [J]. Signal processing, 2022, 196(45): 108497?108516.
[9] 劉坤,于晟燾.基于卷積神經網絡的云霧遮擋艦船目標識別[J].控制與決策,2021,36(3):661?668.
[10] 王燕妮,賈瑞英.基于改進YOLOv3的輕量級目標檢測算法[J].探測與控制學報,2023,45(5):98?105.
[11] 霍愛清,張書涵,楊玉艷,等.密集交通場景中改進YOLOv3目標檢測優化算法[J].計算機工程與科學,2023,45(5):878?884.
[12] 楊玉敏,廖育榮,林存寶,等.基于輕量化神經網絡的空中目標檢測算法[J].計算機仿真,2022,39(7):70?73.
[13] 李經宇,楊靜,孔斌,等.基于注意力機制的多尺度車輛行人檢測算法[J].光學精密工程,2021,29(6):1448?1458.
作者簡介:范建偉(1987—),男,山西夏縣人,碩士研究生,講師,研究方向為運動目標識別。
李" 琳(1989—),女,山西晉城人,博士后,講師,研究方向為視頻編碼和目標檢測。
靳志鑫(1987—),男,遼寧丹東人,碩士研究生,講師,研究方向為運動目標識別。
DOI:10.16652/j.issn.1004?373x.2024.20.018
引用格式:范建偉,李琳,靳志鑫.基于改進神經網絡的視頻序列運動目標識別方法[J].現代電子技術,2024,47(20):118?122.
收稿日期:2024?06?20" " " " " "修回日期:2024?07?17