






摘" 要: 為解決在復雜場景下傳統算法對人臉的識別和跟蹤精度低的問題,文中提出一種面向復雜場景的人臉識別與目標跟蹤算法FaceNet。該算法由人臉識別與人臉跟蹤兩部分組成。在人臉識別方面,基于YOLOv8提出一種改進的人臉識別算法FaceD?YOLOv8,提高了識別準確率。再以DeepSort為基礎,提出一種改進人臉跟蹤算法FaceT?DeepSort,實現對人臉目標連續準確的跟蹤。在公開數據集上進行的對比實驗結果表明,與主流的傳統方法相比,所提FaceD?YOLOv8算法人臉識別的mAP值提高3.5%,FaceT?DeepSort算法的人臉目標跟蹤精度(TP)值提高9.1%。證明所提方法具有良好的綜合性能,能夠滿足工程應用的需要。
關鍵詞: 人臉識別; 人臉跟蹤; 復雜場景; YOLOv8; DeepSort; GIoU
中圖分類號: TN911.73?34" " " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)24?0167?05
Design of face recognition and object tracking algorithm for complex scenes
LI Kunlun, XIONG Ting
(College of Science and Technology, Nanchang University, Jiujiang 332020, China)
Abstract: In order to solve the problem of low recognition and tracking accuracy of traditional algorithms for faces in complex scenes, a face recognition and target tracking algorithm FaceNet for complex scenes is proposed, which is composed of the face recognition and face tracking. In terms of facial recognition, an improved face recognition algorithm FaceD?YOLOv8 is proposed based on YOLOv8 to improve the recognition accuracy. Based on DeepSort, an improved face tracking algorithm FaceT?DeepSort is proposed, which can realize continuous and accurate tracking of face targets. The comparative experimental results conducted on public datasets show that, in comparison with mainstream traditional methods, the proposed FaceD?YOLOv8 algorithm can increase the face recognition accuracy mAP by 3.5%, and the FaceT?DeepSort algorithm can improve the face target tracking precision (TP) by 9.1%, proving that the proposed method has good comprehensive performance and can meet the needs of engineering applications.
Keywords: face detection; face tracking; complex scene; YOLOv8; DeepSort; GIoU
0" 引" 言
人臉作為人類最重要的外部特征,在社交活動中發揮著重要作用。隨著人機交互技術成為人工智能領域的研究熱點,人臉檢測與跟蹤已成為計算機視覺領域備受關注的研究方向,且在人機交互、虛擬現實等領域有著廣闊的應用前景。然而,人臉的復雜性給快速檢測與跟蹤的實際應用帶來了一定困難。
目前,人臉檢測的方法有多種類型,例如:模板匹配法、幾何法、支持向量機法、主動輪廓模型法和可變性模板法等。當前比較主流的人臉檢測方法多是基于Adboost的方法,但該方法的檢測速度無法滿足高分辨率視頻序列的實時性要求。文獻[1]利用顏色和輪廓檢測方法搜索候選人臉,然后通過主成分分析(Principal Component Analysis, PCA)算法確認模式匹配識別,其跟蹤準確率較高,但在被遮擋情況下的跟蹤效果較差。文獻[2]采用Mean?Shift技術跟蹤移動目標,該技術具有快速、高效的特點,但跟蹤窗口是固定的,因此當目標隨攝像機方向移動時,容易出現目標丟失的情況。
為解決上述問題,文中基于YOLOv8算法[3?4]和Deepsort算法,提出了一種專為復雜場景設計的人臉識別與目標跟蹤算法FaceNet。該算法充分利用YOLOv8在目標檢測中的優異性能,快速、準確地識別出圖像中的人臉區域;同時,還結合Deepsort算法的深度學習特性實現了對目標的高效跟蹤。首先,在人臉檢測階段,YOLOv8通過其先進的卷積神經網絡(Convolutional Neural Network, CNN)架構,在各種光照和背景條件下保持良好的識別率,這一過程也確保了系統在動態環境中能夠及時地捕捉到人臉信息;隨后,使用Deepsort算法進行目標跟蹤,該算法基于深度特征和外觀信息,能夠有效區分不同的人臉目標并追蹤其運動軌跡。通過引入卡爾曼濾波器和匈牙利算法,Deepsort算法在處理目標之間的遮擋和重識別時展現出了較強的魯棒性。
1" 相關工作
1.1" YOLOv8
YOLOv8算法作為一種突出的單階段目標檢測方法,基于之前YOLO目標檢測算法的成功,通過引入新的改進特性大幅提升了準確性和速度。YOLOv8網絡主要由4個部分構成,即輸入、主干網絡、頸部網絡和輸出測量。YOLOv8的主干網絡由Conv、C2f與SPPF模塊組成,其中C2f模塊可以通過引入更多分支跨層連接,使模型獲得更豐富的梯度流信息。SPPF模塊是一種池化模塊,旨在實現空間不變性,保持輸入數據的位置一致性,以增強神經網絡的識別能力。YOLOv8的頸部網絡負責特征融合,將淺層圖形特征與深層語義特征進行融合,使其更加全面,并同時包含FPN和PAN模塊。其中,FPN是自頂向下的構造,PAN是自底向上的構造。YOLOv8采用解耦頭對目標幀進行回歸分類和分類判斷,從而提取位置特征及類別特征,并采用無錨方式直接預測得到預測幀的參數,增強模型的泛化能力。損失函數包括分類和定位兩種,分類損失函數采用BCE損失函數,定位損失函數采用分布焦點損失函數和CIoU損失函數。
1.2" DeepSort
Sort算法[5]是一種簡單且有效的經典算法,其利用卡爾曼濾波器實現跟蹤器對運動跟蹤的預測功能,并利用匈牙利算法發現檢測結果和跟蹤器預測結果的最優分配函數,但該方法忽略了內容特征的匹配,難以解決遮擋和目標識別問題。文獻[6]提出了DeepSort算法,該算法在Sort算法的基礎上增加了級聯匹配策略,考慮了目標間距和特征相似性,對新生成的跟蹤軌跡采用驗證機制,在消除錯誤預測結果的同時還解決了遮擋和目標識別問題。
2" 基于YOLOv8和DeepSort的人臉識別與目標跟蹤算法
本文所提出的算法結合了YOLOv8的高效目標檢測能力和DeepSort的強大目標跟蹤功能,進而實現了復雜場景下的人臉識別與跟蹤任務。文中采用改進YOLOv8實時檢測視頻流中的人臉,改進DeepSort則負責對這類人臉進行持續跟蹤。本文算法的實現流程如圖1所示。
2.1" 改進的YOLOv8人臉識別算法(FaceD?YOLOv8)
YOLOv8支持在嵌入式設備上進行人臉識別,但在復雜場景下還需進一步優化結構,以產生更準確、更高效的結果。
借鑒GhostNet[7]和分組卷積的原理,在YOLOv8中引入了FM_C?C2f模塊。該模塊可同時從輕量級視角和多尺度融合視角提取特征,從而在管理參數數量的同時提高計算效率,而且其非常適合集成到物體檢測模型中。圖2展示了FM_C?C2f模塊的結構。通過利用FM_C?Bottleneck模塊,FM_C?C2f模塊為淺層網絡層分配了更多的計算資源和參數,從而增強了淺層特征中多尺度信息的學習和表示,以此產生了一個具有多尺度特征增強功能的跨層連接模塊。
DyHead(Dynamic Head)是文獻[8]提出的一種用于目標檢測任務的技術,通過結合頭部選擇器模塊,提供了靈活和自適應的機制,可以根據輸入圖像的內容和特征,動態選擇與調整網絡中的頭部結構。DyHead集成了多個頭部的自我注意,用于規模感知、空間感知和任務感知,從而進一步提升性能和適應性,更重要的是,DyHead還能夠滿足多任務學習和模型壓縮的要求。在對模塊進行優化后,本研究設計了FaceD?YOLOv8結構,用于在復雜場景下實現對人臉的實時識別,具體網絡結構如圖3所示。
2.2" 改進的DeepSort人臉跟蹤算法(FaceT?DeepSort)
DeepSort算法是一種基于檢測的目標跟蹤方法,其將單目標檢測網絡的輸出作為多目標跟蹤的輸入。本文對DeepSort算法進行了改進,以有效應對跟蹤過程中復雜場景帶來的挑戰,從而提高模型的整體跟蹤性能。
在目標跟蹤算法中,引入重識別技術的主要目的是從目標中提取特征,并測量這些特征之間的距離,以確定不同幀中的目標是否屬于同一實體。雖然DeepSort算法在Sort算法的基礎上增加了深度特征提取網絡,但仍存在一些局限性,例如特征提取網絡的層數較少,因此其特征提取能力有限。此外,該算法沒有充分利用不同通道之間的特征信息。
基于上述考慮,文中采用能夠學習全尺寸特征的輕量級再識別網絡OSNet[9]。OSNet由多個殘差塊組成,每個塊包含具有不同感受野大小的卷積特征流,以捕獲不同尺度的空間特征。首先,使用全尺寸殘差塊提取不同感受區域的圖像特征;然后,將不同尺度的特征單獨輸入到通用聚合門中,該聚合門對不同尺度的特征賦予不同的權重,并將其進行合并以生成全尺寸的特征圖;最后,對得到的全尺寸特征圖進行測量,得出最終的再識別結果。同時,由于跟蹤過程中固有的挑戰,包括光照變化、視點變化和遮擋,原始的DeepSort算法在級聯匹配中受到了限制,這些因素會導致幀之間相同的外觀發生實質性的變化,使連續幀外觀特征之間的相似性得分下降到預定的閾值以下,從而造成級聯匹配失敗。為了解決這些問題,本文在DeepSort算法中引入GIoU[10],以取代原有的IoU匹配。GIoU不僅考慮了兩個矩形框之間的重疊,還考慮了不重疊的部分,從而可以更好地測量框之間的空間關系。因此,在目標之間發生遮擋或視頻幀被丟棄的情況下,設置適當的GIoU閾值解決由于矩形不相交而導致的IoU關聯匹配失敗問題。圖4為FaceT?DeepSort人臉目標跟蹤流程。
3" 實驗與結果分析
對所提出的算法在不同設置下進行全面評估,并選取部分SOTA算法進行比較。實驗環境信息如表1所示。
3.1" 對比方法
對于人臉識別方面,本研究選擇了5種當前的主流方法進行對比實驗,包括:Faster R?CNN[11]、CenterNet[12]、YOLOv3[13]、YOLOv5[14]和YOLOv8。在人臉目標跟蹤方面,本研究選擇了SiamFC[15]、SORT、ByteTrack[16]、FairMOT[17]和DeepSort進行實驗對比。
3.2" 評價指標
本文主要從精度與復雜度兩方面來評估模型性能,采用平均精度均值(mean Average Precision, mAP)、參數量(Params)、計算量(Giga Floating?point Operations Per Second, GFLOPs)和計算速度(Frame Per Second, FPS)作為評價指標。對于FaceT?DeepSort目標跟蹤算法,選擇的評價指標包括目標跟蹤準確度(TA)和目標跟蹤精度(TP)。
3.3" 數據集
對于人臉識別模型FaceD?YOLOv8的性能驗證,選擇了公開的人臉識別Flicker?Faces?HQ數據集作為實驗數據樣本。該數據集是一個高質量的人臉圖像數據集,主要目的為訓練生成對抗網絡(Generative Adversarial Network, GAN)模型。數據集在年齡、種族和圖像背景方面均存在較大差異,其中還覆蓋了眼鏡、太陽鏡以及帽子等附件。
為了驗證人臉目標跟蹤算法FaceT?DeepSort的性能,本文選擇公開數據集ECCV16 Face Tracking,該數據集共8段視頻,總時長為1 652 s,總畫面幀數共42 008張,共包含50余個人臉目標。
3.4" 人臉識別實驗
對于人臉識別模型FaceD?YOLOv8的訓練,輸入圖像大小為640×480,迭代次數為500次,批大小為16次。算法優化采用隨機梯度下降法,初始學習率為0.001,動量為0.94,權重衰減為0.000 5。在Flicker?Faces?HQ上進行的人臉識別結果如表2所示。
從表2實驗結果可以看出,FaceD?YOLOv8的各項指標表現出了明顯優勢,由此說明在復雜環境下,如人體運動和人臉模糊,所提出的檢測模型具備良好的檢測能力和較高的魯棒性。
3.5" 人臉跟蹤實驗
為了測試所提出的FaceT?DeepSort算法在實際場景下的應用表現,在ECCV16 Face Tracking數據集中進行了人臉跟蹤對比實驗,結果如表3所示。
從表3可以看出,所提方法的人臉目標跟蹤準確度(TA)為57.6%,目標跟蹤精度(TP)為75.9%,與DeepSort相比分別增加了19.2%和9.1%。由此說明所提方法在跟蹤的準確性上具有明顯優勢,更適合在實際復雜場景中應用。
4" 結" 語
為解決在復雜場景下現有方法對人臉識別和跟蹤精度低的問題,本文提出了改進的人臉識別算法FaceD?YOLOv8和人臉目標跟蹤算法FaceT?DeepSort。實驗結果表明,所提算法的綜合性能優于當前的主流算法,具有良好的工程應用價值。下一步將開展多人臉目標識別與跟蹤的算法研究,實現系統級的多場景全面應用。
參考文獻
[1] FORESTI G L, MICHELONI C, SNIDARO L, et al. Face detection for visual surveillance [C]// 12th International Conference on Image Analysis and Processing. Mantova, Italy: IEEE, 2003: 115?120.
[2] COMANICIU D, RAMESH V, MEER P. Real?time tracking of non?rigid objects using mean shift [C]// Proceedings IEEE Conference on Computer Vision and Pattern Recognition. Hilton Head Island, SC, USA: IEEE, 2000: 142?152.
[3] 李問渠,陳繼清,郝科崴,等.一種基于YOLOv8的輕量化盲區檢測網絡[J].現代電子技術,2024,47(16):163?170.
[4] 王曉軍,陳高宇,李曉航.應用動態激活函數的輕量化YOLOv8行人檢測算法[J].計算機工程與應用,2024,60(15):221?233.
[5] 杜磊.基于SORT算法的圖像軌跡跟蹤混合控制方法[J].現代電子技術,2024,47(13):32?35.
[6] WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric [C]// International Conference on Image Processing. Beijing, China: IEEE, 2017: 3645?3654.
[7] 宋中山,周珊,艾勇,等.基于GhostNet的改進模型輕量化方法[J].中南民族大學學報(自然科學版),2024,43(5):629?636.
[8] DAI X, CHEN Y, XIAO B, et al. Dynamic head: unifying object detection heads with attentions [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2021: 7369?7378.
[9] 韓錕,彭晶瑩.基于改進YOLOX與多級數據關聯的行人多目標跟蹤算法研究[J].鐵道科學與工程學報,2024,21(1):94?105.
[10] 侯志強,劉曉義,余旺盛,等.使用GIoU改進非極大值抑制的目標檢測算法[J].電子學報,2021,49(4):696?705.
[11] 蔣健,劉年,孫超.基于Faster R?CNN圖像處理的變電站異常設備紅外檢測方法[J].沈陽工業大學學報,2024,46(2):157?164.
[12] 王英博,劉榮霞.改進輕量化的CenterNet的小目標檢測[J].計算機工程與應用,2023,59(17):205?211.
[13] 王凱,婁樹理,王巖.基于改進YOLOv3的小目標檢測算法[J].應用光學,2024,45(4):732?740.
[14] 何幸,黃永明,朱勇.基于改進YOLOv5的路面坑洼檢測方法[J].電子科技,2024,37(7):53?59.
[15] 張紅穎,賀鵬藝,王匯三.基于改進SiamFC的實時目標跟蹤算法[J].激光與光電子學進展,2021,58(6):308?316.
[16] 聶源,賴惠成,高古學.改進YOLOv7+Bytetrack的小目標檢測與追蹤[J].計算機工程與應用,2024,60(12):189?202.
[17] 彭嘉淇,王濤,陳柯安,等.結合時空一致性的FairMOT跟蹤算法優化[J].中國圖象圖形學報,2022,27(9):2749?2760.
作者簡介:李昆侖(1982—),女,回族,河南項城人,碩士研究生,副教授,研究方向為人工智能、模式識別、算法設計。