基于YOLOv5s改進的高精度手語檢測算法

2023-12-05 08:14:18鄭思遠

現代計算機 2023年18期

鄭思遠

（達爾豪斯大學計算機科學學院，成都 610065）

0 引言

手語是失語者與社會進行溝通的重要橋梁，但手語的學習對于大眾具有較高成本，因此，利用現代計算機及算法對手語進行檢測識別具有重要的實際意義。對手語進行目標檢測并反饋給正常人能促進失語者與社會更好地交流,而手語目標檢測能否有良好的人機交互主要取決于手語檢測的準確度與進行手語檢測的速度［1］。本文通過對YOLOv5目標檢測網絡進行改進，提出了一種輕量化高精度的手語檢測算法。

當前主流的手語識別方法大部分是基于神經網絡的計算機視覺技術，Dima 等［2］用原本的YOLOv5 在沒有更改其原本框架的基礎上利用CNN 提取特征，并在訓練前添加相關數據集的預訓練模型對美國手語數據集進行訓練，最后精度達到95%。Borg等［3］提出了一個使用多層遞歸神經網絡（RNN）進行手語目標檢測的方法來增強模型預測能力，并在不同圖片數據集進行測試，在視頻中的實時測試，精度方面有顯著提升。陳帥等［4］的YOLOv5-ASFF-SE 網絡通過添加自適應特征融合以及SE 注意力機制去增強模型特征提取和融合的能力，結果證明相比于原有YOLOv5 網絡，平均精度提升6%。邢晉超等［5］通過改變K-means 聚類算法，選定更加適配的先驗錨框尺寸從而達到更佳魯棒性的檢測效果，并結合CBAM 注意力機制加強原有特征提取，平均精度和召回率提升頗為顯著（3.44%和3.17%）。Li 等［6］提出了CNN-LSTM 特征提取結構，在卷積層和池化層后引入LSTM 分類器，消除冗余特征信息提高精度和檢測能力。

在文獻［2-6］圖片數據集中的選擇多偏向于近距離大物體檢測，背景因素干擾少，當適配于嵌套式設備遇到不同的實時情況時，檢測網絡容易出現精度下降或者是檢測不具備時效性的可能。本文數據集的選定，偏向于遠距離小物體手語檢測目標數據集。同時在上述研究當中，模型輕量化處理方面略微有所不足，計算量大，同時精度方面還有可以提升的空間，尤其是當實驗對象為小物體、干擾因素強的情況下。針對以上問題，本文在YOLOv5s 基礎上做了以下改進：

（1）輕量化模型處理，將YOLOv5s 原有多層主干網絡替換成MobileNetV3 網絡，MobileNet網絡特有的特征提取和處理結構極大地減少了YOLO 檢測所需要的計算量和參數應用，從而達到輕量化模型的目的。

（2）高精度檢測提升，替換的MobileNetV3網絡主干MobileNet中的SE注意力機制有效提高特征提取的效率，保證精度下輕量化網絡結構。并且，使用GiraffeDet 網絡中Generalized-FPN 結構優化YOLOv5s網絡頸部，其獨特高效的特征融合確保了細節信息的處理，進一步提高網絡精度。

1 基于YOLOv5s改進的手語檢測算法

YOLOv5s 網絡［7］（如圖1 所示）當中，主干網絡部分主要由卷積層以及此C3 模塊組成，卷積層用于普通的特征提取，C3 模塊中主要由三層卷積層以及殘差鏈接組成，網絡Neck 部分主要進行不同程度的下采樣來適配特征融合。此網絡的主要特點就是對圖片局部特征、深層特征以及語義特征的多尺度特征融合。

圖1 YOLOv5s原網絡結構

在改進的YOLOv5s-MOBLILE-GFP（如圖2所示）當中，將YOLOv5s 主干部分替換為用三個MobileNetV3 模塊構成的主干，在Neck 部分YOLOv5s 特征金字塔（FPN）［7］的高層次與低層次特征交匯聚合的結構基礎上進一步加強，去除C3 模塊，加入了多層GSPStage（RepGFPN）［8］塊，以對手勢數據特征進行多層次特征融合，提升網絡精度。

圖2 YOLO5s-MOBILE-GFPN網絡結構

接下來對YOLOv5s-MOBLILE-GFP 網絡結構進行詳細展開，從輕量化改進和特征融合模塊結構兩方面進行實驗分析，評估網絡結構改進在精度以及速度上的提升。

1.1 輕量化高精度特征提取主干MobileNetV3

深度可分離卷積（Depth-wise convolution）是MobileNetV3 網絡塊（如圖3 所示）的主要構成，是模型參數大幅度減少的關鍵因素［9］。

圖3 MobileNetV3網絡塊

Depth-wise 卷積特點在于對圖片每一個通道的特征圖都進行單獨的卷積提取操作［10］，相比于傳統卷積對整個特征圖通道做卷積特征提取，Depth-wise 卷積本身缺少通道間的特征融合，利用逐點卷積對特征圖通道特征融合并進行特征圖通道維度升降，大幅度減少計算量，輕量化模型結構。

表1 所展示的內容是當傳入數據集圖片時，新改進主干MobileNetV3 網絡的系數展示，相比于原YOLOv5s網絡主干參數明顯減少，在主干網絡減少五層的基礎上保持理想的特征提取效果。

表1 網絡MobileNetV3主干參數

此外，SE注意力機制（如圖3所示）是Mobile-NetV3 網絡塊精度提升的另一關鍵因素［9］，此結構主要是由全局平均池化層、全連接層和激活函數組成，傳入的特征圖會根據特征需求的比例大小去進行權重重分配，通過權重相乘的方式可以達到權重重組的目的，激活函數可以降低全連接層特征信息在提取過程中丟失的概率。這樣一來需要被著重檢測的特征通道會逐漸顯示出來，大幅度減少冗余特征對于精度的干擾，特征提取的精度也會隨之上升［11］。

在Hu 等［11］提出的原版SE 機制中采用的是sigmoid 激活函數，將傳入的權重特征向量壓縮在（0，1）間，其缺點在于多次冪運算計算量大，迭代多次后的值過小易出現梯度消失的可能。反觀MobileNetV3 網絡使用了hard-sigmoid 結構［9］，運算梯度迭代過程把冪運算思想換成了max 思想，取最偏向于某類別的最大近似概率，減少了部分計算量的同時也提高分類效率，使模型輕量化［9］。

綜上所述，用MobileNetV3 網絡塊替換的新主干網絡結構在深度可分離卷積以及SE 模塊的加持下可以在提高特征提取的準確率的同時減少非必要的計算量。

1.2 高精度特征融合Neck-GFPN模塊

由Jiang 等［8］提出的GiraffeDet 神經網絡目標檢測模型在小目標檢測中具有較高精度。其中頸部網絡Queen-Fusion 特征融合思想的加入是此網絡精度提升的關鍵，該結構特點在于將高層次語義信息和低層次信息特征多層次融合，從而達到對細小特征的高度檢測效果。如圖4所示，在Concat 處，P5 當前節點不僅會融合本層特征圖節點傳入的信息，同時也會融合其他層特征，比如上一層P4 特征的最大池化結果，下一層P6 特征的雙線性插值的上采樣結果以及上一層P4 輸出的特征。采用這種深層次的跨層、跨尺度方法，能夠有效進行不同網絡層的信息交換。在廣泛的目標檢測實驗當中與其他修改后的深度網絡形成對比，對于圖片中遠距離小目標的信息特征檢測的匹配率有所提高，圖片中小物體檢測錨框數量有著明顯上升［8］。

圖4 Quene-Fusion結構

本文對YOLOv5s 原網絡進行修改的同時也適配了此網絡模塊的思想，通過修改頸部和頭部網絡不同特征融合Concat 模塊、卷積層以及上下采樣層數對應關系達到多尺度多層次特征融合的目的，提升網絡對小目標的檢測準確度。

將原始網絡頭部中C3 特征提取模塊網絡架構替換為如圖5 所展示的CSPStage 模塊架構，此模塊在GiraffeDet［8］網絡中作為頭部特征提取的主要結構，提高對未來階段特征再融合信息交匯和最后階段檢測的精度。對比原C3 模塊，在此模塊中卷積變化首先是1*1卷積搭配批量歸一化以及激活函數，此結構能在小步幅提取特征的同時，穩定模型在提取過程中的信息變化幅度，對于特征丟失的可能也引入不同激活函數進行自動適配。

圖5 CSPStage結構

在頸部網絡中CSPStage 塊采用了多次Rep 3*3與3*3卷積搭配的特征提取方式，Rep3*3結構（如圖6 所示）［12］是REPVGG 網絡的一部分，該模塊由三部分組成，殘差塊、3*3 卷積、1*1卷積。在網絡訓練階段，Rep網絡用三個分支來提取不同維度特征，使網絡在不同的尺度和語義層次上提取特征，以捕捉圖像中的多樣性信息，保證網絡的高檢測精度。在網絡推理階段，Rep網絡將三個分支卷積層參數相加融合成一個卷積核，這種融合方式在保持檢測精度的同時，還能提升推理速度。通過將參數相加而不是在特征層級上進行串行或并行處理，可以減少計算量和內存需求，從而提高網絡的推理效率。

圖6 REP3*3塊結構

將GiraffeDet 神經網絡結構融入到YOLOv5s網絡中，構建了一個高精度特征融合網絡，雖然增加了網絡的頸部和頭部的結構參數量，增加了模型計算量，但網絡檢測精度會較大提升。

2 實驗結果分析

2.1 實驗系統配置和數據集

本文實驗所用到的計算機環境是Windows 11 的22H2 版本，CPU 為因特爾12 TH Gen Intel（R）Core（TM）i5-12400F 2.50 GHz，GPU 采用的是英偉達NVIDIA GeForce RTX 3060，顯存12 GB。實驗訓練環境利用PyCharm 2021.2.4 版本軟件，Python 版本為3.8.13，PyTorch 為1.13.0。

本文采取的數據集為Kaggle 官網的開源數據集“Sibi Language Object Detection”，該數據集包括了26種類別，為A～Z英文字母。訓練集為1271 張，測試集、驗證集隨機分配，部分數據集如圖7所示。

圖7 實驗數據集部分展示

2.2 實驗參數系數及評估理論

實驗超參數的選取，學習率（learning rate）為0.01，批量化訓練為300 輪，每輪批量（batch size）為16，傳入圖片歸一化為416*416*3 規格，訓練方式采取優化隨機梯度下降（SGD）的方式。

本文涉及到的模型評估標準主要包括五個指標，前兩個為參數量（Parameter）和計算量（FLOPs），決定了改進模型是否輕量化。參數量過大會導致訓練所占用內存過大，訓練速度會顯著下降；計算量統計了對于神經網絡在深度學習時不同單元系數相乘與相加的總次數。另外三個指標分別為精度（Precision）、召回率（Recall）和平均精度均值（mAP）。

Precision 用來評估誤檢對于模型精度的干擾。表達式為

其中，TP（True Positive）是檢測目標正確的正樣本數量，FP（False Positive）為誤把錯誤的檢測對象當成目標檢測對象，相當于負樣本檢測成正樣本的數量。誤檢數量越小意味著模型的魯棒性越好。

Recall 是用來評估模型在漏檢中的精度概率，和Precision 的差別在于FN（False Negative）和FP的不同，FN是把正樣本檢測成負樣本的數量。表達式為

mAP 是由精度和召回率所繪的PR 曲線決定，本文評估采用IoU 指數為0.5 和0.5～0.95 區間，意味著IoU 區間內綜合每一類的精度和召回率的PR 曲線面積和做平均操作。Categories 為檢測類別個數，n為指定IoU范圍作用于總類別n，AP計算不同區間面積之和。

2.3 精度輕量化實驗結果對比

為進一步突出理想模型在精度以及輕量化的良好兼容性，進行了四次批量實驗，分別是YOLOv5s 原本網絡框架；其次在原有網絡基礎上替換主干網絡到Mobilenet-V3網絡進行特征提取；然后引入新特征融合塊GFPN 替換原有YOLO 網絡頸部網絡C3 模塊，最后綜合以上三方面進行訓練。

由表2 可以看出，相比于原有網絡對于手語識別的訓練結果，在只替換主干到Mobile-NetV3 結構時，平均精度和召回率方面提升大約3.5%，模型參數及計算量分別減少大約70%和80%，但精度方面提升幅度小，還有幅度提升空間。當僅更換頸部網絡結構YOLOv5s-GFPN 時，參數利用率和計算量方面上浮77.7%和83.7%，雖然精度相比前一個框架有所上升，但昂貴的計算成本不足以適配嵌套設備。YOLOv5s-Mobile-GFPN 模型是最終優化版本，盡管輕量化方面不如YOLOv5s-Mobile，但在平均精度IoU0.5 和0.5～0.9 時均有9.28%和6.88%的提升，精度提升遠超其他模型，參數量相比于原網絡減少13.2%，FLOPs 減少37.2%次運算。

表2 模型精度和輕量化參數

2.4 YOLOv5s-Mobile-GFPN 可視化結果訓練對比

圖8 是最優化模型YOLOv5s-Mobile-GFPN與原YOLOv5s網絡平均精度均值和召回率的可視化對比，可以看出優化模型從訓練開始到結束的收斂速度遠超過原模型，更佳的泛化能力也是本文更新模型的優點之一。在本文系統環境基礎下，優化模型訓練300 輪所用時間為44.77 min，反觀YOLOv5s網絡完成時間為49.17 min。

圖8 平均精度均值和召回率

在圖9中，新改進優化模型整體曲線波動收斂都比原模型在相同條件下訓練穩定，并且在損失系數方面新模型比YOLOv5s擬合后效果更好，訓練損失和在驗證集上損失值收斂快、值域小。可以看出相比于YOLOv5s模型訓練結果，YOLOv5s-Mobile-GFPN 在訓練錨框、物體以及類別損失分別下降了0.00319、0.001195和0.002956。

圖9 YOLOv5s與YOLOv5-Mobile-GFPN 可視化訓練結果

2.5 模型結果預測分析

圖10 為改進后優良化模型YOLOv5s-Mobile-GFPN 和原模型YOLOv5s 錨框檢測預測效果，可以明顯看出在復雜背景、干擾因素多的情況下，錨框置信度呈現跨度式上升，誤檢概率，如把背景檢測成手語的概率下降明顯。與此同時，對于背景因素干擾少的圖片部分，錨框檢測置信度由0.6 提示到0.9 以上，遠距離小目標手語數據集檢測平均提升16.25%。

圖10 YOLOv5s和YOLOv5-Mobile-GFPN 結果驗證預測效果圖

3 邊緣部署

3.1 部署平臺

為降低功耗、加速模型推理和決策，本實驗采用了AI 邊緣部署，將模型部署在了比特大陸Sophon SE5 AI 計算平臺上，設備的相關型號參數見表3，該設備采用TPU，是一種針對人工智能計算任務優化的專用硬件加速器，具有高性能、高能效、可拓展等優點。

表3 比特大陸Sophon SE5相關參數

3.2 算法部署與結果驗證

算法邊緣部署過程如圖11 所示，首先對PC端的PyTorch 模型進行了一系列操作，包括量化（quantization）、剪枝（pruning）和轉換（conversion），生成Bmodel 模型，以便將模型適配到SE5 平臺上進行部署，然后通過Bmodel 創建推理Engine 來進行圖像推理。在邊緣設備上，通過攝像頭采集實時流媒體（RTSP），并對每一幀圖像進行推理和分析。最后，處理后的圖像被傳送到Web 端進行展示或進一步處理。Web 界面展示檢測結果如圖12所示。

圖11 算法邊緣部署流程

圖12 Web界面檢測結果展示

為驗證邊緣設備低功耗、易部署等性能以及YOLOv5s-Mobile-GFPN 網絡高精度、輕量化等特點，分別在3060（GPU）和Sophon SE5 兩種設備上部署了原YOLOv5 網絡與YOLOv5s-Mobile-GFPN 網絡，結果見表4，比較了兩種算法在兩種不同環境下的檢測精度、功耗、檢測速度。由表4 可知，將兩種算法部署在SE5 上，在模型量化、轉換過程中模型產生了部分精度損失，但由于采用了fp16 數據類型，模型精度損失較小，原網絡準確度下降了0.78%,YOLOv5s-Mobile-GFPN 網絡精確度下降了1.64%。同時SE5 推理速度分別達到了48 FPS 和42 FPS，基本滿足實時檢測的需求。對比兩款設備功耗，SE5只有3060-GPU的22.9%。

表4 原網絡與改進網絡在GPU與SE5上的測試結果

4 結語

根據YOLOv5s 神經網絡框架，本文提出了YOLOv5s-Mobile-GFPN網絡結構的改進方法，重點在于修改網絡主干、改變網絡層連接關系以及引入新的特征融合模塊。這些改進旨在提高手語檢測的精度，并能夠適應不同情況下的手勢姿態。在保持高精度的同時減少了模型參數的幅度，在平均精度IoU 0.5和0.5～0.9方面分別提升了9.28%和6.88%，同時模型參數量相對于原網絡減少了13.2%，FLOPs 減少了37.2%次運算。盡管如此，網絡仍有通過蒸餾量化進一步減少參數和計算量的空間，未來將進一步測試和改進。為了減少偶然性實驗結果，數據集的數量將進行擴充，以擴大實驗結果的有效性范圍。

本文還將YOLOv5s-Mobile-GFPN 網絡分別部署在3060-GPU 和Sophon SE5 兩種終端設備上進行了測試。結果顯示，網絡精度僅下降了1.64%，推理速度減少了36.8%。此外，TPU 設備的功耗只有GPU 的22.9%，具有較高的實用性，未來的研究將集中在如何通過損失較少的精度來實現更快的推理速度。