基于Faster R-CNN的密集人群檢測算法

2023-02-03 03:01:28鄒斌，張聰*

計算機應用 2023年1期

鄒斌，張聰*

（1.現代汽車零部件技術湖北省重點實驗室（武漢理工大學），武漢 430070；2.汽車零部件技術湖北省協同創新中心（武漢理工大學），武漢 430070）

0 引言

深度學習的迅速發展為擁擠場景下的目標檢測提供了技術支持。密集場景下檢測算法的精確率為場景的安全性提供了一定保障，但是密集環境中人與人之間重疊率過高，對算法準確檢測出重疊率較高的行人帶來了一定的挑戰。

現階段，大多數目標檢測算法均基于建議框構建，包括實現端到端的單階段檢測算法YOLO（You Only Look Once）［1-4］，以及額外包含區域建議網絡（Region Proposal Network，RPN）的兩階段檢測算法Faster R-CNN（Faster Region-based Convolutional Neural Network）等［5-9］。這些算法在常規的目標檢測應用中均取得了較好的效果，其中，YOLO算法將目標檢測看作回歸問題，使用單一的網絡完成了目標的分類與定位，舍去候選框提取階段，實現高實時性檢測，每秒傳輸幀數（Frame Per Second，FPS）可達到45；而Faster RCNN 算法為了解決二階段算法候選框提取速度的問題，首次將 Fast R-CNN（Fast Region-based Convolutional Neural Network）算法中使用的選擇性搜尋（Selective Search）替換為RPN 以實現端到端的訓練，并且在PASCAL VOC 2012 數據集上測試的平均精度均值（mean Average Precision，mAP）約為73%，相較于原Fast R-CNN，檢測速度提升了約10 倍。在檢測高度重疊的物體時，檢測器很難對每個建議框分別生成有區別的預測，同時因為嚴重的重疊難免會導致非極大值抑制（Non-Maximum Suppression，NMS）出現錯誤的抑制。針對以上問題，有學者嘗試過使用新的損失函數（聚合損失Aggregation Loss）、復雜的非極大值抑制（Softer NMS）以及對Faster R-CNN 增設特征金字塔（Feature Pyramid Network，FPN）等方法來解決多尺度檢測和提議框遠離真實框（Ground Truth）、相鄰預測提議框信心值較高從而導致相鄰預測框中某一個框被拋棄的問題［10-12］，但是使用改進后的網絡進行低重疊率案例檢測時性能會降低。

為實現對密集人群的檢測，考慮到實際場景中行人或大或小的因素以及算法在實際應用中檢測精度與速度的要求，本文提出一種基于Faster R-CNN 的密集人群檢測算法，通過CrowdHuman 數據集，對算法進行訓練，實驗結果驗證了算法的有效性。本文主要工作如下：

1）針對Faster R-CNN+FPN 結構無法有效應對實際擁擠場景下由于目標物體間相互遮擋以及目標物體較小而導致漏檢的問題，提出在雙向特征金字塔特征融合網絡（Bidirectional Feature Pyramid Network，BiFPN）的基礎上，使用卷積操作獲取圖像更深層的語義信息，對提取的深層特征進行通道維度的融合，以提升相鄰特征間的聯系和利用率，加強網絡的檢測能力，使擁擠場景下的漏檢問題得以改善，網絡在交并比（Intersection over Union，IoU）大于50%時，平均精度（Average Precision，AP）相較于原始網絡提升2.4%。

2）針對擁擠場景中高度重疊的實例（以及它們的建議框）可能具有非常相似的特性以及實例間可能嚴重重疊導致預測很可能被NMS 錯誤抑制的問題，提出多實例預測以及新的NMS，使網絡對每個建議框預測一組可能高度重疊的實例，而不是預測單個實例，使附近的建議框較容易地推斷出相同的實例集。在進行NMS 時，提出預先設定一個IoU 閾值來解決網絡預測框錯誤抑制的問題，優化后的新NMS 使網絡AP50相比原始網絡提升了2.2%。

1 網絡設計

1.1 Faster R-CNN與YOLO對比

Faster R-CNN 算法與YOLO 檢測算法相比，增設了一個RPN 結構，從而成為兩階段的檢測算法，檢測精度與檢測準確性更優。Faster R-CNN 可以采用多種主干特征提取網絡，常用的有：VGG（Visual Geometry Group）［13］、殘差網絡（ResNet）［7］、Xception［14］等。

Faster R-CNN 算法的檢測過程如下：首先，將輸入圖片的短邊固定成600 像素，同時按照原始長寬比對長邊進行同比例縮放，以防圖像失真；其次，將調整大?。≧esize）后的圖片傳入主干特征提取網絡，對圖片長寬進行四次壓縮，輸出得到公用特征層（Feature Map）；隨后，網絡繼續前向傳播進入RPN，在Faster R-CNN 中每個網格對應9 個先驗框，RPN 對先驗框參數進行調整獲得建議框，此時獲得的建議框大小有異，與興趣區域池化（Region Of Interest Pooling，ROIPooling）［1］結合使用，將不同大小的建議框截取到的感興趣區域變為相同大??；最后，對建議框截取到的特征層進行大小調整和進一步卷積，完成目標物體的分類與回歸。整個檢測過程如圖1 所示。

圖1 Faster R-CNN算法檢測過程Fig.1 Detection process of Faster R-CNN algorithm

相較于YOLO 檢測算法，Faster R-CNN 檢測算法精度更高是因為RPN 的存在（見圖2）。在建議網絡中，首先進行一次3×3 的卷積，接著進行一個18 通道的1×1 卷積和一個36 通道的1×1 卷積，其中9×4 的卷積用于預測公用特征層上每一個網格點上每一個先驗框的變化情況（4 代表框的中心和寬高的調整參數）；9×2 的卷積用于預測公用特征層上每一個網格點上每一個預測框內部是否包含了物體，序號為1 的內容為包含物體的概率。最后，對每個建議框進行ResNet 的第五次壓縮，對建議框分類與回歸得到最終的預測框。

圖2 RPN 結構Fig.2 Structure of RPN

1.2 注意力機制

由于注意力機制可以使網絡選擇性地關注對檢測任務有用的特征而忽視部分無用特征，提升網絡對特征的利用率，并在一定程度上改善檢測網絡性能，故在此將注意力機制引入優化的Faster R-CNN 密集人群檢測網絡中。

注意力機制（Attention Mechanism，AM）最初用于機器翻譯，現已成為神經網絡的重要組成部分。將通道注意力機制與空間注意力機制連接形成一個簡單但有效的注意力模塊CBAM（Convolutional Block Attention Module）［15］，如圖3 所示。將CBAM 用于Faster R-CNN，在通道注意力模塊中，特征的每一個通道都代表一個專門的檢測器，因此通道注意力關注什么樣的特征是有意義的，如式（1）所示，分別進行一個空間的全局平均池化和最大池化得到特征圖的空間信息，然后經過兩個共享卷積層得到最終結果?？臻g注意力關注的特征與通道注意力互補，如式（2）［15］所示，分別進行一個通道維度的平均池化和最大池化，將兩個特征描述按通道拼接在一起后再經過一個7×7 的卷積生成空間注意力圖。

圖3 通道注意力與空間注意力Fig.3 Channel attention and spatial attention

其中：σ代表Sigmoid 激活函數；F代表特征向量；cat 代表通道連接運算；conv 代表1×1 卷積+ReLU 激活函數+1×1 卷積。

為使用Faster R-CNN 的預訓練權重，減少網絡運算量，僅在Faster R-CNN 的不同層之間添加CBAM 注意力機制。

1.3 多實例預測與優化的NMS

首先，基于擁擠人群檢測研究，在實例預測以及NMS 階段對原有Faster R-CNN 進行改進。在原始檢測算法中，每個對象都對應很多個預測框，所以通常采用NMS 的方法在眾多預測框中選取置信度最高的框，而將其他置信度小于該最大值的框全部刪除，形成了一個框對一個物體的映射關系。對重疊度過高的場景，該方法難免出現錯誤的NMS，從而導致漏檢以及錯檢。

趙敏本不叫趙敏，她是敏敏特穆爾，汝陽王家的寶貝女兒，紹敏郡主。若不論歷史的最終走向，單看她的身份，自是無須奮斗也有享不盡的榮華富貴，但她眼中從來看著更高的那片天空。

通過對文獻［16］的研究，提出在高度重疊的場景中，與其一個預測框對應單個對象，不如將重疊度過高的幾個實例全部預測。即對于每個建議框bi，預測相關的一組真實（Ground Truth）實例集G(bi)，而不是單個實例，如式（3）所示：

其中：?是所有真實框的集合；θ是一個給定的IoU 閾值，如果大于給定閾值，則將屬于同一個實例的相關對象一起框起來。對建議框bi進行預測時，受文獻［8］啟發，提出為每個提議框均預測一組實例，引入K個檢測函數生成一組預測P(bi)，如式（4）：

其中：ci是類別標簽置信度；li是相對坐標；K是一個給定常數，代表G(bi)的最大基數。P(bi)可以在大多數現有的檢測框架中通過引入額外的預測分支來實現，如圖4 所示。

受文獻［17］中最小化預測框與真實框之間差距的啟發，在圖4 中引入地球移動距離（Earth Mover’s Distance，EMD）：對特征空間中兩個多維矩陣的某一維距離的一種度量。損失最小化預測P(bi)與建議框bi相關聯的真實（Ground Truth）實例集G(bi)之間的差距，計算公式如下：

圖4 P(bi)預測網絡Fig.4 P(bi) prediction network

其中：π表示一個特定的排列(1，2，…，K)，第k項為πk，∈G(bi)是πk的真實框；τcls(·)和τreg(·)分別為分類損失和邊框Box 的回歸損失。在式（5）中，假設了|G(bi)|=K，如果不是，則向其中加入一些“啞”盒（其類標簽被視為背景且沒有回歸損失），直到滿足假設。如果K=1，式（5）就等于傳統單實例預測框中的損失，這意味著EMD 損失是對常用檢測損失的一種通用概括。

除此之外，盡管每個建議框能夠預測多個實例，如果NMS 仍參與后處理，仍然不能有效地檢測擁擠場景的目標。在上述的EMD 損失中一個建議框所預測的實例在定義上是唯一的，因此可以在NMS 中每次一個邊界框抑制另一個邊界框之前，插入一個額外的測試來檢查兩個框是否來自同一個建議框，如果是則跳過抑制。

對NMS 的優化如下：如上所述，由于EMD 損失在預測時一個建議框只對應一個唯一的實例，所以增設一個IoU 閾值用于優化NMS，對于相鄰兩個預測框，如果兩個框的IoU 值大于所設定的閾值，則判斷兩個預測框基于同一個建議框而來，跳過抑制（因為重復預測只存在于不用的建議框之間）；反之，若兩個框的IoU 值小于閾值，則進行NMS 抑制。

將優化后的NMS 與多實例預測結合起來可以在擁擠場景檢測中取得顯著的改進，同時，在CrowdHuman 數據集中將對其優化前后所帶來的效果提升進行實驗驗證。

1.4 金字塔卷積模塊

金字塔卷積模塊的提出正是為了解決多尺度融合的問題，從其發展至今經過了許多的迭代更新。最初的金字塔卷積模塊為FPN，不斷地進行上采樣，同時引入一條自頂向下的通道來融合本層與上層特征。但是，FPN 只考慮了上層特征對檢測結果的影響，沒有考慮下層的特征影響，故在YOLOv4 中提出了一種新的特征融合手段——路徑聚合網絡（Path Aggregation Network，PANet），在FPN 的基礎上增加了一條自底向上的通道來雙向融合特征，同時考慮了上下層特征共同影響的作用。最新的特征融合網絡BiFPN［18］在PANet 的基礎上融合了圖像本身的特征，并同時在融合階段采用加權方式來區分各級特征對融合后的特征的貢獻程度。上述金字塔卷積模塊如圖5 所示。

圖5 金字塔卷積模塊Fig.5 Pyramid convolution module

雖然BiFPN［18］加權融合了上下層特征作為最后的輸出結果，但是實際圖像采集過程中人群與拍攝設備距離以及人群之間相互擁擠，目標物體會在圖像中呈現出或大或小以及相互遮擋的現象，使部分待檢測實例只有少數有用特征出現在圖像中供后續網絡學習（例如有些擁擠場景中，部分人體實例僅露出頭或者上半身等少量對檢測任務有用的特征）。

因此，對BiFPN 進行優化改進：在原始網絡進行特征融合的基礎上，考慮到模型參數量及復雜度的問題，對其輸出結果采用卷積操作進行更深層語義信息的提取，提高網絡對上述僅有少量有用特征出現在圖像中的目標物體以及小目標物體的檢測能力；同時，對進一步提取到的相鄰深層特征之間使用Concat 融合操作，增強相鄰特征之間的聯系，有效利用多尺度的特征，提高密集人群場景下的目標檢測精度。優化后的BiFPN，即加強的雙向特征金字塔網絡（Strong-Bidirectional Feature Pyramid Network，S-BiFPN）結構如圖6。

圖6 S-BiFPN 結構Fig.6 Structure of S-BiFPN

將S-BiFPN 模塊用于改進的Faster R-CNN 進行特征的多尺度融合，在CrowdHuman 數據集上進行BiFPN 優化前后的對比實驗，以驗證優化后檢測網絡性能提升的效果。改進后的Faster R-CNN 檢測網絡結構如圖7 所示。

圖7 改進的Faster R-CNN結構Fig.7 Structure of improved Faster R-CNN

2 實驗與結果分析

本文基于Pytorch1.2 深度學習框架搭建模型，計算機主要配置為：Ubuntu 18.04 操作系統，i5-9300H CPU，顯卡為NVIDIA Tesla V100，內存32 GB。

2.1 數據集評估

理想的擁擠目標檢測器應對實例的分布具有較強的魯棒性，不僅能在擁擠場景下取得較好的檢測結果，而且能對中等擁擠/不太擁擠場景下的實例對象進行穩定檢測。采用CrowdHuman、CityPersons 和COCO 數據集分別對嚴重、中等和輕微重疊的情況進行綜合評估，結果如表1 所示。

表1 不同數據集中每幅圖像的物體數和重疊物體數Tab.1 Numbers of objects and overlapping objects in each image in different datasets

2.2 實驗設置

在對數據集進行訓練階段，首先設置本實驗初始參數為：一批訓練樣本的數量為10，初始學習率為0.001，動量參數為0.5，所有框重疊閾值默認設置為0.5，總迭代次數為3 000。每個圖像的短邊被調整為800 像素，用于訓練和測試。同時，對于CrowdHuman 與CityPersons 數據集，縱橫比設置為H∶W=｛1∶1，2∶1，3∶1｝；對于COCO 數據集，將其設置為｛2∶1，1∶1，1∶2｝。

2.3 消融實驗

首先，將原Faster R-CNN 算法、使用FPN 改進的Faster RCNN 算法以及本文優化的Faster R-CNN 算法在相同數據集上和相同實驗環境下進行目標檢測實驗，圖片輸出尺寸均為800 像素×800 像素，檢測準確率、實時性差別的實驗結果如表2 所示，其中：檢測準確率評價指標AP50表示在計算平均精度均值時，若檢測框與真實框的IoU 大于50%，則認為預測正確；反之，則預測錯誤。

采用不同的經典目標檢測算法以及本文算法對相同圖片進行測試，檢測時間與精度結果如表3 所示。對比算法有YOLO、原 Faster R-CNN 和 RFCN（Region-based Fully Convolutional Network），其中RFCN 基于Faster R-CNN 結構，但是僅包含卷積網絡，減少了計算量，提升了檢測速度。由表2、表3 可以看出，優化后的Faster R-CNN 算法在實時性（檢測速度）上稍遜于其他算法，但是基本達到實時性要求，檢測精度上有較大的優勢。綜合來看，優化后的Faster R-CNN 檢測算法是一個有效的密集人群檢測算法。

表2 Faster R-CNN算法改變網絡后數據統計Tab.2 Data statistics after Faster R-CNN algorithm changing network

表3 經典檢測算法與本文算法性能對比Tab.3 Performance comparison between classical detection algorithms and proposed algorithm

最后，為深入驗證改進的Faster R-CNN 密集人群檢測算法的有效性，在CrowdHuman 數據集上進行了對比和消融實驗，其中15 000 張、4 370 張和5 000 張圖片分別用于訓練、驗證和測試。消融實驗包括NMS 優化前后所帶來的網絡檢測性能提升的效果（表4）、BiFPN 網絡優化前后帶來的檢測性能提升的效果（表5）以及S-BiFPN、多實例預測（Multi-Instance Prediction，MIP）、注意力機制以及優化的NMS 組合使用所帶來的網絡檢測性能提升的效果（表6），前兩個消融實驗通過檢測準確率和實時性進行評估，而最后一個消融實驗使用2.4 節所提的指標進行。

由表4 可知，當網絡引入了優化的NMS 后，可以在不影響整體檢測速度的同時，對檢測精度帶來一定程度的提升，且相較于網絡使用原NMS 時，AP50值提高了2.2%。

表4 NMS優化對Faster R-CNN算法的性能影響Tab.4 Impact of NMS optimization on Faster R-CNN algorithm performance

由表5 與表2 可知，當Faster R-CNN 引入BiFPN 時，其檢測精度較FPN 特征融合網絡有一定的提升，當引入基于BiFPN 優化的S-BiFPN 結構時，其檢測效果繼續提升，但是檢測精度低于整體優化后的Faster R-CNN。將數據進一步量化，使用S-BiFPN 結構的檢測網絡相較于使用BiFPN 時，AP50值提高了2.4%。

表5 BiFPN優化對Faster R-CNN算法的性能影響Tab.5 Impact of BiFPN optimization on Faster R-CNN algorithm performance

表6 使用平均精度（Average Precision，AP）、Jaccard 指數（Jaccard Index，JI）、每張圖像假陽性的對數平均漏報率（Miss Rate-2，MR-2）對模型性能進行評價。其中：1）AP 為最常用的目標檢測評價指標，其在數值上等于精度召回率曲線下的面積，反映了檢測結果的查全率與查準率；2）JI 主要用于評價檢測器的計數能力，評估預測集與事實的重疊程度，JI 越大，性能越好；3）MR-2通常用于行人檢測，在數值上等于9 個單幅圖像誤報值（False Positive Per Image，FPPI）下（在值域［0.01，1.0］內以對數空間均勻間隔）的平均誤報率（Miss Rate）值，其值越小，表現性能越好。

表6 Faster R-CNN使用不同優化策略時的性能對比單位：%Tab.6 Performance comparison of Faster R-CNN using different optimization strategies unit：%

經過消融實驗可以發現，在擁擠場景數據集中，優化后的整體算法在AP 值和JI 值上相較于沒有使用優化策略的原始Faster R-CNN 算法，分別提高了5.6%和3.2%。

表1 說明COCO 數據集中實例擁擠程度較低，為驗證本文算法在非擁擠場景下實例檢測的魯棒性，在COCO 數據集上進行對比實驗，評價指標為AP、AP50（IoU 為0.5 時的AP值）、AP75（IoU 為0.75 時的AP 值），指標值越大性能越好。由表7 可知，本文算法不僅在擁擠場景有效，而且處理非擁擠實例時，算法性能也不會下降。

表7 Faster R-CNN算法優化前后在COCO數據集上的AP單位：%Tab.7 AP comparison on COCO dataset before and after optimization of Faster R-CNN algorithm unit：%

2.4 測試效果驗證

為了直觀地區分本文算法與原始Faster R-CNN 算法在密集人群下的檢測效果，從CrowdHuman 數據集的測試集中隨機抽取兩張圖像在相同實驗環境下進行測試對比，結果如圖8 所示，其中，圖8（a）為原始Faster R-CNN 算法的檢測結果；而圖8（b）為本文算法的檢測結果。由圖8 可以看出，優化后的算法相較于原始算法，降低了密集人群場景下的漏檢率，在一定程度上提升了密集場景下目標檢測的精度。

圖8 不同算法圖像檢測結果對比Fig.8 Comparison of image detection results of different algorithms

3 結語

針對目前大多數目標檢測算法不能精確檢測密集人群的問題，結合相關擁擠場景檢測的研究，提出一種基于Faster R-CNN 改進的密集人群檢測算法。該算法在實例預測以及非極大值抑制方面引入了MIP 算法和優化的NMS 算法，降低了高重疊實例的漏檢率和誤檢率；同時，在網絡各層之間引入了通道與空間注意力機制，使網絡可以自主性地關注重要特征；并對金字塔卷積模塊BiFPN 進行了改進，提出了S-BiFPN 結構，將其應用于優化的網絡之中，提高了檢測網絡對特征提取的表達力和利用率。實驗結果表明：所提的Faster R-CNN 算法不僅在擁擠場景中有著較好的檢測結果，而且在非擁擠場景下性能也不會下降，具有較高的穩定性，為密集場景下的準確檢測提供了保障。但是優化后的Faster R-CNN 算法仍為二階段目標檢測算法，這使得其與實時檢測之間還存在一定的距離，未來可以在檢測實時性上做進一步研究，已達到更好的檢測效果。