目標檢測中框回歸損失函數的研究

2021-10-28 05:51:52張翠文張長倫王恒友

計算機工程與應用 2021年20期

張翠文，張長倫，何強，王恒友

北京建筑大學理學院，北京 102600

近年來計算機視覺在行人車輛檢測[1-2]、自動駕駛[3-4]、視頻跟蹤[5-6]、人臉識別[7-8]、視頻檢測[9-10]、物體分割[11-14]等方面有著廣泛的應用，目標檢測技術作為這些應用的基礎算法得到了快速發展。

2012年AlexNet[15]在分類競賽領域取得成功，卷積神經網絡應用于目標檢測領域成為研究熱點。Girshick等人將AlexNet的目標識別能力遷移到目標檢測中，于2014年提出區域卷積網絡目標檢測框架（Regions with CNN features，R-CNN）[16]，整個模型由提取候選框、提取候選框圖像特征和利用支持向量機（Support Vector Machine，SVM）[17]進行分類與回歸三部分組成。這也是基于深度學習兩階段目標檢測算法的開端。但R-CNN方法的三個階段各自訓練，計算損失較大。為提高算法速度和簡化算法規模，Girshick等人先后提出Fast R-CNN[18]、Faster R-CNN[19]，將網絡分為尋找候選框與分類識別兩部分，并且分類與識別共同訓練，使得兩階段算法達到實時的檢測速度和更高的檢測精度。但在兩階段目標檢測算法由于尋找框的過程消耗時間，且手動設計的錨框有長寬比例和大小的限制。為了達到更快的檢測速度，Redmon等人在2015年提出YOLO（You Only Look Once）[20]算法，模型去掉兩階段算法中尋找框的步驟，直接設計網絡輸出帶有框與分類置信度的圖片，也是第一個一階段目標檢測算法，在速度上更是遠超兩階段算法。但YOLO算法由于沒有對于框的預先設定，導致其精度較低。Redmon等人受兩階段方法設定錨框的啟發，為一階段算法加入預設框，提出YOLO v2[21]、YOLO v3[22]，既保持了算法的速度又進一步提升了算法精度。

目標檢測的過程中，在模型最后懲罰預測框來進行位置優化時，框回歸損失函數的設定直接影響優化的速度和定位的準確度。為了更加準確地預測出目標的位置，框回歸損失函數的設定經歷了一系列的發展。2015年Girshick等人在Fast R-CNN[18]中引入smooth L1損失函數，兩階段算法中多沿用此損失函數作為框回歸優化算法。而YOLO[20]系列中使用的是均方誤差（MSE）函數。兩種損失函數的設計思路均為懲罰預測框與目標框四個坐標信息之間的歐式距離，而實際上在評判預測框定位準確性和保留預測框的過程中指標是IOU，但這兩者之間非等價關系。即多個預測框可能有相同大小的smooth L1損失，但他們與真實框的IOU卻相差很大，導致懲罰損失函數但不能對框之間的IOU進行直接優化。為了解決這個問題，Yu等人[23]引入IOU損失函數，最大化預測框與目標框之間的IOU來優化預測框位置，即拉大兩框之間的重合面積，與評價預測框的指標函數相符合。但當預測框與目標框沒有重疊部分面積時，目標損失函數值為1，無法進行梯度回傳，且IOU也不能完全反應兩個框的相交情況。于是2019年Rezatofighi等人提出廣義的交并比GIOU[24]（Generalized Intersection over Union），由兩部分組成損失函數，最大化兩框相交面積的同時最小化兩框形成的最大框去掉兩框的并之間的面積，模型避免了當兩框不相交時梯度消失的問題。但當預測框與目標框互相包含時，GIOU損失函數的第二部分失效，GIOU退化為IOU損失函數。

本文提出RGIOU（Redefined Generalized Intersection over Union），即重新定義面積的GIOU損失函數。本文從以下幾個部分展開陳述：第一部分對近年目標檢測的損失函數進行綜述。第二部分對GIOU存在的問題進行分析。第三部分提出RGIOU論證優化策略的性質合理性，并實驗驗證改進方法的有效性。最后與原方法在公開數據集上進行對比驗證，驗證了本文改進方法在精度上的提升。

1 GIOU問題分析

廣義的交并比損失函數為了避免兩框不相交時，梯度無法回傳的問題，在損失函數中增加一項，如圖1（a），A表示真實框，B表示預測框，C表示預測框與真實框形成的最小閉包區域，C去掉兩框的并所形成的空白區域面積再除以C的面積即為GIOU損失函數的第二項。最大化兩框相交部分的同時，最小化兩框空白區域的面積，這樣當兩框不相交時，如圖1（b），兩框空白區域的面積依然存在，所以損失函數仍然有效。

圖1 真實框與預測框相交情況Fig.1 Intersection of ground truth and prediction frame

GIOU的損失函數為公式（1）：

公式的前半部分1-IOU的目的是最大化預測框與目標框的相交區域，即提高兩框之間的重合度，公式的后半部分則是最小化最小閉包區域內除了預測框與目標框外的空白區域面積。但當預測框與真實框相互包含時，如圖2，此時C=A?B，損失函數后半部分失效。

圖2 真實框與預測框的包含情況Fig.2 Inclusion of ground truth and prediction box

GIOU損失函數的設定考慮兩項面積的優化，且當兩框為包含關系時，空白區域面積就退化為圖2，所以GIOU損失函數的設定有以下缺陷：當預測框與目標框相互包含時，GIOU定義的空白區域面積為0，損失函數退化為IOU。損失函數進行優化時，不能具有GIOU相同的優化速度，且不能更準確反應兩框的相交程度。

2 重新定義面積的GIOU損失函數（RGIOU）

基于以上問題的分析，本文提出RGIOU，將兩框之間的并減去兩框相交部分面積定義為非重疊區域面積，再除以兩框形成的最小閉包C作為第一項，除以最小閉包C的平方為第二項，并以權重閾值相加成為新的損失函數。損失函數前半部分為懲罰兩框的不相交部分面積，針對絕大多數預測框進行優化調整，而后半部分損失函數則是避免損失函數退化為IOU。對于兩框相交的情況如圖3（a），RGIOU定義的面積為兩框的并去掉相交部分面積；對于兩框相互包含的情況如圖3（b），將非重疊部分區域定義為RGIOU。

圖3 兩框相交與包含的非重疊區域面積Fig.3 Area of non overlapping area where two boxes intersect and contain

RGIOU定義為公式（2）：

其中，C表示預測框與目標框形成的最小閉包面積，λ為權重閾值，經過實驗將其設定為0.9。由于兩框是包含關系的情況在預測結果中占少數，所以設定損失函數的前半部分權重大，后半部分為了避免損失函數退化為IOU設定為較小的權重。其中第二項分母設置為平方項，是為了減小第二項所占的比重，同時能有效地避免函數退化問題。RGIOU損失函數最小化重新定義的非重疊區域面積，并且包含了最大化相交部分面積的思想，提高了損失函數的收斂精度。且在預測框與目標框是包含關系時，重新定義的非重疊部分面積如圖2所示不為零，IOU損失函數與GIOU損失函數數值相同，但RGIOU可以進行區分，此時損失函數變為：

不會退化為IOU損失函數的情況，所以不會影響優化過程。所以RGIOU損失函數避免了GIOU損失函數存在的非重疊部分面積為零不能優化的問題。其中計算損失函數值的中間值如表1。

表1 損失函數的中間值Table 1 Intermediate values of loss function

3 實驗分析

3.1 實驗平臺、實驗數據和評價指標

實驗實現系統為Ubantu 16.04，實驗基于pytorch深度學習框架，開發語言為python，GPU型號為GeForce GTX 1080 Ti。

本文將RGIOU分別應用于Faster R-CNN、SSD以及YOLO v3三個目標檢測框架，并在兩個數據集上驗證改進方法的精度。兩個數據集為PASCAL VOC 2007以及MS COCO 2014。其中PASCAL VOC 2007數據集包括9 963張圖片，共20類，其中包含24 640個帶注釋的對象，其中50%的圖片用于訓練，50%的圖片用于測試，且在訓練集和測試集中，按類別劃分的圖像和對象的分布大致相等。MS COCO 2014訓練集共包含82 783張圖片，共91類，其中50%用于訓練，50%用于測試。

本文使用于2012年最新定義的平均精度mAP作為評估標準，即將IOU閾值設定為{0.5，0.55，…，0.95}，分別計算出AP再除以10得到mAP，并將AP75單獨作為一項評估標準。將λ設定閾值為{0.7，0.75，…，0.95}，并實驗選擇λ的最優值，如圖4所示，隨著優化次數的增加，將λ設置為0.9時，函數最快達到最優。

圖4 λ取不同閾值時隨著迭代的損失值Fig.4 Loss value with iteration for different threshold valuesλ

為了驗證改進方法RGIOU對預測框損失函數收斂速度的提高，本文手動設計目標框與預測框的位置，并將坐標作為輸入，利用RGIOU損失函數基于Faster RCNN框架對預測框進行調優，將預測框與目標框的交并比作為評價損失函數優化速度的指標，記錄迭代次數與IOU值對比關系，如圖5所示。

由圖5可知，RGIOU在迭代600次達到最高精度，而GIOU需要迭代700次。并且經過相同的迭代次數，RGIOU在總體上優化效果高于GIOU損失函數，對預測框的規范效果也高于GIOU效果。

圖5 GIOU與RGIOU收斂速度對比Fig.5 Comparison of convergence rates between GIOU and RGIOU

3.2 在PASCAL VOC 2007上的實驗結果對比

實驗首先基于VOC 2007數據集，分別計算在三個目標檢測框架下的平均精度與閾值設定為0.75的精度，如表2～4。

表2 基于YOLOv3框架精度對比（VOC 2007）Table 2 Comparison of frame accuracy based on YOLOv3（VOC 2007）

表3 基于Faster R-CNN框架精度對比（VOC 2007）Table 3 Comparison of frame accuracy based on Fast R-CNN（VOC 2007）

表2～4分別是基于YOLO v3、Faster R-CNN以及框架SSD，將其中損失函數部分由MSE、smooth L1分別更改為IOU、GIOU、RGIOU，分別計算了在VOC 2007數據集上的平均精度和閾值設定為0.75的精度。由表分析可知，RGIOU相較于GIOU在YOLOv3框架上平均精度增長了2%，在Faster R-CNN框架上增長1.1%，在SSD框架上增長1%。即RGIOU相較于GIOU的平均精度增長在1%～2%之間。可以證明將損失函數的設定進行改進，避免了兩框互相包含存在的問題，使得框回歸的精度提高。將IOU設定為0.75時，RGIOU將較于GIOU在YOLOv3框架上精度增長1.2%，在Faster R-CNN框架上增長1.8%，在SSD框架上增長為0.4%。即RGIOU相較于GIOU的精度增長為0.4%～1.8%之間。并且由表可知，當損失函數設定為MSE或者Smooth L1時，精度較低，這也是由于損失函數的設定與評價函數不相符導致。改進的方法相較于原始的基于歐式距離的方法在平均精度上有2.9%～3.3%的提升，這也證明了基于面積的方法比基于坐標點的方法能夠更好地優化框的位置，提升目標檢測的精度。由以上分析可知本文改進的方法能夠提高目標檢測的測試精度，具有可行性與泛化能力。為了進一步體現本文方法在精度上的提升，繪制精度趨勢圖如圖6～8。

表4 基于SSD框架精度對比（VOC 2007）Table 4 Accuracy comparison based on SSD framework（VOC 2007）

圖6 基于YOLOv3框架精度趨勢圖（VOC 2007）Fig.6 Accuracy trend chart based on YOLOv3 frame（VOC 2007）

圖7 基于Faster R-CNN框架精度趨勢圖（VOC 2007）Fig.7 Accuracy trend chart based on Fast R-CNN framework（VOC 2007）

圖8 基于SSD框架精度趨勢圖（VOC 2007）Fig.8 Accuracy trend chart based on SSD framework（VOC 2007）

圖6～8分別繪制了各個損失函數機制在三種目標檢測框架下的精度趨勢圖，由圖可知，改進的算法在三個框架上精度均有提升趨勢。

3.3 在MS COCO 2014上的實驗結果對比

表5～7分別給出了在COCO 2014數據集上的精度。本文的RGIOU相較于GIOU在YOLOv3框架上平均精度增長了1.6%，在Faster R-CNN框架上增長了2%，在SSD框架上增長了0.5%，即增長在0.5%～2%之間。實驗證明改進算法基于數量較大的數據集的回歸仍然有效。將IOU閾值設定為0.75時，本文方法相較于原方法增長了0.1%～1%。且改進方法與基于歐式距離的方法相比，精度增長了1.9%～4%。為了更進一步體現改進方法在精度上的提升，繪制基于COCO 2014數據集的目標檢測精度對比圖，如圖9～11。圖12～14為實驗仿真圖，由圖可知，RGIOU損失函數相較于GIOU對目標有更好的定位效果。

表5 基于YOLOv3框架精度對比（COCO 2014）Table 5 Comparison of frame accuracy based on YOLOv3（COCO 2014）

表6 基于Faster R-CNN框架精度對比（COCO 2014）Table 6 Comparison of frame accuracy based on Fast R-CNN（COCO 2014）

表7 基于SSD框架精度對比（COCO 2014）Table 7 Accuracy comparison based on SSD framework（COCO 2014）

圖9 基于YOLOv3框架精度趨勢圖（COCO 2014）Fig.9 Accuracy trend chart based on YOLOv3 frame（COCO 2014）

圖10 基于Faster R-CNN框架精度趨勢圖（COCO 2014）Fig.10 Accuracy trend chart based on Fast R-CNN framework（COCO 2014）

圖11 基于SSD框架精度趨勢圖（COCO 2014）Fig.11 Accuracy trend chart based on SSD framework（COCO 2014）

圖12 基于YOLOv3框架的檢測圖Fig.12 Object detection based on YOLOv3 framework

圖13 基于Faster R-CNN框架的檢測圖Fig.13 Object detection based on Faster R-CNN framework

圖14 基于SSD框架的檢測圖Fig.14 Object detection based on SSD framework

4 結束語

本文針對GIOU損失函數存在的問題提出改進方法RGIOU，重新定義預測框與目標框之間的非重疊部分面積，并定義為新的損失函數，避免了當預測框與真實框相互包含時，GIOU退化為IOU的情況。相較于原GIOU損失函數，提高了預測框的平均精度。RGIOU方法在公開數據集上相較于原方法的平均精度與AP75精度均有提升，體現出本文改進方法的有效性。