低比特量化在目標檢測上的研究與應用

2022-02-15 02:48:28毛淑菲曾志高通信作者張曉麗袁鑫攀文志強

信息記錄材料 2022年12期

關鍵詞：實驗檢測模型

毛淑菲，曾志高（通信作者），張曉麗，袁鑫攀，文志強

（1 湖南工業大學計算機學院湖南株洲 412008）

（2 湖南省智能信息感知及處理技術重點實驗室湖南株洲 412008）

（3 湖南交通工程學院電氣與信息工程學院湖南衡陽 421200）

0 引言

近年來，隨著深度學習技術的發展，網絡的精度以及速度相比傳統目標檢測網絡有大大的提升，但是大部分網絡是以不斷增加網絡結構深度和寬度、模型的復雜度來獲得更佳的性能，但這勢必帶來網絡模型參數龐大，參數空間存在一定的冗余以及內存占用過大等問題[1]。這些問題使得目標檢測[2]的算法無法達到實時性檢測，無法適合現實場景中的應用程序，也讓模型直接部署在資源受限的低端設備成了一大阻礙。對此，部分學者采用剪枝降低網絡的復雜性，但是剪枝過程未對跳躍連接層進行有效處理；龔圣斌等[3]通過使用輕量化Inception-V2更換Faster R-CNN網絡的特征提取網絡使得網絡更輕量化；張麗瑩等[4]通過深度可分離卷積替換了模型中的普通卷積從而減少參數量。像類似直接用已經輕量化的backbone直接去替換大網絡中普通的主干網絡治標不治本，甚至對于一些具有計算密集型設備的計算反而會有一定的抑制，模型性能有很大下降。本文在原有量化算法[5-8]基礎上進行改進，摒棄原有量化計算流程中大量反復的加法與乘法的混合操作，簡化模型中量化的計算流程，同時選取目標檢測一階段和兩階段的經典網絡進行訓練，同時模型數據流clip模型訓練，分別分析其模型參數的分布情況，最后對模型低比特量化。

1 量化原理

目標檢測網絡模型FasterRCNN和YOLOv3-SPP做采用均勻量化[9]，其量化方案嚴格的數學定義如下：

式（1）中的x表示的是網絡浮點輸入，Xq表示的是經過量化后的結果值。scale和zp是量化參數，其中scale體現了映射中的比例關系，zp則是零基準zero-point，也就是浮點中的零在量化tensor中的值。它們建立了浮點tensor到量化tensor的映射關系。當對稱量化器將zp限制為0，對稱量化公式如式（2）所示[10]：

2 量化的加速

本文中YOLOv3以及FasterRCNN網絡中卷積算子Y=WX（這里暫時不考慮偏置），Y是模型輸出，W表示模型權重，X表示數據流，如果采用傳統的量化方法，對數據量化是每個操作計算出最優的一組scale，那么需要對輸入數據X∈[xmin，xmax]，W∈[wmin，wmax]做如下操作：

接著對x，w的量化如式（5）（6），xq，wq是對x與w做量化操作的結果：

Y=WX算子的反量化，由于式（5）（6）可得根據前面式（3）（4）和反量式（5）（6）得到的反量化，如式（7）所示：

傳統方法主要的問題在于有很多額外的計算過程且會占用較多內存和計算時間。

基于此，本文提出了一種改進后的方法，基本過程如下：

（1）首先，結合模型訓練時量化和后量化的優缺點，在模型訓練時將數據流做了一個小trick,將數據范圍有效裁剪（clip）到一個固定的范圍：,這里n是小數位寬。假設x裁剪到[-4,4],w裁剪到[-1,1]，則nx=2,nw=0。

（2）進行模型推理的時候，對經過步驟（1）的模型進行量化：

對于式(8)(9)，如果此時需要做8 bit量化，要求：如果需要更低比特，比如4 bit量化，

（3）權重和數據流的反量化可由式（8）（9）反推得到，如式（10）所示：

3 量化實驗步驟

步驟一：實驗首先選取二階段ResNet50+FPN+Faster RCNN模型的學習率設置為0.001，batch_size=4,epoch=15進行訓練，并得到baseline的權重模型；

步驟二：一階段網絡DarkNet53-YOLOv3-SPP模型，學習率設置為0.001，batch_size=8，epoch=30，并得到baseline的權重模型；

步驟三：將MobileNetv2輕量化網絡替換步驟一的ResNet50,接著MobileNetv2+FasterRCNN全精度訓練后得到baseline模型；

步驟四：接著對步驟一和步驟二得到的模型數據流做clip實驗操作并對FP32的模型已經訓練好的baseline的權重共做了9組裁剪實驗以及不做裁剪操作的實驗對比；

步驟五：根據式（8）和式（9）對YOLOv3-SPP、MobileNetv2-FasterRCNN以及ResNet50+FPN+FasterRCNN模型量化和反量化處理，量化后的x,w的精度誤差為本實驗基于簡單地說，即nx,nw值越小，說明實驗中clip的范圍越小，那么kw和kx就越大，模型量化后精度則會越高。最后再對9組量化模型進行模型推理。

4 實驗結果與分析

4.1 實驗環境與數據集

本實驗基于Pytorch深度學習開源框架，其他相關配置如表1所示，Faster RCNN分別采用Resnet50+FPN和輕量化網絡MobileNetv2的主干網絡進行訓練。選擇基于coco數據集訓練好的權重進行遷移學習迭代出屬于本文的模型。試驗環境具體配置如表1所示：

表1 實驗環境配置

基于現有的配置，采用公開數據集PASCAL VOC2012，該數據集主要有20個類別，主要分為4大類：交通工具類別、家庭物品類、動物類別、針對Person的檢測。目標訓練集共有5717張圖片，驗證集5 823張圖片。對該數據進行圖像預處理：隨機水平翻轉，同時所標注的GT的坐標也進行反轉。

4.2 實驗結果

由于圖1中數值范圍最大在（-1,1）之前，所以本文clip實驗對權重裁剪到（-1,1）與（-0.5,0.5）兩組范圍內，實驗表明，權重范圍不管clip到0.5還是1的范圍，模型AP和AR都下降得很低，ResNet50,MobileNetv2和YOLOv3模型數據流clip到±8和權重clip到±1效果最好。

圖1 選取YOLOv3模型list112做權重clip

為了驗證本文提出方法的有效性，一階段網絡Resnet50+FPN+Faster RCNN、MobileNetv2+Faster RCNN和二階段網絡是輸入圖像512×512，backbone為Darknet53的YOLOv3-spp網絡對數據流和模型權重做clip的實驗，選取其中一個模型ResNet50+_FPN進行裁剪過后得到的模型檢測的mAP和在訓練過程的損失如圖2所示。

圖2 ResNet50+_FPN模型訓練損失和mAP

圖2是選取clip_x8_w1對數據流和權重分別裁剪到（-1,1）的損失和mAP，是對3.1節量化實驗細節中步驟四更為具體的實驗，從圖2中可以看到clip實驗雖然在前幾個epoch的mAP會有少許變化，但隨著模型的迭代更新，總體的mAP相較于baseline模型的mAP并未減少，對應的各類別mAP的平均值可以達到78%左右，其他兩個模型的訓練損失和mAP結果類似模型ResNet50+_FPN的實驗結果，所以這里不列舉圖示。

表2是YOLOv3-SPP模型8bit量化的結果，其中Lr1是實驗中參數LR設置為0.001同時將數據流clip到（-8,+8）,w裁剪到（-0.5,+0.5）與clip到（-8,+8）,w裁剪到（-1,+1）的結果；Lr2是LR=0.0001同時將數據流clip到(-8,+8),w裁剪到（-1,+1）的結果；Lr3是LR=0.00001同時將數據流clip到（-8,+8）,w裁剪到（-0,+1）的結果；由于對w設置在（-0.5,+0.5）時，結果最佳，本文選取對w設置在（-0.5,+0.5）的實驗進行微調結果展示，LR=0.001為最初始的學習率，進行8bit模型量化后發現模型精度降低得稍微有點明顯，本文對量化后的模型做微調，將學習率分別調整到Lr2和Lr3，從實驗結果可以看到，當Lr設為0.000 1后，模型量化的精度十分接近baseline浮點模型精度。

表2 模型8位量化推理以及微調結果

表3是對實驗模型backbone為MobileNetv2、ResNet50+FPN、DarkNet53的模型進行量化后的模型與三個baseline模型就mAP和模型大小的一個比較。

表3 各個模型的結果對比

實驗結果表明，量化后的模型和原有的模型相比，模型的mAP精度并無顯著下降，與此同時YOLOv3-SPP模型從原來的323 MB下降到82.75 MB，模型壓縮了74.38%；MobileNetv2-Faster RCNN模型大小亦壓縮了75%；ResNet50+FPN+Faster RCNN模型大小將近4倍的壓縮。

從數據集以及非數據集中隨機選取的多目標和單目標圖片進行測試，三個模型的檢測結果分別如圖3、圖4、圖5所示。

圖3 ResNet50+FPN-FasterRCNN檢測

圖4 MobileNetv2+FasterRCNN檢測

圖5 DarkNet53-YOLOv3檢測

5 結語

綜上所述，本文對傳統的模型量化方法進行優化，不管是后量化還是訓練時量化，現有的算法都較為煩瑣，頻繁統計數據流和權重參數的范圍，同時伴有精度降低的問題，通過改進后的量化方法不僅可以減少級聯網絡的計算量，相較于傳統量化算法的優越性在于目標檢測模型量化和反量化過程簡潔。實驗表明，使用該方法不僅壓縮了模型的大小，在目標檢測領域仍然具有較高的準確率。下一步考慮將改進后的量化算法結合知識蒸餾、矩陣分解算法進一步壓縮網絡模型。