摘要:當前的知識蒸餾算法均只在對應層間進行蒸餾,為了解決這一問題,提高知識蒸餾的性能,首先分析了教師模型的低層特征對學生模型高層特征的指導作用,并在此基礎上提出了基于知識回顧解耦的目標檢測蒸餾方法。該方法首先將學生模型的高層特征與低層特征對齊、融合并區分空間和通道提取注意力,使得學生的高層特征能夠漸進式地學到教師的低層和高層知識;隨后將前背景解耦,分別蒸餾;最后通過金字塔池化在不同尺度上計算其與教師模型特征的相似度。在不同的目標檢測模型上進行了實驗,實驗表明,提出的方法簡單且有效,能夠適用于各種不同的目標檢測模型。骨干網絡為ResNet-50的RetinaNet和FCOS分別在COCO2017數據集上獲得了39.8%和42.8%的mAP,比基準提高了2.4%和2.3%。
關鍵詞:知識蒸餾;目標檢測;知識回顧;特征解耦
中圖分類號:TP183文獻標志碼:A
文章編號:1001-3695(2023)05-040-1542-06
0引言
隨著2012年AlexNet[1]的提出,深度學習在許多領域都取得了巨大的成功。然而為了獲得更強大的性能,卷積神經網絡(convolutionalneuralnetwork,CNN)模型層數不斷加深,其模型容量也隨之增加,這引入了更高的計算代價和存儲成本,使得CNN難以部署在資源受限的邊緣設備中,限制了其現實應用[2]。為了克服以上問題,文獻[3]首先提出知識蒸餾,該方法利用軟標簽將教師模型中的暗知識轉移到學生模型中。
隨后FitNets[4]進一步指出,教師模型和學生模型之間不同的表達能力是由兩者中間層的特征提取能力造成的。因此,除了學習教師模型的輸出之外,還要使學生模型的中間層特征盡可能地與教師模型的中間層特征相近。自此,知識蒸餾可以大致分為logits蒸餾和特征蒸餾兩個類別[5]。前者學習教師網絡輸出的logits分布,主要傳遞語義信息(即分類信息);而后者學習教師網絡的中間層特征或特征之間的轉換關系。
知識蒸餾已經在圖像分類領域取得了不錯的效果[6~10]。近年來,也有一些工作將知識蒸餾應用于目標檢測領域。相較于分類任務而言,目標檢測任務既需要網絡輸出邊界框回歸信息,又需要輸出目標類別信息,更為復雜。
Chen等人[11]首先提出適用于目標檢測網絡的知識蒸餾方法,該方法對頸部、分類頭和回歸頭中包含的知識分別進行處理。然而,該方法沒有區分前背景,導致引入了過多的噪聲,影響了蒸餾效果。由于前景和背景類的極度不均衡是目標檢測的一個難點問題[12],后續的工作主要集中在如何選擇蒸餾區域上。FGFI[13]方法和TADF[14]方法分別利用細粒度掩碼和高斯掩碼使得蒸餾區域集中在目標及其附近,卻忽略了背景對蒸餾的作用。Guo等人[15]提出了DeFeat認為:前景和背景對蒸餾都具有重要作用,將前景與背景解耦分別進行蒸餾可以得到更好效果。文獻[16]認為針對不同的實例蒸餾區域應當不同,提出以實例化的方式進行知識蒸餾。FGD[17]方法在前背景解耦的基礎上,進一步區分了通道注意力和空間注意力。
現有針對目標檢測網絡的知識蒸餾方法主要解決的問題是如何加強學生和教師之間特征一致性。然而,這些工作只使用了相同階段的教師信息來指導學生學習,忽略了來自教師模型其他階段信息對學生模型的指導作用。
蒸餾對象是知識蒸餾的關鍵問題。Chen等人[8]認為現有的知識蒸餾算法不能充分利用教師模型中蘊涵的暗知識,因此提出了知識回顧機制,在蒸餾時使用多階段的教師特征同時監督學生模型的訓練,即讓學生模型的第三階段輸出在模仿教師模型的第三階段的輸出的同時,回顧第一階段和第二階段中的暗知識,得到了當時SOAT的結果。傳統的知識蒸餾與知識回顧的區別如圖1所示。
圖1中上方的子圖為傳統蒸餾機制的過程示意圖,蒸餾只在對應層間進行,如第三階段的學生模型只模仿同一階段教師模型的輸出。下方的子圖為知識回顧機制的過程示意圖。學生模型在模仿教師模型對應層的輸出之外,其訓練過程還受到對應層之前的卷積層輸出的監督。如第三階段的學生模型同時在教師模型第一、二、三階段輸出的監督下訓練。
然而Chen是針對分類模型提出的知識回顧機制,為了驗證知識回顧機制對目標檢測模型是否具有類似的效果,本文在RetinaNet[12]上進行了實驗。所用教師模型的骨干網絡是ResNet101,學生模型的骨干網絡是ResNet50??梢暬Y果如圖2所示。其中圖(a)代表傳統知識蒸餾機制得到的注意力熱力圖,圖(b)代表知識回顧機制得到的注意力熱力圖。
在注意力熱圖中,區域顏色越深表示模型對它的關注越多。從圖2可以看出,右側的注意力熱圖更集中在目標上,這表明學生模型在受到多個層同時引導的學習下能夠學習到更多的知識,將更多的注意力分配給目標區域。特別是淺層次的知識可以促進學生模型在蒸餾過程中的訓練;然而,高層次的信息會對學習曲線產生負面影響。這一結論與人們的認知常識是一致的,例如當一個已經上過高中的人重新學習小學的知識時,他會因為溫故知新而將這些相對簡單的知識掌握得更好;但是當他越級去學習大學的知識時,往往會由于缺少必要的知識儲備而影響學習效果。
基于上述發現,本文在蒸餾過程中加入了知識回顧機制,把教師的淺層次特征也作為學生高層特征的模仿對象。這樣同時利用教師的多層特征引導學生的單層特征的學習,這種蒸餾機制能夠更加完全地將教師的知識傳遞給學生。教師模型的淺層次特征可以理解為比較簡單的知識,其深層特征可以理解為較為抽象復雜的知識,讓這些知識同時指導學生的單層特征,可以實現漸進式的學習,即溫故知新。
蒸餾的整體框架如圖3所示。為了簡便計算,本文提出了一個特征融合模塊featurefusedmodule,能夠在融合不同階段學生特征的同時,加強其特征表達。該模塊首先對齊不同階段的學生特征并融合,隨后分別在空間和通道維度上提取學生模型的注意力圖,最后將空間和通道注意力都疊加在融合特征上,以加強特征表達。此外,為了解決目標檢測前背景不平衡的問題,本文在蒸餾時利用真實框生成的二值掩碼將前背景分割,并分別蒸餾,計算蒸餾損失。
綜上所述,本文提出了基于知識回顧解耦的目標檢測蒸餾方法(reviewanddecoupleknowledgedistillation,RDKD)。本文的貢獻主要包括:
a)驗證了學生不僅應該學習老師的對應層特征,還應該學習老師的淺層次特征?;诖颂岢龌谥R回顧解耦的目標檢測知識蒸餾,使得學生模型能夠在蒸餾時回顧到以前學習過的暗知識,提高了知識轉移的效率。
b)提出了特征融合模塊featurefusedmodule,融合不同階段的特征的同時,在空間和通道維度上分別提取注意力,加強學生的特征表達。
c)實驗表明本文方法在單階段和兩階段檢測器上均有不錯效果。骨干網絡為ResNet-50的RetinaNet和FCOS分別在COCO數據集上獲得了39.8%和42.8%的mAP,比基準提高了2.4%和2.3%。
1相關工作
1.1目標檢測
目標檢測是計算機視覺的一項基本任務,其主要任務是確定輸入圖像中一個或多個目標的類別和定位信息?;谏疃葘W習的目標檢測模型按照檢測過程可以大致分為單階段檢測器和兩階段檢測器,其中單階段檢測器按照是否預設錨框又可以分為有錨和無錨兩類。
目標檢測模型通常由三個部分組成:提取語義特征的骨干網絡、融合多尺度信息的頸部網絡以及輸出分類和定位信息的檢測頭[18]。此外相較于單階段檢測器而言,兩階段檢測器還包含一個用于生成預選框的RPN。雖然RPN使得檢測效果更好,但也帶來了更大的計算開銷和延時。
單階段檢測器中的錨框代替RPN生成定位區域的建議,然而錨框需要事先手工設定,靈活性不強。無錨框單階段檢測器應運而生。無錨框檢測器能夠直接預測目標的類別和位置,同時擁有更小的計算開銷和延時。
雖然這三類檢測器的網絡結構各不相同,但本文提出的知識蒸餾算法可以在上述三種檢測器上全部適用。
1.2知識蒸餾
知識蒸餾是指利用大模型(即教師模型)的軟標簽輸出或中間特征中的信息來更好地訓練小模型(即學生模型),在前向推理時不需要任何額外成本即可實現良好性能的方法。知識蒸餾的優點是:在蒸餾前后學生網絡的結構不會發生改變。此外,知識蒸餾和剪枝等方法正交,可以結合使用進一步壓縮模型。
當前的目標檢測知識蒸餾主要都在解決如何選擇蒸餾區域的問題,卻忽略了蒸餾對象的選擇。如:FGFI[13]和TADF[14]采用不同的掩碼遮罩提煉蒸餾的重點區域;DeFeat[15]和FGD[17]將前背景分別蒸餾,以減輕負樣本的噪聲影響。C2KD[19]利用層映射策略來決定蒸餾對象,DG-DAFL[20]方法利用教師模型中的先驗信息優化學生生成器。
然而,上述算法選擇的蒸餾對象均為教師網絡的對應層。Chen等人[8]首先引導學生去學習教師中的多層次信息,得到了較好的蒸餾結果。本文提出的基于知識回顧解耦的目標檢測蒸餾算法在知識回顧的基礎上增加了特征融合模塊和特征解耦機制,在融合不同層的特征時,加強了空間和通道維度上的表達,使得蒸餾效果更好。
2基于知識回顧解耦的目標檢測蒸餾方法
為了充分利用不同階段的知識,本文設計的基于知識回顧解耦的目標檢測蒸餾方法主要由知識回顧和特征解耦兩個部分組成。知識回顧階段,讓學生模型同時模仿教師模型的對應層特征和低層特征,充分利用不同階段的特征中蘊涵的豐富語義信息。同時為了簡化計算,本文利用特征融合模塊對齊不同階段提取出的特征,并加強其在空間和通道維度上的表達。特征解耦階段,將融合后的特征解耦為前景區域和背景區域分別蒸餾,以解決蒸餾時前背景不平衡的問題。
2.1知識回顧
為了能夠同時適用于各種類型的目標檢測模型,本文提出的蒸餾方法主要利用頸部網絡中包含的多尺度特征圖。這些特征圖中包含著不同層次的語義信息,從其中提取到的暗知識能夠有效提高學生模型的表現。一般來講,單層的特征蒸餾可以形式化地表述為
其中:C、H、W分別表示特征圖的通道數和高寬;FT和FS分別表示教師和學生模型的特征圖;f(·)表示使學生和教師特征在維度上對齊的自適應層。傳統的知識蒸餾往往只在對應層間進行蒸餾,而忽略了不同層間的知識轉移對蒸餾效果帶來的提升。
多層的特征蒸餾往往是在教師和學生模型中選取多個對應層,分別計算蒸餾損失后相加:
其中:M為提取的層數。
為了充分利用教師的低層特征,本文提出基于知識回顧解耦的目標檢測蒸餾方法,讓學生的高層特征向教師的低層特征學習。經過知識回顧后,特征蒸餾的損失變為
即高層的學生特征可以“看”到在它之前的所有教師特征。然而,這樣的操作帶來了巨大的計算開銷。為了簡便計算,本文提出featurefusemodule,通過這一模塊將來自高層的特征與低層特征混合,使得學生的高層特征可以漸進式地學習教師模型中的知識。與CBAM[21]方法和FGD[17]方法不同,本文提出的featurefusemodule首先分別提取空間和通道注意力,隨后將兩者融合。
featurefusemodule由特征融合、提取空間注意力和提取通道注意力三部分組成,如圖4所示。
a)特征融合部分。這部分首先將上一個featurefusemo-dule的輸出調整到與低層特征圖相同的形狀,隨后將兩者連接在一起,經過一個卷積將連接后的特征圖調整到與底層特征圖相同的尺寸,便于后續的蒸餾操作。
b)提取空間注意力。featurefusemodule中在提取空間注意力圖時,為了加強不同階段的特征之間的空間關聯,增強注意力圖對空間信息的表達。本文采用了類似DANet[22]中提取位置信息的結構。首先將降維后的特征圖A分別通過三個卷積核,得到三個特征圖B、C、D,并將這三個特征圖均降維為C×N,其中N=H×W,H、W分別為特征圖的高、寬。隨后,將B的轉置與C進行矩陣乘積和softmax操作,生成了一個用于表達特征圖中任意兩點之間的空間關聯強度矩陣S:
3實驗結果與分析
3.1數據集和評價指標
實驗數據集選取COCO2017數據集[24]和FLIRADAS紅外數據集[25]。其中MSCOCO數據集是一個有超過350000張圖像(包含220000張有標注的圖像)的大規模數據集。數據集中包含行人、車等80個目標類別,共150萬個目標。本文使用120000張圖像進行訓練,5000張圖像進行測試。FLIR數據集共包含10228張紅外圖像,其中訓練集8862張,測試集1366張,均由視頻采樣獲得。該數據集使用COCO格式進行標注,共有四類目標,分別是行人、自行車、小型汽車和狗。
本文實驗選取mAP為統一評價指標。mAP表示各類別AP(averageprecision)的平均值。
3.2實驗環境和設置
實驗在Ubuntu18.04操作系統上進行,配置兩塊NVIDIAGTX2080Ti,CUDA10.2,cuDNN7.6.5,采用的深度學習框架為PyTorch1.9.0。實驗基于目標檢測工具箱mmdetection[26]。為了證明本文方法的通用性,實驗選取了三種主流目標檢測模型進行實驗,包括有錨框一階段檢測模型RetinaNet[12]、無錨框一階段檢測模型FCOS[27]和兩階段檢測模型FasterR-CNN[28]。
訓練過程中,采用隨機梯度下降優化,其參數使用mmdetection中的默認設置,即momentum為0.9,weightdecay為0.0001。每個學生模型均訓練24個epoch,這在mmdetection中被稱為2×schedule。
3.3實驗結果
為了驗證RDKD的有效性,本文首先在RetinaNet[12]、FasterR-CNN[28]和FCOS[27]上進行了實驗,并于當前主流的五種目標檢測知識蒸餾方法進行了對比,如FGFI[13]、GID[16]、FKD[29]、RMFPI[30]、FGD[17]等。由于FGFI和FKD只適用于有錨框檢測算法,故只在RetinaNet上與其進行對比。實驗中,RetinaNet和FCOS的學生模型的骨干網絡均為ResNet50,教師模型的骨干網絡均為ResNet101,實驗結果如表1所示。其中S和T分別表示學生和教師模型。
從表1結果可以看出,本文方法在不同類型的目標檢測模型上均表現良好,識別準確率均得到一定提高。例如,經過本文方法蒸餾后,RetinaNet_ResNet50、FasterR-CNN_ResNet50和FCOS_ResNet50的mAP分別提高了2.4%、3.6%和2.3%,超越了當前SOAT的幾種蒸餾方法。這表明,知識回顧機制是有效的,同時利用教師的多層特征引導學生單層特征的學習能夠更加完全地將教師的知識傳遞給學生。而FGD等方法都只在對應層間進行蒸餾,這使得老師的知識無法完全地傳遞給學生模型。
RetinaNet_ResNet50和FCOS_ResNet50經過蒸餾提升的mAP比FasterR-CNN_ResNet50的要低。這和本文的常識也是相符的,當學生表現已經足夠好時,教師對學生的提升作用是有限的。
為了驗證上述生活常識是否同樣適用于知識蒸餾,本文用不同的教師模型對同一個學生模型進行蒸餾。以RetinaNet和FCOS作為師生模型,分別用ResNext101和ResNet101作為教師模型的骨干網絡,用ResNet50作為學生模型的骨干網絡進行了實驗,結果如圖5所示。
從圖5可以看出,當教師模型的骨干網絡由ResNet101變為ResNext101時,RetinaNet蒸餾后的mAP僅僅增加了0.4%,而FCOS模型蒸餾后的mAP不升反降了。這說明更好的教師模型不一定能教出更好的學生模型。也說明由于學生模型本身已具備足夠的特征提取和表達的能力,在這種情況下,再加入教師模型的監督會導致學生模型的過擬合。
為了更加直觀地展現蒸餾的效果,本文在COCO測試集中隨機抽取了兩張圖片,分別送入蒸餾前后的檢測器中,并將蒸餾前后模型的檢測結果作一對比,對比圖如圖6所示。
圖6中,不同列分別表示以ResNet-50為骨干網絡的FasterR-CNN、FCOS和RetinaNet這三個目標檢測模型的檢測結果,上方的檢測圖代表蒸餾前的結果,下方的檢測圖代表蒸餾后的結果。可以明顯看出,蒸餾前的檢測器存在一定的檢測錯誤,如FasterR-CNN將馬腿誤識別為人、將人腿誤識別棒球棍,RetinaNet也存在類似的情況,而在蒸餾后的檢測器中,誤識別均消失了。與此同時,第二張測試圖中上方只有一些邊緣的人也被檢測出來,這表明檢測器的性能得到了增強。此外,無論是哪個檢測器,其每一個檢測框的置信度均得到了提升,且檢測框更加貼近目標邊緣,也即檢測器的分類與定位都比蒸餾前更加精準。這表示本文提出的RDKD方法是行之有效的。
3.4消融實驗
為了研究知識回顧和特征解耦各自的有效性,本節在FCOS模型[27]上進行消融實驗。實驗選取FCOS_ResNet101為教師模型,FCOS_ResNet50為學生模型,數據集為FLIR,實驗結果如表2所示。
從表2可以看出,知識回顧機制對蒸餾的提升效果最明顯,給FCOS模型帶來了5.0%的增益,遠大于單獨使用特征解耦時產生的2.7%增益。此外,在使用知識回顧機制的基礎上,特征融合模塊和特征解耦分別帶來了0.3%和0.4%的增益,這表明給蒸餾時起主要作用的是知識回顧機制,說明采取“溫故知新”的方法能夠將教師模型中蘊涵的豐富暗知識蒸餾出來,并有效轉移到學生模型中。
綜上所述,相較于普通特征蒸餾而言,本文提出的RDKD方法能夠將教師模型中更多的暗知識轉移到學生模型中。
為了進一步比較知識回顧這一機制和普通的特征蒸餾的優劣,本文將兩者進行了比較,結果如表3所示。
從表3可以看出,在不添加任何技巧的前提下,使用傳統特征蒸餾方法能夠將學生模型的mAP提高2.1%,而知識回顧機制能夠將學生模型的mAP提高5.0%,甚至能使學生模型的表現超越教師模型。這說明,知識回顧的蒸餾機制遠勝于傳統的特征蒸餾。傳統的特征蒸餾只在對應層間進行,而忽略了低層,也即學生模型曾經學習過的層對學生模型當前階段學習的指導作用,從而降低了蒸餾的效果。
3.5在FLIR數據集上的擴展實驗
為了證明本文方法對紅外數據集也同樣有效,本文在FLIR數據集上分別對RetinaNet、FCOS和FasterR-CNN進行蒸餾。與3.2節中在COCO數據集上的實驗保持相同的設置,如表4所示。
從表4可以看出,本文提出的蒸餾方法對紅外數據集也同樣有效。經過蒸餾,以ResNet50為骨干網絡的RetinaNet、FCOS和FasterR-CNN在FLIR數據集上分別達到了38.8%、37.2%和51.3%,分別獲得了3.4%、5.7%和4.1%的增益。這說明本文方法不僅能夠在各階段檢測器上適用,而且可同時適用于在可見光和紅外場景。
4結束語
本文指出教師的底層特征對學生的高層特征同樣具有指導作用,并基于此提出了基于知識回顧解耦的目標檢測蒸餾方法。首先利用知識回顧機制,將教師模型中不同階段特征加入蒸餾過程,同時利用featurefusemodule,融合不同階段的特征并在空間和通道兩個維度上加強特征表達,加強特征表達,從而使得學生的高層特征可以“看”在它之前的所有階段的教師模型的特征。隨后利用二值掩碼將加強后的特征分割為前景和背景,并分別蒸餾,以消除目標檢測中前背景不平衡對知識蒸餾帶來的影響。對比實驗表明,本文提出的RDKD方法簡單且有效,能夠適用于各種不同的目標檢測模型,包括單階段有錨框、單階段無錨框和兩階段檢測模型。本文方法說明,基于知識回顧解耦的目標檢測蒸餾可以有效將教師模型中蘊涵的暗知識轉移給學生模型,提升學生模型的表現。知識回顧是未來知識蒸餾發展的新方向。下一步將研究如何將教師模型中檢測頭包含的知識轉移給學生模型,并深入分析檢測頭對蒸餾的影響。
參考文獻:
[1]KrizhevskyA,SutskeverI,GeoffreyH.ImageNetclassificationwithdeepconvolutionalneuralnetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25:1097-1105.
[2]HowardA,SandlerM,ChuG,etal.SearchingforMobileNetV3[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2019:1314-1324.
[3]GeoffreyH,OriolV,JeffD.Distillingtheknowledgeinaneuralnetwork[EB/OL].(2015-03-09).https://arxiv.org/abs/1503.02531.
[4]RomeroA,BallasN,KahouSE,etal.FitNets:hintsforthindeepnets[EB/OL].(2014-12-19).https://arxiv.org/abs/1412.6550.
[5]ZhengZhaohui,YeRongguang,WangPing,etal.Localizationdistillationfordenseobjectdetection[EB/OL].(2021-02-14).https://arxiv.org/abs/2102.12252.
[6]JiMingi,HeoB,ParkS.Show,attendanddistill:knowledgedistillationviaattention-basedfeaturematching[C]//Procofthe35thAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2021:7945-7952
[7]ZagoruykoS,KomodakisN.Payingmoreattentiontoattention:improvingtheperformanceofconvolutionalneuralnetworksviaattentiontransfer[C]//Procofthe5thInternationalConferenceonLearningRepresentations.2017.
[8]ChenPengguang,LiuShu,ZhaoHengshuang,etal.Distillingknow-ledgeviaknowledgereview[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:5008-5017.
[9]ZhaoBorui,CuiQuan,SongRenjie,etal.Decoupledknowledgedistillation[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2022:11943-11952.
[10]SongJie,ChenYing,YeJingwen,etal.Spot-adaptiveknowledgedistillation[J].IEEETransonImageProcessing,2022,31:3359-3370.
[11]ChenGuobin,ChoiW,YuXiang,etal.Learningefficientobjectdetectionmodelswithknowledgedistillation[J].AdvancesinNeuralInformationProcessingSystem,2017,30:742-751.
[12]LinT,GoyalP,GirshickRB,etal.Focallossfordenseobjectdetection[J].IEEETransonPatternAnalysisandMachineIntelligence,2020,42(2):318-327.
[13]WangTao,YuanLi,ZhangXiaopeng,etal.Distillingobjectdetectorswithfine-grainedfeatureimitation[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2019:4933-4942.
[14]SunRuoyu,TangFuhui,ZhangXiaopeng,etal.Distillingobjectdetectorswithtaskadaptiveregularization[EB/OL].(2020-06-23).https://arxiv.org/abs/2006.13108.
[15]GuoJianyuan,HanKai,WangYunhe,etal.Distillingobjectdetectorsviadecoupledfeatures[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:2154-2164.
[16]DaiXing,JiangZeren,WuZhao,etal.Generalinstancedistillationforobjectdetection[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:7842-7851.
[17]YangZhendong,LiZhe,JiangXiaohu,etal.Focalandglobalknow-ledgedistillationfordetectors[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2022:4633-4642.
[18]BochkovskiyA,WangCY,LiaoHYM.YOLOv4:optimalspeedandaccuracyofobjectdetection[EB/OL].(2020-04-23).https://arxiv.org/abs/2004.10934.
[19]趙雅,馮尊磊,王慧瓊,等.針對唇語識別的上下文相關性蒸餾方法[J/OL].計算機輔助設計與圖形學學報.[2022-10-11].http://kns.cnki.net/kcms/detail/11.2925.TP.20220926.1341.008.html.(ZhaoYa,FengZunlei,WangHuiqiong,etal.Contextcorrelationdistillationforlipreading[J/OL].JournalofComputer-AidedDesignamp;ComputerGraphics.[2022-10-11].http://kns.cnki.net/kcms/detail/11.2925.TP.20220926.1341.008.html.)
[20]張晶,鞠佳良,任永功.基于雙生成器網絡的Data-Free知識蒸餾[J/OL].計算機研究與發展.[2022-10-11].http://kns.cnki.net/kcms/detail/11.1777.TP.20220819.0919.004.html.(ZhangJing,JuJialiang,RenYonggong.Double-generatorsnetworkforData-Freeknowledgedistillation[J/OL].JournalofComputerResearchandDevelopment.[2022-10-11].http://kns.cnki.net/kcms/detail/11.1777.TP.20220819.0919.004.html.)
[21]WooS,ParkJ,LeeJY,etal.CBAM:convolutionalblockattentionmodule[C]//Procofthe15thEuropeanConference.Berlin:Sprin-ger,2018:3-19.
[22]FuJun,LiuJing,TianHaijie,etal.Dualattentionnetworkforscenesegmentation[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2019:3146-3154.
[23]HeKaiming,ZhangXiangyu,RenShaoqing,etal.Deepresiduallear-ningforimagerecognition[C]//ProcofIEEEConferenceonCompu-terVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2016:770-778.
[24]LinTY,MaireM,BelongieS,etal.MicrosoftCOCO:commonobjectsincontext[EB/OL].(2021-02-14).https://arxiv.org/abs/2102.12252.
[25]GroupFA.Flirthermaldatasetforalgorithmtraining[EB/OL].(2018).https://www.flir.in/oem/adas/adas-dataset-form/.
[26]ChenKai,WangJiaqi,PangJiangmiao,etal.MMDetection:openMMLabdetectiontoolboxandbenchmark[EB/OL].(2019-06-17).https://arxiv.org/abs/1906.07155.
[27]TianZhi,ShenChunhua,ChenHao,etal.FCOS:fullyconvolutionalone-stageobjectdetection[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2019:9626-9635.
[28]RenShaoqing,HeKaiming,RossBG,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C]//AnnualConferenceonNeuralInformationProcessingSystems.2015:91-99.
[29]ZhangLinfeng,MaKaisheng.Improveobjectdetectionwithfeature-basedknowledgedistillation:towardsaccurateandefficientdetectors[C]//Procofthe9thInternationalConferenceonLearningRepresentations.2021.
[30]LiGang,LiXiang,WangYujie.Knowledgedistillationforobjectdetectionviarankmimickingandprediction-guidedfeatureimitation[C]//Procofthe36thAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2022:1306-1313.