



















摘 要:知識蒸餾算法對深度神經網絡的精簡具有很大的推動作用。當前基于特征的知識蒸餾算法或只關注單個部分進行改進,忽視了其他有益部分,或是對小模型應重點關注的部分提供有效指導,這使得蒸餾的效果有所欠缺。為了充分利用大模型的有益信息并處理,以提升小模型知識轉換率,提出一種新型蒸餾算法。該算法首先使用條件概率分布對大模型中間層進行特征空間分布擬合,提取擬合后趨于相似的空間注意力圖,將其與其他有益信息一起,通過用于縮小模型間差距的小型卷積層,將轉換后的信息傳遞給小模型,實現蒸餾。實驗結果表明,該算法具有多師生組合適用性與多數據集通用性,相比于當前較為先進的蒸餾算法,性能提升約1.19%,用時縮短0.16 h。對大型網絡的優化與深度學習部署在低資源設備上的應用具有重要的工程意義與廣泛的應用前景。
關鍵詞:知識蒸餾;知識遷移;模型壓縮;深度學習;圖像分類
中圖分類號:TP301.6 文獻標志碼:A文章編號:1001-3695(2024)06-013-1693-06
doi: 10.19734/j.issn.1001-3695.2023.10.0496
Knowledge distillation algorithm based on spatial attention map
Abstract: Knowledge distillation algorithms have a great effect on the streamlining of deep neural networks. The current feature-based knowledge distillation algorithms either focus on a single part for improvement and ignore other beneficial parts, or provides effective guidance for the part that a small model should focus on, which makes the distillation effect insufficient. In order to make full use of the beneficial information of the large model and process it to improve the knowledge conversion rate of the small model, this paper proposed a new distillation algorithm. Firstly, it used the conditional probability distribution to fit the feature spatial distribution of the large model’s middle layer, and then extracted the spatial attention maps that tended to be similar after fitting together with other beneficial information. Finally, it used the small convolutional layer, narrowed the gap between models, transmitted the transformed information to the small model to achieve distillation. Experimental results show that the algorithm has the applicability of multiple teacher-student combinations and the generality of multiple data sets, and compared with the current more advanced distillation algorithms, the performance is improved by about 1.19% and the time is shortened by 0.16 h. It has important engineering significance and wide application prospects for large networks’ optimization and the application of deep learning on low-resource devices.
Key words:knowledge distillation; knowledge transfer; model compression; deep learning; image classification
0 引言
深度學習[1]被廣泛應用于計算機視覺[2,3]、自然語言處理[4]、推薦系統[5]等人工智能相關領域中。然而近年來模型深度的增加導致了參數量以及計算量的爆炸性增長[6],使得深度學習在低資源設備上的應用受到了限制。
為提升資源利用率,去除網絡中冗余的模型壓縮算法[3,7]應運而生。目前,在模型壓縮和加速方面常用的方法可分為剪枝[8,9]與量化[10,11]、低秩因子分解[12,13]、遷移/壓縮卷積濾波器[14]以及蒸餾學習四類。
其中,量化通過減少權重位數達到壓縮網絡的目的;剪枝主要修剪網絡模型的冗余權重;遷移/壓縮卷積濾波器引入兩個全局超參數,依靠平移不變性和卷積權重共享實現良好的預測性能。知識蒸餾(knowledge distillation,KD)是用淺層的模型訓練重現較大網絡的輸出[15],由Hinton 等人于2015年首次提出[16]。根據提取的知識類型分類可以概括為基于響應、基于關系和基于特征的蒸餾[17]。
基于響應的方式關注網絡的最后一層,用大模型分類的結果協調小模型的最終預測。HKD(heterogeneous knowledge distillation)應用輔助教師網絡傳輸信息流以縮小師生能力差距[18]。DGKD(densely guided knowledge distillation)采用多種引導模式聯合執行多步蒸餾訓練學生模型[19]。SFTN(student friendly teacher networks)則通過培訓師生分支,并從中挑選出更易于傳遞的知識給學生,以提升學習效果[20]。
基于關系的蒸餾可以將過程看作一個實例圖,節點表示樣本的特征嵌入。Zhao等人[21]提出了一種新穎的對比知識遷移框架(compare knowledge transfer framework,CKTF),通過優化跨中間表示的多個對比目標,將足夠的結構知識從大模型移到小模型。DarkRank[22]方法使用歐幾里德距離來檢查跨樣本的相似性。REFILLED讓教師模型衡量學生模型轉發來的硬三元組,并與之進行關系匹配來實現目的[23]。
基于特征的蒸餾主要針對中間層特征圖及其細化信息蒸餾。方式有引入跨各層特征圖測量求解的流程[24] 、讓學生模仿特征圖表示方式[25]、引入轉換復雜知識信息的自動編碼器[26]、利用表示學習獲取網絡間傳輸對比目標[27]以及使用教師的判別分類器進行推理[28]等。
由于模型中間層包含許多有益信息,合理利用可以更好地實現蒸餾,所以本文主要研究基于特征的蒸餾方式,而目前基于特征蒸餾算法都存在一些問題。例如,在不同維度的層上實現轉移時,對特征空間采用概率分布擬合的方式忽視了特征知識的重要性、僅依靠額外引入的小型網絡結構提升信息轉換率忽略了教師原有信息中大量可開發的部分,這導致學生模型在準確度方面仍有不足,同時大多數知識蒸餾算法都是學生直接學習教師模型傳遞來的知識,這些知識并沒有區分重要性,使得學生訓練的效果不能足夠地接近預期。
本文提出了APF-KD(attention-based probabilistic factor knowledge distillation)算法,針對目前只關注結構或只關注特征知識的單一知識蒸餾,可以同時關注中間層蘊涵的特征結構與知識信息,雙管齊下的方式使得學生學習時不會遺漏蒸餾各個環節的有益知識。同時讓學生回歸教師特征空間的幾何圖形,根據教師的注意力圖直接關注到需要關注的區域,使學生學習更有效率。算法先對師生模型進行特征空間匹配,再對教師進行空間注意力提取,最后將訓練好的模型知識經由解釋器二次翻譯傳遞給學生。在提升靈活性的同時,也使學生學習效果達到了最優化。
本文的研究貢獻主要是:
a)實現了資源開銷和精度提升的平衡,深度挖掘教師模型中間層中包含的結構信息,向學生模型傳遞更為精細的知識內容,提高了學生模型的表現。
b)將對教師空間結構的學習分為兩步:對教師特征空間結構采用概率獲取學習控制開銷成本;在師生進行信息傳遞時,連同教師注意力圖一起放入用于轉譯知識的小卷積層中,以降低學生模型理解難度。上述操作提升了學生網絡精度。
c)算法對教師中間層進行多步操作,在控制模型資源開銷的前提下,提升學生模型的效果。實驗證明,與其他知識蒸餾算法相比,本算法性能最高可提升約18.87%,蒸餾效果更好。
1 基于特征的知識蒸餾算法
知識蒸餾采用teacher-student模式, teacher是知識的輸出者,student是知識的接受者。知識蒸餾的過程分為兩個階段:a)教師模型預訓練,訓練一個大模型并保存其網絡結構相關信息,為訓練學生作準備;b)學生模型訓練,挑選一個參數量較小、模型結構相對簡單的模型,并結合教師模型的信息進行訓練。
用教師學習的知識訓練學生,可以增強學生模型的泛化能力。傳統知識蒸餾算法就是學生用教師模型關于分類的信息進行訓練,不斷降低loss值,獲得與大模型相近的性能,過程如圖1所示。
loss計算方法如式(1)所示。
L=(1-α)LT+αLS(1)
其中:LT、LS分別為教師與學生模型的訓練損失。
傳統的標簽蒸餾效果不佳,根本原因在于標簽內包含的信息遠低于中間層的信息,故學習大模型的中間層信息可有效提升小模型的表現。基于特征的知識蒸餾不同于傳統的標簽蒸餾,它關注用于訓練的中間層并從中挖掘大量有用信息訓練小模型,流程如圖2所示。
引入跨各層特征圖測量求解的流程[24]讓研究的目光不再局限于大模型的softmax層;以學生模仿特征圖表示方式[25] 可以很好地從學習方式上助推小模型效果提升;考慮到小模型的理解能力,引入能轉換復雜知識信息的自動編碼器幫助小模型理解信息[26];利用表示學習獲取網絡間的傳輸對比目標[27],增強類別內互信息的相似與類別間互信息的差異,實現小模型對大模型的學習;類似引入自動編碼器的策略開發一個投影結構,讓學生能夠使用教師的判別分類器進行推理[28]等。
目前基于特征的同構知識蒸餾算法中,SemCKD算法提出了讓學生自動與語義相關的目標層進行匹配,實現注意力分配的方法[30],兼顧了注意力機制與候選層數量不匹配的問題。而ER-KD利用教師預測中的熵,在樣本的基礎上重新加權蒸餾損失,實現了更平衡的知識轉移[31]。
2 APF-KD知識蒸餾算法設計
教師模型的知識轉換能力直接關系到學生模型最終的性能,因此APF-KD算法為了提升模型知識轉移能力,首先對模型特征空間進行操作,增強學生的學習理解能力。同時引入注意力機制,對教師的注意力圖進行提取,并將信息傳遞給學生,讓學生模型關注到更有意義的內容。考慮到師生模型差異較大的情況,算法引入因子轉移模式,在師生模型中分別加入釋義器與解釋器,將教師模型知識進行翻譯轉述傳遞給學生,指導學生模型進行訓練。APF-KD的整體流程如圖3所示。
2.1 概率知識轉移策略
本文引入概率知識轉移策略,利用教師模型的特征空間信息訓練學生模型,讓學生通過學習教師的特征空間結構提升學習效果[25],如圖4所示。
設置一個具有N個對象的轉換集T_set,表示教師傳遞給學生的知識集合,學生通過T_set獲取教師網絡的知識并進行學習。教師與學生的輸出表示如式(2)(3)所示。
t=f(t_set)(2)
s=g(t_set,W)(3)
其中:t_set為轉換集T_set中的對象,對大小模型關于同一轉換集T_set的輸出t和s進行操作,方便達到擬合師生特征空間結構的目的。學生需要去學習教師的結果,所以計算學生網絡輸出的公式中,額外加入了用于訓練學習教師的參數W。
基于每批數據樣本間的關聯性,對特征空間中的兩個數據點進行條件概率密度計算,可以描述出特征空間的幾何形
狀。所以式(4)(5)為教師和學生中任意兩個數據點間的條件概率分布。
條件概率分布p_t、p_s計算式中的K函數為基于有限樣本推斷總體數據分布的核密度估計。對兩個數據點向量進行內積歸一化可以解決不斷調整內核寬度的問題,故采用余弦相似度核函數作為K函數,如式(6)所示。
式(4)已經獲得了教師的特征空間結構信息,計算師生的概率分布相似度,學生可以擬合教師的特征空間,故引入KL散度,并采用損失函數縮小學生與教師空間結構上的差異。相應計算及其損失函數如式(7)(8)所示。
其中:T與S是式(4)(5)中獲得的師生模型概率分布;t_set為轉換集T_set中的對象。
經過擬合特征空間操作后,師生的特征圖空間分布趨于相似,學生模型對于信息的處理能力得到了提升。
2.2 因子轉移策略
概率知識轉移策略關注到了教師特征空間結構上所蘊涵的信息,有意識地指導學生學習結構可以提升模型的效果。但該策略忽視了中間層特征知識的學習,為彌補這一缺陷,本文加入因子轉移策略,讓學生模型學習的同時把握住中間層的結構信息與特征知識。
直接學習教師模型傳遞來的知識不能有效提升學生模型的表現。故本文引入利用因子轉移的“釋義器-解釋器”[26] 模式,將教師模型傳遞的信息進行“翻譯”以幫助學生模型學習,如圖5所示。
由于大模型與小模型專注于同一任務,大模型最后一層的特征圖中存在對小模型訓練有益的因素,所以可以采用釋義器作為獲取教師模型輸出特征圖的中轉,以無監督的方式對
其訓練并重建損失獲取有益因素,損失計算如下:
LParaphraser=‖m-P(m)‖2(9)
其中:m表示的是教師模型的特征圖;P(m)表示釋義器的輸出特征圖。
得到教師因素后,釋義器將信息傳遞給插入小模型最后一組卷積層后的解釋器中,讓學生同時進行訓練,在此過程中會產生兩種損失:學生自身訓練損失與解釋器傳遞知識帶來的損失。故損失計算如式(10)所示。
其中:式(10)第一項L(S(m),y)計算學生網絡對于輸入圖像m的輸出與真實標簽間y的交叉熵;第二項βLTranslator即為解釋器的損失,其計算如式(11)所示,其中IT與IS為師生網絡中的信息因素。經過釋義器和解釋器的信息能夠降低學生理解的困難,提升學生模型的準確率。
2.3 APF-KD算法設計
概率知識轉移策略關注教師的空間結構,因子轉移策略關注的是教師的輸出信息,兩者結合后,學生可以同時把握結構與知識。但因子轉移策略中關注的輸出信息并無側重,而師生模型在經過 2.1 節的空間擬合操作后,特征圖空間分布已趨于相似。此時若引入更具解釋性的空間注意力圖,學生蒸餾效果將進一步提升。
教師模型的注意力圖中包含了信息處理重點,如圖6 所 示,而學生可以根據這一信息調整學習權重。
本文選取跨多個層中用于計算的空間注意力圖,對其進行映射轉換,將三維轉為一維,如圖7所示。由于獲取教師的注意力圖只在每一次迭代時進行,沒有多余步驟,所以不會產生額外計算開銷[29]。
將注意力圖信息傳遞給學生的過程與信息傳遞給釋義器同步,故計算轉移損失時應加入對注意力圖的轉移損失,計算如式(12)所示。
其中:式(12)為式(10)加入轉移注意力圖后損失的變式。式(12)中α與β為兩項損失的權重。式(13)中Mj是第j對師生注意力圖的矢量化形式表達。
APF-KD算法的訓練流程如圖8所示。為了讓學生能直接關注到應當集中注意力的地方,在到達分類層之前先對網絡的特征空間進行匹配擬合,然后將教師模型中的注意力圖有關的網絡參數提取出來指導學生。最后為了讓學生模型更好地接受傳遞來的知識信息,以一個小型網絡作為媒介,把知識進行一次理解消化,將信息進行二次轉述,從而完成教師模型的蒸餾。
算法 1 APF-KD算法
3 實驗
實驗配置:Tesla GPU_V100顯卡,32 GB顯存,CPU為8核32 GB內存,Windows 10操作系統。實驗開發語言為Python 3.7。
3.1 實驗相關介紹
在3.2節中選取標簽蒸餾算法KD(knowledge distillation)、概率知識轉移算法PKT(probability knowledge transfer)[25]、因子轉移算法FT(factor transfer)[26]、異構知識蒸餾HKD(heterogeneous knowledge distillation)[18]、具有語義校準的跨層蒸餾SemCKD(cross-layer distillation with semantic calibration)[30]、熵重加權知識蒸餾ER-KD(entropy-reweighted know-ledge distillation)[31]與APF-KD進行對比。PKT與FT均采用單一策略蒸餾,前者學習教師特征空間結構,后者學習教師中間層的最后一層信息;HKD算法允許師生網絡結構不相似;SenCKD算法與APF-KD均引入注意力機制;SemCKD側重于學生自動匹配與語義相關的目標層來分配注意力;APF-KD則借助擬合特征空間后已趨于相似的空間注意力圖直接操作;ER-KD利用教師預測中的熵對蒸餾損失重新加權。根據提取的知識類型分類的不同,本次選取的三種先進算法HKD、SemCKD、ER-KD分別對應基于響應、基于特征、基于關系的蒸餾。
實驗選取的師生模型均為ResNet結構,但深度差異較大,ResNet-50中包含了49個卷積層和1個全連接層,ResNet-18中包含17個卷積層與1個全連接層。ResNet-18的基本模塊為Basicblock,包含2次卷積;ResNet-50的基本模塊為Bottleneck,包含3次卷積;ResNet-18的基本模塊為Basic-block,同樣是3次卷積。
在3.3節中選取3組教師學生模型結構,證明算法適用于不同的網絡。第一組師生模型選取具有相同寬度(通道數)和不同深度(塊數)的ResNet-34與ResNet-18。第二組選取不同殘差塊的ResNet-50與ResNet-18。第三組選取相同深度不同寬度的WRN-16-2與WRN-16-1。WRN-16為寬殘差網絡結構,網絡深度為16。WRN通過在原始殘差模塊的基礎上加上了一個系數k拓寬卷積核的個數,即第三組實驗中的1與2。同時為了驗證APF-KD適用于多種數據集,實驗分別在Cifar-10與Cifar-100數據集上運行,Cifar-10數據集共有60 000個樣本,每個樣本都是一張32×32像素的RGB圖像(彩色圖像),每個RGB圖像分為3個通道。Cifar-100數據集有100個類。每個類有600張大小為32×32的彩色圖像,其中500張作為訓練集,100張作為測試集,同樣是3通道。
實驗選取ResNet-18作為學生模型,ResNet-34作為教師模型。
為保證本文實驗的公平性,所有的對比實驗選取的教師學生初始模型均相同,實驗結果均保留兩位小數。
3.2 APF-KD性能測試
實驗選取KD、FT、PKT三種基線算法與三種當前較為先進的蒸餾算法(HKD、SemCKD、ER-KD與APF-KD)對比。實驗結果如表1所示,以加粗字體標記APF-KD實驗結果,分隔開基線算法與先進算法,表中 ResNet50與ResNet18分別代表預處理后的教師模型與未經訓練的學生模型。
由于本次實驗選取的師生模型、數據集均一致,所以模型的FLOPs與params都相同。total params為11 689 512,total memory為0.53 MB,total madd為75.26 Madd,total FLOPs為37.67 MFLOPs。據此,本文從訓練所需時間角度來比較APF-KD的開銷優勢。
與基線蒸餾算法相比, APF-KD的蒸餾效果與教師模型效果最為接近,只低5.7%,具有更好的蒸餾性能。相比于KD算法,本文算法在top-1與top-5情況下分別提升了10.26%與18.87%,且比只用一種策略的FT和PKT算法在top-1情況下性能分別高出4.84%與3.89%。
在模型與數據集均一致的前提下,對比當前較為先進的基于特征的同構蒸餾算法SemCKD,APF-KD的準確度提升0.4%與0.09%,時間上短0.049 h。而相比于基于響應的異構知識蒸餾算法HKD,APF-KD的準確度不僅高出1.19%與0.71%,且計算時間上也短0.16 h。但對比ER-KD算法,雖然APF-KD在準確度上略低于ER-KD,但在用時上節約了0.101 h。
3.3 APF-KD適用性與通用性測試
為驗證算法具有適用性,本文設置了三種師生組合,將蒸餾結果與初始學生模型準確度進行比較。為驗證算法的通用性,將分別在Cifar-10與Cifar-100數據集上運行。實驗結果如表2所示,其中表格第四、五列的師生模型的準確度為投入各數據集訓練的效果。
實驗結果表明,在三種不同師生模型組合的情況下,在Cifar-10數據集上使用APF-KD算法的準確度比未經訓練的學生模型準確度分別提升了34.81%、39.39%和15.01%,在Cifar-100數據集上分別提升了38.01%、44.29%和15.43%。綜上可得,APF-KD不僅適用于不同師生搭配的情況,且在不同數據集上表現均佳。
圖9所示為第二種師生組合下使用APF-KD的學生模型數據迭代情況。可以看出,當訓練至第20個epoch時,學生模型準確度與訓練損失逐漸趨于穩定,且此時準確度達到較高水平。
圖10反映的是經過20個epoch訓練后第二種師生組合下教師及分別采用APF-KD、KD算法后學生模型準確度的變化。
比較可知,APF-KD性能在初始階段就已顯示出遠超KD的優勢,且僅經過極少的epoch就可以接近教師性能,如圖中epoch為3時兩者準確度幾乎重疊。由此可知,前期對于教師模型空間曲線的擬合很有效果,所以模型可以在前期就呈現出好的表現。繼續訓練后,其表現已逐漸逼近教師,說明經過重點內容的指導與信息的二次轉譯,模型的優勢持續擴大。
3.4 APF-KD消融研究
本文3.2節實驗驗證了APF-KD的有效性,為了證明本文算法的各部分均有益,本節將對APF-KD進行消融實驗,結果如表3所示。
觀察實驗1、2、3組可知,僅采取單個策略的效果均不如4~7組的混合策略效果。將表中1、5組與第3、5組數據分別對比可知,結合概率知識轉移策略與因子轉移策略可以實現性能的提升。但再次深入對比5、7兩組可以發現,第5組的效果還是略低于第7組,對比其中不同的部分可以發現,第7組是實驗中加入對于重點部分指導即注意力圖信息后達到的效果,使得算法效果達到最優,即75.72%。相似的情況也出現在6、7兩組與4、7兩組之間,這三種情況均是對比7組少采取一個策略,由此可知三部分均是不可缺少的。
綜上可知,概率知識轉移策略、因子轉移策略以及注意力機制三部分對于APF-KD算法而言均為有益因素。
4 結束語
本文提出了一種對師生網絡中間層進行加工的知識蒸餾算法APF-KD。首先對教師網絡特征空間進行處理,縮小師生空間結構差異,然后在傳遞的信息中加入注意力圖,提示學生重點所在,并對所有傳遞信息二次加工以幫助學生理解,提升小模型的學習性能。
實驗證明,本文提出的APF-KD算法具有通用性與適用性的特點,且算法中各部分均有益。在性能方面,APF-KD算法更具有競爭力。但由于算法在中間層進行多步操作,相比其他算法更加耗時,未來筆者將進一步探索如何縮減算法所需時間以擴大優勢。
參考文獻:
[1]LeCun Y,Bengio Y,Hinton G. Deep learning [J]. Nature,2015,521: 436-444.
[2]Krizhevsky A,Sutskever I,Hinton G. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM,2012,60: 84-90.
[3]He Kaiming,Ren Shaoqing,Sun Jian,et al. Deep residual learning for image recognition [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 770-778.
[4]Ravali B,Gowtham R. A survey on NLP based text summarization for summarizing product reviews [C]// Proc of the 2nd International Conference on Inventive Research in Computing Applications. 2020: 352-356.
[5]Jennifer J,Eric B,Gregory L,et al. Recommendation system: USA,7908183 [P]. [2023-12-12].
[6]Taigman Y,Yang M,Ranzato M,et al. DeepFace: closing the gap to human-level performance in face verification [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2014: 1701-1708.
[7]Li Shen,Sun Yan,Yu Zhiyuan,et al. On efficient training of large-scale deep learning models: a literature review [EB/OL]. (2023) [2023-12-12]. https://api. semanticscholar. org/CorpusID: 258041319.
[8]Wu Jiaxiang,Leng Cong,Wang Yuhang,et al. Quantized convolutional neural networks for mobile devices [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2015: 4820-4828.
[9]Song Han,Mao Huizi,Dally W. Deep compression: compressing deep neural network with pruning,trained quantization and Huffman coding [EB/OL]. (2015) [2023-12-12]. https://api. semanticscholar. org/CorpusID: 2134321.
[10]Ullrich K,Meeds E,Welling M. Soft weight-sharing for neural network compression [EB/OL]. (2017) [2023-12-12]. https://api. semanticscholar. org/CorpusID: 7067017.
[11]Chen Shi,Zhao Qi. Shallowing deep networks: layer-wise pruning based on feature representations [J]. IEEE Trans on Pattern Analy-sis and Machine Intelligence,2019,41: 3048-3056.
[12]Shi Bowen,Sun Ming,Kao C C,et al. Compression of acoustic event detection models with low-rank matrix factorization and quantization training [EB/OL]. (2018) [2023-12-12]. https://api. semanticscholar. org/CorpusID: 53381522.
[13]Povey D,Cheng Gaofeng,Wang Yiming,et al. Semi-orthogonal low-rank matrix factorization for deep neural networks [C]//Proc of the 19th Annual Conference on the International Speech Communication Association. 2018: 3743-3747.
[14]Howard A G,Zhu Menglong,Chen Bo,et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017) [2023-12-12]. https://api. sem-anticscholar. org/CorpusID: 12670695.
[15]Bucila C,Caruana R,Niculescu-Mizil A. Model compression: know-ledge discovery and data mining [C]// Proc of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York: ACM Press,2006: 535-541.
[16]Li Zhihui,Xu Pengfei,Chang Xiaojun,et al. When object detection meets knowledge distillation: a survey [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45: 10555-10579.
[17]Yang Chuanguang,Yu Xinqiang,An Zhulin,et al. Categories of response-based,feature-based,and relation-based knowledge distillation [EB/OL]. (2023) [2023-12-12]. https: //api. semanticscholar. org/CorpusID: 259203401.
[18]Passalis N,Tzelepi M,Tefas A. Heterogeneous knowledge distillation using information flow modeling [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. 2020: 2336-2345.
[19]Son W,Na J,Choi J. Densely guided knowledge distillation using multiple teacher assistants [C]// Proc of IEEE/CVF International Conference on Computer Vision. 2020: 9375-9384.
[20]Courbariaux M,Bengio Y. BinaryNet: training deep neural networks with weights and activations constrained to+1 or-1 [EB/OL]. (2016) [2023-12-12]. https://api. semanticscho-lar. org/CorpusID: 6564560.
[21]Zhao Kaiqi,Chen Yitao,Zhao Ming. A contrastive knowledge transfer framework for model compression and transfer learning [C]// Proc of IEEE Internationape+AlhneHmiRd4zQJR7vDQ==l Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2023: 1-5.
[22]Chen Yuntao,Wang Naiyan,Zhang Zhaoxiang. DarkRank: accelerating deep metric learning via cross sample similarities transfer [EB/OL]. (2017) [2023-12-12]. https://api. semanticscholar. org/CorpusID: 19207026.
[23]Ye Hanjia,Lu Su,Zhan Dechuan. Distilling cross-task knowledge via relationship matching [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12393-12402.
[24]Yim J,Joo D,Bae J H,et al. A gift from knowledge distillation: fast optimization,network minimization and transfer learning [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 7130-7138.
[25]Passalis N,Tzelepi M,Tefas A. Probabilistic knowledge transfer for lightweight deep representation learning [J]. IEEE Trans on Neural Networks and Learning Systems,2020,32: 2030-2039.
[26]Kim J,Park S,Kwak N. Paraphrasing complex network: network compression via factor transfer [EB/OL]. (2018) [2023-12-12]. https://api. semanticscholar. org/CorpusID: 36 08236.
[27]Tian Yonglong,Krishnan D,Isola P. Contrastive repre-sentation distillation [EB/OL]. (2019) [2023-12-12]. https://api. semanticscholar. org/CorpusID: 204838340.
[28]Chen Defang,Mei Jianhan,Zhang Hailin,et al. Knowledge distillation with the reused teacher classifier [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. 2022: 11923-11932.
[29]Zagoruyko S,Komodakis N. Paying more attention to attention: improving the performance of convolutional neural networks via attention transfer [EB/OL]. (2016) [2023-12-12]. https://api. semanticscholar. org/Corpus ID: 829159.
[30]Chen Defang,Mei Jianping,Zhang Yuan,et al. Cross-layer distillation with semantic calibration [C]// Proc of AAAI Conference on Artificial Intelligence. 2020.
[31]Su Chiping,Tseng C H,Lee S J. Knowledge from the dark side: entropy-reweighted knowledge distillation for balanced knowledge transfer [EB/OL]. (2023) [2023-12-12]. https://api.semanticscholar. org/CorpusID: 265444951.