999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于融合多級注意力遷移的神經網絡壓縮方法

2023-02-17 01:54:16李俊杰彭書華郭俊倫
計算機應用與軟件 2023年1期
關鍵詞:融合方法模型

李俊杰 彭書華 郭俊倫

(北京信息科技大學自動化學院 北京 100101)

0 引 言

隨著卷積神經網絡(Convolutional Neural Network,CNN)技術的不斷發展,在圖像處理方面,相較于傳統算法,卷積神經網絡表現得更加能夠適應任務的需求,且其優異性是傳統算法所不能及的。卷積神經網絡的能力之所以能夠如此優越,很大一部分原因是其網絡深度的不斷增加,能夠從圖像數據中提取出更高層更抽象的特征。但是隨著網絡深度的增加,其結構也越來越復雜,網絡模型所需要的存儲空間和浮點計算次數也成倍地增加,這些擁有百萬級網絡參數和上億次浮點運算的網絡模型非常消耗存儲空間和計算能力。

得益于圖形處理器(Graphics Processing Unit,GPU)強大的計算能力,縮短神經網絡模型的訓練周期,加速了神經網絡的計算,卷積神經網絡不斷地被應用于計算機視覺領域,并且取得了突破性的成效,如圖像分類、語義分割和目標檢測等都使用了卷積神經網絡技術。但是在實際應用中,往往使用的是一些內存小、計算能力弱的嵌入式設備,而精度高但是結構復雜的網絡模型很難在這些資源受限的設備上存儲和運行,神經網絡壓縮與加速技術便應運而生,目的就是在盡量保證網絡模型性能的情況下,降低網絡模型的計算量和減少存儲空間。目前主流的網絡壓縮與加速方法[1]主要有以下六種:網絡剪枝、參數共享、權值量化、低秩分解、緊湊型網絡設計和網絡精餾。

網絡精餾相較于其他的方法有著優秀的壓縮效果,它是利用學生網絡學習教師網絡所學習到的知識來提升學生網絡的準確度,從而達到網絡壓縮的目的,其中學生網絡擁有較少的網絡參數。Hinton等[2]提出了知識蒸餾的方法,使用雙網絡結構將教師網絡學習到的知識,即數據標簽的軟分布傳遞給學生網絡。Romero等[3]突出了Fitnets模型,引導學生網絡學習教師網絡中間的輸出。Zagoruyko等[4]將注意力機制引入了網絡精餾的方法中,將教師網絡學習到的注意力作為“知識”傳遞給了學生網絡。Zhou等[5]提出了新的網絡精餾結構,使教師網絡與學生網絡共享基層網絡,同時提升教師和學生網絡的精度,但是犧牲了學生網絡的靈活度。Mirzadeh等[6]提出了多級網絡精餾,使用一個中等規模的網絡作為“教師助理”,將大規模教師網絡和小規模學生網絡相聯系,能夠有效提升學生網絡的性能。此外,網絡精餾在其他的任務上也有很好的應用效果。高欽泉等[7]將此方法改進之后運用在了高分辨率的圖片的處理中。Li等[8]和Chen等[9]將網絡精餾的方法引入到目標檢測。

網絡精餾的主要問題是教師網絡與學生網絡之間所要傳遞的“知識”,因此,本文提出一種新穎的方法,使用多級注意力機制融合的方法,將融合成的新的注意力圖作為“知識”由教師網絡傳遞給學生網絡,提升學生網絡的準確度,實現模型壓縮的目的。

1 相關知識

1.1 注意力機制

注意力機制最早在自然語言處理等領域中提出并使用,取得了相當不錯的效果,后被引入了計算機視覺領域。其基本思想是:網絡中每層輸出特征的重要性是不同的,這種差異可以體現在通道(Channel Domain)上,也可以體現在空間域(Spatial Domain)上,之后的網絡層更應該注重其中重要的信息,而抑制不重要的信息。在卷積神經網絡的應用中,Jaderberg等[10]提出的STNet網絡模型是空間域上的注意力機制的體現,它所關注的是空間上的位置信息,而Hu等[11]提出的SENet網絡模型改變了不同通道的權重,是通道域上注意力機制的體現,Woo等[12]將通道注意力和空間注意相融合,利用空間域和通道域的注意力機制并聯或者串聯,提出了CBAM網絡模型。而SKNet的提出者Li等[13]著重于卷積核的重要性,利用不同尺度的卷積核來篩選網絡層輸出的特征圖,進而形成帶有注意力機制特征圖。

1.2 注意力遷移

Zagoruyko等[4]將注意力機制引入到網絡精餾中,利用教師網絡學習到的注意力機制來提升學生網絡的性能,提出了注意力遷移(Attention Transfer)的方法。該方法利用網絡中間卷積層輸出的特征圖(Feature Map)生成注意力圖(Attention Map)的方式,并且以相同的生成注意力圖的策略使用在教師和學生網絡中,在教師-學生網絡聯合訓練中,保持教師網絡參數不變,不斷縮小二者生成的注意力圖的距離損失(Attention Transfer Loss),達到注意力遷移的目的,同時配合真實數據標簽的損失,訓練學生網絡的參數,以提升學生網絡的準確度。其結構如圖1所示。

圖1 注意力機制遷移網絡結構

2 本文方法

2.1 融合多級注意力遷移網絡結構

Zagoruyko等[4]所提出的注意力機制遷移的方法中,相鄰的卷積塊所生成的注意力圖是相互獨立的,沒有充分利用相鄰卷積塊所生成的注意力圖之間的聯系,為此,本文提出一種基于教師-學生網絡結構的融合多級注意力的遷移方法,融合多級注意力遷移方法將教師網絡相鄰的卷積塊所生成的注意力圖相融合,打破了各級注意力圖之間互相獨立的關系。新的注意力圖不僅僅擁有教師網絡該位置卷積塊所學習到的注意力機制,同樣也會繼承其相鄰上一級卷積塊所學習到的注意力信息,有助于學生網絡不僅僅學習教師網絡中相對應位置的注意力信息,還會學習上一級的注意力圖中的注意力信息。同時,融合多級注意力遷移的方法有助于緩解學生網絡中由于網絡本身結構中如卷積層和池化層所導致的信息丟失,從而增強學生網絡的特征提取能力,提升網絡模型的性能,其網絡結構如圖2所示。

圖2 融合多級注意力網絡結構

設S、T、WS、WT分別表示學生網絡和教師網絡以及它們所對應的權重,L(W,x)表示標準交叉熵,I表示所有要遷移的注意力圖的索引。可以定義以下損失函數:

(1)

2.2 生成注意力圖的方式

注意力圖是由教師網絡中間層輸出特征圖映射而成的。定義一個卷積層的輸出的特征圖是A∈R(C×H×W),其中:C表示輸出特成圖的通道數;H和W表示輸出特征圖的空間維度。函數F表示將3D特征圖映射成為2D空間注意力圖,如圖3所示。

圖3 生成注意力

函數F可表示為:

F:RC×H×W→RH×W

(2)

Zagoruyko等[4]提出了基于通道維度信息上的三種方法,分別為通道絕對值求和、絕對值指數求和、指數最大值。其定義公式如下:

(3)

(4)

(5)

式中:Ai,H,W表示通道域上的元素級別的運算。

本文提出將空間域上的信息與通道域上的信息相融合的方式,定義一個卷積層的輸出的特征圖是A∈RC×H×W,其中:C表示輸出特成圖的通道數;H和W表示輸出特征圖的空間維度。首先通過函數H將3D特征圖A∈RC×H×W映射成為1D張量B∈RC×1×1,再將A∈RC×H×W與B∈RC×1×1進行通道域上的運算,得到3D張量C∈RC×H×W,最后函數F映射成為2D注意力圖。其中函數H的定義公式如下:

(6)

其結構示意圖如圖4所示。

圖4 生成融合注意力

3 實 驗

3.1 實驗數據集及設置

本文使用公開的基準數據集CIFAR進行訓練和測試,CIFAR- 10數據集由10類32×32的彩色圖片組成,總共包含60 000幅圖片,其中訓練集為50 000幅圖片,而測試集有10 000幅圖片。而在CIFAR- 100數據集中,將類別擴展到了100類。

本文方法在CIFAR數據集上,使用標準的隨機梯度下降法(Stochastic Gradient Descent,SGD)訓練模型,設置批次大小(Batch Size)為128,基礎學習率(Learning Rate)為0.1,衰減率為0.2,權重衰減(Weight Decay)為0.000 5,每次訓練300輪,其中學習率分別在第60、120、160、200、250、270輪時進行衰減。

實驗中用到的主干網絡是殘差網絡(ResNet),由于CIFAR數據集中的圖像數據擁有較小的分辨率,且在神經網絡中會對圖片進行向下采樣,從而頂層得到的特征圖的分辨率會更低,所以在每層卷積的輸出都會使用零填充(Zero Padding)進行處理。此外,對數據集使用水平翻轉(Horizontal flips)和隨機裁剪(Random crops)進行數據增強,并且所有網絡都具有批量歸一化功能。本文所有實驗均在PyTorch框架下進行,使用NVIDIA GPU。

3.2 融合多級注意力遷移實驗結果及分析

在本實驗中,分別測試了具有相同網絡深度但輸出特征圖數量不同的教師-學生網絡(NET- 162/NET- 161)和不同網絡深度但輸出特征圖數量相同的教師-學生網絡(NET-401/NET- 161、NET- 402/NET- 162)以及不同網絡深度且輸出特征圖數量不同的教師-學生網絡(NET- 402/NET- 161)。在教師-學生網絡的聯合訓練中,保持教師網絡參數不變,對學生網絡的參數進行計算。實驗結果如表1所示,實驗數據集使用CIFAR- 10數據集,實驗所采用的注意力圖映射函數為Fsum(A)。

表1 各個算法的錯誤率(%)

由表1可知,使用了融合多級注意力遷移方法的學生網絡(MAT),相較于不使用任何方法的學生網絡(Stu)準確率提升了1.0百分點到1.5百分點,相較于傳統的知識蒸餾[2](KD)準確率提升了0.2百分點至0.5百分點,相較于注意力遷移[4](AT)在網絡結構(NET- 401/NET- 161、NET- 402/NET- 161)中準確率提升了0.30百分點至0.45百分點。

其中,NET- 402、NET- 401、NET- 162和NET- 161的參數量分別為2.2 MB、0.6 MB、0.7 MB和0.2 MB。由此可見,將學生網絡參數量縮小為教師網絡三分之一,甚至更低的情況下,本文方法進一步提升了學生網絡的準確度。

3.3 注意力圖映射函數實驗結果與分析

表2 不同映射函數的錯誤率(%)

3.4 在CIFAR- 100數據集上的實驗結果

為了進一步驗證融合多級注意力遷移方法,選擇了類別更多的CIFAR- 100進行實驗,使用注意力圖映射函數Fsum(A)。其結果如表3所示。

表3 在CIFAR- 100數據集上的錯誤率(%)

從表3中數據可知,在類別更多的數據集中,使用了融合多級注意力遷移的學生網絡(MAT)相比較于原始學生網絡(Stu),準確率提升了1.5百分點到3.0百分點,而相比于注意力遷移(AT),準確率也有所提升,其中NET- 401/NET- 161提升比較大,有2.0百分點的提升。這進一步驗證了融合多級注意力遷移方法在網絡精餾的框架中能夠有效提升學生網絡準確率的作用。

4 結 語

本文所提出的基于教師-學生網絡的融合多級注意力遷移的方法,進一步驗證了注意力機制在網絡精餾方法中所具有的獨特作用。融合多級注意力方法打破了教師網絡模型中各個卷積塊生成注意力圖的獨立關系,使相鄰的注意力圖相融合,形成了更加緊密的聯系,同時也緩解了數據信息的丟失。相比于教師網絡,在學生網絡的參數量減少為教師網絡的參數量的三分之一甚至更多的情況下,準確率的損失僅有1.5百分點至2.5百分點,而相比于其他方法,融合多級注意力遷移的方法進一步提升了學生網絡的準確率。

基于教師-學生網絡結構的網絡精餾,由于其學生網絡要學習教師網絡的“知識”,所以在結構方面很大程度受限于教師網絡本身的結構,沒有足夠的靈活性,在之后的工作中,將進一步研究更加有效的注意力遷移策略。

猜你喜歡
融合方法模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲欧美日韩成人在线| 97se综合| 天堂亚洲网| 国产精品夜夜嗨视频免费视频| 亚洲A∨无码精品午夜在线观看| 美女高潮全身流白浆福利区| 国产乱人伦AV在线A| 亚洲日韩久久综合中文字幕| 亚洲最大综合网| 国产高清在线丝袜精品一区| 欧美三级视频在线播放| 免费看的一级毛片| 中国一级特黄大片在线观看| 亚州AV秘 一区二区三区| 亚洲精品va| 欧美一区二区三区国产精品| 亚洲午夜天堂| 日本国产在线| 亚洲床戏一区| 日韩精品亚洲一区中文字幕| 欧美色99| 亚洲欧美天堂网| 国产成人你懂的在线观看| 国产微拍精品| 欧美a在线| 久草视频一区| 青青草国产精品久久久久| 亚洲欧洲免费视频| 亚洲经典在线中文字幕| 亚洲欧美综合另类图片小说区| 亚洲国产理论片在线播放| 国产污视频在线观看| 久久这里只有精品2| 亚洲国产精品无码AV| 手机在线国产精品| 91福利免费视频| 国产精品永久久久久| 国产成人免费| 国产免费网址| 18禁色诱爆乳网站| 亚洲动漫h| 日韩高清在线观看不卡一区二区| 18禁影院亚洲专区| www成人国产在线观看网站| 国产精品蜜芽在线观看| 久久国产毛片| 找国产毛片看| 动漫精品中文字幕无码| 婷婷色婷婷| 亚洲成综合人影院在院播放| 美女被狂躁www在线观看| 国产门事件在线| 99久久精品国产精品亚洲| 国产精品19p| 精品国产www| 韩日免费小视频| 久久99国产综合精品1| 日韩免费毛片| 国产激情无码一区二区三区免费| 亚洲色图在线观看| 国产精品免费福利久久播放| 成年看免费观看视频拍拍| 国产精品三区四区| 婷婷综合缴情亚洲五月伊| 国产97区一区二区三区无码| 操美女免费网站| 国产杨幂丝袜av在线播放| 国产视频资源在线观看| 又污又黄又无遮挡网站| 国内黄色精品| 91福利免费视频| 欧美综合在线观看| 国产毛片高清一级国语| 亚洲精品成人片在线观看| 五月综合色婷婷| 99国产在线视频| 国产亚洲第一页| 欧美一区二区啪啪| 欧美h在线观看| 一级毛片在线直接观看| 九九视频免费在线观看| 国产一级片网址|