融合弱層懲罰的卷積神經(jīng)網(wǎng)絡(luò)模型剪枝方法

2022-05-14 03:27:58房志遠(yuǎn)石守東鄭佳罄胡加鈿

計(jì)算機(jī)工程 2022年5期

房志遠(yuǎn)，石守東，鄭佳罄，胡加鈿

（寧波大學(xué)信息科學(xué)與工程學(xué)院，浙江寧波 315211）

0 概述

目前，深度卷積神經(jīng)網(wǎng)絡(luò)已在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域［1-3］取得了重大突破。但由于深度學(xué)習(xí)模型的計(jì)算和存儲(chǔ)需求巨大，在不斷更新任務(wù)精度的同時(shí)，模型參數(shù)量和網(wǎng)絡(luò)深度也隨之增長(zhǎng)，因此很難在一些資源受限的嵌入式設(shè)備上進(jìn)行部署。針對(duì)該問(wèn)題，研究人員提出了一系列解決方法，這些方法主要包括低秩近似［4］、知識(shí)蒸餾［5］、輕量化網(wǎng)絡(luò)結(jié)構(gòu)［6］、模型剪枝［7-8］等。它們從不同的角度考慮如何盡可能減少模型在推理過(guò)程中所需的隨機(jī)存儲(chǔ)器（工作內(nèi)存）、處理器計(jì)算（推理代價(jià)）、閃存（存放模型）等資源。

模型剪枝方法作為模型壓縮的重要分支，目前發(fā)現(xiàn)其可在保證精度沒(méi)有顯著下降的同時(shí)大幅減少模型大小和浮點(diǎn)操作數(shù)（Floating Points of Οperations，F(xiàn)LΟPs）。需要注意的是，卷積神經(jīng)網(wǎng)絡(luò)模型的低層卷積核趨向于提取粗級(jí)別特征（如點(diǎn)和線），高層卷積核則趨向于提取抽象特征（如常見(jiàn)的目標(biāo)和形狀）。因此，對(duì)于一個(gè)模型而言，每一層對(duì)最終模型的精度影響或貢獻(xiàn)是不一樣的。此外，考慮到在剪枝和訓(xùn)練期間網(wǎng)絡(luò)權(quán)重的重要性是動(dòng)態(tài)變化的［9］，在剪枝過(guò)程中對(duì)其進(jìn)行動(dòng)態(tài)更新在一定程度上可以提升模型精度。

本文提出一種融合弱層懲罰的結(jié)構(gòu)化模型剪枝方法。在局部層面，使用歐式距離計(jì)算各層中所有卷積核的信息距離，同時(shí)利用各層相關(guān)性值的數(shù)據(jù)分布特征判別層重要性，并對(duì)弱層中的卷積核進(jìn)行懲罰。在訓(xùn)練與剪枝過(guò)程中，通過(guò)全局掩碼技術(shù)對(duì)每一個(gè)卷積核實(shí)現(xiàn)動(dòng)態(tài)剪枝，每次剪枝算法會(huì)從全局層面評(píng)估每一個(gè)卷積核的冗余性。

1 相關(guān)工作

模型剪枝技術(shù)是通過(guò)去除模型中的冗余參數(shù)和結(jié)構(gòu)來(lái)實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的推理加速。現(xiàn)有模型剪枝方法可分為結(jié)構(gòu)化和非結(jié)構(gòu)化模型剪枝。

非結(jié)構(gòu)化剪枝也稱為權(quán)重剪枝，這些方法注重于剪枝卷積核的細(xì)粒度權(quán)重。文獻(xiàn)［10］提出使用二進(jìn)制掩碼來(lái)檢驗(yàn)連接神經(jīng)元是否被剪枝，并且考慮對(duì)已剪枝神經(jīng)元進(jìn)行恢復(fù)，從而減少過(guò)度剪枝所帶來(lái)的精度影響，在一定程度上保證了精度。但該方法需要通過(guò)專用的稀疏矩陣操作庫(kù)或硬件實(shí)現(xiàn)加速，且這樣不規(guī)則的結(jié)構(gòu)很難利用現(xiàn)有的基本線性代數(shù)子程序庫(kù)［11］。文獻(xiàn)［12］對(duì)基于“范數(shù)小重要性低”的剪枝標(biāo)準(zhǔn)進(jìn)行研究，提出基于范數(shù)標(biāo)準(zhǔn)剪枝的2 個(gè)依賴條件：1）核的范數(shù)分布應(yīng)該足夠大；2）核的最小范數(shù)值應(yīng)該非常小。基于此，又提出新的基于幾何中值的卷積核重要性判斷標(biāo)準(zhǔn)。文獻(xiàn)［13］為解決“硬剪枝”在訓(xùn)練過(guò)程中的不可恢復(fù)性，提出利用“軟”方式進(jìn)行動(dòng)態(tài)剪枝，在訓(xùn)練過(guò)程中可對(duì)已剪枝核的權(quán)值進(jìn)行更新。文獻(xiàn)［14］提出一種融合卷積層和BN 層雙層參數(shù)信息的動(dòng)態(tài)剪枝方法，該方法利用注意力機(jī)制以及BN 層縮放系數(shù)選擇冗余卷積核。文獻(xiàn)［15］為加速嵌入式端的表現(xiàn)，采用混合網(wǎng)絡(luò)剪枝進(jìn)一步減少網(wǎng)絡(luò)中的冗余參數(shù)并加速網(wǎng)絡(luò)。文獻(xiàn)［16］首先將BN 層的縮放因子與輸出相乘，接著聯(lián)合訓(xùn)練網(wǎng)絡(luò)權(quán)重和這些縮放因子，然后將較小縮放因子的通道剪枝，最后微調(diào)剪枝后的網(wǎng)絡(luò)。但是上述方法均存在以下問(wèn)題：一方面，通常層采用固定/均勻剪枝率對(duì)各卷積層實(shí)施剪枝，忽略了各層之間的差異性；另一方面，在一層內(nèi)通過(guò)局部重要性評(píng)估得到卷積核，無(wú)法說(shuō)明其對(duì)于整個(gè)模型的重要性。本文將考慮對(duì)各卷積層的重要性進(jìn)行判斷并進(jìn)行懲罰，從全局層面進(jìn)行評(píng)估，改善誤剪導(dǎo)致的精度下降問(wèn)題。

對(duì)于結(jié)構(gòu)化剪枝，現(xiàn)階段研究人員提出了自動(dòng)搜索網(wǎng)絡(luò)結(jié)構(gòu)的方法，該方法考慮各層之間的差異性，自動(dòng)探索和學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)，最終得到一個(gè)結(jié)構(gòu)化非均勻的剪枝模型。文獻(xiàn)［17］提出一種完全可微分的稀疏性方法，可以使用隨機(jī)梯度下降方法同時(shí)學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重和稀疏結(jié)構(gòu)。文獻(xiàn)［18］使用強(qiáng)化學(xué)習(xí)的方法實(shí)現(xiàn)自動(dòng)剪枝權(quán)重和卷積核，該方法得到了不錯(cuò)的效果，但訓(xùn)練成本較大。文獻(xiàn)［19］將預(yù)訓(xùn)練好的模型直接部署在資源受限的手機(jī)平臺(tái)上進(jìn)行壓縮，最后通過(guò)評(píng)估壓縮后的直接性能表現(xiàn)進(jìn)行反饋。文獻(xiàn)［20］利用生成器產(chǎn)生多個(gè)候選剪枝策略，每一個(gè)剪枝策略為各層剪枝率的組合，再通過(guò)基于自適應(yīng)BN 層的候選評(píng)估模塊挑選出最有可能的候選策略并進(jìn)行微調(diào)，該方法大幅降低了剪枝時(shí)間代價(jià)，但訓(xùn)練過(guò)程相對(duì)復(fù)雜。在多個(gè)模型和數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，該方法在保證精度損失較小的同時(shí)，有效地減少了模型參數(shù)量和FLΟPs。

本文引入基于幾何中值的卷積核重要性判斷標(biāo)準(zhǔn)［12］，提出一種融合弱層懲罰的結(jié)構(gòu)化非均勻模型剪枝方法。由于文獻(xiàn)［12］利用幾何中值理論證明了距離各層中幾何中值較近的卷積核可被該卷積層中其他卷積核替代，因此對(duì)這些卷積核進(jìn)行剪枝，對(duì)最終模型精度影響較小。本文利用該方法中核重要性判斷標(biāo)準(zhǔn)，實(shí)現(xiàn)了層重要性判斷和懲罰，并在全局層面進(jìn)行重要性評(píng)估。

2 融合弱層懲罰的結(jié)構(gòu)化模型剪枝方法

2.1 符號(hào)與定義

假設(shè)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)有L層，使用Ci和Ci+1分別表示ith卷積層的輸入輸出通道數(shù)，F(xiàn)i,j表示ith層的jth卷積核，其中：Fi,j的維度為，K表示核的尺寸。ith層的輸入特征圖S和輸出特征圖O分別為Ci×Hi×Wi和Ci+1×Hi+1×Wi+1，ith層的權(quán) 值Wi可表示為{Fi,j,1 ≤j≤Ci+1}。因此，ith層的卷積操作可表示為{O=Fi,j×S,1 ≤j≤Ci+1}，卷積神經(jīng)網(wǎng)絡(luò)可被參數(shù)化表示為1≤i≤L，Y=K×K×Ci+1}，F(xiàn)i,j的權(quán)重為

2.2 剪枝標(biāo)準(zhǔn)

利用歐式距離計(jì)算各卷積核相對(duì)于計(jì)算當(dāng)前卷積層的冗余性［12］。具體而言，卷積神經(jīng)網(wǎng)絡(luò)所有卷積層中卷積核的冗余性可以通過(guò)歐式距離求得，將其稱為信息距離R。例如，ith層的jth卷積核Fi,j的信息距離值可以表示如下：

通過(guò)式（1）所求出的信息距離值的數(shù)據(jù)分布在各卷積層中存在差異，圖1（a）給出了各卷積層中卷積核信息距離R的數(shù)據(jù)分布，其中黑色圓表示該層數(shù)據(jù)的平均值，曲線為R值的分布估計(jì)。圖1（b）為基于貢獻(xiàn)度歸一化的卷積核信息距離，卷積核整體向左偏移。通過(guò)全局篩選Z值較低的卷積核，并利用掩碼實(shí)現(xiàn)全局剪枝，其中黑色圓表示懲罰后的卷積核。全局剪枝后的效果如圖1（c）所示，其中黑色圓為需要剪枝的卷積核。

圖1 卷積神經(jīng)網(wǎng)絡(luò)模型剪枝流程Fig.1 Pruning procedure of convolutional neural network model

若直接通過(guò)信息距離R進(jìn)行全局剪枝可能會(huì)剪掉某一卷積層中所有的卷積核。針對(duì)該情況，對(duì)每一層中的卷積核進(jìn)行歸一化處理來(lái)消除這種差異性。同時(shí)，為了考慮對(duì)弱層進(jìn)行懲罰，需對(duì)每層乘上貢獻(xiàn)度，貢獻(xiàn)度較小的層在歸一化后會(huì)增加對(duì)該層卷積核的剪枝，如式（2）所示：

基于信息距離R可以較好地表明各卷積層中卷積核的冗余程度。因此，可以認(rèn)為某一層卷積核信息距離R的標(biāo)準(zhǔn)偏差（STD）越小，則該層卷積核之間的信息距離越接近，卷積核之間相似的可能性越高，如圖2（a）所示。相反地，如圖2（b）所示，STD 越大，該層卷積核之間相似的可能性越低。

圖2 卷積核信息距離與標(biāo)準(zhǔn)偏差的關(guān)系Fig.2 Relationship of information distance and standard deviation of convolution kernel

利用這種數(shù)據(jù)分布特征對(duì)弱層進(jìn)行識(shí)別。假設(shè)圖1 中的第2 層為需要識(shí)別的弱層，首先利用式（3）計(jì)算各卷積層相關(guān)性R值的標(biāo)準(zhǔn)偏差，再使用式（4）計(jì)算所有層的平均標(biāo)準(zhǔn)偏差，最后利用式（5）和式（6）對(duì)該層進(jìn)行判斷并對(duì)弱層加入貢獻(xiàn)度，貢獻(xiàn)度較低的層中卷積核的R值會(huì)得到懲罰，最終在全局重要性評(píng)估過(guò)程中對(duì)其進(jìn)行弱化。

2.3 剪枝過(guò)程

考慮到訓(xùn)練中卷積核的重要性是動(dòng)態(tài)變化的［17，21］，引入掩碼實(shí)現(xiàn)動(dòng)態(tài)剪枝。

動(dòng)態(tài)剪枝是指利用全局掩碼M對(duì)模型權(quán)值W進(jìn)行動(dòng)態(tài)更新，其中，為二進(jìn) 制掩碼，W=當(dāng)通過(guò)式（1）和式（2）計(jì)算出每一個(gè)卷積核信息距離Z后，根據(jù)全局剪枝率P對(duì)所有卷積核進(jìn)行篩選，得到符合條件的Call個(gè)卷積核，其中根據(jù)所選卷積核對(duì)掩碼M更新，并通過(guò)掩碼M對(duì)權(quán)重W更新。例如，滿足剪枝條件的集合為其中表示ith層的jth卷積核。經(jīng)過(guò)式（7）計(jì)算掩碼，再通過(guò)掩碼對(duì)滿足條件的卷積核進(jìn)行剪枝，操作形式如式（8）所示。

算法融合弱層懲罰的結(jié)構(gòu)化非均勻模型剪枝算法

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與訓(xùn)練策略設(shè)置

為驗(yàn)證本文提出方法的有效性，采用的數(shù)據(jù)集包括CIFAR-10、CIFAR-100 和SVHN 數(shù)據(jù)集。CIFAR-10 數(shù)據(jù)集包含50 000 張訓(xùn)練圖和10 000 張測(cè)試圖，共10 個(gè)種類。CIFAR-100 數(shù)據(jù)集的圖像數(shù)量和CIFAR-10 相同，共有100 個(gè)種類。SVHN 數(shù)據(jù)集為Google 的街景門(mén)牌號(hào)數(shù)據(jù)集，訓(xùn)練集包含73 257 個(gè)數(shù)字，測(cè)試集包含26 032 個(gè)數(shù)字，其中每一張圖像都由一組數(shù)字組成，圖像分辨率為32×32 像素的彩色圖像。在網(wǎng)絡(luò)結(jié)構(gòu)的選擇方面，包括單分支網(wǎng) 絡(luò)（VGG16）、多分支網(wǎng)絡(luò)（Resnet20、32、56、110），輕量化網(wǎng)絡(luò)（Mobilenet-v1），所有實(shí)驗(yàn)均使用深度框架PyTorch1.6.0，運(yùn)行于NVIDIA 2080TI GPU。

對(duì)于數(shù)據(jù)集CIFAR-10 和CIFAR-100 的訓(xùn)練策略和文獻(xiàn)［13］相同，輸入圖像分辨率為32×32 像素，使用Nesterov的隨機(jī)梯度下降，權(quán)重下降系數(shù)為5e-4，batchsize為128，初始學(xué)習(xí)率為0.1，在epoch為80、120、160時(shí)學(xué)習(xí)率降低10 倍，共訓(xùn)練200 個(gè)epoch。其中，數(shù)據(jù)增強(qiáng)策略和文獻(xiàn)［22］相同。對(duì)于輕量化網(wǎng)絡(luò)Moblienet-v1，修改第1 個(gè)卷積操作的stride 為1 以適合輸入圖像分辨率。

在剪枝策略上，本文方法從頭開(kāi)始迭代訓(xùn)練與剪枝模型，在每次訓(xùn)練后選擇剪枝操作。除VGG 模型外，其他模型不需要額外的微調(diào)恢復(fù)精度，從而降低訓(xùn)練的時(shí)間開(kāi)銷。同時(shí)，將本文方法（Οurs）與FPGM［12］、SFP［13］、GDP［21］、MIL［23］、PFEC［24］等方法進(jìn)行實(shí)驗(yàn)對(duì)比，其中，貢獻(xiàn)度為ν，GDP 為結(jié)構(gòu)化非均勻剪枝方法。

3.2 CIFAR-10 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

對(duì)于CIFAR-10 數(shù)據(jù)集，選擇在VGG16、Resnet20、Resnet32、Resnet56、Resnet110 和Mobilenet-v1 上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表1 所示，其中F.T 表示用較小的學(xué)習(xí)率對(duì)模型進(jìn)行訓(xùn)練恢復(fù)精度，“—”表示無(wú)有效實(shí)驗(yàn)結(jié)果。

表1 在CIFAR-10 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results on the CIFAR-10 dataset %

從VGG16 實(shí)驗(yàn)結(jié)果可以看出：相比于FPGM 方法，本文方法在各指標(biāo)上均有所提高；相比GDP 方法，本文方法的精度雖下降了0.23 個(gè)百分點(diǎn)，但FLΟPs 卻減少了39.9 個(gè)百分點(diǎn)。

從Resnet20、Resnet32、Resnet56 和Resnet110 實(shí)驗(yàn)結(jié)果可以看出：本文方法相比其他方法具有更高的剪枝模型精度，同時(shí)參數(shù)量和FLΟPs 也大幅減少；對(duì)于Resnet32，當(dāng)ν=0.9 時(shí)，本文方法在FLΟPs 和參數(shù)量分別減少46.8%和45.2%的情況下，精度甚至超過(guò)了基準(zhǔn)精度；對(duì)于Resnet56，當(dāng)ν=0.7 時(shí)，本文方法相比于GDP 方法精度提升0.42 個(gè)百分點(diǎn)的同時(shí)，F(xiàn)LΟPs 和參數(shù)量分別減少了8.3 和14.2 個(gè)百分點(diǎn)，相比于FPGM 方法精度提升0.45 個(gè)百分點(diǎn)的同時(shí)，F(xiàn)LΟPs 和參數(shù)量分別減少了7.4 和3.0 個(gè)百分點(diǎn)，相比于PFEC 方法，精度提升了1.84 個(gè)百分點(diǎn)且FLΟPs減少了33.4 個(gè)百分點(diǎn)；對(duì)于Resnet110，當(dāng)ν=0.9 時(shí)，本文方法在FLΟPs 下降66.8%的情況下，相比基準(zhǔn)精度僅損失了0.06 個(gè)百分點(diǎn)；對(duì)于Mobilenet-v1，當(dāng)參數(shù)量和FLΟPs 分別減少了95.3%和92.1%的情況下，本文方法精度相比于基準(zhǔn)精度僅損失了3.24 個(gè)百分點(diǎn)。

綜上所述，相比未考慮層差異性的SFP、PFEC、FPGM 和MIL 方法，本文方法可以剪枝出更好性能的模型，關(guān)鍵在于其考慮了對(duì)重要性較高的層減少剪枝，提高了模型精度，同時(shí)對(duì)Mobilenet-v1 進(jìn)行剪枝的結(jié)果表明，本文方法同樣適用于輕量化網(wǎng)絡(luò)結(jié)構(gòu)剪枝，經(jīng)過(guò)剪枝后的Mobilenet 模型所占內(nèi)存更小、推理速度更快。

3.3 CIFAR-100 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

對(duì)于CIFAR-100 數(shù)據(jù)集，選擇在Resnet32、Resnet56 和Resnet110 上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表2所示。

表2 在CIFAR-100 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results on the CIFAR-100 dataset %

從Resnet20、Resnet56 和Resnet110 實(shí)驗(yàn)結(jié)果可以看出：對(duì)于Resnet32，當(dāng)ν=0.9 時(shí)，本文方法精度相比于基準(zhǔn)精度僅損失2.02 個(gè)百分點(diǎn)的情況下，F(xiàn)LΟPs 和參數(shù)量分別減少了49.8%和48.5%，相比于SFP 方法精度提升了0.6 個(gè)百分點(diǎn)，相比于FPGM 方法精度提升了0.55 個(gè)百分點(diǎn)；對(duì)于Resnet56，本文方法同樣優(yōu)于對(duì)比方法，例如，當(dāng)ν=0.9 時(shí)，相比于FPGM 方法精度提升了0.32 個(gè)百分點(diǎn)，但FLΟPs 和參數(shù)量分別減少了6.3 和3.6 個(gè)百分點(diǎn)，相比于SFP方法精度提升了1.19個(gè)百分點(diǎn)；對(duì)于Resnet110，當(dāng)ν=0.9時(shí)，本文方法精度相比于FGPM方法提升了1.49 個(gè)百分點(diǎn)，F(xiàn)LΟPs 和參數(shù)量分別減少了8.6 和5.2 個(gè)百分點(diǎn)，在精度和其他性能之間獲得了更好的權(quán)衡。

總體而言，本文方法可以在提高精度的同時(shí)大幅減少參數(shù)量和FLΟPs，這關(guān)鍵在于剪枝算法引入了弱層的識(shí)別與懲罰，將卷積核從局部卷積層面的重要性評(píng)估上升為全局網(wǎng)絡(luò)層面的重要性評(píng)估。使用該處理方式，當(dāng)提高全局剪枝率時(shí)，剪枝算法會(huì)增加對(duì)弱層的剪枝。因此，最終模型精度損失在很小的情況下，卻可以更多地減少模型FLΟPs 和參數(shù)量。

為驗(yàn)證本文提出的剪枝方法所識(shí)別的弱層的合理性，使用Resnet32 在CIFAR-100 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。對(duì)本文方法所識(shí)別到的弱層分別進(jìn)行剪枝與訓(xùn)練（剪枝率為0.8），測(cè)試各層對(duì)最終模型精度的影響。實(shí)驗(yàn)結(jié)果如圖3 所示，其中基準(zhǔn)精度為71.21%。從圖3 可以看出，在對(duì)弱層保留較少特征的情況下，模型依然獲得了較好的精度，可以認(rèn)為所識(shí)別到的弱層對(duì)最終模型的影響較小，驗(yàn)證了本文方法的有效性。

圖3 弱層在較高剪枝率下訓(xùn)練得到的模型精度Fig.3 Model accuracy of the weak layer trained at a higher pruning rate

3.4 SVHN 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

對(duì)于SVHN 數(shù)據(jù)集，本文選擇在多分支網(wǎng)絡(luò)Resnet32 和輕量化網(wǎng)絡(luò)Mobilenet-v1 上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表3 所示。從表3 可以看出：對(duì)于Resnet32，本文方法可以在精度僅損失0.65 個(gè)百分點(diǎn)的情況下，參數(shù)量和FLΟPs 分別減少了80.0% 和82.4%；對(duì)于Mobilenet-v1，本文方法可以在模型精度沒(méi)有大幅下降的情況下，參數(shù)量和FLΟPs分別減少了92.7%和95.3%；原始模型過(guò)度參數(shù)化，從而驗(yàn)證了本文剪枝方法的有效性。

表3 在SVHN 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results on the SVHN dataset %

3.5 相關(guān)參數(shù)對(duì)模型性能的影響

為研究貢獻(xiàn)度對(duì)模型性能的影響程度，在CIFAR-10數(shù)據(jù)集上對(duì)貢獻(xiàn)度為1.0、0.9、0.7、0.5 和0.1 下的模型精度、FLΟPs和參數(shù)量減少率進(jìn)行統(tǒng)計(jì)，實(shí)驗(yàn)結(jié)果如表4所示。從表4 可以看出，Resnet32 和Resnet56 分別在ν=0.9、ν=0.7 時(shí)獲得最佳性能，說(shuō)明貢獻(xiàn)度ν在一定程度上提升了模型性能，同時(shí)也證明了本文方法的有效性，但是過(guò)度懲罰弱層會(huì)導(dǎo)致精度大幅下降。

表4 層貢獻(xiàn)度比較結(jié)果Table 4 Comparison results of layer contribution

為進(jìn)一步研究剪枝算法的性能，對(duì)比Resnet110 在不同F(xiàn)LΟPs 下本文方法的模型精度變化情況。如圖4所示：當(dāng)FLΟPs 減少率約小于18%時(shí)，模型精度得到了提升，說(shuō)明通過(guò)本文方法進(jìn)行剪枝，當(dāng)剪枝率較小時(shí)，模型得到了正則化作用，增強(qiáng)了模型泛化能力；當(dāng)FLΟPs減少率約大于67%時(shí)，模型得到大幅剪枝，模型的表征能力受到影響，模型精度也因此下降明顯。

圖4 不同F(xiàn)LOPs下Resnet110在CIFAR10數(shù)據(jù)集上的模型精度Fig.4 Model accuracy of Resnet110 on CIFAR10 dataset under different FLOPs

對(duì)于層的重要性判斷，本文采用2 種重要性判斷閾值作為對(duì)比，實(shí)驗(yàn)結(jié)果如表5 所示。在實(shí)驗(yàn)中，相同網(wǎng)絡(luò)設(shè)置相同的配置參數(shù)，每個(gè)實(shí)驗(yàn)進(jìn)行3 次，使用平均值加上標(biāo)準(zhǔn)差作為實(shí)驗(yàn)結(jié)果。從表5 可以看出相比于整體性能有所提升，驗(yàn)證了選擇作為重要性判斷閾值的正確性與有效性。

表5 在不同重要性判斷閾值下的模型精度Table 5 Model accuracy under different importance judgment thresholds %

4 結(jié)束語(yǔ)

本文提出一種融合弱層懲罰的結(jié)構(gòu)化非均勻模型剪枝方法，使用歐式距離計(jì)算各卷積層中所有卷積核的信息距離，利用各層信息距離值的數(shù)據(jù)分布特征識(shí)別層的冗余性，并通過(guò)基于貢獻(xiàn)度的歸一化函數(shù)消除各層之間的差異性，同時(shí)從全局層面評(píng)估卷積核重要性，從而篩選卷積核。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，相比于FPGM、SFP、GDP、MIL、PFEC 等方法，本文方法剪枝得到的網(wǎng)絡(luò)模型獲得了較好的性能提升，且不需要特殊的軟件和硬件加速，為下一步模型部署奠定了基礎(chǔ)。后續(xù)可將本文剪枝算法應(yīng)用到基于深度學(xué)習(xí)的坐姿識(shí)別等任務(wù)中，利用其對(duì)深度學(xué)習(xí)人體姿態(tài)估計(jì)模型進(jìn)行剪枝，減少人體姿態(tài)估計(jì)模型提取骨骼特征所需的計(jì)算和存儲(chǔ)資源，使深度學(xué)習(xí)模型可在保證識(shí)別精度的情況下加快檢測(cè)速度，并結(jié)合模型量化等技術(shù)，提升深度學(xué)習(xí)模型在嵌入式設(shè)備上的運(yùn)行效率。