999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于稀疏正則化的卷積神經網絡模型剪枝方法

2021-10-15 10:07:56陳世超朱鳳華
計算機工程 2021年10期
關鍵詞:模型

韋 越,陳世超,朱鳳華,熊 剛

(1.中國科學院大學人工智能學院,北京 100049;2.中國科學院自動化研究所復雜系統管理與控制國家重點實驗室,北京 100190;3.澳門科技大學 資訊科技學院,澳門 999078)

0 概述

隨著深度神經網絡性能的提升,網絡模型參數量和計算量也日益增長,AlexNet[1]、VGGNet[2]、GoogleNet[3]、ResNet[4]等經典神經網絡模型深度不斷增加,逐漸超過100 層。深層大型模型的部署對計算量和存儲資源提出了很高要求,使其難以應用到資源受限的移動和可穿戴設備上,應用受到了很大限制。同時,神經網絡中存在很多冗余參數,文獻[5]研究表明:神經網絡模型中可能只要用5%的網絡參數就能預測剩余的參數,甚至只要訓練小部分參數就能達到和原網絡相近的性能,這證明了神經網絡的過度參數化。為降低計算成本,同時保證神經網絡模型性能,研究人員提出模型剪枝方法,通過剪除網絡模型中不重要的參數,壓縮模型的體積和計算量,從而使得神經網絡變得輕量化。模型剪枝的核心是對模型參數的重要性進行評價[6-7]。現有的模型剪枝方法多數依據參數自身的信息進行判別,忽略了其他網絡層的信息。模型稀疏化是一種有效的模型壓縮方法,通過在模型訓練過程中對參數的優化過程增加限制條件,使模型的參數稀疏化以獲得結構稀疏的網絡模型,并且將模型剪枝和模型稀疏化相結合,可以進一步提升模型剪枝準確率和運算效率。

本文受此啟發,提出一種基于稀疏正則化的卷積神經網絡(Convolutional Neural Network,CNN)模型剪枝方法,利用L1 正則化在模型訓練中的稀疏化作用,對模型卷積層和BN 層參數進行稀疏正則化訓練,獲得權值稀疏的神經網絡模型,再根據濾波器的稀疏性和BN 層的特征縮放系數對兩者的重要性進行評估,最終利用結構化剪枝方法剪除稀疏濾波器及對應的連接。

1 相關工作

模型剪枝是一種主流的模型壓縮方法,通過對不重要的神經元、濾波器或者通道進行剪枝,能有效壓縮模型的參數量和計算量。文獻[8]通過對網絡中神經元不斷的迭代剪枝得到一個精簡的網絡模型。文獻[9]提出由模型剪枝、參數量化和哈夫曼編碼組成的一套完整模型壓縮流程,極大減小了模型的體積,且對模型的準確率沒造成太大損失。對于神經元的剪枝是非結構化剪枝,需要特殊的硬件設備和工具加以輔助才能有效部署,而針對濾波器與通道的結構化剪枝沒有這方面的局限性,剪枝后的模型能直接部署到現有的硬件設備和深度學習架構中,但非結構化剪枝和結構化剪枝都需要對參數重要性進行評價。文獻[6]根據模型參數的權重大小確定重要性,將低于設定閾值的參數剪除。文獻[7]通過計算各濾波器的幾何中位數,將數值相近的濾波器剪除。以上研究根據參數自身信息進行重要性判別,可能會造成偏差。

模型稀疏化是一種提升模型剪枝效果的有效方法。本文使用的稀疏性是指模型參數的部分子集的值為0這一屬性,稀疏度是指稀疏參數占模型總參數的比例,較高的稀疏度意味著較低的存儲要求。文獻[10]通過對濾波器進行稀疏約束,得到權值稀疏的濾波器,加快了模型收斂速度。文獻[11]提出一種結構化稀疏學習方法,對深度神經網絡的濾波器、通道、濾波器形狀和深度結構進行正則化處理,強制深度神經網絡學習更加緊湊的結構,但不會降低準確率。文獻[12]在深度神經網絡中通過高稀疏性降低存儲與推理成本,且能在資源受限的環境中部署模型。

研究人員還提出許多解決方案來稀疏化神經網絡并保持原始網絡準確率,例如在訓練過程中使用稀疏表示[13-14]、稀疏性代價函數[15-16]和稀疏正則化[11,17]。文獻[18-20]利用貝葉斯統計和信息論對模型參數的Fisher信息進行估計,得到比已有研究成果更高的壓縮率。從計算角度看,由于越來越多的神經網絡模型采用ReLU激活函數,而函數在輸入為0 處的值同為0,值為0 的權重在模型運算推理過程中反饋的信息量小,因此被認為重要性低于非0 權重,可以將其剪除,文獻[21]將神經元的激活值為0 的平均比例作為評價神經元重要性的標準,可以精準地剪除冗余的神經元。在稀疏神經網絡中包含大量權重為0 的神經元,將稀疏神經網絡與模型剪枝相結合可以很好地發揮兩者的優勢。基于權重幅度的剪枝方法具有較高的壓縮率且準確率損失很小,而稀疏化的引入可使剪枝方法的準確率得到進一步提升,計算復雜度也大幅降低。

2 基于稀疏正則化的卷積神經網絡模型剪枝

針對深度神經網絡壓縮和過度參數化造成的過擬合問題,本文根據卷積層和BN 層的權重參數,提出基于稀疏正則化的卷積神經網絡模型剪枝方法。

2.1 稀疏正則化訓練

本文首先通過對模型進行稀疏正則化訓練,使得網絡部分參數在訓練中趨向于0 或者等于0,進而獲得權重較為稀疏的深度神經網絡模型;接著對模型進行剪枝,剪除稀疏的濾波器和通道;最后對模型進行微調,恢復模型準確率。

在神經網絡中,卷積層和BN 層被廣泛使用。在卷積層中,減少濾波器數量能有效降低網絡參數量和計算量,同時加速模型的推理速度。在BN 層中,每個BN層的特征縮放系數對應每個通道,代表其對應通道的激活程度[22]。BN 層的運算公式如式(1)所示:

其中:Zin為輸入;Zout為輸出;μc和σc分別為輸入激活值的均值和方差;α和β分別為對應激活通道的縮放系數和偏移系數。

L1 正則化對神經網絡的稀疏作用已被證明并得到廣泛使用[23-24]。本文在損失函數中添加懲罰因子,對卷積層的權重與BN 層的縮放系數進行約束,并將模型稀疏化,正則化系數λ越大,約束力度越大。正則項δ如式(2)所示:

其中:R(?)表示正則化范數,本文選用L1 正則化,即L1 范數;W表示卷積核的權重或BN 層的縮放系數。對于卷積核的權重W={w1,w2,…,wm},R(W)=;對于縮放系數α,R(α)=|α|。

損失函數如式(3)所示:

其中:L為原損失函數;λ控制權重的稀疏約束程度。

在訓練過程中,求R(W)對W的偏導:

其中:sign(?)是符號函數,對W的符號進行判斷,在W<0、W=0、W>0 時分別取?1、0、1。

通過式(5)對權重W對應的梯度gW進行更新:

目標函數L'對W求偏導:

本文對卷積神經網絡的濾波器和BN 層進行稀疏正則化訓練,并對稀疏通道和稀疏濾波器進行剪枝操作,這些通道和濾波器因為本身的稀疏性而不會對模型整體造成較大的損失,所以可以安全剪除。

2.2 剪枝和微調

通過稀疏正則化訓練后得到含有較多稀疏權重的模型,其中許多權重都接近于0,利用式(7)求濾波器權重絕對值的和,獲得濾波器的整體權值信息,權值大小是體現重要性的一部分。

其中:Ex表示濾波器x的權重絕對值的和;k表示濾波器x中的卷積核數目;Wj表示濾波器x中的第j個卷積核;R(Wj)表示求卷積核Wj的L1 范數。

結合縮放系數α和濾波器權重絕對值的和Ex,利用卷積層和BN 層的權重信息,對濾波器的重要性進行綜合判斷,得到重要性評分函數mi:

其中:mi為第i個濾波器的重要性評分;αi為第i個濾波器對應的BN 層的縮放系數;Ei為通過式(7)求得的第i個濾波器權重絕對值的和。

通過式(8)獲得網絡整體的濾波器評分集M={m1,m2,…,mn}后,根據預設剪枝率P和式(9)對每層的濾波器進行篩選得到剪枝閾值θ:

其中:θ為剪枝閾值;sortP(?)表示將對象按升序排序,并取P位置的數輸出。

剪枝率P根據剪枝的模型不同進行選擇,例如VGG-16模型設定的剪枝率為70%,通過式(9)獲得評分在M集中70%處的值作為剪枝閾值θ,將所有評分低于剪枝閾值θ的70%的濾波器進行剪除,保留剩下30%的濾波器。如圖1所示,將符合剪枝要求的濾波器及對應縮放系數進行剪除,得到剩下的濾波器E′和縮放系數α′,特征圖也會相應減少,最終得到更加緊湊的網絡模型。在進行較大幅度的剪枝后,模型準確率有可能會下降,因此通過對剪枝后的模型進行微調,恢復損失的準確率。

圖1 基于稀疏正則化的卷積神經網絡模型剪枝流程Fig.1 Pruning procedure of convolutional neural network model based on sparse regularization

3 實驗結果與分析

為驗證模型剪枝方法的效果,基于Pytorch 框架,在VGGNet[2]、ResNet[25]和DenseNet[26]模型上進行實驗驗證。

3.1 實驗設定

本文采用隨機梯度下降(Stochastic Gradient Descent,SGD)方法進行模型訓練,設置訓練100 個回合,學習率為0.1,并在進行到1/2 至3/4 的回合時學習率衰減為原來的1/10。在進行稀疏正則化訓練時,正則化系數λ設置為0.000 1。

稀疏化訓練完成后對模型進行剪枝,分別根據式(7)和式(8)對模型的濾波器和BN 層的權重進行綜合判別,通過式(9)按預定的剪枝率將不重要的部分剪除,因為剪枝的是模型稀疏的部分,所以對模型的性能沒有較大影響,且可以通過微調恢復模型的準確率,微調的步數為40 或80 步,微調的學習率為0.001。

3.2 不同數據集上的對比結果

為對比模型剪枝前后的性能變化,本文在數據集上選用標準的CIFAR-10、CIFAR-100數據集和SVHN數據集。CIFAR-10 是深度學習領域常用的圖片數據集,該數據集分為10 個類別,每個類別6 000 張圖像,共有60 000 張彩色圖像,圖像大小為32×32,訓練集包含50 000 張圖像,測試集包含10 000 張圖像。CIFAR-100 是CIFAR-10 數據集的一個衍生數據集,區別是CIFAR-100 數據集包含100 個類別,每個類別有600 張圖像,因此CIFAR-100 數據集比CIFAR-10數據集對模型的分類性能要求更加嚴格。SVHN 是街景門牌號數據集,由圖像大小為32×32 的彩色圖片組成,每張圖片包含一組阿拉伯數字,訓練集包含73 257 個數字,測試集包含26 032 個數字。

在3 個數據集上的測試結果如表1~表3 所示,其中:準確率為Top-5 準確率,表示模型輸出的排名前5 個種類中包含正確結果的準確率;FLOPs 為浮點運算量,用來衡量模型的計算復雜度,FLOPs 越低說明模型實際運算所需的計算量越少,模型加速效果越好;參數量是神經網絡占用的內存大小量,參數量的變化可以直接體現模型壓縮的效果。

表1 在數據集CIFAR-10 上的Top5 準確率測試結果Table 1 The test results of Top5 accuracy on CIFAR-10 dataset

表2 在數據集CIFAR-100 上的Top5 準確率測試結果Table 2 The test results of Top5 accuracy on CIFAR-100 dataset

表3 在數據集SVHN 上的Top5 準確率測試結果Table 3 The test results of Top5 accuracy on SVHN dataset

實驗對VGG-16 采用50%或70%的剪枝率,對ResNet-56、ResNet-110 與DenseNet-40 采用40%或60%的剪枝率,可以看出經過本文剪枝方法,網絡的參數量和FLOPs 都得到了壓縮,但網絡性能卻沒有受到影響。在進行大比率剪枝后,在SVHN 數據集上,VGG-16 和DenseNet-40 的參數量分別壓縮了97.3%和55.7%,而模型準確率沒有大幅下降,進一步證明原有模型的過度參數化,并且驗證了本文剪枝方法的有效性。

3.3 不同正則化系數對模型訓練的影響

在模型訓練過程中,正則化系數λ會影響參數約束力度,有可能會對模型訓練過程帶來不同程度的影響。為考察其影響程度,本節將在不同正則化系數下進行模型訓練。

在不同正則化系數下,研究VGG-16 網絡準確率變化,設置的正則化系數分別為0、0.001、0.000 1、0.000 01,對模型的Loss 值和準確率的變化情況進行統計,每個模型訓練100 個回合,學習率為0.1,并在進行到1/2 至3/4 的回合時,學習率下降為原來的1/10。Loss 值是損失函數的輸出值,Loss 值越低,模型擬合情況越好。準確率是模型在數據集上的準確率,準確率越高,模型性能越好。實驗結果如圖2 所示,當正則化系數λ為0.001 時,模型的Loss 值和準確率波動巨大,模型準確率也比非正則化訓練低了5 個百分點,而Loss 值相比低了0.1,說明正則化系數過高會對模型性能造成較大影響。在正則化系數λ設置在0.000 1 和0.000 01 時,模型準確率與非正則化訓練的模型性能相比基本持平,在λ=0.000 01 時高出1 個百分點,說明在該數量級的正則化系數下訓練的模型稀疏性能提高模型性能,且不影響模型的收斂速度。

圖2 不同正則化系數對模型訓練效果的影響Fig.2 The influence of different regularization coefficients on model training effect

3.4 不同卷積層的剪枝效果

在CIFAR-10數據集上訓練的VGG-16在剪枝前(準確率93.13%)和剪枝后(準確率92.93%)的各卷積層通道數對比如圖3 所示,可以看出剪枝操作主要發生在網絡的開始和最后幾層,而中間層的參數在剪枝后會有所保留,模型參數量壓縮了84.3%,而準確率僅降低了0.2 個百分點,結果表明,模型大部分的冗余參數集中在深層網絡中。通過圖3 還可以看出,在模型剪枝后,模型結構呈現中間寬、兩端窄的特點,表明依靠中間層的參數就能達到與剪枝前的模型相同的性能,同時可將本文剪枝方法看作網絡結構搜索方法,通過去除冗余參數,發現有效的網絡結構,這與文獻[27]中提出的結論一致,并且能與其他網絡結構搜索方法相結合,獲得更有效的網絡結構。

圖3 VGG-16 在剪枝前后的卷積層通道數對比Fig.3 Comparison of the number of channels in the convolutional layer of VGG-16 before and after pruning

4 結束語

本文提出一種基于稀疏正則化的卷積神經網絡模型剪枝方法,通過在訓練過程中對卷積層和BN 層的權重進行正則化約束,使得權重變得稀疏,再結合雙層的稀疏信息對濾波器的重要性進行評估,選取冗余的濾波器進行剪枝。實驗結果表明,該剪枝方法可有效壓縮模型參數,且壓縮后的網絡模型仍能保持良好性能,尤其在SVHN 數據集上,ResNet 和DenseNet 網絡模型性能幾乎沒有影響,VGG網絡模型參數量在壓縮了97.3%的情況下,圖像分類準確率僅降低0.57 個百分點。同時,本文剪枝方法訓練成本較小,無需特殊的硬件輔助即可完成模型部署。后續可將模型剪枝方法與網絡結構量化、搜索等模型壓縮方法相結合,進一步壓縮和加速神經網絡模型。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产地址二永久伊甸园| 99re这里只有国产中文精品国产精品| 欧美人与性动交a欧美精品| 欧美午夜精品| 97久久免费视频| 欧美午夜精品| a欧美在线| 国产女人综合久久精品视| 国产一级二级在线观看| 草逼视频国产| 麻豆国产精品一二三在线观看| 人人艹人人爽| 18禁高潮出水呻吟娇喘蜜芽| 91色国产在线| 丁香五月婷婷激情基地| 无码日韩视频| 亚洲香蕉久久| 91精品啪在线观看国产91九色| 亚洲V日韩V无码一区二区| 久996视频精品免费观看| 国产拍在线| 亚洲青涩在线| 国产欧美日韩另类精彩视频| 亚洲区欧美区| 日本黄色不卡视频| 国产一区三区二区中文在线| 性喷潮久久久久久久久| 欧美精品亚洲精品日韩专区va| 欧美激情伊人| 日韩欧美成人高清在线观看| 97亚洲色综久久精品| 在线观看国产网址你懂的| 福利姬国产精品一区在线| 二级毛片免费观看全程| 国产真实自在自线免费精品| 国产靠逼视频| 在线观看免费人成视频色快速| 美女国内精品自产拍在线播放| 亚洲欧洲日韩综合| 久久综合色天堂av| 99在线观看精品视频| 亚洲精品午夜无码电影网| 91偷拍一区| 亚洲v日韩v欧美在线观看| 囯产av无码片毛片一级| 国产精品无码作爱| 亚洲天堂区| 亚洲日韩日本中文在线| 亚洲天堂免费观看| 中国一级毛片免费观看| 在线观看无码a∨| 国产精品高清国产三级囯产AV| 亚欧乱色视频网站大全| 亚洲无码视频喷水| a级毛片在线免费| 99久久精品国产麻豆婷婷| 一级毛片免费观看不卡视频| 日韩精品一区二区三区免费在线观看| 在线观看无码av五月花| 伊人91视频| 特级毛片免费视频| 大香网伊人久久综合网2020| 综合五月天网| 女人18毛片一级毛片在线| 国产激情国语对白普通话| 国产凹凸视频在线观看| 国产香蕉一区二区在线网站| 国产亚洲精品va在线| 黄色片中文字幕| 亚洲IV视频免费在线光看| 白浆视频在线观看| 国产午夜看片| 国产成人狂喷潮在线观看2345| 在线看AV天堂| 国产美女在线免费观看| 激情乱人伦| 国产无遮挡裸体免费视频| 久久香蕉国产线看观看亚洲片| 亚洲美女一区| 久久综合九色综合97婷婷| 欧美狠狠干| 无码专区在线观看|