999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡特征的分層剪枝方法

2022-11-20 12:54:26亮,尚,
吉林大學學報(理學版) 2022年6期
關鍵詞:實驗方法模型

洪 亮, 高 尚, 李 翔

(吉林大學 計算機科學與技術學院, 長春 130012)

深度神經網絡[1-2]目前已廣泛應用于圖像分類、 物體檢測、 生物學研究、 語音合成和語義分割等領域[3-4]. 復雜網絡體系常具有一個體積巨大的模型, 消耗了大量的計算資源和能源. 當在資源受限的設備上部署使用深度神經網絡時, 模型過大導致的問題尤為突出[5].

模型壓縮可通過裁剪掉一部分參數、 改變數據的存儲方式或設計網絡結構減少模型的體積. 作為模型壓縮的方法之一, 模型剪枝技術[6]已被證明是一種有效的方法[7-11], 可在盡量不損失精度(甚至更好)的情況下減小模型體積. 在剪枝技術中, 基于權重的剪枝是一種常用方法. 在范圍上, 剪枝技術可分為全局剪枝和分層剪枝. 分層剪枝方法對每層的參數單獨進行處理, 如果某個參數低于該層的重要性最低閾值, 則將其裁剪掉. 例如: 使用權重的絕對值衡量重要性, 先移除權重值低于閾值的所有參數, 然后重新訓練剩余的稀疏網絡[8]或將剩余權重恢復到初始狀態再進行訓練[12]; 基于進化算法評估各層對權重剪枝的敏感度, 進而決定每層的剪枝率[13]; 使初始剪枝率漸變到目標剪枝率, 使之適應訓練過程[14]; 基于相互信息自頂向下地進行剪枝, 對于神經網絡的每層, 相互關系值高于上一層保留神經元的, 可以繼續保留[15]; 通過評估各層對特征表示的貢獻判斷各層重要性[16]等. 此外, 常見的還有優化激活函數[17]、 進行通道剪枝、 知識蒸餾[18]等. 但很多當前的分層剪枝方法所提出的重要性衡量標準都是針對單獨某層的特點, 或者僅考慮了相鄰層的關系, 進而決定每層的剪枝率. Frankle等[12]的彩票假說實驗結果表明, 采用單剪枝率的分層剪枝方法在效果上并不如全局剪枝. 這是因為網絡的層與層之間的信息傳遞是不同層次的[19], 每層對于剪枝的敏感度也不相同[8-10]. 而當前很多分層剪枝方法對網絡層與層之間關系的利用并不充分.

針對上述問題, 本文提出一種基于網絡特征的分層剪枝方法NS-LPM(network-structure based layer-wised pruning method), 綜合考慮網絡結構的信息及網絡各層次間的關系, 以解決分層剪枝方法的適用性問題. 網絡特征包括3個維度: 網絡的深度、 每層的寬度以及層間參數的重要性. 本文實驗分別從這三方面討論它們對剪枝方法的影響和有效性. 為更準確地去探討這3個維度的影響, NS-LPM實驗基于彩票假說實驗[12]進行. 每次剪枝后, 將每層保留的權重回溯到初始網絡值, 以盡量減少除網絡結構特征外的影響.

本文針對不同的網絡特征在數據集CIFAR-10上分別采用VGG-16和Resnet-20網絡架構進行對比實驗, 以探討不同的剪枝率變化方法對該指標的影響. 實驗結果表明, NS-LPM方法在VGG-16模型上表現良好, 優于全局剪枝方法和傳統單剪枝率的分層剪枝方法; NS-LPM方法在Resnet-20模型上的表現優于傳統單剪枝率的分層方法, 接近全局剪枝方法. 其在相同壓縮率下的準確率更高, 且在訓練初期收斂更快; 在訓練后期可以自適應地降低剪枝率, 盡量避免網絡性能突然下降. 為傳統分層剪枝方法的應用受限情況提供了一種新的解決方案.

1 預備知識

過度參數化是深度神經網絡被廣泛認可的特性[20], 但會導致推理的高計算成本和高內存占用. 相關研究表明, 對一個過度參數化的、 足夠大的網絡進行訓練非常重要[21], 因為其可提供更強的表達能力, 壓縮大網絡可得到比直接訓練一個小網絡更好的結果. 模型剪枝作為模型壓縮的一種方法被廣泛關注主要有兩方面原因: 第一, 訓練一個大的、 過度參數化的網絡很重要[22], 因為其提供了一個高性能的模型, 給予模型更強的表示能力和優化能力, 且在模型中裁剪掉一部分不重要的參數, 不會明顯影響精度; 第二, 修剪后的架構及其相關權重是獲得最終有效模型的關鍵, 剪枝后剩下的權重常具有深遠的影響.

本文提出一種基于網絡特征的分層剪枝方法NS-LPM, 對網絡結構如何影響剪枝過程進行研究. NS-LPM方法采用迭代剪枝流程并進行了改進. 同時, 為盡量減少其他因素對實驗的影響, 實驗基于彩票假說, 每輪剪枝后都將網絡參數恢復到剪枝前的初始狀態.

1.1 迭代剪枝流程

剪枝流程主要分為一次性剪枝和迭代剪枝兩類. 典型的迭代剪枝過程包括3個階段: 預訓練、 剪枝和微調. 在迭代剪枝流程中, 如何確定重要性并通過重要性評價標準對網絡進行裁剪是一個研究熱點[9-10,23]. NS-LPM方法采用迭代剪枝流程給出了如何根據網絡結構特征確定重要性以及它們作為評價標準的實驗效果.

1.2 彩票假說實驗

當前的深度神經網絡具有過度參數化的特性. 實驗和相關研究結果表明, 在滿足過度參數化的條件下, 彩票假說值得信賴[24]. 彩票假說的主要內容是: 在一個足夠大的網絡模型中, 存在一個稀疏子網絡(即彩票)可在不高于完整網絡的訓練次數內, 達到初始網絡的相似性能. 而尋找這個稀疏子網絡的過程主要應用迭代剪枝和全局剪枝. 特別地, 剪枝后保留的參數并未使用訓練后的值, 而是恢復到初始網絡值. 實驗結果表明, 在使用小型數據集的情況下(如MNIST,CIFAR-10), 實驗中的網絡剪枝率在50%~90%時通常有更好的性能, 有些網絡在剪枝率達到95%以上時仍能得到相同的性能. 如果使用大型數據集, 可在此基礎上使用延遲回溯的方法[25].

目前, 對彩票假說的研究已有許多結果, 例如: 分析剪枝過程中的掩碼是如何影響訓練過程的[26]; 證明彩票假說有效性, 并給出更普適的應用條件[24]; 將彩票假說實驗的方法應用于其他網絡模型[27]; 研究基于彩票假說的剪枝方法[28]等. NS-LPM實驗主要基于彩票假說, 并提出一種基于網絡特征的分層剪枝方法. 這主要是因為: 1) 實驗中使用標準的迭代剪枝流程和全局剪枝, 是剪枝領域廣泛使用的訓練基準; 2) 將剪枝后的參數回退到初始狀態, 可盡量減少網絡中其他因素的干擾, 更好地體現網絡結構對剪枝過程的影響; 3) 彩票假說實驗已經被大量研究和實驗證明是高效準確的.

2 算法設計

基于網絡特征的分層剪枝方法NS-LPM采用迭代剪枝流程. 為充分利用已訓練網絡的結構特征信息, 研究網絡特征對剪枝過程的影響, 本文算法分別從三方面進行實驗與研究: 網絡的深度、 每層的寬度和層間重要性評估. 算法流程如圖1所示.

圖1 基于網絡結構分層剪枝方法的算法流程

基于網絡特征分層剪枝方法的第k層剪枝率定義為

(1)

1) 訓練好一個大的網絡模型;

2) 遍歷網絡的每層, 對于網絡中的第k層參數:

④ 通過剪枝系數計算得到每層的動態剪枝率pk;

3) 對剪枝網絡進行微調再訓練, 以恢復由于參數裁剪帶來的準確度損失;

4) 當網絡剪枝周期到達上限或壓縮率達標時則結束, 否則轉步驟2).

一輪的剪枝流程如圖2所示.

圖2 基于網絡特征的分層剪枝方法

2.1 網絡深度

Ro等[19]研究表明, 網絡每層參數對于特征的提取均具有不同的特點[29], 即低層(靠近輸入端)會提取相對通用的特征, 而高層(靠近輸出端)會提取針對任務的特征. 文獻[19]進行了一組對比實驗, 實驗采用訓練好的Resnet網絡, 分別將完整網絡和移除最高兩層的網絡直接遷移到其他類似的數據集中測試, 發現移除最高兩層的網絡明顯優于未移除前的完整網絡. 表明高層提取的特征對之前的特定任務很重要. 文獻[19]的研究還表明, 網絡低層的權重變化水平明顯大于高層, 并且隨著訓練每層的變化率逐漸減小. 實驗采用Resnet-50網絡, 第一層的權重變化率可達到最后一層的十幾倍. 即在低層的權重更容易實現從小變大, 權重在某時刻的重要性更有可能在下一時刻突然翻轉.

在一個訓練好的網絡中, 高層提取的特征針對特定任務尤其重要, 如果高層的剪枝率較大, 則顯然會更多地影響模型的性能, 使低層的權重變化率較大. 因此為得到更穩定的模型, 降低了低層和高層的剪枝率. 算法期望網絡模型的變化趨勢如圖3所示.

圖3 網絡層寬隨網絡深度的變化期望

基于上述分析, 將基于網絡深度評價標準的第k層剪枝系數定義為

(2)

(3)

簡單地說, 就是調低高層和低層的剪枝率, 向中間層漸近式地提高到目標剪枝率.高層和低層的變化空間通過降低高層和低層的剪枝率控制.剪枝率將在中間層變緩并保持穩定, 進而快速壓縮中間層網絡的權重, 加快模型的收斂, 增強模型的穩定性.

2.2 網絡層寬

低秩分解是模型壓縮的一種常用方法.矩陣的低秩稀疏分解是經典機器學習方法, 假設一個大規模矩陣可分解為兩個或多個低維度矩陣的乘積與一個稀疏矩陣的和, 則可極大降低原矩陣表示的元素個數[30].如果網絡在深度上是充分冗余的, 則可嘗試進行大量剪枝, 裁剪為多個低維度矩陣, 通過訓練使其逼近一個高維度矩陣, 并達到幾乎相同的性能和效果.在高維度矩陣大小固定的條件下, 低維度矩陣的大小越接近, 其逼近高維度矩陣效果所需的有效參數就越少.

基于網絡寬度評價標準的第k層剪枝系數定義為

(4)

2.3 基于層的重要性評估

Han等[8]采用的基于權重的重要性評估方法目前應用廣泛, 是一種很強的基線[11].在文獻[8]工作的基礎上, 本文充分考慮網絡的層間關系, 將基于層間重要性評價標準的第k層剪枝系數定義為

(5)

3 實 驗

3.1 實驗環境及參數

實驗采用數據集CIFAR-10訓練和測試卷積神經網絡模型, 并進行剪枝效果評估. CIFAR-10 是深度學習領域常用的用于物體識別的數據集, 共有50 000張訓練圖片和10 000張測試圖片, 這些圖片共包含10個類別, 每張圖片都是大小為 32×32的彩色圖片.

本文實驗在數據集CIFAR-10上訓練了VGG-16和Resnet-20兩種卷積神經網絡(CNN)模型. VGG-16模型有38層, 其中16層含參數, 包括13層卷積層和3層全連接層; Resnet-20模型有20層, 除第一個卷積層和最后一個線性層, 網絡中有18個卷積層, 即有9個網絡模塊, 可分為三段.

本文實驗均訓練了40個周期, 接近1.7×104個迭代循環, 采用的batch-size為128. 彩票假說的實驗結果表明, 在對比剪枝率分別為0.4,0.2,0.1的情形時, 剪枝率0.2的準確率和收斂速度都表現較好, 剪枝效率遠大于其他情形[12], 所以本文采用0.2作為基礎剪枝率. 此外, 本文在VGG-16網絡上采用0.1的學習率; 在Resnet-20網絡上采用0.01的學習率. 實驗環境為采用Ubuntu 16.04.7操作系統, CPU為Intel(R) Xeon(R) CPU E5-2620 v4, GPU為Tesla P40, GTX 1650Ti, 內存為32 GB, 深度學習框架采用Pytorch-1.11.0.

3.2 超參數的設置

在綜合考慮網絡結構的剪枝率時, 計算過程使用了超參數, 以控制剪枝率的變化幅度和在網絡層間的傳遞速度. 本文實驗中超參數的設置主要遵循以下兩個原則:

1) 保證剪枝率的平均水平與基礎剪枝率相同;

2) 保證剪枝率的變化幅度不超過網絡的承受極限, 從而避免網絡性能的急劇變化.

第一個原則表示當基礎剪枝率為0.2時, 使各層的平均剪枝率盡量維持在0.2附近; 第二個原則需要保證剪枝率的變化在可控范圍內, 因為剪枝率的數值很大程度影響剪枝過程的進行, 一旦剪枝率的變化幅度超過網絡的承受極限, 模型的性能會急劇下降. 本文實驗結果表明: 剪枝率為0.2和0.15時, 模型的擬合能力和性能趨勢一致; 分層剪枝方法的性能比全局剪枝方法更好, 但當剪枝率為0.1時, 全局剪枝方法的性能反而明顯優于分層剪枝方法. 因此, 當基礎剪枝率為0.2時, 本文實驗中控制剪枝率的變化幅度不小于0.15.

3.3 實驗結果與分析

實驗將NS-LPM方法與彩票實驗中的全局剪枝方法、 單剪枝率的分層剪枝方法進行對比. 實驗主要從壓縮度(剩余權重數量)、 準確率、 訓練速度三方面進行衡量. 為保證公平性, 進行多次實驗, 且采用多個指標, 如最大值、 前五平均值等. 實驗將各種剪枝方法應用于VGG-16和Resnet-20兩種模型上.

首先, 考察網絡的精確率隨不同參數壓縮率的變化情況. 分別將NS-LPM與單剪枝率的分層剪枝方法在VGG-16模型上的表現進行對比, 實驗結果如圖4所示. 其中, top-1準確率表示在訓練周期內達到的最大準確率; top-5平均準確率表示在訓練周期內達到的最大5次準確率的平均值. 由圖4可見, 在所有剪枝方法中, 模型的精確率都會隨著剪枝過程的進行先增加后降低. 在相同參數壓縮率上, 基于網絡結構特征的方法能達到更高的準確率, 且其在訓練初期剪枝率更高, 但在訓練后期剪枝率會下降. 即在訓練初期, 只需要5個剪枝周期即可達到單剪枝率方法6個剪枝周期的效果. 但在訓練后期(參數壓縮率約達到90%), 其剪枝率會明顯下降. 在各項網絡特征中, 在參數壓縮率達到88%前, 基于網絡深度和網絡寬度評價指標的準確率明顯高于其他方法; 而基于層間重要性的方法更平穩, 在參數壓縮率達到99%時, 表現最好.

圖4 基于不同網絡特征的分層剪枝在VGG-16模型上的實驗結果

其次, 對Resnet-20模型進行實驗, 實驗結果如圖5所示. 由圖5可見, 不同于在VGG-16模型上的表現, 在參數壓縮率達到97.8%前, 基于各網絡特征的方法在Resnet上的表現與采用單剪枝率的方法表現幾乎一致, 盡管起點不同, 但準確率隨參數壓縮率的變化趨勢完全相同. 但當參數壓縮率達到97.8%后, 單剪枝率方法的準確率急速下降, 而基于層間重要性和網絡深度的準確率更穩定. 單剪枝率方法在參數壓縮率為98.86%時, 準確率為0.412; 而基于層間重要性的方法在參數壓縮率為98.94%時, 準確率仍為0.618. 因此, 在VGG-16模型上, 基于網絡特征的各評價方法均優于單剪枝率的評價方法; 而在Resnet-20模型上, 基于層間重要性的評價方法均優于其他分層剪枝方法.

圖5 基于不同網絡特征的分層剪枝在Resnet-20模型上的實驗結果

彩票假說實驗在VGG-16和Resnet-20網絡上最終采用了全局剪枝方法, 因為實驗結果表明, 在大型網絡上全局剪枝優于單剪枝率的剪枝方法. 這是因為全局剪枝在剪枝后期時, 不需要考慮不同層之間參數個數相差太多導致的網絡結構失衡, 進而使網絡不滿足過度參數化的條件. 因此, 將綜合所有特征后的NS-LPM方法與全局剪枝方法、 單剪枝率的分層剪枝方法進行對比, 結果如圖6所示, 由圖6可見, 在VGG-16模型上, 全局剪枝方法優于單剪枝率的分層剪枝方法, 其可達到更高的準確率, 同時也可達到更高的壓縮率. 而在相同的訓練條件下, NS-LPM方法表現良好, 甚至在壓縮率和準確率上超過了全局剪枝方法.

圖6 基于綜合網絡特征的剪枝方法在VGG-16模型上的實驗結果

在Resnet-20模型上的實驗結果如圖7所示. 由圖7可見, NS-LPM方法的表現幾乎不遜色全局剪枝方法, 當參數壓縮率達到98.24%時, 仍能達到0.676的準確率; 分層剪枝方法在參數壓縮率為98.21%時, 準確率為0.652; 而全局剪枝方法的效果最好, 在98.20%的參數壓縮率時能到達0.701的準確率. 對于NS-LPM方法在VGG-16和Resnet-20模型上表現的差異, 可能是由于Resnet網絡中層數過多, 使每層通道數的變化更平滑, 同時也需要考慮Resnet的殘差網絡及架構設計. 但相比于全局剪枝方法, NS-LPM方法在參數壓縮率達到90%后, 會自適應降低剪枝率, 進而避免網絡性能突然下降.

圖7 基于綜合網絡特征的剪枝方法在Resnet-20模型上的實驗結果

不同剪枝方法在VGG-16和Resnet-20模型上的實驗結果列于表1. 由表1可見, 在訓練初期, NS-LPM方法只需要5個剪枝周期即可達到其他剪枝方法6個剪枝周期的效果. 而且在訓練后期(參數壓縮率約達到90%), 其剪枝率會自適應下降. 在VGG-16模型上, 原網絡使用全局剪枝方法, 壓縮率達到98.85%時, 準確率達到85.0%; 使用單剪枝率的分層剪枝方法時, 壓縮率達到98.85%, 準確率達到80.1%; 使用NS-LPM方法時, 進行20輪剪枝迭代可使壓縮率達到99.41%, 準確度率達到83.7%, 此時其參數個數只有單剪枝率方法的51%, 而在相同壓縮率時其性能甚至比全局剪枝更好. 在Resnet-20模型上, NS-LPM方法每輪的剪枝率都高于其他方法, 并且在參數壓縮率達到98.94%時, 準確率仍為61.75%. 而單剪枝率的分層剪枝方法在參數壓縮率達到98.85%時, 準確率只有41.2%. NS-LPM方法的表現在Resnet-20模型上已經接近全局剪枝方法.

表1 不同剪枝方法在VGG-16和Resnet-20模型上的實驗結果對比

綜上所述, 針對傳統分層剪枝方法在剪枝過程后期時, 網絡模型的準確率會隨網絡結構失衡陡然下降的問題, 本文提出了一種基于網絡結構的分層剪枝方法NS-IPM, 其在進行剪枝時, 創新性地結合了網絡結構的特征信息. 不同于傳統的分層剪枝方法, NS-IPM方法通過對網絡深度、 網絡層寬和層間重要性評估綜合考慮, 構建復合評分確定每層的動態剪枝率. 本文將單剪枝率的剪枝方法、 全局剪枝方法與NS-IPM方法進行對比, 證明了NS-IPM方法的有效性, 并討論了不同的剪枝率變化方法對網絡性能的影響. 基于網絡結構的分層剪枝方法NS-IPM在主流的VGG和Resnet網絡模型上都表現良好, 顯著改善了傳統分層剪枝方法在大型網絡模型上使用受限的情況, 與傳統剪枝方法相比優勢明顯.

猜你喜歡
實驗方法模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久久久久久尹人网香蕉 | 免费精品一区二区h| 亚洲V日韩V无码一区二区| 毛片大全免费观看| 婷婷99视频精品全部在线观看| 欧美特黄一级大黄录像| 国产精品55夜色66夜色| 国产一区二区三区免费观看| 中文字幕1区2区| 亚洲日韩高清在线亚洲专区| 国产美女精品一区二区| 免费全部高H视频无码无遮掩| 91福利免费视频| 亚洲自拍另类| www.99精品视频在线播放| 久久性妇女精品免费| 欧美高清国产| 日韩欧美91| 精品一区二区三区中文字幕| 国产剧情国内精品原创| 国产精品免费入口视频| 亚洲制服中文字幕一区二区| 福利视频一区| 青青青国产精品国产精品美女| 国产高清免费午夜在线视频| 国产麻豆精品在线观看| 在线无码九区| 久久99国产综合精品1| 欧美不卡二区| 91成人在线观看视频| 日韩 欧美 小说 综合网 另类 | 亚洲欧美一区二区三区蜜芽| 日韩国产综合精选| 无码区日韩专区免费系列| 亚洲一级毛片在线播放| 国产精品亚洲综合久久小说| 丰满人妻被猛烈进入无码| 国产精品无码久久久久久| 91免费国产在线观看尤物| 在线观看精品国产入口| 99视频国产精品| 91在线精品麻豆欧美在线| 成年人国产视频| 国产精品林美惠子在线播放| 国产亚洲精品无码专| 国产成人夜色91| 在线va视频| 亚洲 日韩 激情 无码 中出| 亚洲日韩AV无码一区二区三区人| 99在线视频网站| 国产激爽爽爽大片在线观看| 日韩大乳视频中文字幕| 日韩AV无码免费一二三区| 黄色三级网站免费| 亚洲高清日韩heyzo| 欧美亚洲日韩不卡在线在线观看| 日韩在线欧美在线| 波多野结衣一区二区三区四区视频 | 天天综合色网| 中文字幕中文字字幕码一二区| 亚洲精品麻豆| 超碰91免费人妻| 996免费视频国产在线播放| 中文字幕中文字字幕码一二区| 亚洲中文字幕23页在线| 国产精品成人AⅤ在线一二三四| 97久久免费视频| 免费人成在线观看成人片 | 亚洲91精品视频| 国产不卡在线看| 日a本亚洲中文在线观看| 乱色熟女综合一区二区| 国产黑丝视频在线观看| 国产一区二区三区免费| 亚洲第一精品福利| 精品一区国产精品| 欧美成人二区| 国产日本一区二区三区| 久久久久亚洲AV成人人电影软件 | 丝袜久久剧情精品国产| 一级全黄毛片| 一区二区欧美日韩高清免费 |