卷積神經網絡壓縮與加速技術研究進展①

2020-09-22 07:44:44尹文楓梁玲燕彭慧民曹其春趙雅倩

計算機系統應用 2020年9期

尹文楓,梁玲燕,彭慧民,曹其春,趙健,董剛,趙雅倩,趙坤

1(浪潮電子信息產業股份有限公司,濟南 250101)

2(廣東浪潮大數據研究有限公司,廣州 510632)

隨著硬件的發展,如圖形處理單元(GPU)[1]和張量處理單元(TPU)[2],以及深度學習算法的成功,如AlexNet[3]、16 層VGG[4]和152 層ResNet[5],基于深度學習的應用在計算機視覺、語音識別和推薦系統等廣泛領域得到普及.這些強大的深度學習模型伴隨著在延遲、存儲、算力和能耗等方面的資源開銷增加,給資源有限的移動和嵌入設備實現離線深度感知帶來了困難.性能良好的VGG-16 模型[4]采用8 比特量化之后,由ImageNet數據集[6]訓練,需要1 .5×1010次乘法累加操作,1.4×108個參數,1650 ms 的平均延遲,在RedMi 3S Android平臺上能耗為397.7 mJ[7].因此,壓縮神經網絡的參數和計算,有助于將一些典型的基于深度學習算法的應用如語音助手、人臉識別、指紋解鎖和文本處理工具等部署在移動平臺.

本文將對模型壓縮技術中的代表方法進行介紹與分析.但是,諸如MobileNet、Inception、SqueezeNet等采用緊致的卷積核或高效的計算方式來搭建深度神經網絡的輕量化模型設計方法不在本文討論范圍內.不同于在預訓練網絡上進行處理,輕量化模型設計方法另辟蹊徑.輕量化模型設計方法采用緊致的卷積核或高效的計算方式來搭建深度神經網絡,而不是由預訓練神經網絡進行神經元或神經元連接的刪減來實現模型壓縮.

1 神經網絡模型與壓縮工具

本節主要介紹經典的神經網絡模型,這些代表性模型通常應用于評測新興壓縮方法的性能,此外本節匯總集成最新模型壓縮方法的各個壓縮工具包的特性,并簡述模型壓縮方法在硬件部署方面的進展.

1.1 經典深度神經網絡模型回顧

隨著LeNet 的提出,卷積神經網絡進入了大眾的視野.在此基礎上形成了AlexNet 網絡,該經典網絡結構與LeNet-5 的結構類似,但網絡層次進一步加深.目前演變出的多種卷積神經網絡,如VGG、GoogleNet、ResNet 等,雖然模型性能越來越好,但網絡的層數和計算量也隨之增大,不利于邊緣設備或云端的部署.

在2014年的ImageNet 挑戰賽中脫穎而出的VGG網絡[4]具有兩種常用拓撲結構VGG16 和VGG19.表1列舉了VGG 網絡等模型的參數量、模型所需內存大小以及計算量.其中flops 表示浮點運算次數,用來衡量模型的復雜度.如表1所示,VGG 網絡結構有上億的參數,計算量巨大,因此在部署過程中,消耗較大的存儲容量和計算資源,不利于邊緣端的部署.

ResNet 網絡[5]結構的核心是殘差學習單元,其解決了增加神經網絡深度時精度退化的問題,讓深度神經網絡結構能夠達到更深的水平,如ResNet152 網絡就有152 層卷積.

表1 深度網絡模型的資源需求匯總

為了在資源受限的設備上部署深度神經網絡,輕量化模型設計的思路應運而生,隨即產生了MobileNet 網絡[8].MobileNet 最大的特點是采用了深度可分離卷積的獨特設計,將普通卷積拆分為深度卷積和點卷積兩步.深度可分離卷積相比于標準卷積,在保持精度幾乎不變的情況下,參數量和計算量都大大減小.沿著采用深度可分離卷積的思路,相繼衍生出MobileNets-v2[9]、ShuffleNet-v1[10]和ShuffleNet-v2[11]等輕量化網絡模型.雖然MobileNet 網絡結構相比VGG19 等網絡已經減小了很多,但在移植到移動端人工智能應用中時仍然會消耗大量計算資源,而且MobileNet 中依然存在稀疏性,還有繼續壓縮的空間.

1.2 模型壓縮工具與硬件部署

隨著神經網絡模型壓縮方法的發展,已經孕育出一系列承載最新成果的壓縮方法工具包,表2列舉了一些常用的壓縮方法工具包.其中,Distiller、Pocketflow、PaddleSlim 均提供多種參數剪枝方法、量化方法、知識蒸餾(Knowledge Distillation,KD)方法的支持,并且提供自動化模型壓縮算法AMC 的實現.Distiller 工具包復現了基本的幅度剪枝算法以及敏感度剪枝等多種近年來新興的剪枝算法[12-14],涵蓋適用于RNN 的剪枝算法[15]和面向CNN 的算法,此外該工具包還集成了對稱線性量化等幾種量化算法.PocketFlow 工具包除了騰訊自研的鑒別力感知的通道剪枝算法[16]外,還提供了深鑒科技[17]、谷歌公司研發的剪枝算法[18]的復現.

結構化壓縮方法在上述壓縮工具包中得到更多應用的因素之一,是模型壓縮方法在硬件平臺的部署會受到矩陣稀疏性粒度的影響.如圖1所示,結構化壓縮方法的稀疏性粗粒度可分為濾波器級、通道級和向量級,非結構化壓縮方法的稀疏性細粒度為元素級.雖然非結構化壓縮方法可取得高壓縮率以及高準確率,但非結構化壓縮后的權重矩陣或特征圖矩陣中非零值的位置是不規則的,這為有效地支持硬件中稀疏矩陣的存儲與計算造成困難.在不同的硬件平臺中稀疏矩陣的處理需要調用特定的運算庫來加速,在GPU 上稀疏矩陣計算需要調用cuSPARSE 庫,在CPU 上稀疏矩陣計算稀疏需要mkl_sparse 之類的庫去優化計算.此外,神經網絡的稀疏矩陣能夠以壓縮稀疏行(CSR)和壓縮稀疏列(CSC)兩種方式存儲在壓縮格式[19].結構化壓縮剪枝后的矩陣中非零值的位置是規則的,而且稀疏矩陣的CSR 格式中粗粒度稀疏性可以節省索引的存儲開銷,易于硬件部署的實施.

表2 現有神經網絡壓縮工具包

圖1 矩陣稀疏性的粒度與稀疏矩陣存儲格式

為了高效的支持壓縮后模型的硬件部署,軟硬件結合的壓縮方法設計已成為當前發展的趨勢之一,已有諸多設計專用硬件處理架構的研究被發表.為了將模型壓縮方法的代表性算法Deep compression[20]部署到硬件平臺,文獻[21]設計了高效的推理引擎EIE,比CPU、GPU 和Mobile GPU 的運行速度分別快189×、13×和307×;文獻[22]設計了專用硬件處理架構ESE,在進行壓縮剪枝時進行多核并行的負載均衡,進一步加快神經網絡的推理速度.

2 神經網絡模型壓縮方法

本節將逐一介紹各類模型壓縮方法的代表性算法與優缺點,內容涵蓋參數剪枝、低秩分解、參數量化和知識蒸餾4 類主流壓縮方法.

表3列舉了4 類模型壓縮方法各自的特點.(1)4 類壓縮方法均適用于卷積層和全連接層.(2)由于各類方法的壓縮機制不同,預訓練模型對不同壓縮方法的必要性不同,其中剪枝方法對預訓練模型的依賴性更高.(3)傳統的剪枝、量化與低秩分解算法需要在壓縮后微調網絡來補償網絡的精度損失,而最新的進展中已出現不需要重訓練的壓縮方式,大大減少計算成本.例如Tensorflow 中提供訓練后量化方案,在不重新訓練模型的前提下,只通過量化網絡權重和輸出激活圖來壓縮模型,就能夠達到與浮點型網絡相接近的精度.(4)剪枝方法的優勢在于其精度損失小,能夠與其余3 類壓縮方法聯合應用;低秩分解的優點是支持端到端的訓練,但其分解操作的計算昂貴;知識蒸餾可以使模型層級變淺,降低推理時計算成本,但其對模型的假設有時過于嚴格從而限制了應用.

各類壓縮方法在特定任務及場景中表現出不同的壓縮性能,在選用壓縮方法時可以依據應用需求來選擇.例如知識蒸餾方法適用于小型或者中型數據集上的應用,由于壓縮后的學生模型可以從教師模型中提取知識,在數據集不大時,也能取得魯棒的性能;剪枝和量化則更適合于要求模型表現穩定的應用場景或內存有限的設備,因為這兩種方法具有合理的壓縮比,精度損失小,也能減小計算中內存使用量.

2.1 剪枝方法

剪枝方法依據一定標準來衡量網絡結構的重要性,通過移除不重要的網絡結構來降低計算量和權重數量,加速推理.以基于稀疏約束的剪枝方法[14]為代表,在網絡的優化目標中加入權重的稀疏正則項,使得訓練時網絡的部分權重趨向于0 值,再將這些0 值清除以實現剪枝.最簡單直接的衡量重要性的指標是權重的幅值.文獻[14]利用批歸一化層的縮放因子 γ來高效鑒別與裁剪不重要的通道,并在損失函數中增加一個關于γ的正則項作約束.

表3 各類神經網絡壓縮方法總結

包括文獻[14]在內的傳統剪枝方法需要對壓縮后網絡模型進行微調來補償壓縮造成的準確率損失,而微調既耗時又耗資源.文獻[17]提出了推理時剪枝方式,在前向推理過程中進行壓縮處理,在剪枝后不再微調網絡.該文算法在進行通道裁剪之后,直接通過最小均方誤差得到特征重建誤差最小化的新網絡參數,因而不需要再微調網絡來恢復精度[17].

傳統剪枝方法直接丟棄被裁減的網絡結構,使得網絡容量隨算法的迭代不斷減少,而且錯誤的裁剪所造成的精度損失無法通過微調彌補.針對這一問題衍生出的動態剪枝算法,保證被裁剪掉的權重在后續訓練過程中仍會更新,能夠動態恢復裁剪部分或者對網絡進行擴充.文獻[23]提出SFP (Soft Filter Pruning)方法,在訓練的每次迭代后進行濾波器剪枝,并在下一次迭代中繼續更新被裁剪部分的梯度.

由于神經網絡中各層的稀疏性不同,剪枝方法需要以預定義或自動設定的方式為每層設置適合的壓縮比,以減小壓縮造成的準確率損失.有研究工作提出漸變式壓縮比設定方法[18],預設每層壓縮比與算法迭代次數的函數關系式,逐漸地調整壓縮比至目標壓縮率.現有方法更傾向于制定策略在剪枝過程中自動設定壓縮比,例如AMC (AutoML for Model Compression)方法[24],根據不同需求(如保證精度或限制計算量),應用強化學習來學習每層最優的壓縮比,再通過基于幅度的通道剪枝壓縮網絡模型.

AMC 方法將自動機器學習引入剪枝方法,減輕了人工調節神經網絡超參數的壓力,但其剪枝操作是逐層執行的.現有剪枝方法大多忽略層間的關聯性,逐層移除不重要的權重來壓縮神經網絡.而最近的研究工作發現剪枝的本質是識別約束下最優的壓縮網絡結構[25],而不是篩選每層中重要的權重.已有剪枝方法[26]借鑒神經網絡架構搜索的算法來獲取最優的壓縮網絡結構,但在搜索空間設計和性能評估加速方面的優化是開放性問題.

2.2 低秩分解

低秩分解又稱低秩近似,利用卷積神經網絡的參數張量和激活張量低秩且稀疏的特點,將大尺寸張量分解成多個小尺寸張量的乘積,即用若干個小張量對原張量進行估計,減少推理時計算量[27].常見的張量分解有奇異值分解(SVD)、Tucker 分解和Canonical Polyadic (CP)分解[28]等,這些分解方法能使壓縮后模型在較少參數下保持高精度,例如CP 分解法[28]在AlexNet上實現了4 倍速度提升而只損失了1%的精度,SVD分解后的NIN[29]在CIFAR-10 數據集上達到的精度比原始NIN 高1%.

低秩分解方法在全連接層和卷積層的性能表現不同,對全連接層的壓縮效果更好.針對全連接層低秩分解的研究[30],僅對卷積網絡最后一層全連接層進行分解就將參數減少30-50%,訓練速度提升30-50%,語音識別的精度并沒有下降.

低秩分解方法中,保留多少秩關系到壓縮后準確率與推理速度的權衡.但是保留多少秩是不確定的,文獻[31]可以通過全連接層5%的權重值準確地預測出剩余95%的權重值.對于面向卷積核的低秩分解方法,秩的估計也是待優化的問題,保留的秩多能保證高準確率,但相應地加速效果下降.文獻[29]提出基于批歸一化(BN)訓練的SVD 分解方法,針對基于非線性最小二乘的CP 分解法[28]的最優秩很難求解且最優秩可能不存在的問題進行了優化,保證最優秩總是存在,并且能夠訓練層數大于30 的深度神經網絡.文獻[32]設計了基于tucker 分解的一步式(One-shot)全網壓縮方法,首先利用變分貝葉斯矩陣分解進行一步式的秩選擇后,再進行核張量tucker 分解和模型微調,并且解決了1×1卷積在硬件實現層面的問題,降低了采用inception模塊的GoogleNet 網絡在壓縮后的功耗.

低秩分解后的網絡模型在參數量壓縮之外表現出兩點提升,一是關于局部最小值尋優[30],經過低秩分解,優化過程的尋優方向受限,迭代次數減少,尋優更有效率.二是參數減少有助于降低神經網絡過擬合的風險[29],低秩分解后的網絡模型具有更小的測試誤差,對新數據集的泛化能力更好.

低秩分解方法并沒有改變基礎的卷積運算,但由于受到幾點缺陷的制約而不易于部署.一是分解操作的計算成本昂貴.二是目前的方法逐層執行,無法進行全局參數壓縮[27],文獻[29]雖然設計了低秩分解的全局優化器,但其對網絡的分解也是逐層單獨進行.三是分解后模型的收斂需要大量的訓練.

2.3 參數量化

權值共享常用的算法有K-means 聚類算法和哈希共享.文獻[20]利用K-means 算法將每一層權重矩陣聚類成若干個簇,用同一簇的聚類中心值代替該簇的權重值,因此只需存儲每個簇的聚類中心值就能保存完整的模型參數,以此來壓縮模型的存儲大小.文獻[34]設計了一種HashNet,利用哈希函數隨機將網絡連接權重分組到哈希桶,每個哈希桶內的網絡連接共享相同的權重參數,該方法可顯著減小模型體積,且對結果精度影響較小.

權值精簡方法是指利用低位寬精度參數(如8-bit)代替原始的高位寬精度參數(如32-bit)以達到模型壓縮和計算加速的目的,包括直接量化和模型重訓兩種模式.直接量化是指對預訓練得到的網絡模型,直接通過量化權重或(和)激活輸出來縮減模型大小,加快預測速度.文獻[35]設計了一種基于線性映射的直接量化方法,通過KL 散度尋找最佳裁剪閾值來計算量化參數以減小量化帶來的精度損失.目前常用的最佳裁剪閾值計算方法有最小均方差(MMSE)、KL 散度,ACIQ[36]等.不同于KL 的窮舉搜索模式,文獻[36]提出的ACIQ方法計算速度快,得到的裁剪閾值更優.相對于直接量化,模型重訓則更復雜,但它能在模型參數位寬精度更低時(如1 bit),保證模型精度不受影響.在模型重訓中,研究者主要側重于訓練方案的設計.文獻[37]提出了一種漸進式量化模式,通過訓練將浮點型神經網絡模型轉換為無損的低比特二進制模型,并通過移位計算實現乘法過程,方便模型在移動平臺的部署和加速.文獻[38]提出了一種量化模式,在前向傳播時使用8-bit整型計算,但在后向傳播時仍使用32-bit 浮點型計算損失參數以保證訓練精度.文獻[39]則從訓練最佳裁剪閾值的角度提出了PACT 量化方法,該方法將權重和激活都量化為4-bits,仍然能保持與全精度(32-bit)幾乎相近的精度.

綜上所述可見,單一的權值共享方法重點在于對模型參數進行壓縮,無法加速推理端的計算過程,很少被單獨使用.直接量化因為操作簡單且方便部署,得到了很多硬件廠商的青睞,但因為精度損失的影響,單一的直接量化無法做到較低位寬精度(如1-bit,2-bit)的量化.模型重訓的量化方法則能在保證模型精度的同時,得到位寬精度更低的模型參數(如1-bit),但該方法訓練耗時較長且不易部署.同時訓練方案的設計,以及如何有效地應用到CPU、FPGA、ASIC 和GPU 等硬件來加速訓練過程,也是重訓方法的研究重點.因此如何快速且更低位的對模型進行量化壓縮,同時保持模型精度,是當前技術研究的核心方向.如文獻[40]在ACIQ方法[36]的基礎上,通過對權重采用K-means 聚類,激活輸出采用逐通道量化,以及偏置誤差補償的方法來保證低位(4-bit)量化模型后的分類精度.文獻[41]則提出了一種基于無標簽數據訓練的網絡壓縮方法,能在快速量化的同時保持模型精度.文獻[42]則從混合精度的角度出發,提出了自動化的HAQ 方法,該方法能對不同硬件的性能進行自動識別以采用不同的低精度適配不同硬件.

2.4 知識蒸餾

知識蒸餾是指將訓練好的復雜模型的“知識”遷移到一個結構簡單的網絡中,或者通過簡單網絡去學習復雜模型的“知識”.Hinton[43]首次提出了知識蒸餾的概念,通過引入與教師網絡相關的軟目標作為總損失函數的一部分,以引導學生網絡的訓練,實現知識遷移的過程.

知識蒸餾的核心在于學生網絡如何去學習教師網絡以得到教師網絡的“知識”.文獻[44]提出了一種基于空域注意力的知識遷移模式,針對CNN 網絡,將教師網絡的注意力信息遷移給學生網絡.文獻[45]則從學習網絡層與層之間關系的角度進行知識蒸餾.文獻[46]通過學習教師網絡和學生網絡的樣本間的相似度進行知識蒸餾.文獻[47]將知識遷移的過程看作學習教師-學生之間對應特征分布匹配的過程,采用最大平均差異MMD (Maximum Mean Discrepancy)進行優化.文獻[48]從KD 損失函數入手,將可學習損失函數GAN引入到知識蒸餾框架中,作者認為教師-學生網絡就是學生對教師的模仿過程,因此學生網絡可看作一個生成器,產生對于輸入的logits.文獻[49]嘗試在大規模分布式計算環境下使用在線蒸餾的方法,即分布式環境中的每個節點之間都可以互為教師和學生,并且相互提取內在知識,以提升其它節點的模型性能.

綜上各種蒸餾方法可以看出,當前很多的知識蒸餾方法都是基于各自的一種“知識”假設模型進行蒸餾,因此可能存在知識學習的不全面性,如何設置一種更加自動化的知識蒸餾方法,是以后研究的重點.另外隨著硬件的發展,文獻[49]所提出的大規模分布式在線蒸餾方法也將會是發展趨勢之一.同時知識蒸餾方法與其它各種學習方法的結合也將帶來新的發展,如GAN,監督學習,半監督學習,以及弱監督學習等.

3 已有方法性能對比

現有文獻提出了多種衡量比較其壓縮性能的量化準則,本節將對這些量化準則進行總結,簡述在評測模型壓縮方法時常用的數據集,并且對比分析了代表性壓縮方法的壓縮性能.

3.1 評價指標

模型壓縮算法的評價指標通常涵蓋準確率壓縮(或準確率損失)、參數量壓縮、推理時延壓縮(或加速比)、MAC 量壓縮、能耗壓縮、索引空間壓縮率.各個指標的定義與計算如下:

親子閱讀的書目以繪本為主。孩子在兒童時期閱讀繪本，不僅可以增加孩子對書的親近感，而且會對孩子產生深遠而重大的影響。為此，學校給一年級每個班都配發了十種繪本，每種十本，同時還把上一屆學生創編的繪本作為禮物送給每一位新生。繪本中一個個有趣的故事情節，展現了一幅幅奇妙的、充滿童真、童趣的世界。生動的畫面拓展了孩子們的想象力，他們借助圖畫與文字了解了故事，又因故事而明理，因明理而不斷聰慧。圖像化的繪本故事，恰如點點甘霖，滋潤著孩子們幼小心靈的成長，逐漸成為成長需要的精神食糧。

(1)準確率壓縮率rA:原始模型M的圖像分類準確率Aoriginal與壓縮后模型M*的分類準確率Acompressed之比,即rA=Aoriginal/Acompressed.

(2)參數量壓縮率rp:壓縮后模型M*的所有參數所占的內存開銷Scompressed與原始模型M的所有參數所占的內存開銷Soriginal之比,即rp=Scompressed/Soriginal.

(3)時延壓縮率rT(加速比):存在兩種定義方式,一種是平均測試時間即推理時間的壓縮比,另外一種是每次迭代的平均訓練時間的壓縮比,同樣都是壓縮后模型與原模型的時間比,即rT=Tcompressed/Toriginal.

(4)MAC 量壓縮率rc:壓縮后模型M*中所有的相乘累加操作數量Ccompressed與原始模型M中所有的相乘累加操作數量Coriginal之比,即rc=Ccompressed/Coriginal.

(5)能耗壓縮率rE:壓縮后模型M*中進行推理所消耗的能量Ecompressed與原始模型M中進行推理所消耗的能量Eoriginal之比,即rE=Ecompressed/Eoriginal.

(6)索引空間壓縮率rD:壓縮后模型M*中索引空間維度Dcompressed與原始模型M中索引空間維度Doriginal之比,即rD=Dcompressed/Doriginal.

有關文獻[7]指出,單一的評價指標不能夠很好的評價壓縮模型的性能,由于這些指標并不是獨立、不相關的,因此其提出對上述所有評價指標進行平均加權,全面、綜合地評價壓縮模型的性能.同時,該文獻建議在不同資源限制的硬件平臺中選用壓縮方法時,應考慮多項指標的綜合結果作為選擇的標準,除了加權平均的方法之外還可以再進一步研究其他綜合考量多項指標的方法.

3.2 常用評測數據集

MNIST、CIFAR 和ImageNet 數據集是評測模型壓縮方法在分類任務中性能的常用數據集[50].表4列舉了MNIST 數據集和CIFAR 數據集的類別數和包含的圖像數量.用于小圖像分類的CIFAR 數據集分為CIFAR-10 和CIFAR-100 兩個版本,CIFAR-100 數據集的100個類被分成20 個超類,每個圖像都帶有一個“精細”標簽(小類)和一個“粗糙”標簽(超類).ImageNet 是一個大尺度圖像數據集[6],包含1000 個類別彩色圖像,根據WordNet 層次結構組織而成.ImageNet 可以測試分類任務及目標檢測的準確率.

表4 分類任務中常用數據集[50]

除了分類數據集外,Pascal VOC 數據集和MS COCO數據集是常用的目標檢測數據集.Pascal VOC 包含VOC2007 和VOC2012 兩個版本.Pascal VOC 中20 個類別圖像的標注情況和標注出的對象實例數目如表5所示.MS COCO 數據集以場景理解為目標,從復雜的日常場景中截取圖像,圖像中的目標通過精確的分割進行位置的標定,包含91 類目標.與Pascal VOC 相比,MS COCO 數據集中小尺寸目標多,單幅圖片中目標多,物體大多非中心分布,更符合日常環境,所以MS COCO檢測難度更大.

表5 目標檢測任務中常用數據集

3.3 分類任務中的模型壓縮

已有研究在移動端測試分析剪枝方法和低秩分解方法的代表性算法的壓縮效果,并分別評估低秩分解方法在全連接(FC)層和卷積(CONV)層的性能[7],移動端的運行環境是Xiaomi RedMi 3S (DRAM:3 GB,Battery:4100 mAh,MAC:691.3 Mflops).實驗結果如表6所列舉,包括12 層AlexNet 網絡在CIFAR-10 數據集上的測試數據.其中,用于評價的剪枝方法是deep compression[20],而低秩分解方法選用的代表性算法是基于SVD 分解的算法[51].該研究工作中,剪枝方法被應用于第一個FC 層,減少了40% 的MAC 計算量;SVD 低秩分解方法分別作用于第一個FC 層和第二個卷積層,各自縮減了20%和40%的MAC 計算量.

表6 AlexNet 中模型壓縮方法在移動端的性能對比[7]

表6中參數壓縮率的值等于原始網絡的參數量與壓縮后網絡的參數量之比,反映了壓縮算法所取得的參數量壓縮倍數.由表中數據可見,對于AlexNet 剪枝算法取得了35 倍的參數壓縮率.表中的時延壓縮率等于原始網絡的推理時延與壓縮后網絡的推理時延之比,衡量網絡前向處理時間的加速倍數.這個指標的對比結果表明時延與MAC 量或內存消耗量無直接關系,而是由神經網絡的計算與存儲開銷和設備CPU 的動態使用情況聯合影響的.參數量和MAC 量的減少,不一定會帶來時延的壓縮,在設計模型壓縮算法時,優化時延壓縮率等直接指標比減少MAC 計算量等間接指標所取得加速效果更好,這一結論與其他研究工作[52]的實驗結果保持一致.

文獻[27]還比較了模型壓縮方法在VGG 網絡中的壓縮效果,在表7的結果中,剪枝方法可以在獲取較低模型準確率損失的同時達到49 倍的參數壓縮率,高于基于CP 分解的低秩分解方法的參數壓縮率.此外,最初的深度神經網絡會采用較大尺寸的卷積核,例如AlexNet 采用11×11、5×5、3×3 卷積核,而隨著深度可分離卷積的出現,越來越多的深度神經網絡模型采用小尺寸的卷積核,例如ResNet 和MobileNet 采用的1×1 卷積核,低秩分解方法對1×1 卷積核的壓縮無顯著效果,因而對于低秩分解方法的研究文獻數呈下降趨勢.

表7 VGG 中模型壓縮方法的性能對比[27]

3.4 識別任務中的模型壓縮

現有工作還在移動端對參數剪枝方法、低秩分解等壓縮方法在幾種識別任務中的性能進行了測評[7],包括:(1)任務一,LeNet 在MNIST 數據集上的數字識別;(2)任務二,AlexNet 在CIFAR-10 數據集上的圖像識別;(3)任務三,AlexNet 在CIFAR-10 數據集上的圖像識別;(4)任務四,LeNet 在UbiSound 數據集上的語音識別.在文獻[7]的實驗結果中,參數剪枝方法在任務一中性能優于低秩分解等方法,可取得參數壓縮率rp=0.21,推理時延壓縮率rT=0.44,MAC 壓縮率rc=0.3;在任務三中將深度可分離卷積應用于AlexNet的輕量化方法呈現了最好的性能,取得參數壓縮率rp=0.32,推理時延壓縮率rT=0.23,MAC 壓縮率rc=0.13;而低秩分解方法在4 個識別任務中均未取得最佳性能表現.

此外,文獻[7]在具有不同資源約束的移動設備端測試了各類壓縮方法的性能,表8給出了移動設備端的DRAM、Cache、MAC 處理速率的設置情況以及性能表現最佳的壓縮方法.測試結果表明,在MAC處理速率最低的Device 1 上綜合性能最佳的是參數剪枝方法deep compression.而且該文章指出,沒有一種壓縮方法可以同時在精度損失、參數壓縮率、時延壓縮率、MAC 量壓縮率和能量消耗壓縮率等5 個評價指標取得最優,設計融合多類壓縮算法的復雜方法可以集成各類算法的優勢,并突破各類算法的性能提升瓶頸.

表8 不同移動設備端壓縮方法性能對比[7]

4 壓縮技術展望

壓縮技術是深度神經網絡得以迅速發展和廣泛應用的助推器,還存在很多需要解決的問題.就目前的研究重點來看,這些問題基本都集中在網絡參數上.這些參數所要處理的大批量數據,其中往往只有少許的關鍵特征信息是我們所關心的.如何從海量的數據中提取出關鍵信息,過濾掉冗余數據,也是深度神經網絡壓縮技術所要面對的一個難點.

目前雖然各方研究者提出了多種算法和理論,但是都有一定的適用范圍或適用條件,沒有一種方法可以兼顧各種應用的特點.而深度神經網絡本身所能夠支持的機器視覺任務種類將越來越多樣化,不再僅僅集中于某一種特定任務.因此能夠集成目標檢測、目標跟蹤、圖像分割等多種任務于一體的模型壓縮方法會發展成新的研究熱點.

同時,之前相對獨立發展的各種壓縮技術也將進行融合,集成各個壓縮方法的優勢,突破單個壓縮方法的局限.另一方面也可以將神經網絡結構搜索NAS 技術、自動調參技術等加入到模型壓縮方法中,實現自動化壓縮.

人工智能中的模型壓縮技術研究,其最重要的參考對象就是人類大腦.隨著對人類大腦機理本質的認識逐步深入,各種類腦芯片將會不斷涌現.人類大腦的自身機能將對神經網絡壓縮技術的發展產生深遠影響,將會提出效率更高、更為貼近人腦機能特點的壓縮理論及算法,應用于新型的人工智能行業.

5 總結

本文對神經網絡壓縮技術的進展進行了概述.在總結深度神經網絡的最新發展成果的基礎上,本文詳細介紹了參數剪枝、低秩分解、參數量化和知識蒸餾這四種主要的神經網絡壓縮方法的原理,并且分析了這四種方法各自的優缺點.本文對已有的神經網絡壓縮方法進行了性能上的對比,介紹了常用的壓縮方法評價指標、常用來驗證壓縮方法性能的經典神經網絡模型和數據集,并總結了在不同移動設備的資源約束下模型壓縮方法的性能.除此之外,本文還討論了神經網絡壓縮加速領域的發展趨勢和熱點問題,希望本文的總結工作能為模型壓縮方法的研究發展提供一些參考與幫助.