999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡結構搜索的卷積神經網絡剪枝與壓縮方法

2023-03-09 07:55:02亮,石
自動化與儀表 2023年2期
關鍵詞:模型

蒲 亮,石 毅

(華中光電技術研究所-武漢光電國家研究中心,武漢 430223)

隨著現代戰爭對無人化和智能化需求的增加,基于深度神經網絡的人工智能技術在目標檢測和目標跟蹤等領域得到了廣泛的應用[1-2]。但是,隨著深度學習模型越來越復雜,參數和層數越來越多,巨大的存儲成本和計算成本嚴重阻礙了深度學習模型在嵌入式設備上的部署[3-4]。因而,對網絡模型的壓縮裁剪是完成卷積神經網絡模型部署的重要步驟之一[5-6]。

模型壓縮剪枝一般分為結構化剪枝和非結構化剪枝2 種[7-9]。在結構化剪枝中,通過對BN 層的縮放因子施加L1 范數正則化訓練后,使通道對應的縮放因子產生稀疏化,裁剪符合條件的通道來達到模型壓縮,取得一定成效[10-11]。為了進一步提高模型在嵌入式設備上的運行速度,需要開展更加深入的神經網絡模型壓縮裁剪技術的研究。本文通過新的優化策略-加速近端梯度(APG)、輕量級網絡設計、非結構化剪枝和神經網絡結構搜索(NAS)等手段相結合,實現對目標分類和目標檢測等常見卷積神經網絡模型的壓縮剪枝,并將壓縮剪枝后模型的推斷過程在嵌入式架構中實現,為深度學習技術在邊緣端設備平臺上的實現奠定了基礎。

1 剪枝算法

1.1 基于神經網絡架構搜索(NAS)剪枝

本文采用神經網絡結構搜索(NAS)技術,基于數據和任務驅動的輕量級網絡設計,首先訓練出一個精度不低但相比常規CNN 參數量和計算量都較小的模型。將NAS 直接應用于具有可變化channel數和層尺寸的網絡,通過最小化剪枝后網絡的損失來學習channel 的數量,如圖1所示。這種剪枝方法包括3 個階段:

圖1 傳統剪枝范式和基于TAS 的剪枝范式Fig.1 Traditional pruning paradigm and TAS-based pruning paradigm

(1)用標準分類訓練程序訓練未剪枝的大型網絡;

(2)通過可變換結構搜索(transformable architecture search,TAS)搜索小型網絡的深度和寬度,TAS 的目標是尋找一個網絡的最佳規模;

(3)利用簡單的知識蒸餾(knowledge distillation)方法,將未剪枝網絡中的信息遷移到搜索到的小型網絡中。

1.2 基于加速近端梯度(APG)的優化策略的一般化結構化剪枝

在完成NAS 剪枝與輕量化模型設計后,以該模型為baseline,為網絡中每一個group/block/channel等level(層級)的結構都賦予一個對應衡量其重要性的參數因子(或為方便直接采用BN 層中的縮放因子),并對這些參數因子施加L1 范數正則化,同時采用加速近端梯度(APG)優化算法,進行稀疏化訓練。即是在網絡的每個通道輸出上、每個殘差結構卷積分支上以及一些group 卷積的非identity group 的輸出上乘以一個縮放因子。

由于L1 范數不可微,本文采用更好的針對L1范數正則化的近端梯度優化方法,該優化算法的解形式是軟閾值函數。根據推導過程發現,要想使用該方法,要進行兩次網絡前傳,代價太大。因此,可采用APG(accelerated proximal gradient)算法。其實,APG 算法只不過比牛頓動量優化算法多出一個投影函數(這個投影函數就是軟閾值函數),只需要在牛頓動量算法的優化器中對縮放因子施加軟閾值函數即可,軟閾值函數的兩個參數是學習率和對應縮放因子值。

目標函數為

使用APG 算法更新λ,求解過程為

其中,g(λ)表示為

作進一步的變換:

1.3 基于BN 層的結構化剪枝

BN(batch normalization)層的計算公式為

BN 層的作用是解決訓練過程中的內部協變偏移。根據式(12),該操作會將卷積的輸出值減去一個均值再除以一個標準差,后面再做一個仿射變換,而且縮放因子γ 和偏移β 都是可學習參數,這樣既能防止卷積的輸出值變化過大(導致不易收斂),同時又不會將學到的信息完全去除掉。

在CNN 中,卷積層的每一個通道對應著一個縮放因子γ 和偏移β,如果縮放因子γ 很小的話,那么這個通道可以略去,對神經網絡的最終輸出結果影響不會很大。就是說,γ 可以衡量每個通道的重要性,如果對這個γ 進行優化更新時采用L1 正則化,可以讓其產生稀疏解。

總的損失函數如下,第二項即為正則化項:

L1 范數和L2 范數正則化。在模型的訓練中,為了防止過擬合,一般都會添加正則化項。由于L2 范數是可微的,所以大多數模型訓練都是采用L2 范數正則化,能得到比較平滑的解。

如圖2所示,基線模型訓練好之后,會產生一些接近0 的縮放因子,這時就可以把與這些接近0的縮放因子對應的通道直接去掉,同時與該通道對應和相連的卷積核都去掉,就得到了剪枝后的模型。

圖2 基于BN 層的剪枝范式Fig.2 BN-based pruning paradigm

2 系統組成與實施流程

本文系統由訓練數據庫、稀疏訓練模塊和剪枝模塊組成,其中,訓練數據庫存儲于上位機可訪問的存儲器上,稀疏訓練模塊和剪枝模塊運行在多GPU并行計算服務器上,目標檢測模型運行在FPGA 等邊緣端硬件上。如圖3所示。

圖3 系統組成Fig.3 Components of the experimental system

本文神經網絡模型的稀疏化訓練和模型的壓縮剪枝流程如圖4所示,主要可以分5 步:

圖4 算法流程Fig.4 Algorithm flow chart of the proposed method

(1)采用神經網絡結構搜索(NAS)技術、基于數據和任務驅動的輕量級網絡設計,首先訓練出一個精度不低但相比常規CNN 參數量和計算量都較小的模型;

(2)以步驟(1)中的模型為baseline,為網絡中每一個group/block/channel 等level(層級)的結構都賦予一個對應衡量其重要性的參數因子(或為方便直接采用BN 層中的縮放因子),并對這些參數因子施加L1 范數正則化,同時采用加速近端梯度(APG)優化算法,進行稀疏化訓練;

(3)對于稀疏化訓練完的模型,將模型中那些接近0 的參數因子對應的channel/group/block 進行裁剪;

(4)再微調剪枝后的模型,使其恢復性能;

(5)模型微調后如果能回到baseline 的精度或下降在5%以內,則返回到步驟(2),進行下一輪模型壓縮剪枝,否則結束該程序。

3 實驗及結果分析

3.1 算法數據集概況

本文目標分類數據集有cifar、ImageNet,目標檢測數據集有voc、coco 等。ImageNet 有超過1000 萬張圖片,一般使用經過“修剪”后的1000 個非重疊類的列表。目標分類常用Top-1 Accuracy 和Top-5 Accuracy 來評價模型的好壞。PASCAL VOC2007 和2012 數據集總共分4 個大類,總共20 個小類。目標檢測模型的優劣則一般使用mAP(平均精確率均值)這個指標來進行評價。

3.2 算法運行環境

(1)上位機平臺

上位機網絡模型的訓練需要利用大量數據樣本進行迭代運算,計算量巨大,故在配備了10 個計算GPU 的并行計算工作站上進行,其配置如下:

CPU:2×Intel Xeon E5-2683 V3 2.0G;

GPU:10×NVIDIA GeForce1080ti;

內存:512 G(32 G×16)DDR4 2400 RegECC(最大支持1.5 T);

硬盤:8×2 T SSD;

顯示器:27.9 英寸4 K;

網路:Intel I350 雙千兆網口+1×千兆管理網絡接口;

電源:2000 W 80PLUS 2+2 高效冗余電源。

(2)嵌入式平臺

神經網絡模型的代碼在嵌入式平臺上運行,主要包括:

①智能圖像處理SOC 平臺ARM 部件

Cortex-A53 4 核處理器;

典型工作頻率1.5 GHz;

A53 每個核中都包含32 KB 的指令cache 和32 KB 的數據cache,L2Cache 大小均為512 KB。

②智能SOC 硬件平臺

FPGA SOC:Xilinx XCZU9EG;

內存:4 G 64 bit DDR4;

閃存:32 G。

3.3 實驗結果

在上位機上,輸入已有目標檢測神經網絡模型結構文件和訓練數據集,進行稀疏訓練和模型剪枝,運行結果如圖5所示。對比壓縮剪枝后和壓縮剪枝前的模型準確率、參數量和計算量壓縮率,壓縮剪枝前的模型準確率為80.49%,模型參數文件大小為43.7 MB,計算量BFLOPS 為6.915。壓縮剪枝后模型準確率為80.55%,模型參數文件大小為3.9 MB,計算量BFLOPS 為1.105。壓縮剪枝后模型準確率提高0.06%,參數量下降91.1%,計算量下降84.0%。通過本文提出的壓縮剪枝算法,在參數量和計算量大幅下降的同時準確率與壓縮前模型保持相同水平。

圖5 基于嵌入式硬件平臺剪枝后的目標檢測模型運行結果Fig.5 Experimental results of the target detection model with our proposed method,which was based on embedded hardware platform

進一步,將壓縮剪枝后的模型部署在嵌入式硬件平臺中,用壓縮后的模型進行前向推理。統計模型運行時間,發現除去圖像預處理時間,單幀圖像處理時間(CNN 主干網絡處理時間與網絡后處理時間之和)最大值小于40 ms,處理速度達到25 幀以上。

4 結語

本文通過研究基于BN 層的結構化剪枝、基于加速近端梯度(APG)優化的一般化結構化剪枝、基于數據和任務驅動的輕量級網絡設計以及基于神經網絡結構搜索(NAS)剪枝等關鍵算法技術,完成了對目標分類和目標檢測等常見卷積神經網絡模型的壓縮剪枝,實驗表明壓縮剪枝后模型準確率不變,參數量下降91.1%,計算量下降84.0%。最后將壓縮剪枝后模型的推斷過程在嵌入式架構中實現,為深度學習在邊緣端設備平臺上的實現奠定了基礎。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 性色生活片在线观看| 日韩成人高清无码| 狠狠色香婷婷久久亚洲精品| 亚洲精品无码久久毛片波多野吉| 久爱午夜精品免费视频| 这里只有精品在线| 国产精品视频999| 精品视频一区二区观看| 久久午夜夜伦鲁鲁片无码免费| 国产亚洲欧美日本一二三本道| 亚洲天堂高清| 欧美视频在线不卡| 欧美成人免费午夜全| 国产人成网线在线播放va| 国产成人一区在线播放| 黄色一级视频欧美| 亚洲欧洲日韩综合色天使| 欧美性天天| 72种姿势欧美久久久久大黄蕉| 最新国产午夜精品视频成人| 激情无码字幕综合| 国产区福利小视频在线观看尤物| 日本午夜网站| 青草午夜精品视频在线观看| 国产精品视频第一专区| 欧美在线观看不卡| 国产极品美女在线观看| 欧美日韩午夜| 99视频免费观看| 国产成人91精品免费网址在线| 国产十八禁在线观看免费| 亚洲AV无码乱码在线观看裸奔| 999国产精品| 国产日韩欧美精品区性色| 免费毛片视频| 2024av在线无码中文最新| 日本精品影院| 国产美女无遮挡免费视频| 九九久久精品免费观看| 精品一区国产精品| 成人精品区| 亚洲有无码中文网| 色哟哟国产精品| 日韩精品无码免费专网站| 久久综合五月婷婷| 在线观看无码a∨| 看你懂的巨臀中文字幕一区二区| 亚洲a免费| 国产三级毛片| 色精品视频| jizz亚洲高清在线观看| 欧美日韩国产成人高清视频 | 人人妻人人澡人人爽欧美一区| 精品少妇人妻av无码久久| 国产亚卅精品无码| 亚洲一区毛片| 美女一级免费毛片| 亚洲av无码专区久久蜜芽| 91亚洲精选| 国产无码网站在线观看| 国产亚洲精品资源在线26u| 久热re国产手机在线观看| 91青青草视频| 九九香蕉视频| 婷婷开心中文字幕| 中文无码伦av中文字幕| 亚洲一区二区成人| 欧美成一级| 久久永久精品免费视频| 国产美女在线免费观看| 国产无人区一区二区三区| 色一情一乱一伦一区二区三区小说 | 国产一区二区免费播放| 亚洲天堂.com| 超碰色了色| 久久综合色视频| 久久国产免费观看| 国产精品永久不卡免费视频| 国产在线精品99一区不卡| 久久9966精品国产免费| 国产男女免费完整版视频| 91日本在线观看亚洲精品|