999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于FPGA的感知量化卷積神經網絡加速系統設計

2021-06-30 01:43:52電子科技大學電子科學與工程學院賀雅娟
電子世界 2021年11期
關鍵詞:模型系統設計

電子科技大學電子科學與工程學院 周 航 賀雅娟

近年來,卷積神經網絡(CNN)在機器視覺等方面取得了巨大成功。為提升嵌入式設備上運行CNN的速度和能效,本文針對LeNet-5網絡模型,先對該網絡模型進行感知量化訓練,特征圖和權重量化為8位整型數據。然后設計一種卷積神經網絡加速器系統,該片上系統(SoC)采用Cortex-M3為處理器,所提出的系統處理一張MNIST圖像所需時間5.3ms,精度達到98.2%。

CNN已成功應用于圖像識別等應用,隨著CNN解決更復雜的問題,計算和存儲的需求急劇增加。然而,在一些低功耗的邊緣計算設備中,功耗是重要指標。目前的研究主要針對CNN推理階段模型的壓縮和量化。大多數設計都用定點計算單元代替浮點單元。ESE采用12位定點權重和16位定點神經元設計,Guo等在嵌入式FPGA上使用8位單元進行設計。但之前的設計主要采用Zynq或者HLS開發,功耗較大。

本文設計了一種基于FPGA的卷積神經網絡加速系統。首先,通過感知量化訓練的方法,實現了將浮點CNN模型的各層權重和特征圖量化成8比特整型;其次,通過采用單層時分復用的方式,設計流水線架構提高數據吞吐率;再次,設計基于Cortex-M3的SoC;最后,采用MNIST手寫數字進行方案和功能驗證。

1 卷積神經網絡

1.1 基本概念

LeNet-5是一個典型的卷積神經網絡模型,不包含輸入一共有7層。分別為3層卷積層,2層池化層,以及2層全連接層。

1.2 量化原理

針對目前CNN模型較大,參數多且不適合在移動設備上使用,Google團隊提出了一種量化方案。該方案在推理過程中使用純整。量化方案是量化整數q到實數r的映射,如公式(1)所示:

其中常數S和Z是量化參數。S表示比例系數,是一個任意的正實數。Z表示零點。CNN中主要的操作,比如卷積層的卷積,以及全連接層的乘累加,都可以看成是矩陣乘法??紤]實數兩個N×N的矩陣r1和r2的乘積r3=r1r2。將每個矩陣ra的項表示為ra(r,j),其中1≤i,j≤N,用qa(r,j)表示量化項,根據矩陣乘法的定義,得到:

乘以浮點數M,可以轉化成先乘以定點數M1,再進行右移n+31。

將公式(2)中所有零點Z1,Z2,Z3都設為0,可以大大簡化推理階段的運算。另外將偏置加法和激活函數合并到其中。比例系數Sbias=S1S2,零點Zbias=0。由于選用的激活函數是ReLU,所以只需要將結果鉗位到[0,255]。

2 加速系統硬件設計

2.1 整體結構

本系統采用CPU+FPGA的架構,包括AHB互聯矩陣、Cortex-M3處理器、DMA、緊耦合存儲器、雙端口緩存、AHB2APB橋和CNN加速器,如圖1所示。

圖1 系統框圖

存儲器部分包含ITCM,DTCM和雙端口RAM。ITCM存放程序鏡像文件;DTCM作為堆棧區;Dual RAM作為權重數據,輸入特征圖,以及中間、最終結果緩存區,一端連接L1級總線,CPU和DMA均可以訪問,另一端連接CNN加速器。

2.2 CNN加速器設計

CNN加速器設計的整體結構如圖2所示,并行方案采用輸出通道和權重卷積核內部并行,同時計算6個輸出通道,以及卷積核25個乘法器同時計算。

圖2 CNN加速器整體結構

特征圖行緩沖的窗口尺寸為5x5,可以通過數據選擇器選擇輸入特征圖的寬度。權重特征圖的行緩沖設計同理,由于卷積核均為5x5,所以不需要數據選擇器。

乘累加陣列輸入為25個8位特征圖和25個8位權重,對應相乘后采用加法樹方式累加,最后得到1個位寬為21的有符號數。

偏置加法器用于累加偏置或者中間結果。選擇哪一個是由數據選擇器控制,輸出一個32位結果。

量化激活模塊包含一個32x32位的乘法器,用于將累加結果和乘法系數相乘,再經過右移,鉗位到[0,255],經過四舍五入得到量化的結果。

池化模塊設計思路同卷積模塊,采用最大池化。包含3個比較器和一個行緩沖,針對不同層可以選擇不同長度的特征圖,窗口尺寸為2x2。

3 實驗結果與分析

3.1 實驗環境

本文采用的FPGA是Xilinx公司的Artix-7XC7A200T芯片,開發環境為Vivado 2018.3。卷積神經網絡訓練和推理采用Pytorch 1.7.1。實驗的數據集是MNIST數,CNN模型采用LeNet-5。

3.2 實驗結果

本文的SoC工作的頻率為100MHz,識別一張MNIST圖片的時間為5.3ms,FPGA的功耗由Vivado的Report Power工具獲得,僅為0.448W。本文處理單幀的時間比較長,但是功耗是其他文獻的四分之一。由于采用感知量化,識別正確率FPGA實現和軟件實現一致,達到98.2%。實驗結果對比如表1所示。

表1 實驗結果對比

結論:為了解決嵌入式設備上實現卷積神經網絡速度慢和功耗大的問題,本文提出了一種卷積神經網絡加速系統。首先對卷積神經網絡進行感知量化,得到8比特的權重、特征值和量化參數。采用Cortex-M3作為處理器設計片上系統,大大降低了功耗。本設計在Artix-7 Xc7a200T上實現了LeNet-5。通過MNIST數據集,實驗結果表明本設計保持了準確性,降低了功耗。

猜你喜歡
模型系統設計
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
瞞天過?!律O計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
主站蜘蛛池模板: 黄色网页在线播放| 欧美高清国产| 久久91精品牛牛| 黑色丝袜高跟国产在线91| 91精品人妻互换| 国产国语一级毛片在线视频| 孕妇高潮太爽了在线观看免费| 任我操在线视频| 久久久久亚洲Av片无码观看| 全免费a级毛片免费看不卡| 亚洲Av激情网五月天| 亚洲v日韩v欧美在线观看| 亚洲综合天堂网| 国产91无毒不卡在线观看| 久青草网站| 97影院午夜在线观看视频| 四虎成人精品在永久免费| 亚洲无码精品在线播放 | www.91中文字幕| 制服丝袜亚洲| 2021精品国产自在现线看| 色首页AV在线| 日本不卡在线视频| 成人午夜视频免费看欧美| 国产尤物在线播放| 91区国产福利在线观看午夜| 日韩精品一区二区三区免费在线观看| 国产精品极品美女自在线看免费一区二区| 国产精品999在线| 国产在线八区| 久夜色精品国产噜噜| 在线播放国产99re| 色九九视频| 欧美精品成人一区二区视频一| 亚洲人成色在线观看| 潮喷在线无码白浆| 毛片网站在线看| 亚洲性网站| 日韩乱码免费一区二区三区| 色香蕉影院| 亚洲最大看欧美片网站地址| 国产成人免费视频精品一区二区| 亚洲天堂免费| 亚洲一级毛片在线观播放| 欧美亚洲中文精品三区| 亚洲成网777777国产精品| 九九九国产| 亚洲无码日韩一区| 国产免费自拍视频| 欧美在线综合视频| 亚洲欧洲日本在线| 啪啪啪亚洲无码| 91香蕉国产亚洲一二三区| 久久久久国产一区二区| 色偷偷综合网| 无码人中文字幕| 五月天久久综合| 国产内射一区亚洲| 欧美成人精品一级在线观看| 国产超碰在线观看| 国产色网站| 日本人真淫视频一区二区三区| 久久综合亚洲色一区二区三区| 国产爽妇精品| 久久网综合| 国产主播福利在线观看| 亚洲欧洲日韩综合色天使| 97精品国产高清久久久久蜜芽| 国产情精品嫩草影院88av| 狠狠色综合网| 91精品人妻一区二区| 国产玖玖视频| 国产成人久久777777| 国产精品爽爽va在线无码观看| 亚洲欧美自拍中文| 大学生久久香蕉国产线观看| 素人激情视频福利| 亚洲国产日韩在线成人蜜芽| 国产高清在线观看| 国产精品刺激对白在线| 国产农村妇女精品一二区| 91在线精品麻豆欧美在线|