999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NOR Flash的卷積計算單元的設計

2020-05-20 01:35:18徐偉民蔣明峰
網絡安全與數據管理 2020年5期
關鍵詞:檢測

徐偉民,黃 魯,蔣明峰

(1.中國科學技術大學 微電子學院,安徽 合肥 230026;2.中國科學技術大學 信息科學技術學院,安徽 合肥 230026)

0 引言

深度學習在人臉識別、音頻識別、圖像分類等領域中得到廣泛應用。深度學習網絡具有大量的權重數據和大量的乘累加操作,極大的算力需求和功耗限制使得深度學習應用難以部署在物聯網終端設備。而在深度學習網絡中,卷積計算占用前向計算89%的時間,隨之產生巨大的功耗[1]。所以高速、低功耗的卷積計算單元的設計成為迫切的需求。

主流的馮諾依曼架構中,計算單元和內存單元是兩個完全分離的單元,計算單元根據指令從內存讀取數據,在計算單元完成計算,再存回內存。數據需要在計算單元和存儲單元之間進行頻繁的移動,因此帶來較大的功耗和較低的運算效率。存算一體架構將計算單元與內存單元合二為一,在存儲數據的同時完成運算,從而極大地減少了計算過程中數據存取的時間和功耗。實現存算一體化的介質有相變存儲PCM[2],靜態隨機存儲SRAM[3]、浮柵器件Flash[4]等。Flash具有工藝成熟、成本低等特點,因此本設計采用Flash作為存算一體的介質。具體做法是將卷積核的權值映射到Flash陣列的閾值電壓,然后Flash陣列進行高速、低功耗的模擬乘累加計算來加速卷積計算過程。

本文的主要內容在于:(1)利用Flash的線型區I/V特性,設計基于NOR Flash的模擬矩陣計算單元;(2)基于模擬矩陣計算單元,設計了基于NOR Flash的模擬卷積計算單元;(3)通過SOBEL邊緣檢測算子評估基于NOR Flash的卷積計算單元的性能。

1 基于NOR Flash的矩陣計算單元

1.1 基于Flash的模擬乘法器

基于Flash的模擬乘法器由兩個Flash單元組成,分別命名為正Flash和負Flash,如圖1所示。兩個Flash的柵極(G端)相連,接固定電位;漏端(D端)相連,接輸入電壓VDS;正負Flash的源端(S端)電流相減得到電流輸出ID。數字輸入A由數模轉換器DAC轉換為模擬電壓VDS,電流輸出ID由模數轉換器ADC轉換為數字輸出C。

圖1 基于Flash的模擬乘法器電路原理圖

利用Flash在線性區下的I/V特性:

(1)

(2)

式(1)、式(2)相減得:

(3)

式中:ID為正負Flash的電流差,unCox為工藝常數,W/L′為Flash的有效寬長比,VTHp為正Flash的閾值電壓,VTHn為負Flash的閾值電壓,ΔVTH為兩個Flash的閾值電壓差,VDS為兩個Flash的D端電壓,VGS為兩個Flash的G端電壓。

假設C,A,Wweight與ID,VDS,ΔVTH的比例關系為:

(4)

則:

(5)

式中:C為乘積結果,Wweight為權值,A為乘數,K為乘積系數。

上述推導表明利用Flash在線性區下的I/V特性能構成模擬乘法器。預置權值Wweight通過Flash的閾值電壓VTH改變,VTH可以通過Flash的隧穿效應或者熱電子效應來進行編程和擦除,簡而言之,就是通過控制Flash的S、G、D端的電壓,來調節VTH的大小。一個Flash能夠存儲1~4 bit數據[5],一對確定閾值電壓差ΔVTH的Flash相當于一個常系數的乘法器。

圖2為該模擬乘法器在SMIC 65 nm浮柵工藝的SPICE BSIM3模型下的仿真結果。VGS固定電壓7 V,VDS的輸入電壓范圍在0~65 mV,選用17種不同的ΔVTH。計算結果ID在-4 μA~4 μA之間,ID隨VDS線性變化,最大非線性誤差為3.21%,用bit來衡量為4 bit,所以Flash能完成4 bit的乘法運算。

圖2 基于Flash的模擬乘法器的SPICE仿真

1.2 基于Flash的模擬乘累加單元

基于Flash的模擬乘累加單元由n列個Flash模擬乘法器組成,共有2×n個Flash,可存儲n個權重。兩行Flash的G端相連,接固定電位;每列Flash的D端相連,接模擬輸入信號[V1,…,Vn];兩行Flash陣列的S端電流差ID為模擬乘累加輸出。數字輸入[a1,…,an]由DAC轉換成模擬輸入[V1,…,Vn],電流輸出ID由ADC轉換為數字輸出c,如圖3所示。

圖3 基于Flash的模擬乘累加單元電路原理圖

模擬乘累加單元使用Flash的線型區I/V特性來實現模擬乘法操作,Flash的S端相連完成電流加法操作。相關計算公式如下:

(6)

假設使用公式(4)的轉換關系,則:

c=K·[a1,a2,…,an]·[w1,w2,…,wn]T

(7)

1.3 基于NOR Flash的模擬矩陣計算單元

基于NOR Flash的模擬矩陣計算單元由m行模擬乘累加單元構成,共有2m×n個Flash,可存儲m×n個權重。每個Flash以并聯方式連接,可以對每個Flash進行獨立的編程操作。每行乘累加單元的G端相連,構成模擬矩陣計算單元的字線WL控制端;每列Flash的D級相連,接入模擬電壓信號[V1,…,Vn],構成陣列的位線BL輸入端;m行乘累加電路輸出m個模擬運算結果[ID1,…,IDm]。數字輸入[a1,…,an]由DAC轉換成模擬輸入[V1,…,Vn],電流輸出[ID1,…,IDm]由ADC轉換為數字輸出[c1,…,cm]。該單元能夠完成向量點乘矩陣計算,如圖4所示。

圖4 基于NOR Flash的模擬矩陣計算單元

相關的計算公式為:

[ID1…IDm]=

(8)

代入式(4),得

[c1,…,cm]=

K·[a1,…,an]·

(9)

2 基于NOR Flash的卷積運算單元

2.1 卷積運算的原理及特點

卷積計算是現代圖像處理和深度學習的基礎運算。卷積運算從輸入圖像的左上角開始,開一個卷積核大小的滑動窗口,滑動窗口與卷積核對應元素相乘后相加,用計算結果代替窗口中心數值,滑動窗口經過從左到右從上至下掃描后,得到輸出圖像。卷積運算的公式為[6]:

(10)

式中A(m,n)表示M×N的單通道圖片,B(s,t)表示S×T的卷積核。

卷積計算本質上是矩陣計算。圖5描述了卷積運算轉化為向量點乘矩陣計算的過程。T個k×k卷積核變換成[t,k×k]的權重矩陣。m×n的圖像變換成(m-k+1)×(n-k+1)個長度為k×k的輸入向量。向量點乘矩陣計算結果為(m-k+1)×(n-k+1)個長度為t的輸出向量,輸出向量變換成t個(m-1)×(n-1)輸出圖片。

圖5 卷積運算轉換為向量點乘矩陣運算

2.2 基于NOR Flash的卷積運算單元

基于NOR Flash的卷積運算單元,主要由輸入數據緩沖器、數模轉換器DAC、模擬矩陣計算單元、字線控制信號產生器、模擬選通器、模數轉換器ADC、輸出數據緩沖器構成。輸入數據緩沖器按照卷積計算規律將輸入圖片轉換為多個輸入向量,DAC將輸入矩陣轉換為模擬電壓,模擬矩陣計算單元完成高度并行的乘累加操作,字線控制信號可以控制當前行的乘累加操作是否有效,ADC將模擬計算結果轉換為數字結果,模擬選通器通過切換S端與ADC的連線實現ADC的分時復用,輸出數據緩沖器完成輸出矩陣到輸出圖片的轉換。卷積運算的系統框圖如圖6所示。

圖6 基于NOR Flash的卷積運算的系統框圖

數據緩沖單元是將輸入圖片按照卷積計算規律轉換為向量輸入的關鍵電路。圖7的緩沖單元將大小為m×n輸入圖片進行相應的向量轉換。該單元為k行移位寄存器加寄存器的結構,行與行之間串聯。每行移位寄存器的長度為(n-k),寄存器的個數為k。輸入圖片從第一行的移位寄存器輸入,k×k個寄存器構成滑動卷積窗口,形成DAC陣列的矩陣輸入。

圖7 緩沖單元的結構

基于NOR Flash的卷積運算流程分為權重存儲和卷積計算兩步。第一步進行權重存儲,卷積核按照圖5所示方法展開轉換為權重矩陣,然后轉換為閾值電壓差映射到Flash陣列上。第二步進行卷積運算,輸入圖片通過數據緩沖器轉換為數個輸入向量,DAC將其轉為模擬電壓。模擬矩陣計算單元進行高度并行的模擬計算,輸出電流經過ADC轉換為輸出向量。輸出向量經過數個時鐘周期得到完整的輸出圖片。圖8為基于NOR Flash的卷積運算的流程圖。

圖8 基于NOR Flash的卷積運算的流程圖

3 基于NOR Flash的邊緣檢測算法

用Sobel邊緣檢測算法評估基于NOR Flash的卷積計算單元的性能。邊緣檢測可以將周圍像素灰度有階躍變化的像素檢測出來,Sobel算子包括兩組卷積核,檢測水平邊緣的Bx算子,檢測垂直邊緣的By算子。Sobel邊緣檢測主要方法就是將輸入圖片灰度圖片分別經過Bx算子,By算子進行卷積運算后得到灰度圖[7]。圖9為640×480的灰度圖片經過Sobel邊緣檢測的MATLAB軟件仿真。

圖9 SOBEL邊緣檢測的MATLAB軟件仿真

圖10為基于NOR Flash的Sobel邊緣檢測驗證電路的組成。輸入640×480大小的4 bit灰度圖經過數據緩沖單元產生輸入向量。DAC精度為4 bit,最大輸出幅值為65 mV。兩行Flash的ΔVTH作為權重參數,具體分配如表1所示。

電流轉電壓(ITV)電路固定Flash陣列的S端電壓的同時,將微安級別的電流轉換為毫伏級別的電壓。求差電路(SUB)將兩陣列的電壓相減,相關公式如下:

表1 權重與閾值電壓分配

注:VTHb為Flash閾值電壓中間值

(11)

Vo=Vi2-Vi1

(12)

圖10 基于NOR Flash的邊緣檢測的SPICE仿真結構

ADC將模擬計算結果轉換為數字結果,分辨率為4 bit。

使用SMIC 65 nm浮柵工藝的SPICE BSIM3模型進行HSPICE仿真。圖11為Bx算子的卷積運算的部分仿真結果,bl0~bl8為9個DAC的數字輸入,VO為模擬結果輸出,out為數字結果輸出,sign為符號位。將Bx算子、By算子的卷積結果合成圖片,得到基于NOR Flash的Sobel邊緣檢測結果,如圖12(a)所示。圖12(b)為基于NOR Flash的Sobel邊緣檢測與標準邊緣檢測結果相差的噪聲。峰值信噪比PSNR是一種全參考的圖像質量評價指標,能用來評價一幅圖片與參考圖片相比的質量[7]。本文使用PSNR來評估基于NOR Flash的Sobel邊緣檢測與標準邊緣檢測相比的質量。PSNR值為39.05 dB,接近40 dB,說明圖像噪聲小,非常接近標準計算結果。

圖11 基于NOR Flash的Bx算子卷積的部分SPICE仿真結果

圖12 基于NOR Flash的Sobel邊緣檢測的結果與噪聲分析

4 系統評估

表2為卷積計算單元的性能比較。文獻[8]為使用Xilinx Zynq-7000 FPGA實現Sobel邊緣檢測;文獻[3]為基于SRAM使用存算一體架構來加速卷積神經網絡。本設計能夠實現輸入4 bit,權重4 bit的模擬卷積運算,2×9的Flash陣列能夠實現一個3×3卷積核,一個時鐘周期能夠完成18 次乘加運算,在100 MHz時鐘下,算力能夠達到1.8 GOPS,功耗為9.8 mW,Flash陣列的能耗比達到0.18 TOPS/W。可以看到,相對于傳統數字架構實現,該架構有較大的性能提升,但是由于此陣列規模較小,并且外圍電路占用較多的能耗,因此相對于基于SRAM的存算一體架構實現,性能還有提升的余地,但是后續可以通過擴大陣列規模提高算力,減小外圍電路的功耗,來達到更高的性能。

表2 卷積計算單元的性能比較

注:1MAC=2OPS(ADD+MUL)

5 結論

本文提出一種基于NOR Flash的卷積計算單元電路,能夠高效率地完成卷積計算。在SMIC 65 nm浮柵工藝,100 MHz時鐘,3.3 V電源電壓下,實現一個3×3卷積核的Flash陣列能耗比能夠達到0.18 TOPS/W。后續將選用合適的卷積神經網絡算法部署至該陣列,同時擴大該陣列的規模,提高該單元的性能。該設計對使用Flash來實現存算一體具有參考作用。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 中文国产成人久久精品小说| 日韩精品资源| 波多野结衣一区二区三区88| 日韩色图区| 日本在线亚洲| 99久久精品久久久久久婷婷| 亚洲无码一区在线观看| 91精品国产自产在线观看| 第一页亚洲| 成人精品在线观看| 毛片一区二区在线看| 中文字幕在线不卡视频| 四虎免费视频网站| 亚洲精品va| 欧美成人手机在线观看网址| 国产男人的天堂| 久久77777| 亚洲最大福利网站| 91成人试看福利体验区| 久久精品国产91久久综合麻豆自制| 午夜不卡视频| 狼友视频一区二区三区| 国产成人综合久久精品下载| 一区二区三区成人| 亚洲视屏在线观看| 日韩精品一区二区深田咏美 | 噜噜噜久久| 色婷婷电影网| 国产精品久久久精品三级| 亚洲国产成人综合精品2020 | 亚洲二区视频| 欧美亚洲综合免费精品高清在线观看| 国产在线视频导航| 日韩午夜福利在线观看| 五月天香蕉视频国产亚| 国产精品一线天| 色精品视频| 国产网友愉拍精品| 白丝美女办公室高潮喷水视频 | 久久免费观看视频| 国产亚洲高清视频| 国产精品区网红主播在线观看| 国产精品吹潮在线观看中文| 91精品啪在线观看国产| 国产精品亚洲综合久久小说| a在线观看免费| 97一区二区在线播放| 国产第一页屁屁影院| 国产精品免费入口视频| 成人国产精品2021| 亚洲人成在线精品| 亚洲无码高清视频在线观看| 欧美不卡视频一区发布| 欧洲av毛片| 亚洲第一黄色网| 三上悠亚在线精品二区| 国产精品yjizz视频网一二区| 在线观看av永久| 日韩黄色在线| 久久国产香蕉| 69视频国产| 精品国产一区91在线| 亚洲无码视频喷水| 亚洲欧美一区在线| 国产成人午夜福利免费无码r| 在线色国产| 精品无码一区二区在线观看| 亚洲高清中文字幕| 国产丝袜啪啪| 亚洲日韩在线满18点击进入| 亚洲中文字幕久久无码精品A| 久久香蕉国产线看观| 色综合五月| 欧美日韩亚洲国产主播第一区| 日韩欧美91| 91精品免费久久久| 久久91精品牛牛| av天堂最新版在线| 宅男噜噜噜66国产在线观看| 毛片最新网址| 国产精品分类视频分类一区| 国产色伊人|