面向大規模卷積計算的多憶阻器陣列互連結構設計*

2023-09-28 07:21:32唐勵勤刁節濤陳長林駱暢航劉思彤張宇飛

國防科技大學學報 2023年5期

關鍵詞：瓦片

唐勵勤,刁節濤,陳長林,駱暢航,劉彪,劉思彤,張宇飛,王琴

(國防科技大學電子科學學院, 湖南長沙 410073)

在人工智能時代的大背景下,深度神經網絡受到市場和學術界的廣泛關注,特別是其中的卷積神經網絡,在圖像識別、數據處理和語音分析等多個領域取得了巨大的成功。為了加速卷積神經網絡的推理過程,業界設計了多款神經網絡加速器,例如DaDianNao[1]、TPU[2]等。其中絕大多數是采用了存算分離的馮·諾依曼架構的加速器,在卷積網絡推理計算過程中,特征圖像數據和網絡權重數據需要在存儲單元與運算單元之間頻繁移動,從而導致較大的計算延遲與功耗,目前這一問題已經成為限制神經網絡加速器性能提升的瓶頸[3]。模仿生物神經網絡結構,將突觸連接強度(網絡權重)存儲和神經沖動傳導(特征圖像數據與權重相乘)在同一位置實現,則可大大提高計算速度和能效。然而基于CMOS工藝實現權重存儲和乘加運算需要較多的晶體管,進而導致較大的芯片面積和功耗。同時隨著摩爾定律的延續即將受到物理層面的問題約束,在提高晶體管的集成度方面的發展也遇到了困難。在能效與集成度兩方面的制約下,尋找新的高能效計算方式與計算器件是當前重要的研究方向。

憶阻器[4]作為一種新興的信息器件,由于其阻值可調、非易失[5]、集成密度高[6]、生產工藝與CMOS工藝兼容[7]等特點,在近年來吸引了大量的關注與研究。憶阻器陣列在完成卷積運算時,權重以電導形式存儲在憶阻器上,輸入信號以電壓形式加載到憶阻器兩端,使得憶阻器在實現存儲權重功能的同時又完成了計算,實現了“存算一體”[8],避免了計算中的數據搬移,節省了大量的功耗;同時由于其阻值變化的機制與人腦神經突觸鏈接的可塑性機制相類似,非常適合用于類腦計算的推理過程。因此,憶阻器被認為是順應人工智能時代、完成類腦計算的最有希望的候選器件之一。

在使用憶阻器陣列實現大規模深度神經網絡時需要多個陣列協同工作,主要原因在于:① 在考慮憶阻器陣列的阻值波動、阻值開關比有限等非理想因素的影響下[9],為保證計算精度,通常需要限制參與乘累加運算的陣列規模[10];②為提高計算精度,目前單個網絡權重需要由多個憶阻器來表示,在映射較大規模的卷積核時,單個憶阻器陣列無法滿足需求;③由于憶阻器陣列的乘累加特性,不同卷積層之間的數據無法在同一陣列中完成運算,因此在實現多層卷積層時,需要多個陣列來實現。

已有多款基于憶阻器的卷積神經網絡加速器設計公布,如ISAAC[11]、Prime[12]、PipeLayer[13]、MAX2[14]等。上述設計大多由通過片上網絡互聯的多個計算瓦片組成。計算瓦片(tile)是指可以整體掛載到片上網絡或獨立完成多個處理任務的一個單元,在處理數據的過程中無須與其他計算瓦片進行數據交互,其中通常集成了多個憶阻器陣列以及驅動陣列完成乘累加運算的外圍電路。現有設計在乘累加運算電路實現方案、層間流水處理方案、權重映射策略等方面做出了創新型設計,然而仍然存在數據復用方式單一、多陣列協同靈活性差等問題。

針對上述問題,本文提出一種面向大規模卷積運算的高效率、高靈活度多陣列互連架構,該結構通過共享輸入總線與定制讀出網絡實現了多個處理單元(processing elements)的互連。本文工作中設計了處理單元計算結果條件累加電路,支持多個處理單元的計算結果快速靈活累加與輸出,使得瓦片內相鄰處理單元可以組合實現多種規模的卷積核,以滿足不同權重映射方式的需要;并優化了數據加載電路以支持各陣列之間的數據流動,在多種網絡權重映射模式下均可實現數據復用。

1 憶阻器工作原理與現有架構

卷積運算的本質仍然是乘累加運算,而憶阻器交叉陣列結構實現乘累加運算具有極高的計算效率。如何通過多個陣列協同高效實現多層卷積運算是當前基于憶阻器的神經網絡加速器需要解決的重點問題。

1.1 憶阻器實現卷積運算

卷積運算過程中,卷積窗口內的特征圖像數據與卷積核對應位相乘后進行累加,因此卷積運算的本質仍然是乘累加運算。如圖1所示,在使用憶阻器陣列完成乘累加運算時,權重以電導形式存儲在憶阻器中,并將陣列列線箝位到參考電平,然后由陣列的左側方向向陣列中輸入電壓形式的待處理數據,與憶阻器作用產生電流并在列線上匯集,列電流大小對應待處理數據與權重之間的乘累加運算結果。圖中V1～Vi代表輸入電壓,G1～Gi代表陣列上的憶阻器,I1～Ii代表各憶阻器的運算結果。列線上匯集的電流可通過ADC和敏感放大器轉換為數字形式。

圖1 憶阻器完成乘累加運算Fig.1 Multiplication and accumulation of memristor array

1.2 現有神經網絡加速器

Shafiee等[11]提出了首個集成多個憶阻器陣列的神經網絡加速器ISAAC,根據每一層運算的需要,每個計算瓦片中含有多個128×128規模的憶阻器陣列來完成運算,神經網絡中的每一層運算交付給不同的陣列來以流水處理方式提高整體的工作效率,降低了對數據緩沖空間的要求并增加了吞吐量。但計算瓦片中各陣列雖然共享ADC模塊,但實際上各陣列相對對立,待處理數據加載和處理結果的讀出均需單獨進行;同時該結構并未充分考慮在神經網絡運算中存在的數據和權重的復用特性。

PRIME[12]設計了基于憶阻器的全功能陣列和存儲單元,其中全功能單元既可用于數據存儲,又可配置成神經網絡計算加速模塊,顯著地降低了面積的開銷。在實現大規模神經網絡時,它使用了數據總線來實現各個塊之間的數據移動。該設計同樣未考慮數據復用與多陣列協同工作需求。

PipeLayer[13]重現了PRIME全功能陣列的設計,并在ISAAC的基礎上做出了改進,使得各個陣列上的運算負載相對均衡。其逐層地計算輸出圖像數據,并且將輸入特征圖像廣播到子陣列中以提高層內計算速度。但是與ISAAC同樣未考慮各陣列計算結果的合并問題,每個陣列所完成的工作相對獨立。

Mao等[14]提出的MAX2神經網絡加速器,每個計算瓦片中含有排列成3×3陣列的9個處理單元,每個卷積核的所有通道中處于同一位置的權重映射到憶阻器陣列的一列上。同一行的三個處理單元形成一個一維的脈動陣列,以此實現待處理圖像的數據復用。但是該權重映射方式在此硬件架構下僅支持大小為3×3的卷積核映射,難以靈活適用于不同的卷積核規模;并且該數據復用策略僅能應用于文中卷積核映射在9個處理單元中的情況,其復用方式單一。

總的來說,當前基于憶阻器陣列的神經網絡加速器受到了廣大研究人員的關注,在基本計算架構、層間流水實現、權重映射等方面進行了優化設計。但目前仍存在數據復用方式單一以及多陣列協同工作靈活性差等問題。本文架構通過優化數據加載方式,實現了對多種權重映射策略下的數據復用;采用定制設計的讀出電路,使得多個處理單元之間能夠靈活組合實現不同規模的卷積運算。

2 架構設計

2.1 權重映射方式

本文工作所設計的計算瓦片架構能夠靈活支持多種權重映射方案。如圖2所示,根據憶阻器陣列規模和卷積核規模,網絡權重可以按照全展開、按位置展開或按行/列展開的方式進行映射,以充分利用憶阻器陣列中的憶阻器單元。對于N個規模為K×K×C的卷積核,不同映射模式實現方式如下:

圖2 三種映射方式Fig.2 Three types of weight mapping

在進行全展開映射時[11-13],每個卷積核展開為一個長度為K×K×C的向量并映射到憶阻器陣列的一列中,N個卷積核則會占據陣列的N列。

在進行按位置展開時[14],即將卷積核中相同位置上所有通道內的權重展開并映射到憶阻器陣列的一列中,完成所有權重映射需要K×K個憶阻器陣列,并且占用每個陣列中的C行、N列。

按行/列展開[15]可以看作全展開與按位置展開方式的折中,即將卷積核中屬于同一行或列的所有權重展開為向量并映射在憶阻器陣列的一列中,映射上述規模的卷積核需要K個憶阻器陣列,并占用每個陣列中的K×C行、N列。

在上述映射方式中,所需的憶阻器陣列行數較多或單個卷積核需要映射在多個陣列上時,均需要將多個憶阻器陣列對應的列結果進行累加。

在某些應用場景下(如嵌入式應用),其神經網絡采用的卷積核通常較小,此時可采用傳統全展開的映射方式,并將卷積核在陣列內多次錯位重復映射,增加計算的并行度,提高計算效率;而在映射較大規模的卷積核時即可采用按位置展開的方式進行映射,使得陣列中憶阻器利用率更高。

2.2 數據復用策略

在滑窗卷積運算過程中,相鄰卷積窗口間存在較多的數據復用,充分利用這一特性,可大幅減少片外訪存需求。

為便于實現不同權重映射模式下的數據復用,如圖3所示,本設計所采用的電路使得處理單元中的數據寄存器除能夠接收來自數據總線上的數據以外,還能夠接收來自右側陣列同一行與下方相鄰行的數據寄存器中的數據。

圖3 數據寄存器數據加載電路Fig.3 Data register data loading circuit

在實現數據復用時,首先以在單個處理單元內將卷積核全映射展開的方案為例,如圖4(a)所示。卷積窗口垂直滑動時,在第一個視野里計算的數據中6～8、12～14仍會參與下一個窗口內的計算,在滑動中由數據加載電路實現下方陣列數據向上加載并向上加載更新三次,即原本的數據0、1、2被丟棄,數據6、7、8存儲到原本數據0、1、2所在的寄存器,數據12、13、14存儲到原本數據6、7、8所在的寄存器,之后向末端三個寄存器加載新的圖像數據,從而完成卷積窗口的滑動,并實現了待處理數據在垂直滑窗時的復用。

(a) 全展開映射數據復用策略(a) Fully expanded data reuse strategy

(b) 處理單元間數據移動(b) Horizontal data multiplexing between processing units圖4 支持的數據復用方式Fig.4 Supported data multiplexing methods

在實現水平卷積上的數據復用時,仍以圖4中的待處理圖像數據為例,在第一個視野窗口中的1、2、7、8、13與14仍會參與下一個窗口內的計算,在由數據加載電路將下方陣列數據向上更新一次之后,最上方三個數據由0、1、2變為1、2、6傳入數據3將數據6替換即可完成視野里第一行的更新,以此類推完成整個視野的更新,實現了待處理數據在水平滑窗時的復用。

在本架構下考慮按位置展開的權重映射方案時,可依靠數據加載電路中能夠加載相鄰陣列數據的功能完成對輸入圖像數據的復用。如圖4(b)所示,相鄰的9個處理單元加載了輸入特征圖像中一個3×3卷積視野的數據,當卷積窗口滑動時,通過上述功能將右方處理單元存儲的數據依次向左進行移動更新,然后向最右方處理單元中加載新的待處理數據,即可完成數據的復用。為便于舉例僅在圖4(b)中展示單通道下的數據。

實現按行展開權重映射方案,當卷積窗口垂直滑動時,需要由數據加載電路將相鄰陣列的數據加載至左側陣列進行更新,同時向最右側陣列加載新的待處理數據;當卷積窗口水平滑動時,則需要將下方陣列數據向上更新C次(C為卷積核通道數),之后向末端的C個寄存器加載新的圖像數據。憑借上述兩種數據加載模式能夠完成整個視野的更新,并分別實現了待處理數據在垂直與水平滑窗時的復用。

2.3 結果讀出策略

當卷積核規模較大時,需要由多個處理單元來完成映射,相應地,在每個處理單元計算得出結果后,需要將輸出整合累加以獲得完整卷積計算的結果。為適應這一需求,本文設計了定制化的結果讀出電路,如圖5所示。

圖5 計算結果條件累加Fig.5 Calculation of conditional accumulation of results

為了支持計算瓦片中處理單元靈活組合實現不同規模卷積運算,設計了行、列累加標志用于判斷該陣列計算結果是否需要同相鄰陣列相累加。每個處理單元的計算結果輸出時附帶行、列累加標志。當列累加標志位為1時,則代表該處理單元的計算結果需要同上方處理單元的計算結果相累加,若為0則不累加;當行累加標志位為1時,則代表該處理單元的計算結果需要同左上方處理單元的計算結果相累加,若為0則不累加。

在進行累加時,由列累加模塊通過多路選擇器自上而下依次讀取各處理單元的計算結果,并根據列累加標志位判斷是否需要與之前暫存在模塊內寄存器的值累加,累加結果存入模塊內部的寄存器中。所有列中的列累加模塊同步讀取計算結果,并將當前周期讀取的列累加標志與上一周期獲得的行累加標志同步傳輸至行累加模塊。

列累加模塊每讀取一個處理單元結果,行累加模塊即查看一次各列結果中的列累加標志。將列累加標志連續為1的結果進行累加,若為0則無須再與上方結果累加。行條件累加模塊將行累加標志連續為1的列的計算結果進行累加,遇到某一列的行累加標志為0時,代表著所需的累加已經完成,可以將累加結果送入計算瓦片緩存內,以備輸出至計算瓦片外或再次送入其他處理單元中進行下一層卷積運算。

電纜導體的截面積主要由導線絕緣材料的允許溫升及導線上允許的電壓降確定。一般儀表電纜的信號是弱電信號，不考慮溫升和允許壓降的問題，主要根據導線的機械強度和檢測及控制回路對線路阻抗匹配的要求來決定導體的截面積[8]。根據不同的使用場合，化工裝置中常用儀表導體截面積為0.75～2.50 mm2。在部分歐美地區，常使用美國線規(AWG)來區分導體的外徑，每種AWG的實際截面積的計算如式(1)所示:

圖6展示了幾種通過設置行、列累加標志來實現不同處理單元結果組合的示例,計算瓦片內各處理單元的計算結果可根據累加標志完成不同情況的組合。以圖6(c)為例進行說明,列累加模塊從上至下讀取處理單元的累加標志位,在第四行讀取到0時,則該行內結果無須再參與累加;此時行累加模塊從左至右讀取其行累加標志位,在讀取至第四列的0時停止累加。至此淺綠色模塊內處理單元的計算結果完成累加合并,以此類推該計算瓦片能夠對淺綠、深綠、藍色和黃色四個模塊內的處理單元分別進行結果的累加合并。需要注意的是,參與結果合并的處理單元需要能夠組成一個矩形。憑借該結果讀出策略,本架構得以完成多陣列的協同工作,靈活完成多種規模的卷積運算。

(a) 實現一組卷積核(a) Implementation of one set of convolutional kernels

(b) 實現三組卷積核(b) Implementation of three sets of convolutional kernels

(d) 實現六組卷積核(d) Implementation of six sets of convolutional kernels圖6 多處理單元實現多規模卷積核Fig.6 Multi-processing elements for multi-scale convolutional kernels

3 硬件設計

3.1 芯片級設計

如圖7所示,芯片中包含多個計算瓦片,1個全局緩存、激活函數單元和池化單元,片上的所有單元與計算瓦片由H樹總線完成互連,根據每一層的卷積核大小將其分配給一個或者多個計算瓦片來完成計算。計算過程:從全局緩存中提取各層的輸入特征圖像數據,通過數據總線傳入相應的計算瓦片中進行處理。計算完成后,計算瓦片將得到的計算結果傳入累加單元與其余結果完成累加,之后結果再被送入外部的激活函數單元、池化單元、全局緩存或是在需要的情況下作為下一層的輸入再次傳入計算瓦片。

圖7 芯片總體架構Fig.7 Chip-level architecture

3.2 計算瓦片級設計

每個計算瓦片由256個處理單元構成,其排列成16×16的陣列,另外包含1個計算瓦片緩存與17個條件累加單元。各個處理單元之間由定制化的數據總線完成互連,每一列處理單元末端設置一個列累加單元來完成該列上處理單元計算結果的累加,由一個行累加單元與所有的列累加單元相連。借由以上的互連設計實現了處理單元之間計算結果的合并,以獲得多通道下合并的輸出特征圖像數據。

以下舉例說明單個計算瓦片在完成一層卷積運算時,其相關的數據流情況。例如使用該計算瓦片完成特征圖像與16個大小為3×3×16的卷積核的卷積運算,瓦片內單個處理單元的憶阻器規模為64×64,在采用全展開映射方案時需要將單個卷積核映射在3個處理單元上,如圖8中處理單元PE1～PE3所示。在進行運算時其狀態轉移過程如圖9所示。

圖8 計算瓦片內總架構Fig.8 Tile-level architecture

圖9 實現卷積運算的狀態轉移圖Fig.9 Finite state machine for implementing convolutional operations

步驟1：將第一個卷積窗口內的輸入特征圖像數據通過總線加載到處理單元的各個數據寄存器上;

步驟2：由外圍電路驅動將寄存器中的數據加載至憶阻器陣列上并完成乘累加運算,隨后相關的DAC電路將輸出電流轉換為數字信號緩存在處理單元配備的緩存中;

步驟3：在計算結果讀出時,列累加模塊讀取到處理單元PE1～PE3的累加標志位為1,將上述三個處理單元的計算結果累加合并后向外讀出;

步驟4：將處理單元中的各數據寄存器根據卷積窗口的滑動進行垂直方向上的移位更新;

步驟5：從外部通過總線加載新的圖像數據到數據寄存器中以完成卷積窗口的滑動。

完成更新后再次啟動計算,重復步驟2～5直至完成該層的卷積運算。在一塊計算瓦片中包含多個處理單元,將卷積核在不同的處理單元上多次例化,能夠實現多路并行,提高計算效率。

3.3 處理單元級設計

每個處理單元內含有一個64×64規模的憶阻器陣列,以及搭配工作的外圍電路如讀出電路、多路選擇器、移位累加器、數據寄存器、控制寄存器與輸出寄存器。其中控制寄存器中包含自動更新使能與更新標志位。每8列憶阻器共享一個讀出電路,讀出電路的讀出精度為5 bit,這足以避免顯著的精度損失[9]。在運行VGG-8網絡時,考慮到單個子陣列的陣列行數為64,在每個處理單元內部均設置了64個數據寄存器用于每一行憶阻器的輸入圖像數據暫存。計算過程:從計算瓦片緩存中取得待處理圖像數據首先存入處理單元的64個數據寄存器中,每個寄存器的大小為8 bit,即所有寄存器總容量為512 bit,運算開始后向憶阻器陣列輸入電壓數據。經過憶阻器計算后由讀出電路將結果電流讀出并在移位累加器中完成對整列結果的累加,每列結果均為64個8 bit數據相加,需要由14 bit的輸出寄存器進行寄存。

通過總線對待處理數據進行加載時,可對指定處理單元的地址進行單個處理單元的寫入,同時為降低數據總線的負載,設計了共享標志位用于數據多播,在該標志位為高電平時,可向多個處理單元設置為同一地址ID以完成單次數據加載到多個處理單元的功能。處理單元中各數據寄存器帶有更新標志位,當標志位為低電平時該數據寄存器才接受寫入新的數據。

4 實驗驗證

基于NeuroSim平臺對以本文架構為原型的加速器進行了仿真,以更好體現其在實際應用中的意義,并將其與相關的神經網絡加速器進行比較,評估其優劣勢。

4.1 評估設置

使用DNN+NeuroSim框架來評估在32 nm工藝節點下本文所提出的互連架構,修改相關的NeuroSim代碼來反映該互連架構的權重映射方式與數據流。考慮到運行的神經網絡需要能夠覆蓋使用瓦片級與芯片級上的各項處理性能,在對比評估工作中采用了處理CIFAR-10數據集的VGG-8網絡來評估性能與能效,其中網絡的權重位寬設置為5 bit,單個憶阻器的存儲狀態數為32,數字電路的工作頻率為1 GHz。在這項對比工作中,對比對象使用MAX2的映射方式與數據流,兩種體系結構使用總規模大小相同的可變電阻式存儲器(resistive random access memory, ReRAM)陣列來運行VGG-8網絡。

在對比對象中,使用了128×128規模大小的ReRAM陣列作為子陣列,每個處理單元的規模為512×512,即單個處理單元包含了4×4規模的子陣列,每個計算瓦片由4個處理單元組成。在本文的互連結構中,由小陣列互連組成大規模陣列,采用了64×64規模大小的子陣列作為單個處理單元內部的憶阻器計算陣列,每個計算瓦片由16*16個處理單元組成,單個計算瓦片含有的ReRAM陣列數量與對比對象相同,均為1 024×1 024。

4.2 功耗與面積詳情

在NeuroSim下仿真得到基于本文工作所提出架構的加速器的各項參數,如表1所示。在處理單元層級,陣列的上方與左方配置有字線/位線的開關矩陣以控制電壓的加載,每個讀出電路負責完成8列憶阻器的結果電流讀出,子陣列中移位加法器完成了處理單元所需要的累加功能,將所有列電流結果的移位累加并存入14 bit的基于D觸發器的處理單元緩存中,輸入緩存同樣是基于D觸發器。單個處理單元面積為6.081×103μm2,其中讀取電路所占面積為78.9%。在計算瓦片層級,共含有16×16個處理單元,配置的基于靜態隨機存儲器(static random access memory, SRAM)的緩存面積為2.64×104μm2,每讀出1 bit的數據消耗能量為0.002 74 pJ,所用于完成累加功能的電路單元共有17個,每個累加單元進行一次累加操作消耗的能量為0.080 pJ,總的面積為1.64×104μm2。在芯片層級,由16個計算瓦片完成1至6層的卷積層運算,由9個計算瓦片完成層7與層8的全連接層運算,基于SRAM的全局緩存大小為128 KB,最大池化單元所占面積為3.17×104μm2,在運行VGG-8處理CIFAR-10數據集時,整個芯片的動態功耗為2.414 52×107pJ。

表1 架構參數Tab.1 Architecture parameters

4.3 實驗結果與討論

圖10列出了本文工作與MAX2架構在運行VGG-8網絡的2～6層時的緩存與內部互連的能耗與計算延遲,所有數據均以本文工作中第5層的數據為量化指標。2～6層其輸入特征圖像逐層減小、卷積核數量逐層增加,可見由于第2層的輸入特征圖像數據最大,其需要向緩存訪問數據的次數最大并且數據的移動量最大,故第2層的相關功耗與延遲均最大,而第5層的結果最小正是因為其輸入特征圖像最小。在第4層與第6層的結果呈現上升趨勢的原因是其計算后需要通過最大池化層的計算。并且在第6層時,其卷積運算所需要的卷積核數量達到最大值,參與計算的處理單元數量最多,故在第6層的緩存功耗開銷僅次于第2層,借助于憶阻器陣列計算時的高并行度,其計算延遲并未受到影響。而在內部互連方面,盡管數據復用減少了總線的使用次數,但是由于需要完成小陣列之間計算結果的合并增加了總線負載。

(a) 緩存功耗對比(a) Cache power comparison

(b) 緩存延遲對比(b) Cache latency comparison

(d) 內部互連延遲對比(b) Internal interconnect latency comparison圖10 緩存與內部互連的指標對比Fig.10 Comparison of metrics in cache and internal interconnect

總的來說,在內部互連的延遲與功耗相差無幾的情況下,本文提出的方案相比于基準在緩沖區減少了40.2%的動態功耗與57%的延遲。本文工作能夠取得上述優勢,主要得益于陣列實現了在處理單元層級上的數據復用減少了數據的遠程移動量以及定制化的數據總線降低了從全局緩存中取出數據的訪問次數。

表2對比了本文工作與基準的芯片面積、延遲與能效。同基準相比,本文工作在采用新的數據流策略的情況下,僅增加6%的面積開銷,取得了146%的處理速度提升。主要原因在于本文工作提高了片內數據的復用率以及減少了數據向片外的搬移次數,同時在外圍電路上單個處理單元所配置的更小更快的外圍電路提供了更高的計算速率。超額的面積資源主要在于實現該設計時需要較多子陣列的外圍電路,能效的下降同樣也是由于總的外圍電路的功耗開銷稍高。

表2 評估結果Tab.2 Assessment results

5 結論

本文提出了一個新型的基于憶阻器陣列的互連架構,高效地實現了陣列數據加載、輸入與多個陣列結果的合并。使用了DNN+NeuroSim架構來評估了這項工作在32 nm工藝節點下運行VGG-8網絡處理CIFAR-10數據集時的功耗與延遲表現。實驗結果表明,以本文架構為基礎的原型加速器對比現有的神經網絡加速器,在僅增加6%的面積開銷的情況下,取得了146%的處理速度提升。