一種節省資源的矩陣運算單元硬件微架構設計

2024-09-12 00:00:00潘于田映輝張偉楊建磊申奇

現代電子技術 2024年5期

摘" 要：為了實現人工智能和高性能計算在不同應用領域下的快速運算，需借助人工智能加速器（NPU）或者通用圖形處理器（GPGPU）對其進行加速。由于矩陣運算是人工智能和高性能計算的核心運算，文中提出一種節省資源的矩陣運算單元架構的實現方案。通過對矩陣運算單元中每個子運算單元中的乘法器和加法器數量進行擴展，并將輸入數據按行列廣播到矩陣運算單元上的各個子運算單元可實現對矩陣運算的加速。通過利用PE矩陣之間的數據共享，采用新型的PE矩陣互聯方案，可達到在減少帶寬資源的同時提升算力的目的。與現有NPU或GPGPU的矩陣運算實現方案相比，所提方案使用更少的加法器和寄存器即可實現相同的算力，且在更低的時鐘延遲和帶寬消耗下即可完成對相同規模矩陣運算的加速。

關鍵詞：人工智能；高性能計算；矩陣運算；節省資源；低時鐘延遲； GPGPU

中圖分類號： TN02?34； TP183" " " " " " " " " " " "文獻標識碼： A" " " " " " " " " " 文章編號： 1004?373X（2024）05?0160?07

Design of hardware microarchitecture of resource?efficient matrix operation unit

PAN Yu1， TIAN Yinghui1， ZHANG Wei1， YANG Jianlei2， SHEN Qi3

（1. Hygon Information Technology Co.， Ltd.， Beijing 100193， China;

2. Beihang University， Beijing 100191， China;

3. China Unicom Smart City Research Institute， Beijing 100037， China）

Abstract： It is necessary to use artificial intelligence accelerator NPU （neural processing unit） or GPGPU （general?purpose graphics processing unit） for acceleration， so as to realize the fast computation of artificial intelligence and high performance computing in different fields. Since the matrix operation is the core operation of artificial intelligence and high performance computing， an implementation scheme of resource?efficient matrix operation unit architecture is proposed. By expanding the number of multipliers and adders in each sub?unit of matrix arithmetic unit and broadcasting the input data to each sub?unit of matrix arithmetic unit by row and column， the acceleration of matrix arithmetic unit can be realized. By using the data sharing between PE matrix and adopting the new PE matrix interconnection scheme， the purpose of reducing bandwidth resources and increasing computing power can be achieved. In comparison with the existing implementation scheme of matrix operation of NPU or GPGPU， the proposed one can achieve the same computing power with fewer adders and registers， and can complete the acceleration of the same scale matrix operation with low clock latency and bandwidth consumption.

Keywords： artificial intelligence; high performance computing; matrix operation; resource?efficient; low clock latency; GPGPU

0" 引" 言

隨著人工智能技術的不斷發展，其已經在許多領域得到了廣泛的應用。伴隨著各種應用需求，出現了越來越多復雜的深度學習網絡模型[1?5]，這些模型通常具有網絡層數多、運算量巨大的特點，因此運算的實時性成為這些應用的瓶頸。為了保證運算的實時性，通常使用NPU和GPGPU來實現對各種深度學習網絡模型的加速。深度學習網絡模型的底層核心是卷積運算和矩陣運算，而通常可使用矩陣運算來實現卷積運算，因此為了更好地實現對各種深度學習網絡的加速，對矩陣運算進行加速至關重要。最新的NPU[6?9]、GPGPU以及矩陣加速器[10]都有專門的模塊來實現對矩陣運算的加速。

而在其他應用領域，如生命科學、氣象、圖像處理、航空航天及石油勘探等領域，同樣需要GPGPU對其進行加速。這些高性能計算應用中許多也都需要用到矩陣運算。

因此，設計一款高性能、低功耗以及面積開銷小的適用于實現矩陣運算的硬件單元對于NPU或者GPGPU至關重要。目前業界最知名的NPU/GPGPU處理器設計廠商如谷歌、英偉達和AMD的產品都可以實現對矩陣運算的加速。谷歌公司基于脈動陣列的思路設計了TPU（Tensor Processing Unit）[11]來實現對矩陣運算的加速；英偉達公司在其GPU中專門設計了TENSOR CORE[12]來實現對矩陣運算的加速；AMD的GPU中并沒有設計單獨的矩陣運算單元來實現對矩陣運算的加速，其利用內部的向量運算單元將矩陣運算拆解為并行的乘加運算來實現對矩陣運算的加速。

本文提出了一種節省資源的PE矩陣（矩陣運算單元）架構的實現方案，該PE矩陣可實現矩陣乘法運算。通過對PE矩陣中每個PE單元（子運算單元）進行變化，將每個PE單元中的乘法器個數增加，并在每個PE單元中實現多個乘法器結果的累加，使每個PE單元可實現多對數據的乘累加以達到向量運算的目的。相比于業界現有矩陣運算加速單元每個PE單元只有一個乘法器的實現方案，本文方案使用更少的加法器和寄存器數即可實現相同的算力。同時，通過將輸入數據按行、按列廣播到PE矩陣上的各個PE單元，本文方案可在更短的時鐘延遲下完成對相同規模矩陣運算的加速。另外，本文提出了一種新型的PE矩陣Mesh結構，使用該方法可以在不增加后端實現復雜度的情況下顯著減少帶寬消耗，且進一步提升在大算力下的可實現性。

1" 設計背景及相關工作研究

1.1" 設計背景

矩陣運算的本質是乘加運算，合理的對乘加運算進行調度是更好地實現矩陣運算的關鍵。對于維度為[X]×[Y]的矩陣[A]乘以維度為[Y]×[Z]的矩陣[B]，其將得到維度為[X]×[Z]的結果矩陣[C]。

[a0，0…a0，Y-1???aX-1，0…aX-1，Y-1?b0，0…b0，Z-1???bY-1，0…bY-1，Z-1=c0，0…c0，Z-1???cX-1，0…cX-1，Z-1] （1）

式中結果矩陣[C]中的每個元素[ci，j=m=0Y-1ai，m?bm，j]，[0≤i≤X-1]，[0≤j≤Z-1]。

在多種應用領域下常需要對大規模矩陣運算進行加速，即需要實現對上述公式的加速。因此，有必要設計一款專門的矩陣運算單元來高效地實現上述矩陣運算。

1.2" 相關工作研究

為了實現上述矩陣運算，谷歌公司專門設計了一款TPU來實現對矩陣運算的加速。TPU采用脈動陣列的方式實現矩陣運算，其核心是一個[N]×[N]的脈動陣列。圖1以大小為4×4的脈動陣列為例進行說明。其權重被提前裝載到脈動陣列中，權重系數可認為上述公式（1）中矩陣運算的矩陣[A]，矩陣[A]中的每個元素[aj，i]被提前裝載到脈動陣列的[PEi，j]中，這里[0≤i≤3]，[0≤j≤3]。矩陣[B]作為輸入特征圖，從左到右水平地輸入到脈動陣列當中。部分和從上到下垂直移動，脈動陣列最后一行的PE單元輸出矩陣運算的結果。

在TPU脈動陣列中，每個[PEi，j]單元的硬件電路如圖2所示。圖2中上方的寄存器（reg）用于預先裝載[A]矩陣中元素[aj，i]；乘法器用于實現[B]矩陣的元素[bi，k]與[aj，i]的乘積，[0≤k≤3]；圖2中下方的寄存器用于存儲部分和，同時輸出當前PE單元的部分和給其下方的PE單元。對于脈動陣列最后一行的PE單元，其輸出矩陣運算的最終結果。加法器用于實現乘法器輸出與部分和結果的累加，這里輸入給加法器的部分和結果來自于當前PE單元上方PE單元的運算結果。

谷歌公司的脈動陣列在實現矩陣運算時需要將矩陣[A]中的各個元素提前存儲到脈動陣列中，當矩陣[A]發生變化時，每次都需要預先加載矩陣[A]的數據到脈動陣列中。當每次矩陣運算的矩陣[A]都不相同時，預先裝載矩陣[A]到脈動陣列中會使矩陣運算的運算時間受到影響。

為此，一些設計采用經典脈動陣列[13?16]的方式實現矩陣運算，圖3展示了其中一種經典脈動陣列的實現方式。此時[A]矩陣從左到右輸入到脈動陣列，[B]矩陣從上到下輸入到脈動陣列。不同于TPU中的脈動陣列只在最后一行的PE單元輸出最終運算結果，該方法下脈動陣列中的每個PE單元都會輸出矩陣運算的最終結果。

圖3所示脈動陣列中每個PE單元的運算結構如圖4所示，其乘法器用于接收矩陣[A]和矩陣[B]的元素實現乘法運算，加法器用于實現累加運算，寄存器用于存儲部分和以及最終的運算結果。當寄存器輸出最終運算結果時，多路選擇器選擇將數據0輸入到加法器的其中一個輸入端口。

為了實現上述矩陣運算，英偉達公司在其最新的幾款GPU產品中專門加入了Tensor Core（張量核心）來實現對矩陣運算的加速。其具體實現細節并沒有在其白皮書中完整的說明。

AMD沒有在其GPU中設計專門的用于計算矩陣運算的單元，其通過將矩陣運算轉換成并行的乘加運算，利用其CU（Compute Unit）內部SIMD（Single Instruction Multiple Data）下的多個乘加單元的并行運算來實現對矩陣運算的加速。在相同算力的情況下，由于輸入輸出數據不停地和存儲媒介進行交互，其加速能力不如專門的矩陣運算加速單元。

2" 本文架構實現方案

對于上述現有方案，其每個PE單元只能計算[a*b+c]。為了實現[a*b+c]，每個PE單元有1個乘法器、1個加法器和1個用于存儲運算結果的寄存器。為了提高算力，需要增加脈動陣列中PE單元的個數，因此脈動陣列中加法器和乘法器的個數也成倍增加。同時，為了實現脈動陣列，在PE矩陣的數據輸入端口需要額外的寄存器來緩存輸入數據，以實現時序匹配，此時所需的寄存器數量也隨之增加。脈動陣列規模越大，需要的乘法器、加法器以及寄存器的數量就會成倍增加。

通過對PE單元進行改進，本文提出了一種在相同算力情況下減少加法器和寄存器使用數量的方案。在本設計中，每個周期矩陣[A]中同一行的相鄰多個元素同時輸入到PE矩陣對應行的每個PE單元中，矩陣[B]中同一列的相鄰多個元素同時輸入到PE矩陣對應列的每個PE單元中，即每個PE單元每個周期可以實現[a1*b1+a2*b2+…+an*bn]的運算，即將傳統的PE單元執行標量運算改進為每個PE單元都可執行向量運算，這里[n]為每個PE單元中乘法器的個數。以[n]等于4為例，其PE單元的結構如圖5所示。

圖5中每個PE單元的乘法器個數為4，其對應的加法器數量為3，寄存器的數量為1，其每次可以實現4對輸入元素的向量乘累加運算。采用這種方案，雖然乘法器的數量提高了4倍，但加法器和寄存器數量并沒有與傳統架構一樣提升4倍，其加法器的數量為3，寄存器的數量只為1，可見采用該方法可有效地減少資源消耗。

此外，本文方案還對PE矩陣的實現進行了優化，如圖6所示，本文方案并沒有采用脈動陣列的方式實現PE矩陣，而是將輸入矩陣[A]的各行數據廣播到PE矩陣對應行的各個PE單元中，將輸入矩陣[B]的各列數據廣播到PE矩陣對應列的各個PE單元中。此種方法可進一步減少采用脈動陣列時輸入端所需要的寄存器數目，同時，其不需要額外的延時即可將輸入數據同時傳遞給各個PE單元。

圖6以在4×4大小的PE矩陣中實現4×4大小的[A]矩陣乘以4×4大小的[B]矩陣為例，說明矩陣運算在本文方案PE矩陣中的運算流程。

在一個周期內，將矩陣[A]第一行的四個數據[a00～a03]同時廣播到PE矩陣第一行的4個PE單元PE00～PE03；將矩陣[A]第二行的四個數據[a10～a13]同時廣播到PE矩陣第二行的4個PE單元PE10～PE13；將矩陣[A]第三行的四個數據[a20～a23]同時廣播到PE矩陣第三行的4個PE單元PE20～PE23；將矩陣[A]第四行的四個數據[a30～a33]同時廣播到PE矩陣第四行的4個PE單元PE30～PE33。

在該周期內，將矩陣[B]第一列的四個數據[b00～b30]同時廣播到PE矩陣第一列的4個PE單元PE00～PE30；將矩陣[B]第二列的四個數據[b01～b31]同時廣播到PE矩陣第二列的4個PE單元PE01～PE31；將矩陣[B]第三列的4個數據[b02～b32]同時廣播到PE矩陣第三列的4個PE單元PE02～PE32；將矩陣[B]第四列的四個數據[b03～b33]同時廣播到PE矩陣第四列的4個PE單元PE03～PE33。

此時PE矩陣的各個PE單元只需一個周期即可同時計算出結果矩陣的16個運算結果[c00～c03]、[c10～c13]、[c20～c23]、[c30～c33]。PE矩陣中的每個PE單元計算出結果矩陣的一個元素。例如，PE單元PE00執行[c00=a00*b00+a01*b10+a02*b20+a03*b30]這4對輸入數據的乘加運算；PE單元PE01執行[c01=a00*b01+a01*b11+a02*b21+a03*b31]這4對輸入數據的乘加運算；依此類推，其余PE單元同時完成各自的運算。由于單周期內同時輸出4×4大小的矩陣輸出結果，使得輸出結果的存儲控制邏輯也會相應簡化。

當其他形狀的矩陣[A]和矩陣[B]相乘時，需要結合與PE矩陣交互的存儲器的讀寫控制邏輯，反復利用PE矩陣來完成各種形狀的矩陣乘法運算。以大小為8×8的矩陣[A]和大小為8×4的矩陣[B]相乘為例，其可以拆解為多個4×4的矩陣乘法運算以及相應的累加運算，其運算流程如圖7所示。

8×8矩陣乘以8×4的矩陣可以等效為式（2）：

[A00A01A10A11B00B10=C00C10] （2）

式中：[A00]、[A01]、[A10]、[A11]、[B00]和[B10]都為4×4矩陣；結果矩陣[C00]和[C10]也都為4×4矩陣。

[C00=A00*B00+A01*B10] （3）

[C10=A10*B00+A11*B10] （4）

根據式（2）～式（4），通過反復調用4×4矩陣運算單元并執行相應的累加運算，可以實現任意大規模的矩陣運算。

為了進一步提高PE矩陣的運算能力，通常采用增加PE矩陣尺寸的方法，例如將本文所示的PE矩陣大小從4×4增加到8×8甚至16×16。但隨著PE矩陣尺寸的增加，后端實現的難度也會隨之增加。為了提高后端的可實現性，同時實現更高的算力，通常采用分tile的方式來實現，即用多個小尺寸的PE矩陣同時工作來完成更大規模的矩陣運算。比如4個16×16的PE矩陣并行工作即可達到尺寸為32×32的PE矩陣的算力。

本文展示了4個4×4大小的PE矩陣同時工作可實現更大算力的例子。其中每個PE矩陣在工作時都需要相應的帶寬資源來向PE矩陣輸入矩陣[A]數據以及矩陣[B]數據。為了達到應有的算力，多個PE矩陣同時工作時，相應的帶寬資源將成倍增加。

本文提出一種新型的PE矩陣互聯方案，使得輸入到PE矩陣的數據被共享，進而減少了多個PE矩陣同時工作時所需的總帶寬資源。

對于8×4大小的[A]矩陣乘以4×8大小的[B]矩陣，每個PE矩陣執行的操作如圖8所示。

圖8中：PE00、PE01、PE10以及PE11都表示大小為4×4的PE矩陣。其中PE矩陣PE00用于計算[A]矩陣的前4行和[B]矩陣的前4列；PE矩陣PE01用于計算[A]矩陣的前4行和[B]矩陣的后4列；PE矩陣PE10用于計算[A]矩陣的后4行和[B]矩陣的前4列；PE矩陣PE11用于計算[A]矩陣的后4行和[B]矩陣的后4列。

通過對PE矩陣進行重新互聯，并改動每個PE矩陣在PE矩陣Mesh中的位置，利用數據共享可以達到減少帶寬資源的效果。與圖8對應的PE矩陣Mesh結構如圖9所示。

在圖9中，利用Mesh結構對矩陣數據進行共享，并改動PE矩陣在Mesh中的相對位置，使得4個PE矩陣整體的輸入帶寬資源減少一半。在圖9中，PE矩陣PE00和PE01共享數據[A0]；PE矩陣PE00和PE10共享數據[B0]；PE矩陣PE11和PE10共享數據[A1]；PE矩陣PE11和PE01共享數據[B1]。可以看到，圖9中每個PE矩陣在PE矩陣Mesh中的位置也有相應的調整。在圖9中，輸入數據僅輸入給最左側一列PE矩陣，為了實現數據共享，也對PE矩陣的位置進行了調整。將圖8所示的常規位置變為如圖9所示的位置。當PE矩陣Mesh規模進一步增大時，也僅有最左側一列PE矩陣接收輸入數據，此時輸入帶寬資源會更顯著減少。而常規排列方法會使最左側一列和最上邊一行都有與外部數據的交互，增加了后端可實現的難度。

3" 性能分析

對于單個矩陣乘法運算單元，考慮到頻率要求和后端的可實現性，本文設計采用的PE矩陣中的單個PE單元一般實現對4、8以及16對輸入數據的乘加運算。當輸入數據對數大于16時后端實現難度巨大，小于4時算力又顯不足。對于單個PE單元，輸入數據對數越大，PE單元能達到的最高頻率越低，同時后端實現該PE矩陣的難度越大。在具體選擇PE矩陣大小時，需根據算力、頻率的要求以及后端實現方案的難度，從上述三種情況中選擇一種實現。如果單個PE單元實現4對輸入數據的乘累加運算，則相應的PE矩陣大小為4×4，其乘法器個數為4×4×4；如果單個PE單元實現8對輸入數據的乘累加運算，則相應的PE矩陣大小為8×8，其乘法器個數為8×8×8；如果單個PE單元實現16對輸入數據的乘累加運算，則相應的PE矩陣大小為16×16，其乘法器個數為16×16×16?？梢姰斶M一步增加規模時，乘法器數將以指數增加，后端實現難度也將呈指數級增加。

對于每個PE單元實現4對乘加運算的情況，其相應的PE矩陣大小為4×4，此種情況下，PE矩陣乘法器個數為64，加法器的個數為48，寄存器的個數為16。在相同算力下，采用TPU的矩陣乘法實現方案，需要的乘法器個數為64，加法器個數為64，寄存器的個數為212。在相同算力下，采用經典脈動陣列實現矩陣乘法的方案，需要的乘法器個數為64，加法器個數為64，寄存器個數為232。表1展示了各種方案下矩陣乘法單元的資源消耗情況。

對于每個PE單元實現8對乘加運算的情況，其相應的PE矩陣大小為8×8，此種情況下，PE矩陣乘法器個數為512，加法器的個數為448，寄存器的個數為64。在相同算力下，采用TPU的矩陣乘法實現方案，需要的乘法器個數為512，加法器個數為512，寄存器的個數為2 000。在相同算力下，采用經典脈動陣列實現矩陣乘法的方案，需要的乘法器個數為512，加法器個數為512，寄存器個數為2 104。表2展示了各種方案下矩陣乘法單元的資源消耗情況。

對于每個PE單元實現16對乘加運算的情況，其相應的PE矩陣大小為16×16，此種情況下，PE矩陣乘法器個數為4 096，加法器的個數為3 840，寄存器的個數為256。在相同算力下，采用TPU的矩陣乘法實現方案，需要的乘法器個數為4 096，加法器個數為4 096，寄存器的個數為14 240。在相同算力下，采用經典脈動陣列實現矩陣乘法的方案，需要的乘法器個數為4 096，加法器個數為4 096，寄存器個數為16 192。表3展示了各種方案下矩陣乘法單元的資源消耗情況。

為了進一步提高PE矩陣的算力，同時不增加后端實現的難度并減少帶寬消耗，本文提出了一種PE矩陣之間的互聯方案。表4給出了在不同PE矩陣Mesh規模下，帶寬資源節省的倍數。由于任意地增加PE矩陣Mesh的規模同樣會增加后端的實現難度，表4僅給出大小為2×2、4×4以及8×8情況下帶寬資源節省的倍數?？梢?，采用本文所示的PE矩陣互聯方案可以有效減少帶寬資源的消耗。

為了方便驗證，圖10展示了2×2大小的PE矩陣波形圖，PE矩陣中每個PE單元包含2個乘法器，即每個PE單元的計算并行度為2。其中[a00]、[a01]、[a10]以及[a11]為矩陣[a]的輸入數據，[b00]、[b01]、[b10]以及[b11]為矩陣[b]的數據，[c00]、[c01]、[c10]以及[c11]為PE矩陣的輸出結果。由圖10可見，每個周期2×2大小的矩陣結果同時輸出。

綜上所述，相比于業內流行的兩種矩陣運算實現方案，在實現相同算力的情況下，使用本文方案可使硬件資源消耗更少。同時，相比于TPU在每次進行矩陣運算時，對于不同的矩陣[A]，TPU都需要將[A]矩陣的元素預先加載到脈動陣列中，本文設計不需要額外的矩陣加載過程，因此相比于TPU來說進一步地減少了處理時間。此外，相比于業內流行的兩種矩陣運算實現方案，本文方案在PE矩陣的輸入端口并沒有用于匹配時序的寄存器，其可以進一步減少矩陣運算的latency。同時，采用本文提出的PE矩陣互聯方案可以在節省帶寬資源且不增加后端實現復雜度的情況下進一步提升算力，以實現算力的擴展。因此，本文方案可以作為實現矩陣運算的有效實現方案。

4" 結" 語

本文介紹了實現矩陣運算加速的硬件微架構方案，分析了業界實現矩陣運算的通用方法，并對谷歌的TPU和通用脈動陣列進行了詳細的分析。為了進一步減少硬件資源消耗，本文設計了一種改進型PE矩陣，該PE矩陣將數據廣播到多個PE單元，減少了通用方法中對輸入端寄存器的使用。本文方案使用可同時進行多對輸入數據乘加運算的PE單元，進一步減少了對加法器和寄存器的使用，達到了減少硬件資源消耗的目的。同時，采用本文提出的PE矩陣互聯方案可進一步提升算力，其可以在不增加后端實現復雜度的情況下減少帶寬資源。經過分析表明，在具有相同算力的情況下，使用本文方案可以在使用更少硬件資源以及帶寬的情況下達到更少的運算延遲，因此是實現矩陣運算加速的一種有效方案。

注：本文通訊作者為田映輝。

參考文獻

[1] HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. New York： IEEE， 2016： 770?778.

[2] ZHANG X Y， ZHOU X Y， LIN M X， et al. ShuffleNet： An extremely efficient convolutional neural network for mobile devices [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. New York： IEEE， 2018： 6848?6856.

[3] VASWANI A， SHAZZER N， PARMAR N， et al. Attention is all you need [C]// 2017 Conference and Workshop on Neural Information Processing Systems （NIPS）. [S.l.： s.n.]， 2017： 1?11.

[4] HUANG G， LIU Z， WEINBERGER K Q. Densely connected convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. New York： IEEE， 2017： 4700?4708.

[5] BENJUMEA A， TEETI I， CUZZOLIN F， et al. YOLO?Z： Impro?ving small object detection in YOLOv5 for autonomous vehicles [C]// IEEE International Conference on Computer Vision （ICCV）. New York： IEEE， 2021： 1?11.

[6] GOPAL R， ANTON B， NARENDRA D， et al. Data multiplexed and hardware reused architecture for deep neural network acce?lerator [J]. Neurocomputing， 2022， 486： 147?159.

[7] PRATAP S R， SHREYAM K， JUGAL G， et al. A time domain 2D OaA?based convolutional neural networks accelerator [J]. Memories： Materials， devices， circuits and systems， 2023， 4： 100041.

[8] CHEN Y R， XIE Y， SONG L H， et al. A survey of accelerator architectures for deep neural networks [J]. Engineering， 2020， 6： 264?274.

[9] LI T， SHEN L. A sparse matrix vector multiplication accelerator based on high?bandwidth memory [J]. Computers and electrical engineering， 2023， 105： 108488.

[10] HAMEED K F， ADEEL P M， SHAHID M. Toward designing a hardware accelerator for 3D convolutional neural networks [J]. Computers and electrical engineering， 2023， 105： 108489.

[11] JOUPPI N P， YOUNG C， PATIL N， et al. In?datacenter performance analysis of a tensor processing unit [C]// 2017 ACM/IEEE Annual International Symposium on Computer Architecture （ISCA）. New York： IEEE， 2017： 1?12.

[12] NVIDIA Corporation. NVIDIA A100 tensor core GPU architecture [M]. USA： NVIDIA Corporation， 2022.

[13] 王陽，陶華敏，肖山竹，等.基于脈動陣列的矩陣乘法器硬件加速技術研究[J].微電子學與計算機，2015，32（11）：120?124.

[14] 劉勤讓，劉崇陽，周俊，等.基于線性脈動陣列的卷積神經網絡計算優化與性能分析[J].網絡與信息安全學報，2018，4（12）：16?24.

[15] XU R， MA S， WANG Y H， et al. Heterogeneous systolic array architecture for compact CNNs hardware accelerators [J]. IEEE transactions on parallel and distributed systems， 2022， 33（11）： 2860?2871.

[16] INAYAT K， CHUNG J. Hybrid accumulator factored systolic array for machine learning acceleration [J]. IEEE transactions on very large scale integration systems， 2022， 30（7）： 881?892.