一種晶上系統互連網絡的容錯感知結構

2023-01-01 00:00:00王明楠劉勤讓劉冬培湯先拓

計算機應用研究 2023年2期

摘要：晶上系統融合預制件組裝和晶圓集成等先進理念，是延續摩爾定律的一種新方法。由于晶圓基板本身制造良率和拼接的不確定性，晶上系統存在路由節點故障或鏈路故障等問題。為提高系統容錯性，提出了一種基于2D-Mesh晶上互連網絡的容錯感知結構。在Mesh環中交叉使用主副感知器用于獲取故障信息，再將其廣播至全局路由節點實現數據包的避障繞行，緩解數據包在路由過程中可能發生的阻塞。實驗仿真表明該結構在多種故障模式下，相較于傳統容錯路由算法有更高的飽和注入率，能夠有效提高系統容錯性，降低局部故障導致的性能影響。

關鍵詞：晶上系統；晶上互連網絡；容錯結構；感知器

中圖分類號：TP302.8 文獻標志碼：A

文章編號：1001-3695（2023）02-036-0533-06

doi：10.19734/j.issn.1001-3695.2022.06.0355

Fault-tolerant awareness structure for network on wafer

Wang Mingnan，Liu Qinrang，Liu Dongpei，Tang Xiantuo

（Institute of Information Technology，Information Engineering University，Zhengzhou 450001，China）

Abstract：System on wafer that incorporate advanced concepts such as dielets assembly and wafer integration are a new way to continue Moore′s Law.Due to the uncertainty of the manufacturing yield and the splicing process in the wafer substrate network，the system on wafer has problems such as routing node failure or link failure.In order to improve the fault tolerance of the system，

this paper proposed a fault-tolerant perceptron structure based on 2D-Mesh network on wafer.It used the primary and secondary perceptrons interchangeably in the Mesh ring to obtain the fault information of interconnected routing nodes，and used the broadcast mechanism to notify the global routing.The node could avoid obstacles and detours of data packets，and relieved the blocking of data packets that may occur in the routing process.Experimental simulations show that this structure has higher saturation injection rate than traditional fault-tolerant routing algorithms under various failure modes，and can effectively improve the fault tolerance of the system and reduce the performance impact caused by partial failures.

Key words：system on wafer；network on wafer；fault-tolerant structure；perceptron

0 引言

近年來，芯片工藝制程不斷接近量子效應區域，單芯片性能提升已逼近天花板［1］。摩爾定律和登納德縮放定律逐漸失效，通過IC工藝制程升級帶來芯片性能及功耗提升的性價比越來越低。為了延續芯片性能的發展，業界大致按照先進封裝和晶圓集成等方向進行了探索，具體體現在以下方面：a）發展三維集成技術，例如采用Chiplet［2］、硅互連技術［3，4］等，但Chiplet技術受限于產品的規模，難以獲得體積、功耗等方面的最大收益；b）發展晶圓級芯片，例如人工智能芯片初創公司Cerebras Systems 在2019年發布世界最大芯片晶圓級引擎（wafer scale engine，WSE）［5］，WSE具有400 000個內核，內核之間通過一種Swarm通信結構連接在一個帶有100 Pbps帶寬的2D網格中，驗證了晶圓級集成的可行性；2021年8月，特斯拉推出了其自研的Dojo D1芯片［6］，該芯片以TILE為單位劃分每一個節點，把處理單元、SRAM緩存、網絡接口等模塊集成在一個區域內，不同的區域之間通過片上網絡（network on chip，NoC）互連，驗證了晶圓級互連具有廣泛的應用前景；c）我國科學家從系統工程視角提出了軟件定義晶上系統（software defined system on wafer，SDSoW），通過面向領域的軟硬件協同計算結構代替通用計算結構實現性能和效能的數量級提升［7］，通過預制件（dielet）的熱壓焊拼裝代替基于相同工藝IP復用的芯片設計然后再通過PCB逐級堆砌式集成實現帶寬、延遲、能效、體積等綜合增益的數量級提升，從而驅動高性能計算系統性能和技術物理形態的代際躍遷。

晶上系統（system on wafter，SoW）融合預制件組裝和晶圓集成等先進理念，借助晶圓級互連的高帶寬、低延遲、低功耗等顯著優勢，可以實現單一晶圓上集成成千上萬的計算、存儲、傳感、射頻、通信等“預制件”顆粒，打破現有集成電路的設計方法、計算范式、實現材料、集成方式等邊界條件，與成本高昂的高工藝制程（在7 nm及以下）單芯片技術方案相比，具有顯著優勢。作為系統級集成硬件，SoW中可容納眾多異構預制件，以實現多種不同功能。預制件之間的互連方式基于硅通孔技術（through silicon via，TSV），掛載其專屬的路由節點上，路由節點以2D-Mesh組網排布，形成晶上互連網絡（network on wafer，NoW），示意圖如圖1所示。

晶圓級集成系統的出現使得NoC技術被應用于NoW的網絡通信，但是相比于芯片內部的通信，NoW通信屬于片外通信。在預制件集成過程中，由于制造工藝的不穩定性可能會導致路由節點的失效及互連鏈路故障，所以需要針對失效的路由節點或互連鏈路開展網絡級彈性容錯的研究。此外，在系統運行過程中，還存在節點或鏈路的突發性故障等情況。為解決此類問題，本文提出一種基于Mesh拓撲的晶上互連網絡容錯感知結構，以實現實時動態的全局故障感知和路由避障的能力。

如今國內外針對晶上系統容錯技術的公開文獻相對較少，而就傳統片上網絡技術的研究比較深入。自NoC概念誕生以來，一直在性能優化方面被廣泛研究，如網絡拓撲、路由結構、容錯算法、任務映射［8］等方面，且取得很多重要成果。其中NoC容錯路由算法用于解決網絡中故障路由器和故障鏈路導致的數據包不可達問題。文獻［9］提出gradient自適應路由策略，當主路由路徑存在故障路由器時，它會考慮各種冗余路徑來進行數據包傳輸。文獻［10］提出Modified X-First容錯路由算法，該算法在決定路由輸出方向時考慮故障位置，但它是確定性的，并且只能處理單故障節點。文獻［11］提出最小和缺少彈性路由算法（minimal and defect-resilient，MD），該算法自適應地通過最短路徑路由數據包，并且在路由過程中檢測路徑上的兩條鏈路內的故障信息，啟用冗余路徑實現容錯。文獻［12］提出PDA-FTR路由算法，通過計算路徑多樣性來選擇數據包的路由策略。除此外，有學者修改NoC的路由結構用于提升網絡的容錯性，Constantinides等人［13］提出了基于N模冗余（N-modular redundancy，NMR）的彈性路由器，NMR要求路由數據包存在N個拷貝用于備份傳輸。Poluri等人［14］在路由器每個輸入端口上添加了冗余路由計算單元作為校正電路，以保證其容錯能力。DeOrio等人［15］提出了一種基于資源冗余重配置的架構，在交換組件中引入旁路總線，當路由過程中發生故障時提供替代路徑。綜上所述，當前的容錯機制主要研究優化容錯路由算法或設計具備容錯性能的路由節點，而缺少對容錯感知結構的研究。為提高NoW的魯棒性和動態容錯性，設計一種新的容錯拓撲結構具有非常重要的研究意義和現實價值。

本文主要的研究工作如下：

a）提出了一種基于2D-Mesh拓撲的晶上互連網絡容錯感知結構。在Mesh環中交叉使用主副感知器，用于實時檢測周圍路由節點的故障信息和緩解死鎖，并將故障信息廣播至其他路由節點的路由計算模塊，用于修改數據包路由以實現避障。

b）設計了容錯路由單元和主副感知器結構。為實現實時的故障感知機制，重設計路由模塊，在無虛通道路由的基礎上增加緩存感知模塊和信息管理單元，用于與感知器的信息交互，同時用于檢測和緩解死鎖。

c）仿真結果表明，本文所提結構具有較好的檢錯和容錯性能，在單點、兩點或四點故障的情況下三種流量模式的飽和注入率相較于傳統的自適應容錯路由算法有更好的表現。

1 容錯感知結構

基于內建自測（built-in-self-test，BIST）技術［16］的芯片故障檢測是目前主流的檢測方法，但其只適用于離線檢測，無法適用于NoW在運行過程中的單個芯粒的動態檢測。本章提出一種容錯感知結構，基于NoW路由節點中的緩存信息，用于判斷鏈路的故障情況。

1.1 芯粒故障問題描述

晶上系統中的芯粒發生故障的因素主要來自以下三個方面：a）制造工藝水平的限制使得芯粒在加工過程中可能會產生缺陷；b）芯粒在使用過程中，由于電路老化、電介質擊穿、電子遷移等原因產生故障；c）受到串擾、噪聲、電磁干擾、宇宙輻射等因素影響，導致芯粒功能短期內失效，這些因素都是NoW面臨的嚴重性故障問題。表1對上述故障因素作出了總結。

對于間歇性故障和瞬態故障，研究表明使用錯誤校驗碼［18］（error correcting codes，ECC）進行檢錯和糾錯可以提高NoW容錯性，當檢測到錯誤數量超過糾錯能力時可調用重傳機制解決。而針對永久性故障則需要重構網絡資源，以抵消局部故障對系統整體性能的影響，本文提出的容錯感知機制主要解決NoW中永久性故障的問題。

1.2 2D-Mesh拓撲結構

在NoC的發展過程中，2D-Mesh拓撲結構由于具有設計重用性和擴展性，制造工藝簡單，適用于晶圓級互連系統。如圖2所示，網絡中的每個節點的點集合可用XY坐標表示，節點中的每個路由單元通過網絡接口（network interface，NI）掛載一個預制件。路由單元用于轉發接收數據以及與本地預制件交互。路由單元通過鏈路互連形成Mesh網絡結構，在無故障的情況下數據鏈路為雙向鏈路，以提供更高的數據傳輸帶寬。

1.3 容錯感知結構建立

在2D-Mesh拓撲結構中，NoW中的永久性故障可分為鏈路故障或節點故障，故障位置對NoW的網絡傳輸性能也會有不同的影響。例如靠近Mesh結構中間的路由節點通常會比邊緣路由節點承載更多的數據傳輸任務，此類節點若發生故障，將會導致其周圍路由節點的緩存無法排出，進一步形成區域性的路由阻塞，這將對系統造成嚴重的性能損失。但當各路由節點能夠提前感知故障信息，并依據故障信息提前修改路由決策實現繞路避障，就會在一定程度上緩解由故障節點導致的區域性阻塞的問題。

為了能夠及時掌握和覆蓋全局路由鏈路和節點的故障信息，同時將故障信息及時廣播出去，考慮到NoW中路由鏈路資源的局限性，本文提出在2D-Mesh中交叉增加感知器形成一種新型拓撲結構，并在感知器之間建立獨立的感知網格，用于感知器之間的通信。圖3給出了四階NoW容錯拓撲結構的設計方案，主副感知器穿插在NoW的路由節點中。主感知器以深灰色節點標出，用于檢測與之相連的四個路由節點以及互連鏈路的故障信息，并提供死鎖緩解的功能。副感知器以淺灰色節點標出，只提供死鎖檢測和緩解的功能，不提供檢測故障信息的功能。主感知器之間形成互連結構，圖中以灰色鏈路標出，用于故障信息的廣播傳遞。

2 內部結構設計

2.1 路由節點設計

虛通道技術是如今NoC中常用的死鎖緩解技術，但其較多的虛通道緩存單元以及虛通道分配模塊會占用較大的面積和功耗。為了驗證本文容錯結構的有效性，路由節點重設計基于的是易發生阻塞但占用資源較小的無虛通道路由結構。

傳統的無虛通道路由節點主要分為輸入緩存、路由計算、交換分配和交叉開關模塊。其中路由計算模塊決定輸入緩存中的數據的輸出端口，對NoW的性能起到至關重要的作用；交換分配模塊主要用于輸出端口的仲裁，當存在競爭時決定哪個輸入緩存有權使用當前的輸出端口；交叉開關模塊由多個多路復用器組成，根據控制信號完成數據包的轉發傳遞。

為實現2D-Mesh結構的故障感知機制，基于第1章提出的容錯感知結構，需對無虛通道路由節點增加相應的模塊。如圖4所示為重設計后的路由結構，在各方向的輸入緩存增加監視模塊buf monitor，用于監測緩存內部的占用情況；增加信息管理模塊information management用于對各方向的緩存信息匯總，同時用于保障感知器和路由計算模塊route computation的故障信息交互。

2.2 主副感知器設計

感知器是容錯拓撲結構中的重要組成部分。在2D-Mesh拓撲結構中，主副感知器交叉覆蓋與之相連的四個路由節點實現故障檢測和死鎖緩解。主感知器用于檢測和傳播故障信息，副感知器用于檢測和緩解路由死鎖。下面給出主感知器和副感知器的結構。圖5是主感知器結構示意圖，detecting and distribution為故障檢測算法和死鎖檢測的實現模塊，其對外接口一方面與路由節點中的信息管理模塊進行交互，用于緩存阻塞信息的采集；另一方面與其余主感知器進行交互，用于獲取和廣播故障信息。當NoW中某一主感知器采集到故障信息時，便利用廣播機制分發至全局主感知器，繼而通過各主感知器下發至各路由節點內部的路由計算單元，路由計算單元在接收到故障信息后修改路由表項，以避開故障節點區域或停止向故障節點轉發數據包。此外，該模塊具有死鎖檢測機制，與故障檢測機制類似，利用通道緩存信息感知環路是否發生死鎖，具體內容將在第3章展開介紹。escape buffer用于緩解死鎖，當檢測到死鎖發生時，將下一跳不在死鎖環路路徑中的數據包傳遞至感知器內部的escape buffer，同時清空被緩解節點的輸入端口緩存以打開“死鎖環”，最后將escape buffer中的數據包發送至下一跳路由器的空余輸入端口。副感知器結構如圖6所示，死鎖檢測和緩解功能與主感知器類似，但不具備故障檢測機制和故障信息廣播的功能。

3 故障檢測和死鎖恢復分析

3.1 故障檢測機制

在相鄰節點之間，無虛通道路由器的數據傳遞使用一種檢錯握手機制，如圖7所示，上游節點中的某端口在數據轉發開始前先向下游節點發送req信號，若輸出端口仲裁成功，則下游節點回復grant信號以證明鏈路連接正常以及下游緩存有余量，上游節點在接收到grant信號后發送數據微片flit，下游節點接收到flit且校驗正確時向上游路由器回復ack，如此往復直到傳遞到flit_tail數據，表明該數據包中的所有flit傳輸完畢，釋放輸出端口，供上游路由器的其他端口使用。當上游節點未接收到grant或者ack信號時，數據將會暫存在緩存中，等待grant或是ack有效時再進行數據微片的傳遞。若是路由鏈路發生故障，或下游路由輸入緩存發生阻塞，則會導致上游路由器中緩存的數據包無法進一步傳遞，進而使數據包堆積在上游路由節點的緩存中，此時buf monitor將會把阻塞信息上報至感知器，由感知器進行問題檢測或緩解方案的實施。

通過檢測鏈路兩端的緩存占用和握手機制可以判斷鏈路的故障情況。下述是主感知器運行過程中的實時鏈路故障檢測算法，具體流程如圖8所示。基于上述握手機制，在數據傳輸開始前使用req和grant信號檢測建鏈是否正常。當req信號產生時，若無grant應答，則訪問路由計算模塊，因為路由計算模塊決定輸出端口的仲裁結果，若該端口仲裁失敗，則無grant應答是常規現象，不會上報給主感知器，否則可認為鏈路已發生故障并將故障信息上報給主感知器。在數據微片的路由階段，若傳輸過程中發現無ack應答，則上報主感知器，由于主感知器具有附近路由節點的緩存擁塞信息，故主感知器將無ack的情況與下游節點對應端口的緩存擁塞信息進行匹配校驗，即可判斷此鏈路是否為故障鏈路。基于此方法，可以實時動態地檢測路由鏈路的故障信息，而針對路由節點的故障，可以將其等效為與之相連的四條雙向鏈路的故障，因此該結構也可以實時檢測路由節點的故障。由于路徑故障信息是有向的，故可用有向二元組（node1，node2），（node5，node6）表示；節點故障信息由于是獨立的，故可用集合{node1，node2，…}表示。

當檢測到路徑或節點故障時，故障信息將通過主感知器的互連結構實現廣播，進而通過主感知器下發至各路由節點中的路由計算模塊。故障信息多數為輕量級，資源占用較少，路由計算模塊根據收集到的故障信息對數據包輸出端口的分配進行適時修改。

3.2 死鎖恢復機制

在NoW中，必須考慮死鎖和活鎖問題。死鎖是指網絡中的數據包形成了一個互相等待的環路，各個方向形成了依賴環，導致數據包無法繼續前進。當死鎖在無虛通道路由的NoW中發生時，若不及時緩解則會導致阻塞不斷傳遞，數據包的路由延遲驟增，嚴重影響網絡性能。基于NoC的路由策略，解決NoW死鎖的方法有轉向法、奇偶轉彎算法等，通過限制數據包的轉向行為以避免緩存傳遞之間形成依賴環，但轉向模型會導致活鎖或是流量不均衡等問題，基于此，本文提出的一種死鎖感知和死鎖緩解機制，也可有效緩解NoW中的死鎖問題。

如圖9所示，為感知器周圍的路由緩存信息表，內部標志位用于記錄緩存的擁塞信息。當某節點tile［i］［j］的N向輸入緩存阻塞時，路由器內部的buf monitor指針會把擁塞信息及其路由計算模塊的路由結果傳遞給感知器，并將tile［i］［j］的N標志位置1，當阻塞解除時，再將其置0。利用此方式，感知器輻射到的路由節點的擁塞信息可實時反饋至感知器內部。當主感知器檢測到阻塞發生時，根據路由模塊傳遞的下一跳路由計算結果，校驗下跳的輸入緩存標志位是否為1，若為1則表明上游阻塞是下游阻塞所影響。依此方法，若檢測到擁塞圖形成環路時，即可說明發生死鎖，此時需要調用escape buffer進行死鎖緩解，緩解方式如前所述，利用escape buffer作為逃逸緩存，緩解NoW死鎖問題。

活鎖是指數據微片由于傳輸路徑的阻塞而不斷路由到其他節點，進而導致其始終不能到達目的節點的現象，多發生于轉向路由算法。解決活鎖的常規方法是在數據包結構中賦予一定的優先級，當發生輸出端口競爭時，按數據包的優先級從高到低的順序依次路由。本文所提的容錯感知機制在避免向故障區域路由時，采取最小路徑路由策略，因此不會涉及到活鎖問題。

4 實驗仿真與分析

為了評估本文所提出的NoW容錯感知結構的有效性，本章基于卡塔尼亞大學開發的Noxim［19］時鐘精確仿真器進行實驗。該仿真器基于System C語言建立2D-Mesh NoC模型，使用命令行或配置文件的方式設置網絡參數。因其仿真NoC的拓撲結構與NoW相同，且容錯性能評估與網絡流量模型可類比于NoC，故實驗采用該仿真器。實驗在該仿真器基礎上添加主副感知器major perceptron及minor perceptron模塊，并在不同的故障場景下進行仿真實驗，最后給出實驗結果和分析。

4.1 仿真環境參數配置

實驗仿真采用了8×8的無虛通道Mesh拓撲結構，通過蟲洞交換機制和矩陣仲裁機制來運行。配置每個路由節點的輸入緩存深度為8個flit，網絡中路由的數據包大小為4～8個flit。在真實的網絡模型中，不同源節點會有不同的目的節點，因此，Noxim中內置了許多流量模式用于衡量NoC性能，本次實驗使用到隨機（random）模式、比特反轉（bit reversal）模式、轉置（transpose1）模式，隨機模式是指網絡中的源節點隨機向其余節點發送數據包，目的節點具有隨機性；比特反轉模式是指目的節點以源節點比特位反轉為結果；轉置模式是指源節點tile［i］［j］向目的節點tile［Y-j］［X-i］的一種軸向對稱路由。

實驗分別模擬評估了啟動容錯機制后的fault-tolerant XY路由算法在單點故障、兩點故障以及四點故障的情況下的性能表現，并與現有的容錯算法進行對比實驗。每次實驗運行20 000個周期，預熱設置為2 000個周期。預熱階段表示在2 000個周期后再進行數據統計，以測量系統的穩態性能。

4.2 實驗數據分析

評價網絡綜合性能的重要指標是數據包注入率與數據包平均延遲曲線。在微觀層面上，NoW平均延時指數據包包頭從進入網絡到包尾離開網絡的平均時間差，計算方法如下所示，通過該性能指標可以評估NoW在多種突發故障情況下的容錯性能。

數據包注入速率（packet injection rate，PIR）為平均單位時鐘周期內各IP向網絡中注入的數據量。隨著注入率的升高，網絡的平均延遲也將會不斷增加。當注入率增加到一定程度時，NoW將會無法處理網絡中龐大的路由數據，嚴重的網絡擁塞會導致NoW的平均延遲驟增。當平均延遲達到容錯路由方案的空載延遲（即沒有嚴重網絡擁塞時的平均分組延遲）的兩倍以上［20］時，網絡趨于飽和狀態，此時注入率稱為飽和注入率。飽和注入率是NoW能夠無嚴重阻塞地處理網絡流量的極限。

圖10～13分別表示在單點故障、兩點故障及四點故障情況下，三種流量模式在不同注入率時相應的平均延遲曲線。表2給出了FT-XY在不同場景和流量模型下的飽和注入率。在random模式下，FT-XY相較于綜合性能較好的PDA-FTR的飽和注入率提升8.18%，bit reversal模式提升22.35%，transpose1模式提升13.64%，而在雙點故障場景下，random模式提升10.61%，bit reversal模式提升14.02%，transpose1模式提升6.01%，在四點故障場景下，random模式提升12.20%，bit reversal模式提升12.03%，transpose1模式提升12.43%。

在真實的程序運行過程中，網絡流量模式具有一定的隨機性，因此random模式更能反映真實的系統性能。在單點故障場景下，random模式的FT-XY飽和注入率相較于PDA-FTR提升較小，但隨著故障節點數量的增加，飽和注入率的提高也愈加明顯。此外，在bit reversal和transpose1的轉置流量模式下，FT-XY也有不同程度的性能提高。

下面給出圖中四種容錯路由算法的性能分析：modified X-First因其路由路徑的確定性且輸出通道唯一性，擁塞容易在故障路徑上累計進而導致網絡性能降低；gradient將2D-Mesh劃分為8個區域，根據設置好的優先級方向進行路由，但對于復雜故障模型不具有自適應性；MD同時考慮到緩存信息以及源節點和目的節點的相對位置來確定最佳路由路徑，但它只能感知兩跳距離內的故障信息，因此容易在故障區域形成阻塞；PDA-FTR考慮路徑多樣性和路由節點的緩存信息以進行容錯冗余路徑的選擇，但計算路徑多樣性成本高，且不具有實時檢測故障的功能。本文提出的容錯感知結構能夠對故障信息實現全局感知并輔以故障廣播機制，使XY路由算法能夠提前對故障區域進行避讓，具有實時故障檢測及死鎖緩解功能，有效緩解故障區域的阻塞問題，從而提高NoW的容錯性。

通過對圖10～13中random模式的橫向對比可看出當注入率較低時，雖有故障節點，但容錯路由算法和基于容錯感知結構的FT-XY仍能夠無阻塞地完成路由，數據包的路由跳數大致相同，平均延遲較為一致。通過縱向對比可以看出，隨著節點故障數量的增加，容錯感知結構的優勢體現得更為明顯，這也說明了故障信息的及時傳遞對數據包路由決策和擁塞緩解起到至關重要的作用。

在資源占用方面，感知器內部設計有逃逸緩存escape buf-fer和臨近節點的緩存阻塞標志位，因此存儲開銷上需要1個buffer_size和4×5 bit的標志位。此外，主感知器內部設計有故障信息緩存，用于記錄和分發故障信息，資源開銷會有一定的增長，但相比于路由節點的緩存資源占用與容錯性能的提升，增加的開銷可以接受。

5 結束語

本文提出了一種針對2D-Mesh NoW的容錯感知結構，基于感知器對路由節點輸入緩存信息收集及故障檢測機制實現了故障信息的全局感知和容錯路由的更新，可用于解決NoW互連中存在的實時動態的故障問題。在提高了一定硬件成本的前提下，實現了故障的全局感知。為驗證NoW容錯感知結構的容錯性，本文使用Noxim模擬器在多種故障模型和片上網絡流量模型下進行仿真驗證，與現有的容錯路由算法進行對比，本文提出的NoW容錯感知結構在復雜的故障場景下具有更好的容錯性能，為今后SoW的相關容錯技術研究提供了一種新思路。

參考文獻：

［1］Chen Y H，Yang C A，Kuo C C，et al.Ultra high density SoIC with sub-micron bond pitch［C］//Proc of the 70th IEEE Electronic Components and Technology Conference.Piscataway，NJ：IEEE Press，2020：576-581.

［2］Yin Jieming，Lin Zhifeng，Kayiran O，et al.Modular routing design for chiplet-based systems［C］//Proc of the 45th Annual International Symposium on Computer Architecture.Piscataway，NJ：IEEE Press，2018：726-738.

［3］Vaisband B，Iyer S S.Communication Considerations for Silicon Interconnect Fabric［C］//Proc of ACM/IEEE International Workshop on System Level Interconnect Prediction.Piscataway，NJ：IEEE Press，2019：1-6.

［4］Saptadeep P，Daniel P，Matthew T，et al.Architecting waferscale processors-a GPU case study［C］//Proc of IEEE International Sympo-sium on High Performance Computer Architecture.Piscataway，NJ：IEEE Press，2019：250-263.

［5］James M，Tom M，Groeneveld P，et al.ISPD 2020 physical mapping of neural networks on a wafer-scale deep learning accelerator［C］//Proc of International Symposium on Physical Design.New York：ACM Press，2020：145-149.

［6］Frazelle J.Chip measuring contest：the benefits of purpose-built chips［J］.ACM Queue，2021，19（5）：5-21.

［7］高彥釗，鄔江興，劉勤讓，等.計算體系架構研究綜述與思考［J］.中國科學：信息科學，2022，52（3）：377-398.（Gao Yanzhao，Wu Jiangxing，Liu Qinrang，et al.Review and thoughts on the development of computing architecture［J］.Scientia Sinica：Informationis，2022，52（3）：377-398.）

［8］李國梁，李峭，徐亞軍，等.基于DDQN的片上網絡混合關鍵性消息調度方法［J］.北京航空航天大學學報，2022，48（7）：1233-1241.（Li Guoliang，Li Qiao，Xu Yajun，et al.A DDQN-based mixed-criticality messages scheduling method for network-on-chip［J］.Journal of Beijing University of Aeronautics and Astronautics，2022，48（7）：1233-1241.）

［9］Istas P，Sébastien P.Gradient—an adaptive fault-tolerant routing algorithm for 2D-Mesh network-on-chips［C］//Proc of Conference on Design and Architectures for Signal and Image Processing.Piscataway，NJ：IEEE Press，2012：1-8.

［10］Zhang Zhen，Greiner A，Taktak S.A reconfigurable routing algorithm for a fault-tolerant 2D-Mesh network-on-chip［C］//Proc of the 45th Annual Design Automation Conference.New York：ACM Press，2008：441-446.

［11］Masoumeh E，Masoud D，Juha P，et al.MD：minimal path-based fault-tolerant routing in on-chip networks［C］//Proc of the 18th Asia and South Pacific Design Automation Conference.Piscataway，NJ：IEEE Press，2013：35-40.

［12］Chen Yuyin，Chang E，Hsin H K，et al.Path-diversity-aware fault-tolerant routing algorithm for network-on-chip systems［J］.IEEE Trans on Parallel and Distributed Systems，2017，28（3）：838-849.

［13］Constantinides K，Plaza S，Blome J，et al.BulletProof：a defect-tolerant CMP switch architecture［C］//Proc of the 12th International Sympo-sium on High-Performance Computer Architecture.Piscataway，NJ：IEEE Press，2006：5-16.

［14］Poluri P，Louri A.An improved router design for reliable on-chip networks［C］//Proc of the 28th IEEE International Parallel and Distributed Processing Symposium.Piscataway，NJ：IEEE Press，2014：283-292.

［15］DeOrio A，Fick D，Bertacco V，et al.A reliable routing architecture and algorithm for NoCs［J］.IEEE Trans on Computer-Aided Design of Integrated Circuits and Systems，2012，31（5）：726-739.

［16］Mccluskey E.Built-in self-test techniques［J］.IEEE Design amp; Test of Computers，1985，2（2）：21-28.

［17］Akram B A，Abderazek B A.Adaptive fault-tolerant architecture and routing algorithm for reliable many-core 3D-NoC systems［J］.Journal of Parallel and Distributed Computing，2016，93-94（7）：30-43.

［18］Wang Junshi，Huang Letian，Li Qiang，et al.Optimizing the location of ECC protection in network-on-chip［C］//Proc of International Confe-rence on Hardware/Software Codesign and System Synthesis.Pisca-taway，NJ：IEEE Press，2016：1-10.

［19］Catania V，Andrea M，Salvatore M，et al.Cycle-accurate network on chip simulation with Noxim［J］.ACM Trans on Modeling and Computer Simulation，2016，27（1）：1-25.

［20］Gratz P，Grot B，Keckler S W.Regional congestion awareness for load balance in networks-on-chip［C］//Proc of the 14th IEEE Internatio-nal Symposium on High Performance Computer Architecture.Pisca-taway，NJ：IEEE Press，2008：203-214.

收稿日期：2022-06-14；修回日期：2022-09-19 基金項目：國家科技重大專項資助項目（2016ZX01012101）；首屆國防科技創新大賽資助項目

作者簡介：王明楠（1998-），男（通信作者）（蒙古族），內蒙古通遼人，碩士研究生，主要研究方向為晶上互連網絡容錯技術（1452324141@qq.com）；劉勤讓（1975-），男，河南商丘人，研究員，博導，博士，主要研究方向為新型網絡體系結構；劉冬培（1985-），男，湖南祁陽人，助理研究員，博士，主要研究方向為軟件定義互連；湯先拓（1985-），男，湖南湘潭人，助理研究員，博士，主要研究方向為軟件定義晶上系統．

計算機應用研究2023年2期

計算機應用研究的其它文章: AF-Center：基于自適應體素繪畫融合和高斯中心樣本分配的多模態三維目標檢測; 多尺度特征多徑自適應復用的顯著性目標檢測; 聯合圖像—頻率監督的圖像超分辨率重建算法; 基于注意力和卷積特征重排的圖像修復; 聯合松弛塊對角表示矩陣回歸的遮擋人臉識別; 基于多模態融合的城市道路場景視頻描述模型研究