ASIC仿真加速系統編譯優化策略研究

2013-12-31 00:00:00周海亮柏穎張順羅莉

湖南大學學報·自然科學版 2013年13期

摘要：隨著微處理器設計技術的發展，基于硬件仿真加速器的系統驗證已成為業內公認的最有效的系統驗證方法，而系統仿真頻率是硬件仿真加速器驗證系統最重要的性能指標之一.本文以某款國產高性能通用微處理器FT-xx在ASIC仿真加速平臺上的系統仿真加速為工程背景，通過調整編譯選項、分析編譯結果展開研究.首先分析了ASIC硬件仿真加速的加速原理，然后重點研究了邏輯資源數量、通用寄存器類型設計映射方式、特殊寄存器類型設計映射方式對系統仿真頻率的影響.研究結果表明，當待驗證設計的規模一定時，ASIC仿真器的邏輯資源并非越多越好、memorysize值的選取存在一個較佳范圍、對于某些特殊的寄存器采用強制映射能極大地提高系統仿真頻率.

關鍵詞：硬件仿真加速器；ASIC；頻率；仿真加速

中圖分類號：TP302.1 文獻標識碼：A

An Effective Memory System Verification Method Based

on ASIC Emulation Acceleration System

ZHOU Hai-liang， BAI Ying， ZHANG Shun， LUO Li

（College of Computer， National Univ of Defense Technology， Changsha， Hunan 410073， China）

Abstract： With the development of microprocessor， emulation accelerator based verification has become the most effective system verification method. And the system frequency is one of the most important indexes of the emulation acceleration system. Based on the engineering application of the system verification to a homemade high performance microprocessor FT-X on a ASIC emulator， research was done by tuning the compile parameters assisted with compile results analysis. The acceleration mechanism of ASIC accelerator was analyzed. And then， the effect of domain number， normal register design mapping method， special register design mapping method on the system emulation frequency was studied. The results show that it's not a good idea to increase the domain number as much as possible， because there exists a sound range of memory size when the design under test is fixed. And the system emulation frequency was increased sharply by the application of forcible mapping method to some special blocks on the other hand.

Key words： hardware acceleration system； ASIC； frequency； emulation acceleration

隨著處理器技術的飛速發展，微處理器設計規模的增大，處理器設計已達上億邏輯門規模.如此大規模的集成電路設計給系統驗證帶來了極大的挑戰[1-2].傳統的基于功能檢測、模擬測試等軟件測試方法所花費的時間驟升到以天為單位，已成為影響產品上市時間的最大瓶頸，這是企業在競爭日益激烈的今天越發難以承受的^[3].即使是日益流行的IP復用技術，傳統的硬件描述語言（Hardware Description Language，HDL）仿真器也難以勝任.而且越來越多的應用需要大量實時數據的處理（如視頻等），這就要求驗證環境具有接近真實系統的仿真頻率.

用FPGA來搭建ASIC設計的驗證環境能解決仿真頻率上的很多問題.然而，ASIC設計者在使用FPGA所搭建的驗證平臺進行測試、調試的時候也會面臨很多挑戰.最主要的是，與復雜的ASIC設計——尤其是通用微處理器設計——相比，FPGA的容量十分有限，一個ASIC設計的驗證平臺往往需要多片FPGA，由此引入了一個資源劃分的問題.編譯優化往往需要通過多次重復劃分、綜合、板上實現不斷嘗試，造成巨大的時間開銷，且效果不一定最佳^[4].此外還存在容量、I/O等瓶頸、調試不方便等問題^[5].

傳統測試方法及FPGA板仿真的缺陷，既對現有的驗證手段提出了嚴峻的挑戰，同時也促使新型的驗證思想和驗證手段應運而生，仿真加速器就是其中的典型代表.EDA公司瞄準了這一市場需求，在綜合算法、劃分策略、布局方法等方向進行了研究，通過將FPGA分割與綜合結合起來、將分割提前到RTL級、多片FPGA之間的時間預算自動包含在綜合驅動的分割算法等技術的突破與實現，開發出了硬件仿真加速器.

當前的硬件仿真加速器主要分為基于ASIC定制芯片和基于FPGA兩種類型，前者調試能力相對較強，操作相對較為簡單，不涉及具體的資源劃分、布局等，但仿真速度相對較低；后者仿真速度相對較高，但調試能力相對較差，對復雜時序trigger的支持較弱，存儲資源相對不足，資源劃分策略對仿真頻率的影響較大等.文獻[6]基于ASIC硬件仿真加速器對一款面向平板和智能手機的芯片進行了系統加速仿真及功耗分析.文獻[7]通過改變Palladium硬件仿真加速器重電源生成策略，提升了系統仿真性能并降低了對仿真資源的需求.基于硬件仿真加速器的芯片驗證已成為很多公司提高產品研發周期的重要手段，無論是互聯網芯片^[8]、手機芯片^[6]、通用微處理器芯片[9-10]，還是其他集成電路設計^[11].

出于工程背景對調試能力需求的考慮，本文研究工作在基于ASIC仿真加速系統上展開.雖然ASIC硬件仿真加速器的整個編譯過程已經高度自動化，資源映射、設計優化、調度算法等對驗證師而言為“黑盒”，但仍然——也必須——為驗證工程師提供各種編譯選項.因此，如何理解這些編譯選項背后的技術實現、針對具體設計的具體需求選擇最佳（或者說較佳）的編譯選項組合，是一項既需理論指導、又需大量工程實踐經驗的技術挑戰，也有重大的工程應用價值.

1 ASIC仿真加速系統原理

1.1 系統構成

ASIC硬件仿真加速器的基本結構如圖 1所示，一般而言，一臺ASIC硬件仿真加速器由一至多個board構成，每個board分成多個domain，board與board之間通過高速數據鏈路連接，當board數量不多、且board之間的鏈路帶寬足夠大時，仿真時是否跨board對仿真效果的影響甚微.因此，為簡化問題，本章節沒有考慮仿真資源跨board的影響.每個domain包含有一定數量的基本邏輯門，如與門、或門、非門等，同時還包含一些寄存器結構，另外，考慮到集成電路設計的需求，在domain內部還集成了一定數量的sram存儲空間（本文中用Esram表示）.

但為避免過多的sram增大domain的面積從而導致domain內部以及domain之間邏輯門之間信號延時的惡化，Esram的規模十分有限.為滿足集成電路（尤其是微處理器）設計對存儲空間的需求，在圖 1中J2所示位置處可添加大量的sram資源（本文將該部分sram用Xsram表示）.為確保domain之間具有足夠的通信帶寬，可在圖 1中J1，J2，J3和J4位置處插入高速數據domain-to-domain cable在各domain之間建立高速互聯網絡.

為便于硬件仿真加速器與主服務器之間的通信，如license訪問、配置信息提取、命令的發送與接受等，在主服務器與硬件仿真加速器之間需建立互聯網連接，同時，為便于仿真過程中大量數據的保存、加載，在主服務器與硬件仿真加速器之間還需建立高速光纖連接.為便于軟硬協同驗證，支持硬件仿真加速與軟件仿真之間的切換，需要在軟件仿真的宿主服務器與硬件仿真加速器之間經過SA卡的數據處理建立連接.為了能仿真待驗證設計與各種IO設備之間的通信，ASIC硬件仿真加速器可通過HDDC calbe外接SATA磁盤、顯卡、網卡、USB等多種IO設備.而上述連接與domain之間也必須通過domain-to-buffer cable連接，domain-to-buffer cable可連接在圖 1中J1，J2和J3所示位置.同時為便于仿真過程中屬性數據的捕獲，在每個domain周圍還設置有專門的數據捕獲模塊DCC.

1.2 加速原理

傳統的基于軟仿真器的仿真操作中，硬件設計的各操作最終都是通過軟件仿真器的宿主服務器CPU來完成的.而CPU的各操作的邏輯資源是十分有限的，假如有多個相同操作需執行，則必須串行處理.隨著多核多線程技術的進步，雖然能在一定程度上提高操作的并行性，由于受線程并行性開發水平、數據相關性等的限制，也很難讓所有邏輯資源并行工作，因此基于軟仿真器的仿真頻率基本僅能達到kHz規模.而在ASIC硬件仿真器中，若設計輸入為RTL代碼，則ASIC硬件仿真器首先調用綜合器將設計輸入綜合成網表文件，然后通過編譯完成資源劃分、邏輯優化、邏輯映射等操作.若設計輸入為網表文件，則直接進行資源劃分、邏輯優化、邏輯映射等編譯操作.編譯操作最重要的是資源映射，將設計中的各種操作映射成對應的邏輯門、寄存器、存儲模塊等，各單元之間通過走線串聯，從而構成一個準原型系統.在該準原型系統中，除極少數資源需要分時復用外，幾乎所有操作都是并行執行的，因此能達到仿真加速的效果，仿真頻率可達MHz規模.

例如，若在軟仿真器上仿真如圖 2（a）所示的設計，為便于問題的描述，假定軟件仿真器的宿主服務器為僅實現一個邏輯部件的單CPU，則所有操作在同一個CPU的硬件流水線上執行，且假定一條硬件流水線上僅實現了一個邏輯運算部件Logic，且僅支持兩操作數的邏輯運算.如圖 2（c）所示，每實現一個“與”或“或”操作，都需執行一次流水操作.如首先執行“a | b”操作，然后從流水線計算結果通過寄存器或旁路邏輯送到下一操作所在流水線的相應流水站，依此類推.同時，由于數據相關性的影響，流水線中可能還會存在大量的stall，具體的stall數量與流水線實現密切相關.如此，完成圖 2（a）所示設計的仿真，可能需要上10個時鐘周期.而且需要注意到，圖 2（a）所示設計極其簡單，隨著設計復雜性的增大，完成仿真所需時間急劇增長.在實際使用中，軟件仿真器的宿主服務器往往為多核CPU，且可能實現由SIMD（單指令多數據）結構，此外還可以通過循環展開等優化技術，使仿真頻率有一定提高，能達kHz規模.

若采用ASIC硬件仿真器仿真圖 2（a）所示設計，則通過資源映射，將在仿真器上組建圖 2（b）所示準原型系統，除對memory的訪存操作外，其余所有操作都在一個時鐘周期內完成.實際使用中，能達到MHz規模，從而達到仿真加速的效果.

2 編譯優化策略

雖然ASIC硬件仿真加速器的整個編譯過程已經高度自動化，但仍然——也必須——為驗證師提供各種編譯選項，如Domain資源配置、小規模reg信號的映射方式、memory映射方式、Shallowmemory利用率等.

domain資源配置：domain配置對仿真頻率的影響來自兩方面，總數與組合方式.domain總數直接決定可供映射的ASIC單元數量，而domain的組合方式影響各domain之間的數據帶寬.

小規模reg信號的映射方式：對于reg類型信號——對應設計中的寄存器或者memory，當reg的位數較小時，為盡可能提高仿真頻率，往往映射到圖 1所示domain內部的flip-flop單元；當reg的位數較大時，為緩解邏輯資源的壓力，往往映射到Esram單元或圖 1中J2所示片外Xsram.

memory映射方式：memory在硬件仿真器中的映射方式有兩種，映射到片內Esram或者映射到片外Xsram，仿真器需要對memory進行合理的映射，以提高仿真頻率.

Shallowmemory的利用率：Memory的優化方式有很多種，通過對memory進行相應的轉變來進行優化，針對不同的設計，采用合理的優化方式能極大地優化仿真編譯頻率.本文介紹其中的一種，該優化方式是針對設計中的shallow memory的利用率的不同來進行優化.

3 編譯優化結果及分析

3.1 實驗環境介紹

本文以某EDA公司的某型號ASIC硬件仿真加速器C-XX為平臺，以某國產高性能微處理器FT-X為應用背景，展開對ASIC硬件仿真加速器編譯優化策略的研究.

C-XX硬件仿真器最大仿真規摸為128 M邏輯門，最小劃分粒度為4 M邏輯門，同時片內片外配置了上百吉的存儲資源.FT-X為某國產高性能微處理器，最大支持16核，實現片上三級cache層次，單核配置時約為30 M邏輯門規模，16核配置時約為70 M邏輯門規模.同時，為調試需求，映射后的準原型系統中可能會包含一些黃金存儲模型、檢查器等設計，這也將通過占用邏輯資源、增大片外memory的端口數、增大連線延時等方式影響最后的仿真結果.

編譯時ASIC硬件仿真加速器將根據編譯種子所對應的算法完成資源映射算法，不同的編譯種子所獲得的編譯結果有較大出入，EDA公司提供的數據為30%左右的出入，在實際使用過程中，基本上也在這個范圍內.因此，必須想辦法盡量排除編譯種子帶來的影響.但并不能采用固定種子的方式，在某種硬件設計及編譯選項情景下的“最優”種子，當硬件設計背景修改或編譯選項出現變動時并不能保證“最優”.因此，本文采用的降低編譯種子影響的方法為“十次擇優”，即連續編譯十次，找出最優的結果作為最終的編譯結果.大量的工程應用數據表明，該方法基本能獲得“準最優”的編譯結果，從而基本上可以保證對編譯選項研究數據的可信性.

3.2 硬件邏輯資源對優化策略的影響

為研究domain數量對編譯效果的影響，實驗的參數配置情況見表 1.

上述實驗結果表明，編譯頻率并非隨資源數的增加而成正比增大，而是呈現一個先增后減的變化趨勢.對于具體的設計及編譯配置，存在一個最佳硬件資源數，在本實驗配置下，該最佳domain數為13.當邏輯資源小于該最佳邏輯資源配置時，緊張的可供調度的邏輯門將使各邏輯門之間的走線延時增加，從而導致仿真頻率降低，且隨著邏輯資源的進一步減少，仿真頻率逐漸降低.當domain數無法確保所有設計都有基本邏輯單元映射時，編譯無法完成.當邏輯資源大于該最佳邏輯資源配置時，制約仿真頻率的不再是domain內部邏輯門之間的走線延時.此時，過多的domain將增加domain之間的連線長度，domain之間的連線延時將取代domain內部邏輯門間的走線延時成為關鍵路徑.因此，當邏輯資源大于該最佳邏輯資源配置時，隨著domain數的增加仿真頻率反而降低，然后隨domain數繼續增大而趨于穩定.

需要說明的是，上面僅研究了domain數量對仿真頻率的影響，并未考慮domain的位置.在實際使用中，尤其涉及到跨板子之間的互聯時，由于各domain之間的連接不盡相同，因此，在相同damain數量的前提下，domain位置的不同也會在一定程度上影響最終的仿真頻率.然而本文所基于的ASIC硬件仿真加速器僅包含2個板子，且板子之間的互聯光纜線較為充裕，domain位置對最終仿真頻率的影響不太明顯.當然，當板子數較大、domain之間的互聯光纜線無法滿足設計需求時，則需要考慮domain位置的選擇.

3.3 通用reg信號映射方式對優化策略的影響

如前所述，對于reg類型的設計，ASIC硬件仿真加速器在編譯時既可將其映射到片內的flip-flop單元，也可將其映射到Esram甚至Xsram.為便于指導編譯器的小規模reg信號映射方式，ASIC硬件仿真器預留了一個編譯選項memorysize，當reg信號的寬度小于memorysize時，將其映射到flip-flop單元，否則映射到Esram或Xsram.為研究小規模reg信號映射方式對編譯效果的影響，實驗的參數配置情況見表2.

在本配置條件下，系統仿真頻率隨memorysize的變化關系如圖4中帶矩形曲線所示.當memorysize較為適中——如本例中的64時，其值的變化對仿真頻率的影響幾乎可以忽略.但當memorysize增大到一定臨界值時——本例中為2 192，如圖4中插圖所示的邏輯門數隨memorysize的變化關系所示，當memorysize增大至2 192時，邏輯門數劇增至78 M，遠大于所給定的28 M的ASIC仿真資源，從而導致編譯失敗.另一方面，當memorysize較小時，過多的reg類型設計被映射到Esram，flip-flop與Esram之間的長線延時將導致仿真頻率的降低.

同時我們也注意到，如圖4中帶矩形曲線所示，當memorysize為512或1 024時仿真頻率有明顯下降，這一方面可能與編譯的隨機種子有關，另一方面與設計有密不可分的關系.圖5（a）所羅列的memorysize為512時的關鍵路徑，由于知識產權等原因，其中的設計層次做過處理.從圖 5（a）所示關鍵路徑不難發現，名為“***.way_ram.ram1.ram0.mem”的ram與“***.way_ram.ram1.ram0.U80”的設計及其之間的連線“***.way_ram.ram1.ram0.n39”“***.way_ram.ram1.ram0.n83”導致該路徑成為關鍵路徑.該部分對應的設計如圖 5（b）所示，ram及寄存器的寬度均為34 bit，但在編譯優化時，ASIC硬件仿真器的編譯器會將一些小的設計進行合并等處理.在本例中，將16個34 bit的寄存器合并為一個544 bit的設計，對應圖 5（a）中的“***.way_ram.ram1.ram0.U80”等，由于“***.way_ram.ram1.ram0.U80”大于512 bit，因此該設計與ram等一起被映射到Esram中，而“***.way_ram.ram1.ram0.U80”與ram之間的選擇開關被映射在片內的flip-flop，因此形成了一個“Esram-flipflop-Esram”的長線，從而導致了最終仿真頻率的降低.

當memorsize增大至1 024時，“***.way_ram. ram1.ram0.U80”由眾多flip-flop搭建而成，此時，關鍵路徑不再是Esram與flip-flop之間的延時，而是flip-flop之間選擇范圍越發狹小的走線延時，從而也導致了較低的系統仿真頻率.

在實際優化時，最佳memorysize的選取不僅與其他編譯選項，而且與設計的具體內容密切相關.理論上講，如果設計比較均勻——各種大小的reg的數量、位置比較均勻，最終仿真頻率受memorysize大小的影響如圖4中帶三角形曲線所示.因此，在實際工程應用中，一般選擇32等較為適中的值，這樣不僅能獲得較好的仿真頻率，而且能盡可能降低邏輯資源的開銷.

3.4 特殊reg設計對優化策略的影響

如上一節所述，較小規模的reg設計往往被映射到flip-flop，較大規模的reg設計被映射到Esram或Xsram.這只是一個一般性的指導標準，在實際設計中，會有一些特殊情況.例如某reg設計，雖然其大小已超過memorysize的值，但該設計與被映射到Esram的設計的關系極為密切，使得編譯時Esram-flipflop間的長線延時成為關鍵路徑，此時可以考慮通過特殊的編譯選項——本文用use_hardmacro表示——將其強制映射到Esram.反之，當某reg設計大小雖已超過memorysize的值，但超過并不多，而該設計的讀寫端口又特別復雜時，若采用Esram實現，由于ASIC硬件仿真加速器中每個的Esram的讀寫端口數是有限的，當該reg設計的讀寫端口數超過該限制時，ASIC硬件仿真加速器會通過端口復用的方式來實現，這樣將極大地降低系統仿真頻率.此時可以考慮通過特殊的編譯選項no_hardmacro將其強制映射到片內邏輯門或flip-flop.例如，本文研究背景的微處理器FT-X驗證工作中，為檢驗數據一致性的正確性，設計了一個表示訪問有效的寄存器組valid，共512*16-1項，每項1位寬，由于FT-X采用多核結構及一致性的復雜性，最終valid的讀寫端口達81個之多.當沒有采取強制映射措施時，由于該設計的總位數遠超過所選用的memorysize的值，被映射到Esram，得到的平均仿真頻率為675 kHz.當通過no_hardmacro將其強制映射到片內邏輯后，得到的平均仿真頻率為1 058 kHz，獲得了141%的仿真頻率.

本節研究了與資源映射相關的3個編譯選項對仿真頻率的影響.除此3種編譯選項外，還有諸多別的編譯選項也將一定程度上影響最終的仿真頻率，例如相同domain數量情況下不同位置的選取、為防止可能存在的壞的互聯線影響系統運行的正確性而將各chip間互聯線翻倍、Shallowmemory的利用率等，限于篇幅，本文不一一介紹.

4 結論

本文在分析ASIC硬件仿真加速器的工作原理的基礎上，結合具體的工程實例，重點研究了domain數量、通用reg設計映射方式、特殊reg設計對最終仿真頻率的影響.然而，在實際應用中，一方面各參數之間可能相互關聯、互相影響，另一方面，各參數的選取與待驗證設計的具體內容密切相關，在一種待驗證設計中較優的編譯組合應用到另一待驗證設計時可能不再適用.因此，本文的研究結果僅能作為指導，具體如最佳domain數的選取、memorysize值的大小等，需要具體情況具體分析，以分析加實驗的方式獲得最佳編譯組合.

參考文獻

[1] WILE B， GOSS J C， ROESNER W.全面的功能驗證：完整的工業流程[M]. 沈海華，樂翔，譯.北京：機械工業出版社，2009.

WILE B， GOSS J C， ROESNER W. Comprehensive functional verification： the complete industry cycle[M]. Translated by SHEN Hai-hua， YUE Xiang. Beijing： China Machine Press， 2009.（In Chinese）

[2] DEMPSTER D， STTUART M. Verification methodology manual techniques for verifying HDL designs[M]. Yateley， Hampshire， UK：Teamwork International， 2002.

[3] 楊超，閆新強，石磊.基于PXP的Transaction-Based Acceleration驗證技術[C]//Cadence User Conference 2012. 圣荷塞：Cadence， 2012：176-183.

YANG Chao， YAN Xin-qiang， SHI Lei. Transaction-based acceleration verification technology based on PXP [C]//Cadence User Conference 2012. Santa Jose， CA： Cadence Design Systems， Inc， 2012：176-183.（In Chinese）

[4] 李列文，桂衛華，胡小龍.一種基于FPGA的低功耗、容錯狀態機設計方法[J].湖南大學學報：自然科學版，2010，37（6）：77-82.

LI Lie-wen， GUI Wei-hua， HU Xiao-long. A FPGA-based design method of low power fault-tolerance finite state machine[J]. Journal of Hunan University： Natural Sciences， 2010，37（6）：77-82. （In Chinese）

[5] 劉和平.TMS320LF240x DSP C語言開發應用[M].北京：北京航空航天大學出版社，2003.

LIU He-ping. Development and application of TMS320LF240x DSP C language[M]. Beijing： Beihang University Press， 2003. （In Chinese）

[6] 王澎，許海輝，白永強，等.基于Palladium XP系統級仿真加速和動態功耗分析[C]//Cadence User Conference 2012. 圣荷塞：Cadence， 2012：169-175.

WANG Peng， XU Hai-hui， BAI Yong-qiang， et al. System-level verification acceleration and dynamic power analysis based on palladium XP [C]//Cadence User Conference 2012. Santa Jose， CA： Cadence Design Systems， Inc， 2012：169-175. （In Chinese）

[7] 蘇一萌. 基于Palladium XP的性能優化方法[C]//Cadence User Conference 2012. 圣荷塞：Cadence， 2012： 184-186.

SU Yi-meng. Performance optimization methods based on palladium XP[C]//Cadence User Conference 2012. Santa Jose， CA： Cadence Design Systems， Inc， 2012：184-186. （In Chinese）

[8] 徐健，羅天柱.CADENCE硬件仿真器在Ethernet交換芯片驗證中的應用[J].中國集成電路，2005（9）：76-78.

XU Jian， LUO Tian-zhu. Application of CADENCE hardware emulator in proving Ethernet switching chip[J]. China Integreted Circuit，2005（9）：76-78. （In Chinese）

[9] 陽柳，胡建國，李鑫.高性能微處理器的全芯片驗證[C]//第九屆計算機工程與工藝學術年會論文集. 北京：中國計算機學會， 2003：369-371.

YANG Liu， HU Jiang-guo， LI Xin. The whole chip verification of high performance microprocessor[C]//Proceedings of the 9th Annual Conference of Computer Engineering and Technology. Beijing： China Computer Federation， 2003： 369-371. （In Chinese）

[10]周宏偉，鄧讓鈺，李永進，等. 多核處理器驗證中存儲數據錯誤快速定位機制[J]. 國防科技大學學報， 2012，34（6）：1-6.

ZHOU Hong-wei， DENG Rang-yu， LI Yong-jin， et al. A fast location mechanism on memory data error for multi-core processors verification[J]. Journal of National University of Defense Technology， 2012， 34（6）：1-6. （In Chinese）

[11]張紅南，劉曉巍，鄧蓉，等. IC卡的優化及FPGA仿真[J]. 湖南大學學報：自然科學版，2006，33（2）：35-39.

ZHANG Hong-nan， LIU Xiao-wei， DENG Rong， et al. Optimized design and simulation based on FPGA of IC card[J]. Journal of Hunan University： Natural Sciences， 2006， 33（2）： 35-39.（In Chinese）

湖南大學學報·自然科學版2013年13期

湖南大學學報·自然科學版的其它文章: 基于GARCH誤差修正的時間序列季節預測模型及應用; 網絡論壇人類行為動力學實證分析; 矩陣乘在通用DSP上的峰值性能模型; 一種超大規模MPI柵欄同步的硬件卸載方法; 面向全分布式VLIW結構的部分互連研究; 一種路由表分布式存儲轉發架構及其查找算法