龍芯２Ｅ多處理器芯片組的設計與實現

2008-01-01 00:00:00方志斌胡鵬安學軍孫凝暉

計算機應用研究 2008年5期

摘要：提出了一種面向高性能計算機的多處理器芯片組的設計，其主要特點是支持多處理器通過芯片組和交換芯片兩級互連，全局地址空間和多處理器同步支持。給出了芯片組的組成結構、設計原則和關鍵技術，設計并實現了基于龍芯2E處理器的多處理器芯片組。目前，已采用FPGA平臺對該芯片組進行驗證和測試，以該芯片組為核心的四處理器原型系統完成BIOS引導和操作系統運行，經過實測處理器的訪問請求通過芯片組延遲小于0.5 μs，芯片組內處理器通信帶寬達到500 Mbps。

關鍵詞：多處理器；芯片組；全局地址空間；龍芯2E處理器

中圖分類號：TP302文獻標志碼：A

文章編號：1001-3695(2008)05-1465-05

0引言

隨著VLSI和微處理器技術的發展，利用微處理器構建的并行計算機已經取代大型主機和向量機在高性能計算領域占據主流地位。并行計算機按體系結構主要分為對稱多處理機SMP、分布式共享內存CCNUMA、大規模并行處理MPP和機群cluster四類[1]。高性能并行計算機面臨的挑戰主要有：硬件上可擴展規模受限，通信和同步的性能不能很好地隨處理器數目增加而成比例增長，系統峰值性能很難得到高效使用；軟件上大規模并行編程困難，不能充分利用多核架構，與商業應用的兼容性差。

為了順應CPU多核的發展趨勢，保持MPP系統的高性能和可擴展性、CCNUMA全局地址空間的易編程性、SMP機群的單一系統映像；同時兼容已有的科學計算與商業應用軟件，成為能力計算的有效平臺，中國科學院計算技術研究所提出一種超并行體系結構（hyper paralle processing，HPP）。HPP體系結構能從硬件和軟件兩方面滿足千萬億次計算機的要求。面向HPP體系結構，本文提出了一種多處理器芯片組的設計，主要特點是多處理器通過芯片組和交換芯片兩級互連、全局地址空間和多處理器同步支持。

1相關工作

芯片組是構成計算機系統的核心部件，其功能由計算機系統的體系結構決定。單處理器芯片組是處理器連接外設和內存等部件的芯片，包括兩個主要功能：a)提供集成處理器、存儲器、各種不同外設等接口并完成各接口在芯片內部的高速數據交換；b)為處理器提供中斷、啟動和復位等系統支持信號。多處理器芯片組除了實現單處理器芯片組的功能外，還需要集成多個處理器接口實現處理器間的通信。

SMP系統芯片組是整個SMP系統的核心部件。SMP芯片組中一個關鍵的功能是實現處理器的總線接口，完成對總線上各CPU的請求仲裁并維護各CPU的cache一致性；同時它還實現內部互連、存儲器和外設接口。利用SMP系統構建機群能夠實現高性能計算；機群系統的通信利用SMP芯片組的I/O接口完成，如以Myrinet、Quadrics和Inifiniband技術構建的機群采用用戶級網卡[2]等方法實現處理器間的通信，但機群系統通信能力受到I/O總線帶寬的限制，采用133 MHz PCIX接口的Myrinet、Quadrics在實際應用中通信帶寬只能達到235和308 Mbps[3]，其通信延遲一般在4.6~6.8 μs[3]。

CCNUMA系統的芯片組在實現SMP系統芯片組功能的基礎上，集成了目錄控制器以維護系統中節點間的cache一致性。SGI Altix系統是由SMP節點通過專用的高速互聯網絡構成的CCNUMA系統。Altix的HUB芯片組通過系統總線連接CPU并對總線進行偵聽以實現SMP節點的功能；同時擁有存儲和目錄管理器，用來維護系統中節點間的cache一致性；HUB芯片組還通過自定義的高速傳輸通道來訪問I/O設備，并包括高速互聯網絡接口邏輯實現系統的擴展。

MPP系統一般采用3DTorus網絡實現處理器間互連，處理器內部集成內存控制器，外設在專門的I/O節點上實現。與處理器連接的芯片實現兩個主要功能，即處理器接口和在x、y、z三個坐標共六個方向上的路由與互連，也稱為互聯芯片。Cray的XT3[4]系統是單處理器節點通過3DTorus高速互聯網絡構成的MPP系統，系統中每個處理器有自己的內存控制器；并通過HT總線直接連接Seastar芯片。Seastar芯片實現路由和互連功能，并支持全局地址空間。系統采用支持共享內存的MPI通信庫[5]，利用直接內存存取實現單邊的MPI模式來提高通信性能。Cray Red Storm支持共享內存的MPI實現在延遲和帶寬上的測試結果為MPI通信延遲達到5 μs，帶寬達到1．1 Gbps[6]。

2面向高性能計算機的多處理器芯片組設計

隨著VLSI技術的發展，微處理器內部集成了內存控制器，多處理器芯片組不再需要支持內存控制器；芯片集成度的提高使芯片組能集成更多的處理器和互聯網絡接口。結合這些技術趨勢以及HPP高性能計算機的特點，本文提出了一種面向HPP系統的多處理器芯片組的設計。

2．1面向HPP系統的芯片組特征和結構

HPP體系結構的特點是：片內可擴展通用多處理器核，片內具有寄存器傳輸級通信網絡；片內、節點內、系統三級并行，三層互連；全局共享地址空間，通過節點內和節點間兩級互連構成分布式系統；支持多通道并發的核到核通信；節點操作系統具有單一系統映像，并保持節點獨立性；有效支持多線程分割全局地址空間編程模型。

作為HPP系統的關鍵部件，面向HPP系統的芯片組包括三個特征：a）支持多處理器通過芯片組和交換芯片兩級互連，芯片組通過內置的互聯接口與交換芯片連接。互聯接口采用高速I/O技術實現，處理器間通信只需經過芯片組和交換芯片兩級，減小了MPP系統中3DTorus網絡通信路徑長而帶來的延遲；同時避免了機群系統采用I/O總線通信引起的帶寬限制。b)實現全局地址空間。全局地址空間指所有物理內存、I/O設備內存與芯片組內置的寄存器統一編址，各處理器以同一地址訪問同一區域；全局地址空間避免了芯片組內繁瑣的地址映射和變換，簡化了路由的查找和分配，減小了MPI通信協議在消息緩沖區管理和查找的開銷，提高了MPI通信能力。c)實現多處理器同步支持，從硬件上提供同步原語，降低同步開銷；多處理器同步可以為多處理器BIOS和操作系統提供支持，同時可以為MPI單邊通信提供低延遲的同步機制。面向HPP的芯片組通過這些特征實現了HPP體系結構對芯片組的要求。

面向HPP系統的芯片組包括三類主要接口：處理器接口實現與處理器的互連；外部設備接口用于連接鍵盤、硬盤和顯示器等外部設備；互連接口用于與交換芯片互連實現系統的大規模擴展。其中，互連接口的設計另文介紹。

如圖1所示，芯片組的核心邏輯是一個交叉開關模塊（crossbar）。交叉開關用于互連其他所有接口，每個內部互連接口包含一個master接口和一個slave接口。Master接口接收來自處理器、外設或互連接口的外部請求，按照地址總線指定的地址窗口向相應的接收方slave接口轉發此操作請求；接收方slave接口設置仲裁器，只有獲得仲裁響應的master請求才能在此slave接口上輸出，仲裁采用RoundRobin機制實現。芯片組各接口對外實現各自的外部總線協議，對內按照內部總線協議實現與交叉開關的互連；同時實現內外接口間跨不同時鐘域的FIFO。芯片組各接口可以與內部總線協議協同設計達到高性能通信的要求。

2．2面向HPP系統的芯片組設計原則

芯片組在設計時需要可擴展。這種可擴展性表現在三個方面:a)芯片組支持的處理器數目和接口可擴展，這要求芯片組設計內部總線時需要支持大范圍的全局地址空間，提供足夠寬的地址線；內部處理器接口可以按照不同處理器需求實現，利用不斷升級商品化的處理器，這種擴展性符合高性能計算機采用商品化處理器以降低成本的發展趨勢。比如MPP系統中的Cray XT3采用AMD的Opteron[4]， CCNUMA系統中的SGI Altix采用Intel的Itanium。b)芯片組內部端口數目可擴展，設計時可以支持更多的處理器接口或互聯網絡接口，以適應芯片集成度不斷提高的現狀。c)支持的I/O接口可擴展，可以按照I/O的發展采用更高速的I/O協議實現對應接口。

芯片組設計中的另一個重要原則是帶寬平衡。系統部件的通信帶寬由物理帶寬和應用的實際利用率決定，要提高系統的整體通信性能，必須使整個系統的通信帶寬按照應用的通信特征進行匹配，消除帶寬瓶頸。HPP系統的通信包括處理器與內存的通信、芯片組內處理器間通信和芯片組內處理器與互連接口的通信。通信系統中的數據來自于存儲器，因此在考慮通信帶寬時可以考慮以內存帶寬為參照，按照應用的通信模式進而推出其他部分所需的帶寬。

2．3全局地址空間支持

芯片組實現全局地址空間要求對各端口統一編址，給每個端口分配一段不重疊的地址空間，使各處理器、設備和高速互聯網絡均獲得一個獨立的地址窗口。處理器接口按照地址空間可以區分本地和遠程訪問。處理器的遠程訪問請求被芯片組按照地址窗口轉發給相應的端口控制邏輯進行處理。

支持全局地址空間的HPP系統在節點間不支持處理器間cache一致性。因為cache一致性限制了系統的大規模擴展，處理器對全局地址內存的訪問只能通過兩種方式：a)該共享內存區域限定在非cache區，IBM的BlueGene/L采用此方法實現協處理器的訪問[7]；b）該共享內存區域只被本地處理器cache，在操作全局內存前用軟件方式刷新本地處理器對該區域的cache，Cray的T3D就采用此方法實現全局地址空間。面向HPP的芯片組在設計中可以支持這兩種方式，由軟件人員根據應用的特點決定采取何種方式。Cache一致性問題不僅體現在對共享內存操作上，對I/O訪問一樣存在。

2．4內部總線協議的設計

芯片組為實現高性能通信需要為系統通信層提供內部總線協議，具體包括支持可變長包傳輸、按字節對齊、順序傳輸并保證通信的可靠性。內部總線協議規范芯片組內部所有模塊的統一接口，采用切入交換機制和分離事務協議。切入交換機制的特征是傳輸的包規整；包頭標記包的固定長度；接收方收到包頭信息后不必等待包尾到達就向下級接收方傳遞；當發生阻塞時，整個數據包要存儲在本地緩沖區內切入交換能減小通信延遲。芯片組內的讀寫操作以分離事務協議完成，即多個讀寫請求以流水方式通過內部總線端口。其中，讀請求對應的響應數據不必按原順序返回。內部總線協議分成slave和master兩部分。Master用于傳送數據，是總線交互的發起者，通過CYC信號有效標志一次傳送請求的開始，同時通過CMD指示該請求的傳送長度；Slave用于接收數據，是總線交互的接收者，slave收到CYC信號后，如果當前緩沖區容量大于或等于master請求傳輸的數據量則向master發出ACK信號，反之發出RTY信號；Master收到ACK信號后將有效數據傳送給slave，數據是否有效依靠STB指示；收到RTY信號中止傳輸數據，延遲等待若干周期重發CYC請求。具體時序如圖2所示。

2．5處理器和外設接口的設計

芯片組對外通信包括與處理器、外設和互連三個主要接口。與處理器的接口可以按照并行總線方式，也可按照串行點對點方式實現，具體實現方式由處理器接口決定；與外設的接口按照所采用的I/O總線協議實現，PCI或PCI/X協議按總線方式實現，PCI Express按照串行點對點方式實現。與互連接口的設計另文介紹。提高對外通信性能的關鍵技術是采用串行高速I/O實現接口。并行總線頻率提高受限于傳輸線間信號串擾和負載能力，內部主頻能實現200 MHz就很困難，單個數據線即使采用四倍頻技術也只能達到800 Mbps的數據傳輸率。而高速串行I/O帶寬將隨著晶體管特征尺寸減小而成比例增大。預計到2010年單個I/O通道可達到20 Gbps，在集成了多個I/O后芯片能實現1 Tbps的帶寬，理論上在面板、背板和10 m內的短距離電纜可以實現40 Gbps[9]。因此串行高速I/O成為未來對外通信的主流，HT、PCI Express、FBDIMM等協議全部采用串行點對點傳輸。串行高速I/O關鍵技術是在制造工藝確定的條件下盡量減小I/O時鐘。由于芯片時鐘信號需要驅動整個芯片時鐘樹，芯片時鐘限制在8FO4；但I/O信號只需驅動I/O buffer，I/O信號頻率可高于時鐘頻率，I/O時鐘最高可達到2FO4，一般實現為4FO4。在減小I/O時鐘的同時需要增加其穩定性，設計更穩定的PLL或DLL電路避免時鐘偏移[9]。

3龍芯2E多處理器芯片組的設計和實現

3．1龍芯2E處理器

龍芯2E通用64位處理器片內有二級cache存儲器，cache塊大小為32 Byte，并集成DDR內存控制器，采用總線方式通過總線控制器實現對外接口。處理器支持遠程存儲器訪問，實現本地內存和遠程內存的全局統一編址，但未實現外部CPU對本地cache發出的無效命令，因此不支持多CPU間的cache一致性。龍芯2E處理器采用改進的SYSAD總線接口，有四根獨立的中斷線處理外部中斷請求，采用統一地址對I/O空間和內存空間編址[10]。

3．2芯片組總體框架

龍芯2E多處理器芯片組總體框架如圖3所示。芯片組設計兩個系統總線端口，每個系統總線端口以總線形式連接兩個處理器，總線不支持cache一致性；設計PCI和LPC端口實現I/O功能；采用全互連方式實現各端口間的數據交互。同時預留提供DMA控制器和對外高速互連的可擴展接口，下一步可實現大規模的多處理器系統；芯片組內部支持全局地址空間和多處理器同步支持，還實現了中斷控制器、定時器/計數器、處理器間鎖、系統總線仲裁器、PCI總線仲裁器等功能模塊。芯片組支持8~256 Byte大小的包、按字節對齊、順序傳輸、提供通信的可靠性、具有管理和調試功能的寄存器。

圖3龍芯2E多處理器芯片組總體框架

3．3處理器接口的實現

龍芯2E處理器對外接口采用總線方式實現，芯片組與處理器采用總線方式連接。在設計中如果物理總線上掛的處理器數目增多，總線負載會加大使其頻率降低，因此初步設計支持兩個處理器負載。同時需要對處理器原來參考SYSAD設計的總線協議進行簡化，消除總線為維護cache一致性所帶來的性能損耗；總線輸入/輸出信號采用寄存器在芯片管腳上鎖存。通過這些技術提高總線頻率。

為實現全局物理地址訪問，總線控制器設計地址窗口寄存器用于區分該總線上的本地和遠程訪問。地址窗口共有四個，每個窗口用一對高低地址實現；小于等于高地址并大于等于低地址的地址落在窗口內；當高地址為零時，此窗口無效。總線控制器還設計了外部訪問的地址錯誤檢測寄存器以產生中斷，提高系統的可靠性。總線控制器采用分離事務協議設計，同時可容納最多八個不同的讀寫事務，以此提高同一處理器并發通信的能力。因為系統總線接口是數據訪問的熱點，需要采用虛通道的方法來消除隊頭阻塞現象，提升系統性能。總線控制器master中有三個虛通道，讀響應使用其中的一個，另外兩個分配給讀寫請求，軟件可以通過配置地址將不同速度的請求分給這兩個虛通道，以區分快速地址的訪問和慢速地址的訪問，提升系統性能。

3．4外設接口的實現

外部設備接口用于連接鍵盤、硬盤和顯示器等外部設備，設計了快速和慢速兩個I/O訪問端口。目前符合PCI規范的I/O設備種類齊全，可選擇范圍廣，設備驅動軟件也能從開源社區中得到有力的支持。系統采用PCI協議實現快速I/O訪問，連接硬盤、網卡和顯示器大容量快速設備。采用LPC協議實現慢速I/O訪問，LPC控制器連接鍵盤、鼠標和PROM等慢速設備。

PCI橋控制器實現32位PCI總線接口，與PCI2.3規范[11]全兼容。PCI通信一般采用突發機制進行數據傳輸，每次傳送數據無固定長度，傳輸開始并不知道何時結束。同時PCI讀操作以延遲重試完成，即請求方發出讀命令后，若應答方準備好則傳送；若應答方未準備好則斷開連接，延遲若干周期后繼續發出讀命令進行重試。由于多處理器芯片組內部總線協議采用分離事務協議，與PCI協議不同，這就要求需要在多處理器通信的基礎上融合并實現PCI通信。芯片組設計的PCI控制器可以隔離PCI的讀延遲重傳和突發機制給芯片組帶來的性能損耗，使PCI主設備在讀命令發出但未收到讀響應數據時，不再需要爭用交叉開關總線進行讀重試，避免了對交叉開關和其他處理器內部接口的無效占用。

3．5處理器同步機制的實現

處理器同步機制用芯片組內專用的寄存器實現鎖。當處理器需要對其操作時首先檢查該寄存器。若為1時表示有其他處理器已獲得該鎖，此時需要等待；為0時表示該處理器可以獲得該鎖，將其置為1，在使用完畢后將其復位為0。

芯片組還利用一組寄存器實現barrier。其中：每個寄存器代表系統中的一個處理器。當MPI處理器組需要進行barrier時，每個到達barrier點的處理器將其對應的寄存器置為1；同時檢查組內其他所有寄存器是否為1。若全為1則向組內的處理器發出同步響應消息；否則進入循環等待。芯片組對同步的支持與MPI通信庫協同設計，利用硬件的實現簡化通信協議層的同步開銷。

3．6處理器間中斷的實現

處理器間中斷要求實現多個處理器間中斷請求寄存器每個對應一個CPU的處理器間請求狀態。該寄存器為8位，初始值設置為0，各位的含義分別代表其他處理器向本處理器發出的中斷標志。為1時表示有中斷請求，為0時表示無中斷請求。芯片組內部對每個處理器間中斷請求寄存器還設置一個對應的鏡像寄存器。鏡像寄存器軟件不可見，初始值也設置為0。一個CPU向另外一個CPU申請中斷時，向相應的中斷請求寄存器內部寫入一個不同于前一次寫入的4位二進制值，處理機間中斷采用中斷請求寄存器與鏡像寄存器作異或運算生成處理機間中斷請求信號。該中斷請求信號送到系統的中斷控制器，然后通過CPU的INT引腳發出中斷請求。當被中斷的CPU讀取處理機間中斷請求寄存器后，鏡像寄存器的內容用中斷請求寄存器的內容更新，相應的中斷請求被撤銷。CPU響應處理器間中斷請求要經過兩次查詢才能確定發出請求的處理器號。第一次查詢總的中斷源寄存器，確定是處理器間中斷；第二次查詢處理器間中斷請求寄存器，確定發出處理器間中斷請求的處理器號。

3．7多處理器復位與啟動的實現

處理器復位控制的任務是為處理器提供符合要求的復位信號。龍芯2E處理器的復位需要三個信號，即VCC_OK、Cold_Reset和Reset。所需的復位控制過程包括上電復位、冷復位和熱復位三種。因此芯片組要為每個CPU提供上述三個復位信號并能完成三種復位控制過程。根據多處理器系統的要求，系統芯片組上電后先產生對主處理器的復位信號。主處理器首先完成復位動作并執行BIOS程序，實現對外部設備的檢測和配置；然后由主處理器控制發出系統中其他處理器的復位信號并各自完成BIOS引導。在芯片組內部為每個處理器設置一個復位控制寄存器，主處理器可以通過寫復位控制寄存器來復位從處理器。

系統中各處理器的識別通過在芯片組設置一個虛擬的處理器號寄存器實現。該寄存器可以被所有處理器按同一地址讀取，但不同處理器讀回的結果不同。其結果就是處理器的物理位置信息，以此信息可以配置處理器內部的內存地址窗口，完成全局內存空間分配，配置工作要在系統啟動時由BIOS完成。

4性能測試與分析

4．1測試平臺

芯片組采用FPGA平臺對功能進行驗證并對性能進行測試。考慮芯片組交叉開關內部端口數目多、占用資源大，各個模塊需要緩沖區，對PAD的數目要求大。綜合以上需求，選擇Xilinx公司的Virtex 4系列XC4VLX60芯片實現多處理器芯片組。芯片組布局布線后各器件使用狀況如表1所示。External IOBs使用了67%， RAMB16s使用了76%，Slices使用了57%。可以看出芯片組內部還有富裕器件以實現DMA和外部互連的接口邏輯，滿足了可擴展性的要求。

四處理器原型系統運行時，處理器cache塊大小為32 Byte，其系統總線和內部總線時鐘為80 MHz，數據總線寬度64 bit；PCI和LPC時鐘為33 MHz，數據總線寬度32 bit。目前以該芯片組為核心的四處理器原型系統已實現BIOS引導和操作系統啟動。

4．2測試指標和方法

對通信系統的性能評價以延遲和帶寬這兩個指標為依據。作為HPP系統多處理器間通信的關鍵部件，芯片組測試指標包括處理器請求通過芯片組轉發到另一處理器總線的延遲以及轉發到PCI總線的延遲；芯片組對鎖的訪問延遲；芯片組內部傳輸八個cache塊和單個cache塊的帶寬。測試方法包括兩種：a)在FPGA測試平臺上利用Xilinx公司的Chipscope調試工具對所有信號進行采樣，得到芯片組各模塊實際運行的所有時序關系；b)利用ModelSim仿真環境，在該環境中使用Verilog HDL硬件描述語言開發虛擬系統總線設備、虛擬PCI設備以及虛擬內部總線接口設備，以實際測得的各延遲和帶寬數據為基準，對FPGA實現的硬件原型系統進行仿真和驗證。

4．3測試結果

1)延遲利用Chipscope調試工具測得芯片組內部各通道的時序周期如表2所示。

對表2進行分析，處理器總線的傳輸請求跨越芯片組傳到另一處理器總線需要經過21個周期，延遲為262.5 ns；處理器總線的傳輸請求跨越芯片組傳到PCI總線需要經過23個周期，延遲為287.5 ns。

單個cache塊通過芯片組從一個處理器總線傳輸到另一處理器總線需要經過24個周期，耗時300 ns；八個cache塊傳輸需要經過52個周期，耗時650 ns。

2)帶寬通過測試，傳輸八個cache塊數據最大帶寬達到512 Mbps，傳輸單個cache塊數據帶寬最大達到213 Mbps。

3)同步鎖通過測試，芯片組對鎖的訪問請求需要經過30個周期，耗時375 ns。

4．4PCI通道帶寬利用率分析

為了研究PCI模塊的設計參數在多處理器芯片組條件下的優化，利用ModelSim仿真環境研究了緩沖區深度對通信性能的影響。實驗中測試的緩沖區深度依次選為0.5、2、8 KB；仿真中假設處理器接口需要利用交叉開關連續發送若干個數據塊，連續發送數據塊大小按照通信數據特征選擇1、4、16、64 、256 KB；每次交易的基本單位在芯片組支持的包長度范圍（8~256 Byte）中取中間值32 Byte，按照目前實測的交叉開關通信協議的延遲，每次交易發送32 Byte需要13個周期。其中：傳輸數據需4個周期，即理想狀況無限大緩沖區條件下PCI接口帶寬為196.9 Mbps。以該帶寬為基準，測試各種條件下的帶寬與基準值的比率如圖4所示。

由圖4可以總結芯片組PCI接口帶寬隨緩沖區深度增加而提高，小塊數據傳輸利用率提高的比率大，大塊數據傳輸利用率提高的比率小。在連續發送256 KB數據的情況下，緩沖區深度即使從0.5 KB增加到8 KB，其帶寬基本保持不變。這表明在傳輸大塊數據時加大緩沖區深度對帶寬的提高沒有顯著作用。同時PCI接口帶寬比率隨連續發送數據的增加而大幅降低。這表明隨著芯片組多處理器數目增多使通信的壓力和需求逐步增大時，外設接口的帶寬反而逐步降低，形成通信性能惡化的連鎖反應。因此需要對各接口的帶寬和參數進行更平衡的設計，或者采取更多的外設接口以滿足芯片組集成更多處理器的需求。對實際芯片組不同參數下外設接口帶寬利用率的分析同樣適用于高速互連接口，可為其設計提供參考。

5結束語

本文提出了面向高性能計算機的芯片組的設計。其主要特點是支持多處理器通過芯片組與交換芯片兩級互連；全局地址空間和多處理器同步支持；研究了面向高性能計算機的芯片組的特征、結構、設計原則和關鍵技術。針對龍芯2E處理器具體設計并實現多處理器芯片組，目前已采用FPGA平臺對該芯片組進行了驗證和測試。以該芯片組為核心的四處理器原型系統完成BIOS引導和操作系統運行，經過實測芯片組內各接口訪問延遲小于0.5 μs，芯片組處理器通信帶寬達到500 Mbps。

因為FPGA實現的頻率受限，目前系統總線和內部頻率工作在80 MHz，其通信性能為延遲小于0.5 μs，帶寬達到500 Mbps；如果采用ASIC技術將頻率提高五倍，延遲將減小到10 μs級，帶寬同時提高到2 Gbps。下一步工作是在原型系統上集成對外高速互連接口并改進處理器接口，同時采取ASIC技術提高性能。未來將利用芯片組和交換芯片實現百萬億次曙光5000高性能計算機。

參考文獻：

[1］CULLER D，SINGH J P，GUPTA A.Parallel computer architecture：a hardware/software approach[M].[S.l.]:Morgan Kaufmann Press，1998.

[2］TOURANCHEAU B，WESTRELIN R.Support for MPI at the network interface level[C]//Advances in Parallel Virtual Machine and Message Passing Interface， LNCS 2131.[S.l.]:Springer，2001.

[3］LIU J，CHANDRASEKARAN B，WU J，et al. Performance comparison of MPI implementations over InfiniBand， Myrinet and Quadrics[C]//Proc ofInternational Conference for High Performance Computing and Communications.2003.

[4］BRIGHTWELL R，PEDRETTI K，UNDERWOOD K D.Initial performance evaluation of the cray SeaStar interconnect[C]//Proc of the 13th Symposium on High Performance Interconnects.2005.

[5］BRIGHTWELL R.A new MPI implementation for cray SHMEM[C]//Advances in Parallel Virtual Machine and Message Passing Interface， LNCS 3241.[S.l.]:Springer，2004.

[6］BRIGHTWELL R.A comparison of three MPI implementations for red storm[C]//Advances in Parallel Virtual Machine and Message Pas-sing Interface， LNCS 3666.[S.l.]:Springer，2005.

[7］ALMASI G，BELLOFATTO R，BRUNHEROTO J，et al.An overview of the blue geneL system software organization[C]//Proc of the 9th International EuroPar Conference on Parallel Processing.Klagenfurt， Austria:[s.n.]，2003.

[8］LEE M，DALLY J E，FARJADRAD W J，et al.CMOS highspeed I/Os—present and future[C]//Proc of the 21st International Conference on Computer Design.2003.

[9］HOROWITZ M，YANG C K K，SIDIROPOULOS S.High speed electrical signaling: overview and limitation[J].IEEE MICRO， 1998，18(1):1224.

［10］HU Weiwu， ZHANG Fuxin， LI Zusong.Design and performance analysis of the Godson2 processor[J].Journal of Computer Research and Development，2006， 43(6): 959966.

[11］LIU Jiuxing，WU Jiesheng，PANDA D K.High performance RDMAbased MPI implementation over InfiniBand[J]. Int’l Journal of Parallel Programming， 2004， 32(3):167198.

[12］CHALESWORTH A.STARFIRE：extending the SMP envelope[J]. IEEE MICRO， 1998， 18(1):3949.

[13］GROPP W，THAKUR R.An evaluation of implementation options for MPI onesided communication[C]//Advances in Parallel Virtual Machine and Message Passing Interface，LNCS 3666.[S.l.]:Springer，2005.

[14］TRAFF J L，RITZDORF H，HEMPEL R.Minimizing synchronization overhead in the implementation of MPI onesided communication[C]//Advances in Parallel Virtual Machine and Message Passing Interface，LNCS 3241.[S.l.]:Springer，2004.

“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”

計算機應用研究2008年5期

計算機應用研究的其它文章: 一種基于譜圖理論的Ｗｅｂ圖像搜索方法; 邊界保存的二進小波圖像去噪算法; 柱面坐標下基于ＯｐｅｎＧＬ的非均勻ＦＤＴＤ網格的生成; 基于ＯｐｅｎＧＬ的快速圖像渲染方法; 基于小波域ＰＣＡ與ＬＤＡ相結合的紅外人臉識別方法; 一種新的基于區域增長的ＲＯＩ分割算法