,
(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410073)
國(guó)際上高性能計(jì)算機(jī)的發(fā)展速度非常迅猛,在最新的TOP500的榜單中[1],排名前4位的系統(tǒng)分別是美國(guó)IBM公司的Summit系統(tǒng)和Sierra系統(tǒng)、中國(guó)的神威“太湖之光”、以及國(guó)防科技大學(xué)的“天河二號(hào)”。榜單前十中,美國(guó)共6套系統(tǒng),IBM公司3臺(tái)(Summit、Sierra和Lassen),Cray公司2臺(tái)(Piz Daint、Trinity),Dell EMC公司1臺(tái)(Frontera);中國(guó)3套系統(tǒng),神威“太湖之光”、“天河二號(hào)”、聯(lián)想公司的SuperMUC-NG系統(tǒng);日本1套系統(tǒng),F(xiàn)ujitsu(富士通)公司的ABCI。最新TOP500第1名是IBM的Summit,它的峰值性能達(dá)到187.659 PFlop/s,總功率8 805.50 kW,占地面積520 m2。功耗的增加、占地面積的增加,導(dǎo)致綜合使用成本急劇增加。同時(shí),許多計(jì)算機(jī)廠商都提出了數(shù)E級(jí)高性能計(jì)算機(jī)的發(fā)展計(jì)劃[2],這些系統(tǒng)將采用大量的通用處理器和專用處理器、存儲(chǔ)器,這些設(shè)備最終是要通過(guò)組裝結(jié)構(gòu)安裝在機(jī)架系統(tǒng)中,形成一套可操作的設(shè)備。高性能計(jì)算面臨著諸多挑戰(zhàn),超算應(yīng)用面臨著正式建模、靜態(tài)分析與優(yōu)化、運(yùn)行時(shí)分析與優(yōu)化、自主計(jì)算四大關(guān)鍵挑戰(zhàn);硬件架構(gòu)面臨著功耗的不斷提高、如何提升運(yùn)算性能、能效和數(shù)據(jù)密集處理能力。不合適的組裝結(jié)構(gòu)可能導(dǎo)致系統(tǒng)采用數(shù)量眾多的插箱(件)、機(jī)柜,系統(tǒng)占地面積大,系統(tǒng)的環(huán)境適應(yīng)性差[3]。因此,在對(duì)高性能計(jì)算機(jī)進(jìn)行設(shè)計(jì)的工程中,除了要對(duì)硬件系統(tǒng)結(jié)構(gòu)、軟件環(huán)境進(jìn)行分析設(shè)計(jì),還需要全盤考慮高性能計(jì)算機(jī)的組裝結(jié)構(gòu),將規(guī)模和功耗納入整體設(shè)計(jì)的考慮范圍,從以性價(jià)比為中心轉(zhuǎn)向以性能能耗比為中心的設(shè)計(jì)[4]。
高性能計(jì)算機(jī)的組裝結(jié)構(gòu)目前還無(wú)人進(jìn)行分類。綜合多年高性能計(jì)算機(jī)組裝結(jié)構(gòu)的設(shè)計(jì)經(jīng)驗(yàn),按照高性能計(jì)算機(jī)的計(jì)算插件及背板的組裝結(jié)構(gòu)設(shè)計(jì),將高性能計(jì)算機(jī)的組裝結(jié)構(gòu)分為4類:無(wú)背板單面組裝結(jié)構(gòu)、無(wú)背板雙面組裝結(jié)構(gòu)、有背板單面組裝結(jié)構(gòu)和有背板雙面組裝結(jié)構(gòu),如圖1所示。

圖1 組裝結(jié)構(gòu)示意
無(wú)背板單面組裝結(jié)構(gòu)最典型的方式就是集群系統(tǒng)的組裝結(jié)構(gòu)。機(jī)架內(nèi)水平安裝數(shù)個(gè)節(jié)點(diǎn)插箱,各插箱之間的互連通過(guò)互連線纜連接。
無(wú)背板雙面組裝結(jié)構(gòu),機(jī)架內(nèi)前后都安裝數(shù)個(gè)節(jié)點(diǎn)插箱。由于機(jī)架中部操作比較困難,插箱之間的互連線纜和電源線纜只能從插箱的前部和后部進(jìn)行布線,機(jī)架布線系統(tǒng)復(fù)雜,可操作性差。機(jī)柜中部的線纜遮擋了前后散熱通道,機(jī)架系統(tǒng)冷卻困難。沒(méi)有高性能計(jì)算機(jī)采用這種組裝結(jié)構(gòu)。
有背板單面組裝結(jié)構(gòu),機(jī)架中安裝有數(shù)個(gè)插箱,每個(gè)插箱背面安裝有背板,每塊背板單面上水平或豎直安裝有數(shù)塊節(jié)點(diǎn)插件。插件和背板之間通過(guò)高速插頭插座連接,因此同一背板上的插件之間互連不需線纜連接,但同一機(jī)柜內(nèi)不同插箱之間互連,需要通過(guò)線纜連接,一般是在插箱的背面通過(guò)線纜或光纜進(jìn)行連接。目前流行的刀片服務(wù)器的組裝結(jié)構(gòu)可以歸為此類。
有背板雙面組裝結(jié)構(gòu),機(jī)架中安裝有數(shù)塊背板,每塊背板的前后兩面均水平或豎直安裝有數(shù)量基本相同的節(jié)點(diǎn)插件,插件和背板之間通過(guò)高速插頭插座連接,同一背板上的插件之間互連通過(guò)背板連接,只有背板之間才需要線路連接,簡(jiǎn)化了機(jī)器的線纜布置。這種組裝結(jié)構(gòu)的組裝密度理論上可以達(dá)到有背板單面插箱(件)的1.5倍以上。無(wú)背板單面組裝結(jié)構(gòu)由于其插箱可采用商用機(jī)箱,機(jī)柜也可使用標(biāo)準(zhǔn)機(jī)柜,因而具有通用性。使用目前可安裝2~4個(gè)CPU的1U插箱,在42U的機(jī)架中可安裝42個(gè)1U的插箱,共84~126塊CPU,功耗大約17~34 kW。
有背板單面組裝結(jié)構(gòu)必須采用專門設(shè)計(jì)的專用插件。盡管刀片結(jié)構(gòu)有技術(shù)標(biāo)準(zhǔn),但此標(biāo)準(zhǔn)僅限于各生產(chǎn)廠商集團(tuán),國(guó)際上還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。為保證插件和背板的良好接合,還必須設(shè)計(jì)精密的插框結(jié)構(gòu)安裝插件和背板,因此這種組裝結(jié)構(gòu)目前不具備通用性。如Cray的XT4高計(jì)算密度服務(wù)器機(jī)柜中安裝了3組插框結(jié)構(gòu),每個(gè)插框安裝8塊插件,每插件4個(gè)CPU,共96塊CPU,功耗大約22 kW。
有背板雙面組裝結(jié)構(gòu)具有更高的組裝密度,在高性能計(jì)算機(jī)中首先大規(guī)模采用這種組裝結(jié)構(gòu)的是IBM的Blue Gene系統(tǒng)。有背板雙面組裝結(jié)構(gòu)由于在背板兩面對(duì)插有數(shù)量基本相等的計(jì)算插件,背板上插座占用的面積大,背板上無(wú)法提供保證背板兩面插件冷卻所需的前后通風(fēng)面積,故這種組裝結(jié)構(gòu)無(wú)法采用傳統(tǒng)前后通風(fēng)式風(fēng)冷方式。同時(shí)由于單機(jī)柜的插件數(shù)量可以達(dá)到有背板單面插箱(件)式組裝結(jié)構(gòu)的2倍,其功耗有可能超過(guò)機(jī)柜風(fēng)冷的極限,需要液冷風(fēng)冷混合、液冷、蒸發(fā)冷卻等更高效率的冷卻方式。在多個(gè)機(jī)柜組成的高性能計(jì)算機(jī)系統(tǒng)中,有背板雙面組裝結(jié)構(gòu)式機(jī)柜相當(dāng)于將2個(gè)有背板單面組裝結(jié)構(gòu)式機(jī)柜組合在一起,但消除了2個(gè)機(jī)柜之間的走風(fēng)、背部線纜和維修空間,從而可以提高系統(tǒng)的組裝密度。
目前,世界上高性能計(jì)算機(jī)系統(tǒng)的組裝散熱技術(shù)可以分為全風(fēng)冷、全液冷和風(fēng)液混合3種方式[5]。
全風(fēng)冷方案采用壓縮機(jī)和風(fēng)機(jī)使得流動(dòng)的冷風(fēng)通過(guò)發(fā)熱器件表面進(jìn)行散熱,同時(shí)將熱風(fēng)交換出去。全風(fēng)冷散熱方案成熟,構(gòu)建和運(yùn)行成本低,維護(hù)方便,但散熱效率較低,穩(wěn)定性較差,且噪聲大,能耗偏高,系統(tǒng)PUE比值約為1.5。
全液冷方案采用液體作為熱交換介質(zhì),將熱量通過(guò)外循環(huán)體系或者蒸發(fā)實(shí)現(xiàn)冷卻,具有自身能耗低、散熱效率高、穩(wěn)定性好的優(yōu)勢(shì),但構(gòu)建和運(yùn)行成本高,且所有芯片需要表貼在主板上,影響主板布板面積,并導(dǎo)致維護(hù)不便,另外全液冷系統(tǒng)的安全性和可擴(kuò)展性較低。
風(fēng)液混合方案是一種折中方案,該類方案都基于計(jì)算機(jī)柜間的列間空調(diào)實(shí)現(xiàn),能夠兼顧風(fēng)冷和液冷方案的優(yōu)點(diǎn)。具體又可分為基于風(fēng)冷散熱器的風(fēng)液混合方案和基于液冷散熱器的風(fēng)液混合方案。
a.基于風(fēng)冷散熱器的混合制冷方案中,大功率器件采用風(fēng)冷散熱器,通過(guò)列間空調(diào)送出冷風(fēng)將主板上器件的熱量導(dǎo)走,而后通過(guò)列間空調(diào)液冷將熱量交換出去。
b.基于液冷散熱器的混合制冷方案中,大功率器件采用液冷散熱器[6],通過(guò)列間空調(diào)提供冷卻工質(zhì)將大功率器件熱量交換出去,通過(guò)列間空調(diào)冷風(fēng)完成其他分立器件散熱。
無(wú)背板組裝結(jié)構(gòu)是最常見(jiàn)的組裝結(jié)構(gòu)之一,通常在商用標(biāo)準(zhǔn)機(jī)柜內(nèi)水平安裝有若干商用機(jī)架式計(jì)算服務(wù)器,各計(jì)算服務(wù)器之間通過(guò)線纜和交換機(jī)實(shí)現(xiàn)互連。該種組裝結(jié)構(gòu)可采用商用標(biāo)準(zhǔn)服務(wù)器機(jī)箱和機(jī)柜,因而通用性最好,但計(jì)算結(jié)點(diǎn)的組裝密度相對(duì)偏低。IBM公司[7]的Summit和Sierra系統(tǒng)、聯(lián)想SuperMUC-NG、Fujitsu(富士通)公司的ABCI都是采用該種結(jié)構(gòu)。
Summit系統(tǒng)由4 608臺(tái)2U計(jì)算服務(wù)器組成,每個(gè)服務(wù)器包含2個(gè)22核Power9處理器和6個(gè)TeslaV100圖形處理單元加速器。服務(wù)器全部安裝在600 mm寬19寸標(biāo)準(zhǔn)機(jī)柜內(nèi),每個(gè)機(jī)柜內(nèi)安裝了20臺(tái)服務(wù)器,合計(jì)有40個(gè)處理器和120個(gè)加速單元。Summit系統(tǒng)采用基于液冷散熱器的風(fēng)液冷混合冷卻方式,處理器和加速單元均采用液冷,其余分立器件采用強(qiáng)制風(fēng)冷。服務(wù)器之間通過(guò)機(jī)柜后部的線纜實(shí)現(xiàn)互連。如圖2所示。

圖2 IBM公司Summit系統(tǒng)組裝結(jié)構(gòu)實(shí)物
有背板組裝結(jié)構(gòu)種組裝結(jié)構(gòu),通常每個(gè)機(jī)柜中安裝有數(shù)塊背板,背板安裝在定制的插框內(nèi)。每塊背板只有正面水平或豎直安裝有計(jì)算插件,背板背面用于連接供電和互連線纜。同一機(jī)柜內(nèi)不同背板上的計(jì)算插件之間需要通過(guò)線纜和交換機(jī)實(shí)現(xiàn)互連。該種組裝結(jié)構(gòu)一般采用定制化的專用結(jié)構(gòu)插件,國(guó)際上沒(méi)有形成統(tǒng)一標(biāo)準(zhǔn),同時(shí)為保證插件和背板的良好接合,還需要設(shè)計(jì)精密的插框來(lái)安裝插件和背板。Cray公司的Piz Daint(XC50)、Trinity(XK7)及Titan(XC40)系統(tǒng)都采用該種結(jié)構(gòu)。
Cray公司XC系列高性能計(jì)算機(jī)的每個(gè)機(jī)柜中安裝了3個(gè)計(jì)算插框;每個(gè)插框左右各安裝8塊計(jì)算插件,單框合計(jì)16塊插件;每塊插件有8個(gè)計(jì)算或加速處理器,單柜共384塊計(jì)算或加速處理器。Cray公司XC系列,在XC40系列中,由于芯片功耗較低,采用全風(fēng)冷的冷卻方式。在XC50后,芯片功耗及性能大大提高,采用了基于風(fēng)冷散熱器的風(fēng)液混合制冷。如圖3所示。

圖3 Cray公司XC系列組裝結(jié)構(gòu)實(shí)物
通常每個(gè)機(jī)柜中安裝有數(shù)塊背板,背板安裝在定制的插框內(nèi),插框一般由前插框和后插框組合而成。每塊背板的正反兩面均水平或豎直安裝有計(jì)算插件或者互連插件。由于充分利用了機(jī)柜的后部空間,減少了機(jī)柜內(nèi)互連線纜的數(shù)量,該組裝結(jié)構(gòu)的組裝密度理論上可以達(dá)到有背板單面組裝結(jié)構(gòu)的1.5倍以上。由于背板正反兩面對(duì)插有計(jì)算插件,背板上插座及印制板布線占用的面積大,對(duì)應(yīng)導(dǎo)致背板上可開(kāi)孔通風(fēng)的面積較小,因此該組裝結(jié)構(gòu)無(wú)法采用前后式風(fēng)冷方式。同時(shí)由于單機(jī)柜的組裝密度高,導(dǎo)致功率密度高,因此通常需要采用風(fēng)液混合、液冷或蒸發(fā)冷卻等更高效率的冷卻方式。但有背板雙面組裝結(jié)構(gòu)可有效縮短單插框內(nèi)計(jì)算和互連之間的高速信號(hào)傳輸距離,提高信號(hào)質(zhì)量。神威“太湖之光”、“天河二號(hào)”和IBM公司的Sequoia都采用這種結(jié)構(gòu)。
神威“太湖之光”系統(tǒng)機(jī)柜雖然是有背板雙面組裝結(jié)構(gòu)[8],但只有機(jī)柜正面安裝了4個(gè)計(jì)算插框,機(jī)柜背面安裝的是4個(gè)互連插框;每個(gè)計(jì)算插框左右各安裝16塊插件,單框合計(jì)32塊插件;每插件8個(gè)處理器,單柜共1 024個(gè)處理器。冷卻方式為全液冷的方式,印制板兩面貼裝在一塊冷板上,如圖4所示。

圖4 “太湖之光”系統(tǒng)組裝結(jié)構(gòu)
國(guó)防科大的“天河二號(hào)”系統(tǒng)的機(jī)柜中安裝了4個(gè)計(jì)算插框[9-10]。每個(gè)插框前后各安裝16塊計(jì)算插件,單框合計(jì)32塊插件;每塊插件4~5個(gè)計(jì)算或加速處理器,單柜最大640塊計(jì)算或加速處理器。冷卻方式為基于風(fēng)冷散熱器的風(fēng)液混合制冷,如圖5所示。單位面積芯片數(shù)量與峰值性能及單機(jī)柜峰值能效比性能曲線,如圖6所示。高性能計(jì)算機(jī)單機(jī)柜組裝結(jié)構(gòu)數(shù)據(jù)如表1所示。

圖5 “天河二號(hào)”系統(tǒng)的組裝結(jié)構(gòu)

圖6 單位面積芯片數(shù)量和峰值性能及單機(jī)柜峰值能效比性能曲線

表1 高性能計(jì)算機(jī)單機(jī)柜組裝結(jié)構(gòu)數(shù)據(jù)
由表1和圖6可以看出,機(jī)柜單位面積芯片數(shù)量,從高到低依次是神威太湖之光、天河二號(hào)、IBM Summit、Cray XC50系列。有背板雙面組裝結(jié)構(gòu)的計(jì)算機(jī)可以比無(wú)背板組裝結(jié)構(gòu)和有背板單面組裝結(jié)構(gòu)的計(jì)算機(jī)具有更高的單位面積芯片數(shù)量。這主要是由于有背板雙面組裝結(jié)構(gòu)可以充分利用機(jī)柜內(nèi)空間,機(jī)柜內(nèi)插框之間的互連網(wǎng)絡(luò)全通過(guò)背板,減少線纜空間導(dǎo)致的機(jī)柜空間的浪費(fèi)。但同時(shí),由于機(jī)柜雙面都安裝有插件,機(jī)柜尺寸會(huì)偏大,在組裝上可以考慮充分利用高度方向空間,減小機(jī)柜的尺寸。
機(jī)柜單位面積峰值性能[11],從高到底依次是神威太湖之光、IBM Summit、CrayXC50系列、天河二號(hào)。較高的分別是有背板雙面組裝結(jié)構(gòu)的神威太湖之光和無(wú)背板組裝結(jié)構(gòu)的IBM Summit,這主要是由于單位芯片的峰值性能導(dǎo)致的較大差別。說(shuō)明高性能計(jì)算機(jī)高密度組裝結(jié)構(gòu)主要作用是提高單位機(jī)柜面積的芯片數(shù)量,如果芯片性能差別較大,使用無(wú)背板組裝結(jié)構(gòu)也可以達(dá)到較高的機(jī)柜單位面積峰值性能。
機(jī)柜峰值能效比,從高到低依次是IBM Summit、CrayXC50系列、神威太湖之光、天河二號(hào)。機(jī)柜峰值能效比是高性能計(jì)算機(jī)的一個(gè)重要指標(biāo)。功耗低、峰值性能高是高性能計(jì)算機(jī)永遠(yuǎn)的追求目標(biāo),超級(jí)計(jì)算機(jī)對(duì)能量需求巨大,導(dǎo)致能源消耗呈逐年急劇增加的態(tài)勢(shì),E級(jí)計(jì)算機(jī)的發(fā)展對(duì)機(jī)柜峰值能效比提出了更高的要求。從數(shù)據(jù)中可以看出,美國(guó)的高性能計(jì)算機(jī)的處理器及加速器峰值性能高,雖然國(guó)產(chǎn)高性能計(jì)算機(jī)在提高單機(jī)柜芯片數(shù)量方面進(jìn)行了努力,均采用了有背板雙面組裝結(jié)構(gòu)方式,但芯片性能相比還是差距較大,國(guó)產(chǎn)高性能計(jì)算機(jī)的研發(fā)還任重道遠(yuǎn)。
面對(duì)E級(jí)計(jì)算機(jī)系統(tǒng)的研制,需要更好更高效的液冷散熱技術(shù)。IBM Summit、Cray XC50系列、神威太湖之光、天河二號(hào)這4種系統(tǒng)中,神威太湖之光是采用全液冷的散熱方式,所有芯片包括內(nèi)存都表貼在主板上,對(duì)主板布線面積要求較高,冷板面積較大,提高了冷板和印制板設(shè)計(jì)加工在高性能計(jì)算機(jī)系統(tǒng)中的研制成本。IBM Summit將處理芯片等大功率器件用液冷散熱器,通過(guò)列間空調(diào)將熱量換出機(jī)柜,其他如內(nèi)存等分立器件采用列間空調(diào)冷風(fēng)完成換熱,對(duì)主板設(shè)計(jì)加工要求低,可以采用通用器件設(shè)計(jì)的主板。而且液冷散熱器體積較小,成本也較低。Cray XC50和天河二號(hào)采用基于風(fēng)冷散熱器的混合制冷方案,所有散熱器均為風(fēng)冷散熱器,但列間空調(diào)采用液冷換熱,提供冷風(fēng)將主板上器件的熱量帶走,這種方式散熱成本最低,但能提供的散熱功耗相對(duì)較低。結(jié)合成本和散熱性能,基于液冷散熱器的混合制冷方案將會(huì)成為構(gòu)建E級(jí)系統(tǒng)的散熱趨勢(shì)。
有背板雙面組裝結(jié)構(gòu)可以在機(jī)柜單位面積上組裝更多的芯片數(shù)量,就單機(jī)柜的芯片數(shù)量而言,具有最高的組裝密度,單機(jī)柜的峰值性能可以急劇提高,大大降低高性能計(jì)算機(jī)的占地面積。同時(shí)可以基本消除機(jī)柜內(nèi)部混亂的走線,提高計(jì)算機(jī)的可靠性和可維性。但也需要芯片的性能足夠強(qiáng)大,才能發(fā)揮這種組裝結(jié)構(gòu)的優(yōu)勢(shì)。隨著液冷散熱技術(shù)的廣泛使用和技術(shù)的成熟,液冷散熱器的使用,消除了有背板雙面組裝結(jié)構(gòu)由于中間背板存在導(dǎo)致的通風(fēng)困難,有背板雙面組裝結(jié)構(gòu)的優(yōu)勢(shì)會(huì)更加凸顯。