袁國(guó)興,張?jiān)迫?良
(1.北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所,北京100088;2.中國(guó)科學(xué)院計(jì)算技術(shù)研究所計(jì)算機(jī)體系結(jié)構(gòu)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100190)
在國(guó)際上,自1993年起每年都會(huì)按Linpack的測(cè)試性能公布在世界范圍內(nèi)已安裝的前500套高性能計(jì)算機(jī)排行[1],這已成為高性能計(jì)算機(jī)研制生產(chǎn)、市場(chǎng)發(fā)展、應(yīng)用交流和趨勢(shì)分析預(yù)測(cè)的重要參考。2002年,中國(guó)軟件行業(yè)協(xié)會(huì)數(shù)學(xué)軟件分會(huì)首次發(fā)布中國(guó)高性能計(jì)算機(jī)性能排行榜,并在隨后每一年的10月末或11月初公布當(dāng)年度我國(guó)高性能計(jì)算機(jī)性能TOP100排行榜[2-9]。在過(guò)去的十余年間,已由中國(guó)軟件行業(yè)協(xié)會(huì)數(shù)學(xué)軟件分會(huì)聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)高性能計(jì)算專業(yè)委員會(huì)與國(guó)家863高性能計(jì)算機(jī)評(píng)測(cè)中心發(fā)布的中國(guó)HPC TOP100排行榜,為我國(guó)高性能計(jì)算機(jī)的研制及在眾多領(lǐng)域的應(yīng)用推廣作出了顯著的貢獻(xiàn)。2018年TOP100排行榜發(fā)布單位變更為中國(guó)計(jì)算機(jī)學(xué)會(huì)高性能計(jì)算專業(yè)委員會(huì)與中國(guó)工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)高性能計(jì)算與數(shù)學(xué)軟件專業(yè)委員會(huì),發(fā)布單位于2018年8月修定了“中國(guó)高性能計(jì)算機(jī)性能TOP100排行榜工作條例”,進(jìn)一步細(xì)化明確了排行榜規(guī)則等細(xì)節(jié)。
2018年 10月 18日,最新一期中國(guó) HPC TOP100排行榜在山東青島召開(kāi)的HPC China 2018年年會(huì)上發(fā)布。本文基于最新排行榜數(shù)據(jù),對(duì)我國(guó)高性能計(jì)算機(jī)的性能、制造廠商、體系結(jié)構(gòu)、應(yīng)用領(lǐng)域及部署機(jī)構(gòu)等進(jìn)行了討論分析。
2018年,由國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心研制、部署于國(guó)家超級(jí)計(jì)算無(wú)錫中心的神威·太湖之光超級(jí)計(jì)算機(jī)繼續(xù)占據(jù)榜首,它是當(dāng)前中國(guó)最高性能的超級(jí)計(jì)算機(jī)系統(tǒng),同時(shí)也是全球性能第3的系統(tǒng)。
神威·太湖之光由40個(gè)機(jī)柜、總共160個(gè)超級(jí)節(jié)點(diǎn)組成,每個(gè)超級(jí)節(jié)點(diǎn)含256個(gè)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)配備1顆1.45 GHz、260核的申威26010處理器,全系統(tǒng)總峰值性能為125.435 9 PFLOPS,Linpack 實(shí)測(cè)性能為 93.014 6 PFLOPS,是排名第2的天河二號(hào)系統(tǒng)Linpack測(cè)試值的1.51倍。
和去年相比,第2名和第3名依舊是由國(guó)防科技大學(xué)研制且分別部署于國(guó)家超級(jí)計(jì)算廣州中心和天津中心的兩套天河系列超級(jí)計(jì)算機(jī),未發(fā)生變化。部署于國(guó)家超級(jí)計(jì)算廣州中心的天河二號(hào)系統(tǒng)使用國(guó)產(chǎn)加速卡Matrix 2000進(jìn)行了升級(jí),系統(tǒng)峰值性能達(dá)到100 PFlops,又為我國(guó)增加了1臺(tái)峰值性能達(dá)100 PFlops的系統(tǒng)。本年度第4名為部署在國(guó)家超級(jí)計(jì)算濟(jì)南中心的神威E級(jí)原型系統(tǒng),第5名和第7名為部署于中國(guó)氣象局的兩套曙光TC6000超級(jí)計(jì)算機(jī)。國(guó)防科技大學(xué)和曙光公司的兩套E級(jí)原型系統(tǒng)分別排在第6和第9名。前10名中只有一臺(tái)部署于網(wǎng)絡(luò)公司的浪潮GPU集群系統(tǒng),排在第8位。部署于呂梁云計(jì)算中心的1套天河系列超級(jí)計(jì)算機(jī)由去年的第4名下降到第10名。
2018年中國(guó)HPC TOP100排行榜第4~9名共五套系統(tǒng)均為本年度新部署的系統(tǒng),此5套新增系統(tǒng)的Linpack性能值均超過(guò)2 PFLOPS,且5套系統(tǒng)中有4套用于科學(xué)計(jì)算領(lǐng)域,其中,3臺(tái)E型原型機(jī)全部部署到位,分別是排在第4、6和9名的神威E型原型機(jī)、國(guó)防科技大學(xué)E型原型機(jī)和曙光E型原型機(jī),3臺(tái)機(jī)器的Linpack效率均超過(guò)70%,國(guó)防科技大學(xué)E級(jí)原型機(jī)Linpack效率為78%,神威E型原型機(jī)的Linpack效率更是超過(guò)了80%,這說(shuō)明國(guó)產(chǎn)系統(tǒng)的軟硬件優(yōu)化工作有大幅度進(jìn)展。
需要注意的是,與去年類似,本年度中國(guó)HPC TOP 100排行榜對(duì)同一用戶、同一廠商、同一地區(qū)安裝的相似結(jié)構(gòu)的計(jì)算機(jī),在榜單中只列出Linpack較高的一套。據(jù)此規(guī)則,全部榜單中100個(gè)性能位置共有135套高性能計(jì)算系統(tǒng),但前10名中沒(méi)有重復(fù)。改進(jìn)的規(guī)則使得更多的系統(tǒng)或高性能計(jì)算用戶得以進(jìn)入榜單,能更好地反映我國(guó)高性能計(jì)算現(xiàn)狀。
2018年完整的前10名榜單如表1所示。

Table 1 Top 10 systems of China HPC TOP100 in 2018表1 2018中國(guó)HPC TOP100前10名系統(tǒng)
2018年上榜機(jī)器的Linpack性能全部超過(guò)1 P,P級(jí)系統(tǒng)已經(jīng)基本成為高端計(jì)算的主流,其中Linpack性能值超過(guò)1.5 PFLOPS的系統(tǒng)超過(guò)一半,達(dá)到51套。
2018年,作為入榜門(mén)檻的第100名系統(tǒng)是聯(lián)想公司研制、部署于網(wǎng)絡(luò)公司的計(jì)算集群系統(tǒng),其Linpack性能值為1 127 TFLOPS,和2017年第100名的798.6 TFLOPS相比,性能提升了1.41倍(參見(jiàn)圖1)。這一入門(mén)性能值與去年估計(jì)的1 100~1 200 TFLOPS基本相符。
2018年所有100套入榜系統(tǒng)的Linpack平均性能為 3 078 TFLOPS,這是 2017年平均性能2 236.48 TFLOPS的1.37倍。平均性能增速較去年有較大提升,主要是因?yàn)榕琶?0的系統(tǒng)增加了新鮮血液,特別是排名第2的天河二號(hào)系統(tǒng)升級(jí)后,Linpack值由 33 862 TFlops提升為 61 445 TFlops。

2018年,性能排名前100的共135套上榜系統(tǒng)由浪潮、聯(lián)想、曙光等6家廠商研制,排除重復(fù)機(jī)器數(shù)后,曙光和聯(lián)想以40套并列排名廠商份額第1名,浪潮、華為、國(guó)防科技大學(xué)和國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心分別以12、2、4、2的裝機(jī)數(shù)量位列第3~6名。圖2給出了中國(guó)HPC TOP100計(jì)算機(jī)制造商的前100套系統(tǒng)統(tǒng)計(jì)。

以聯(lián)想、曙光、浪潮為代表的國(guó)內(nèi)廠商是我國(guó)HPC系統(tǒng)的主要產(chǎn)出單位,占據(jù)了絕大部分市場(chǎng)份額,2018年國(guó)外廠商的機(jī)器全部退出TOP100榜單,為歷史首次,再次佐證了我國(guó)高性能計(jì)算機(jī)研制能力的提升和市場(chǎng)份額的持續(xù)擴(kuò)大。
從圖3所示的系統(tǒng)性能份額來(lái)看,國(guó)家并行計(jì)算機(jī)工程技術(shù)研究中心以31%遙遙領(lǐng)先,國(guó)防科技大學(xué)以22%緊隨其后。兩者相加的6套系統(tǒng)占據(jù)了全部系統(tǒng)性能一半以上。國(guó)防科技大學(xué)、國(guó)家并行計(jì)算機(jī)工程研究中心為代表的國(guó)家隊(duì)專注于數(shù)量少但世界領(lǐng)先的超大規(guī)模計(jì)算系統(tǒng),而以曙光、聯(lián)想、浪潮等為代表的商業(yè)化公司致力于HPC系統(tǒng)的市場(chǎng)化和普及化,這種兩條腿走路的模式已經(jīng)是并將依舊是相當(dāng)長(zhǎng)一段時(shí)間內(nèi)我國(guó)HPC系統(tǒng)研制的常態(tài)。

共享內(nèi)存(SMP)、分布式共享內(nèi)存(DSM)、大規(guī)模并行處理(MPP)等多種體系架構(gòu)百花爭(zhēng)艷的時(shí)代已經(jīng)過(guò)去,分布式集群計(jì)算系統(tǒng)(Cluster)成為當(dāng)前高性能計(jì)算機(jī)的絕對(duì)主流,近五年來(lái)進(jìn)入TOP100榜單的系統(tǒng)絕大部分采用集群架構(gòu)。但需要注意的是,基于自主眾核高性能處理器并采用專有架構(gòu)的神威·太湖之光系統(tǒng)更接近于傳統(tǒng)的MPP架構(gòu),結(jié)合當(dāng)前世界排名前10系統(tǒng)中有6套采用MPP架構(gòu)的事實(shí),可見(jiàn)在最高端系統(tǒng)中,基于商用計(jì)算部件的集群架構(gòu)并無(wú)優(yōu)勢(shì)。
除神威·太湖之光采用國(guó)產(chǎn)申威處理器以及國(guó)防科技大學(xué)采用國(guó)產(chǎn)Matrix 2000加速卡外,其余系統(tǒng)均采用了Intel Xeon系列處理器,AMD Opteron和IBM Power處理器不再在榜單中出現(xiàn)。
專用加速計(jì)算部件首先出現(xiàn)在TOP100榜單中是2009年,由國(guó)防科技大學(xué)研制部署于國(guó)家超級(jí)計(jì)算天津中心的天河一號(hào)系統(tǒng)配備了2 560塊ATI Radeon加速卡,并以此獲得563.1 TFLOPS的計(jì)算性能,成為該年最高性能的HPC系統(tǒng)。自2010年起,基于NVIDIA公司的Tesla系列GPU的HPC系統(tǒng)登上榜單并逐漸成為加速計(jì)算的主流。基于Intel Xeon Phi加速卡的系統(tǒng)出現(xiàn)于2013年,并在TOP100榜單中占據(jù)少量但穩(wěn)定的份額。除去國(guó)防科技大學(xué)天河二號(hào)升級(jí)系統(tǒng)采用了Matrix 2000作為加速部件外,2018年有32套系統(tǒng)采用NVIDIA Tesla GPU或Intel Xeon Phi等進(jìn)行性能加速,達(dá)到了歷史新高(如圖4所示),其主要原因是GPU在深度學(xué)習(xí)計(jì)算中大放光彩。今年共有31套系統(tǒng)采用Tesla GPU,其中絕大部分用于深度學(xué)習(xí)等相關(guān)計(jì)算。需要指出的是,Intel已宣布停產(chǎn)Xeon Phi。

關(guān)于專用加速計(jì)算設(shè)備的應(yīng)用,特別需要指出的是,無(wú)論是 NVIDIA/AMD GPU,還是 Intel Xeon Phi,在上榜系統(tǒng)中最先都是由國(guó)防科技大學(xué)、中國(guó)科學(xué)院等科研類機(jī)構(gòu)研制采用,且主要應(yīng)用于基礎(chǔ)科學(xué)研究;隨后才被浪潮、曙光、聯(lián)想等商業(yè)化公司采用,并在眾多領(lǐng)域得到大規(guī)模應(yīng)用。這無(wú)疑是一種良好的模式。
體系結(jié)構(gòu)上變化最為明顯的是系統(tǒng)互連網(wǎng)絡(luò),千兆以太網(wǎng)4年前占據(jù)了100套系統(tǒng)中的70%,而今年已經(jīng)徹底退出歷史舞臺(tái),不再在榜單中出現(xiàn);相對(duì)應(yīng)地,萬(wàn)兆以太網(wǎng)從4年前的16%到去年的88%再至今年的59%,仍然是高性能計(jì)算系統(tǒng)的絕對(duì)主流互連網(wǎng)絡(luò)。需要注意的是,這里的萬(wàn)兆網(wǎng)包括了100 GbE、40 GbE、25 GbE和最低性能的10 GbE共4類,而在今年占據(jù)主流的是10 GbE和25 GbE。
InfiniBand網(wǎng)絡(luò)在今年出現(xiàn)了大幅增加,這主要是由于用于科學(xué)計(jì)算的機(jī)器數(shù)量增加,由去年的8%增加到35%。從需求和用戶的角度,我們期望這兩者能保持良好的競(jìng)爭(zhēng)態(tài)勢(shì),以提供性能更佳、價(jià)格更優(yōu)的互連網(wǎng)絡(luò)環(huán)境。
圖5給出了2018年中國(guó)HPC TOP100中行業(yè)應(yīng)用領(lǐng)域的系統(tǒng)數(shù)量統(tǒng)計(jì)。目前,所有系統(tǒng)分布于八個(gè)大的應(yīng)用領(lǐng)域,其中用于大數(shù)據(jù)處理的系統(tǒng)最多,達(dá)到27%;其余是云計(jì)算(20%)、科學(xué)計(jì)算(17%)、超算中心(13%)、政府電信(6%)、安全(4%)、工業(yè)制造(4%)和能源石油(2%)。
進(jìn)一步地,依據(jù)應(yīng)用模式的不同,上述八類應(yīng)用可進(jìn)一步大致歸并為三大類:
(1)數(shù)據(jù)分析挖掘類。Map-Reduce、深度學(xué)習(xí)計(jì)算模型等基于數(shù)據(jù)的(非數(shù)值類)應(yīng)用。
(2)科學(xué)與工程計(jì)算。主要指?jìng)鹘y(tǒng)的數(shù)值計(jì)算類應(yīng)用,通常是計(jì)算密集型(也有數(shù)據(jù)密集型)。
(3)信息服務(wù)類。頻繁交互的互聯(lián)網(wǎng)服務(wù)類應(yīng)用。
本年度,數(shù)據(jù)分析類應(yīng)用系統(tǒng)占據(jù)了所有系統(tǒng)的47%,較去年的56%有所下降,與2016年的48%占比相近;傳統(tǒng)的科學(xué)與工程計(jì)算系統(tǒng)由去年的14%增加到30%,與2016年的29%占比相近,信息服務(wù)類系統(tǒng)比2017年略有降低,從30%降低到23%。

2018年中國(guó)HPC TOP100系統(tǒng)部署機(jī)構(gòu)類別統(tǒng)計(jì)如圖6所示,互聯(lián)網(wǎng)企業(yè)以40%占最大份額,其他企業(yè)(金融、制造業(yè)等)占25%,兩者合計(jì)為65%,比2017年的77%有所降低。這主要是由于科學(xué)計(jì)算的機(jī)器數(shù)量明顯增加,充分說(shuō)明了高性能計(jì)算機(jī)、高性能計(jì)算技術(shù)的主要應(yīng)用還是在科學(xué)計(jì)算領(lǐng)域,并在多個(gè)領(lǐng)域尤其是互聯(lián)網(wǎng)領(lǐng)域發(fā)揮著不可替代的作用。其余33%的系統(tǒng)分別部署于政府部門(mén)、超級(jí)計(jì)算中心和科研院所。

2018年,中國(guó)高性能計(jì)算機(jī)繼續(xù)呈現(xiàn)快速發(fā)展態(tài)勢(shì),無(wú)論是性能、應(yīng)用領(lǐng)域還是應(yīng)用規(guī)模均有著長(zhǎng)足發(fā)展。圖7給出了2002~2018年共17年來(lái)TOP100數(shù)據(jù)變化。可以看到,近十年來(lái),第1名系統(tǒng)受國(guó)家相關(guān)科研計(jì)劃影響,其性能呈跳躍式發(fā)展,在神威·太湖之光之后,下一臺(tái)E級(jí)系統(tǒng)有望在2019年后出現(xiàn);最后一名性能則呈規(guī)律性指數(shù)增長(zhǎng),2019年入榜性能預(yù)計(jì)在 1.5~1.6 PFLOPS。

Figure 7 China HPC TOP100,from 2002 to 2018圖7 2002~2018年TOP100數(shù)據(jù)