袁國興,張云泉,袁 良
(1.北京應用物理與計算數學研究所,北京100088;2.中國科學院計算技術研究所計算機體系結構國家重點實驗室,北京100191)
在國際上,自1993年起每年都會按Linpack的測試性能公布在世界范圍內已安裝的前500套高性能計算機排行[1],這已成為高性能計算機研制生產、市場發展、應用交流和趨勢分析預測的重要參考。2002年,中國軟件行業協會數學軟件分會首次發布中國高性能計算機性能排行榜,并在隨后每一年的10月末或11月初公布當年我國高性能計算機性能TOP100排行榜[2-12]。在過去的十余年間,已由中國軟件行業協會數學軟件分會聯合中國計算機學會高性能計算專業委員會與國家863高性能計算機評測中心發布的中國HPC(High Performance Computing)TOP100排行榜為我國高性能計算機的研制及在眾多領域的應用推廣作出了顯著的貢獻。2018年TOP100排行榜發布單位變更為中國計算機學會高性能計算專業委員會與中國工業與應用數學學會高性能計算與數學軟件專業委員會,發布單位于2018年8月修定了“中國高性能計算機性能TOP100排行榜工作條例”,進一步細化明確了排行榜規則等細節。
2021年11月12日,最新一期中國HPC TOP100排行榜在北京召開的第三屆中國超級算力大會上發布。本文基于最新排行榜數據,對我國高性能計算機的性能、制造廠商、體系結構、應用領域及部署機構等進行了討論分析。
與2020年類似,本年度中國HPC TOP100排行榜對同一用戶、同一廠商、同一地區安裝的相似結構的計算機,在榜單中列出Linpack較高的一套。改進的規則使得更多的系統或高性能計算用戶得以進入榜單,能更好地反映我國高性能計算現狀。2021年3家單位聯想、北龍超云和服務器供應商分別提交了18,7和4總共29套新系統,相比2020年的73套有較大幅度降低。聯想提交的18套新系統合并了12套,合并后新增6套,其他單位提交的新系統無合并。合并后的17套系統全部上榜,去年榜單留存83套系統。今年全部榜單中100個性能位置共有158套高性能計算系統。今年榜單前10名變化較大,新增的17套系統中,有8套擠入前10。
2021年,由服務器供應商研制、部署于網絡公司的CPU+GPU異構眾核主機系統占據榜首,它是當前中國最高性能的計算機系統,包括285 000個CPU核,系統峰值為240 PFlops,Linpack實測性能為125 PFlops,應用領域為算力服務,是排名第2的神威·太湖之光系統Linpack測試值的1.34倍。
由國家并行計算機工程技術研究中心研制、部署于國家超級計算無錫中心的神威·太湖之光超級計算機下降為第2名。神威·太湖之光由40個機柜、總共160個超級結點組成,每個超級結點含256個計算結點,每個計算結點配備1顆1.45 GHz、260核的申威26010處理器,全系統總峰值性能為125.435 9 PFlops,Linpack實測性能為93.014 6 PFlops。
由服務器供應商研制、部署于網絡公司的CPU+GPU異構眾核主機系統獲得第3名,包括190 000 個CPU核,系統峰值性能為160 PFlops,Linpack實測性能為87 PFlops,應用領域為算力服務。
由國防科技大學研制的部署于國家超級計算廣州中心的天河二號超級計算機下降為第4名。2018年天河二號系統使用國產加速卡Matrix 2000進行了升級,系統峰值性能達到100 PFlops。
排名第5的系統是由服務器供應商研制、部署于網絡公司的CPU+GPU異構眾核主機系統,包括120 000個CPU核,系統峰值性能為110 PFlops,Linpack實測性能為55 PFlops,應用領域為算力服務。排名1~5的系統均為峰值性能達100 PFlops的系統。
排名第6的系統是由服務器供應商研制、部署于超算中心的主機系統,包括992個SW26010Pro 異構眾核處理器,每個處理器包括390核,全系統共有386 880核,其中控制核心頻率為2.1 GHz,從核頻率為2.25 GHz,互連網絡為Sunway Network。系統峰值性能為13.91 PFlops,Linpack實測性能為12.569 PFlops,效率達到90.3%,應用領域為科學計算。
由北京超云和Intel聯合研制的、部署于北京超級云計算中心的北京超級云計算中心T6分區超級計算機位列第7名,系統包括2 680個計算結點,共5 360個Intel Xeon Platinum 9242 同構眾核處理器,單處理器為48核,頻率為2.3 GHz,總核數為257 280,互連網絡為EDR。系統峰值性能為18.93 PFlops,Linpack實測性能為10.83 PFlops,應用領域為算力服務。
第8名和第9名系統是由服務器供應商研制、部署于網絡公司的2臺主機系統,分別包括192 640 和179 200個CPU核,系統峰值性能分別為16.66 PFlops和15.48 PFlops,Linpack實測性能分別為9.54 PFlops和9.12 PFlops,應用領域均為算力服務。第6~9名系統的峰值實測均超過了10 PFlops。
由北京超云和DELL聯合研制的、部署于北京超級云計算中心的北京超級云計算中心A6分區超級計算機位列第10名,系統包括3 000個計算結點共6 000個AMD EPYC 7452處理器,單處理器為32核,頻率為2.35 GHz,總核數為192 000,互連網絡為EDR。系統峰值性能為7.21 PFlops,Linpack實測性能為4.04 PFlops,應用領域為算力服務。
完整的前10名榜單如表1所示。
2020年榜單中的第3名、由北龍超云和DELL聯合研制的、部署于北京超級云計算中心的北京超級云計算中心A分區超級計算機下降到第11名,包括3 000個計算結點共6 000個AMD EPYC 7452 32C 2.350 GHz處理器,總核數為192 000,網絡配置為FDR。Linpack實測性能為3.74 PFlops,系統峰值性能為7.03 PFlops,Linpack效率為53.20%。
2020年榜單中的第29名和第30名為由國防科技大學研制的部署于國家超級計算天津中心的天河一號A超級計算機以及部署在國家超級計算濟南中心的神威E級原型系統,今年分別下降到第44名和第45名。

Table 1 Top 10 systems of China HPC TOP100 in 2021表1 2021中國HPC TOP100前10名系統
今年由北龍超云和DELL聯合研制的、分別部署于浙江云谷云計算有限公司和寧夏超算云的浙江云谷超級云計算中心M6分區和寧夏超算云E分區2套系統分別排在第52名和第69名。前者包括1 680個AMD EPYC 7H12處理器,單處理器為64核,頻率為2.6 GHz,網絡為EDR,Linpack實測性能為2.42 PFlops,系統峰值性能為4.47 PFlops。后者包括2 400個Intel Xeon Platinum 8163處理器,單處理器為24核,頻率為2.5 GHz,網絡為FDR,Linpack實測性能為2.21 PFlops,系統峰值性能為4.6 PFlops。
聯想新增的6套系統均為深騰8800超級計算機,其中5套部署于網絡公司用于大數據處理,1套部署于高校。這充分說明了互聯網和視頻大數據處理在我國大陸的強勁發展勢頭。
2021年上榜系統的Linpack性能全部超過1.98 PFlops,2P級系統已經基本成為高端計算的主流,其中Linpack性能超過2.5 PFlops的系統達到47套。
2021年,作為入榜門檻的第100套系統是浪潮TS10000集群,部署于深圳某實驗室,應用領域為科學計算,網絡類型為EDR,Linpack實測性能為1.98 PFlops,系統峰值性能為3.12 PFlops.
2021年所有100套入榜系統的Linpack平均性能為6 913 TFlops,這是2020年平均性能3 842 TFlops的1.79倍。平均性能增速較2020年的1.1有較大提升,主要歸功于前10套系統的變化。2021年中國HPC TOP100系統與2020年系統性能對照如圖1所示。

Figure 1 System performance comparison for China HPC TOP100 between 2020 and 2021圖1 2021年中國HPC TOP100系統與2020年系統性能對照
2021年,性能排名前100的共158套上榜系統由浪潮、聯想和曙光等9家廠商研制,排除并列系統套數后,聯想以40套排名廠商份額繼續排名第1,浪潮28套排名第2,曙光12套排名第3,北龍超云、國防科技大學和國家并行計算機工程技術研究中心以5,4,2的裝機數量分列第5~7名,清華同方、聯泰集群各有1套系統上榜并列第8。圖2給出了中國HPC TOP100計算機制造商的前100套系統統計。

Figure 2 Vendors system share圖2 制造商系統份額(前100套系統)
以聯想、曙光和浪潮為代表的國內廠商是我國HPC系統的主要研制單位,占據了絕大部分市場份額,2018年國外廠商的系統全部退出TOP100榜單,為歷史首次,2019年的榜單再次為全國產計算機,DELL公司提交1套安裝在武漢大學超算中心的異構系統,但是Linpack實測性能為1 403 TFlops,未能上榜,2020年DELL公司新增1套系統上榜。本年度排行榜的一個特色是北龍超云聯合Intel和DELL研制了5套系統,為我國超算領域的多元化發展提供了動力。
如圖3所示,從系統的性能份額來看,服務器供應商以43%領先,聯想占據15%系統性能緊隨其后,國家并行計算機工程技術研究中心的系統性能份額下降到14%,排名第3,繼續超過了國防科技大學的10%和浪潮公司的9%。國家并行計算機工程技術研究中心和國防科技大學2家單位的6套系統占據了全部系統總性能的24%。國防科技大學、國家并行計算機工程研究中心為代表的國家隊專注于數量少但世界領先的超大規模計算系統,而以曙光、聯想和浪潮等為代表的商業化公司致力于HPC系統的市場化和普及化,這種兩條腿走路的模式已經是并將依舊是相當長一段時間內我國HPC系統研制的常態。

Figure 3 Performance share圖3 性能份額(前100套系統)
共享內存(SMP)、分布式共享內存(DSM)、大規模并行處理(MPP)等多種體系架構百花爭艷的時代已經過去,分布式集群計算系統(Cluster)成為當前高性能計算機的絕對主流,近6年來進入TOP100榜單的系統絕大部分都是采用集群架構。但需要注意的是,基于自主眾核高性能處理器并采用專有架構的神威·太湖之光系統更接近于傳統的MPP架構,結合當前世界排名前10系統中有5套采用MPP架構的事實,可見在高端系統中,MPP仍是重要的體系架構。
除神威·太湖之光采用國產申威處理器,國防科技大學采用國產Matrix 2000加速卡,以及北龍超云的3套系統使用的AMD處理器外,其余系統均采用了Intel Xeon系列處理器,IBM Power處理器依然未出現在榜單中。
專用加速計算部件首先出現在TOP100榜單中是2009年,由國防科技大學研制部署于國家超級計算天津中心的天河一號系統配備了2 560塊ATI Radeon加速卡,并以此獲得563.1 TFlops的計算性能,成為該年最高性能的HPC系統。自2010年起,基于NVIDIA公司的Tesla系列GPU的HPC系統登上榜單并逐漸成為加速計算的主流。基于Intel Xeon Phi加速卡的系統出現于2013年,并在TOP100榜單中占據少量但穩定的份額。除去國防科技大學天河二號升級系統采用了Matrix 2000作為加速部件外,2021年有34套系統采用NVIDIA GPU或Intel Xeon Phi等進行性能加速,這一數據較2020年的39變化不大(如圖4所示)。今年共有33套系統采用NVIDIA Tesla GPU,其中絕大部分用于與深度學習相關的計算。需要指出的是,Intel已宣布停產Xeon Phi。

Figure 4 Variations of accelerator and network from 2010 to 2021圖4 2010~2021加速計算部件及系統網絡變化
關于專用加速計算設備的應用,特別需要指出的是,無論是NVIDIA/AMD GPU,還是Intel Xeon Phi,在上榜系統中最先都是由國防科技大學、中國科學院等科研類機構研制采用,且主要應用于基礎科學研究;隨后才被浪潮、曙光和聯想等商業化公司采用,并在眾多領域得到大規模應用。這無疑是一種良好的模式。
體系結構上變化最為明顯的是系統互連網絡,千兆以太網2014年占據了100套系統中的70%,而自2017年以來連續5年不再在榜單中出現,已經徹底退出歷史舞臺;相對應地,萬兆以太網從7年前的16%到2020年的71%再至2021年的62%,仍然是高性能計算系統的絕對主流互連網絡。需要注意的是,這里的萬兆網包括了100 GbE,40 GbE,25 GbE和最低性能的10 GbE共4類,而在今年占據主流的是10 GbE和25 GbE。
InfiniBand網絡繼續保持較高占比,相比2020年的23%,今年的數據增長為25%,這一占比主要與榜單中用于科學計算的計算機數目相當。從需求和用戶的角度,我們期望這兩者能保持良好的競爭態勢,以提供性能更佳、價格更優的互連網絡環境。
圖5給出了2021年中國HPC TOP100中的行業應用領域的性能份額統計,包括算力服務(46%)、超算中心(24%)、人工智能(9%)、云計算(5%)、短視頻(4%)、科學計算(3%)、金融(2%)、互聯網(1%)、教育科研(1%)、能源石油(1%)、電子商務(1%)、政府(1%)、工業制造(1%)和電信(1%)。

Figure 5 Application area share圖5 TOP100系統在不同應用領域的分布
依據應用模式的不同,上述應用可進一步大致歸并為4大類:
(1)算力服務類。這是今年新增的一類服務,反映了算力經濟的蓬勃發展。
(2)人工智能類。Map-Reduce、深度學習計算模型等基于數據的(非數值類)應用。
(3)科學與工程計算類。主要指傳統的數值計算類應用,通常是計算密集型(也有數據密集型)。
(4)信息服務類。頻繁交互的互聯網服務類應用。
2021年度,算力服務類應用系統占據所有系統的51%,人工智能類應用系統占據9%,傳統的科學與工程計算類應用系統與2020年的30%持平,信息服務類應用系統比2020年有所微降,從11%降到10%。
2021年中國HPC TOP100系統部署機構統計如圖6所示,互聯網企業以46%繼續占最大份額,相比2020年的45%有所增加,其他企業(金融、制造業等)占30%,兩者合計為75%,這一數據相比2020年的65%有所增加。科研院所和超算中心各占6%和13%,這表明用于科學計算的系統數量繼續維持穩定,也充分說明了高性能計算機、高性能計算技術的主要應用還是在科學計算領域,并在多個領域尤其是互聯網領域發揮著不可替代的作用。今年的系統中依然有5%用于視頻公司,雖然相比2020年的13%有所降低,但依然將其單獨列出,充分反映當前以短視頻為代表的多種新興應用的蓬勃發展。

Figure 6 System sites share圖6 TOP100系統部署機構類別

Figure 7 China HPC TOP 100 from 2002 to 2021圖7 2002~2021年中國高性能TOP100數據
2021年中國高性能計算機繼續呈現快速發展態勢,無論是性能、應用領域還是應用規模均有著長足發展。圖7 給出了2002~2021年共20年來TOP100數據變化。可以看到,近10年來,第1名系統受國家相關科研計劃影響,其性能呈跳躍式發展;最后1名系統性能則呈規律性指數增長,但是幅度逐步減緩,2022年入榜性能預計在2.2~2.3 PFlops。