袁國興,張云泉,袁 良
(1.北京應用物理與計算數學研究所,北京 100088;2.中國科學院計算技術研究所計算機體系結構國家重點實驗室,北京 100191)
在國際上,自1993年起每年都會按Linpack的測試性能公布在世界范圍內已安裝的前500套高性能計算機排行[1],這已成為高性能計算機研制生產、市場發展、應用交流和趨勢分析預測的重要參考。2002年,中國軟件行業協會數學軟件分會首次發布中國高性能計算機性能排行榜,并在隨后每一年的10月末或11月初公布當年度中國高性能計算機性能TOP100排行榜[2 - 11]。在過去的十余年間,已由中國軟件行業協會數學軟件分會聯合中國計算機學會高性能計算專業委員會與國家863高性能計算機評測中心發布的中國HPC TOP100排行榜為我國高性能計算機的研制及在眾多領域的應用推廣作出了顯著的貢獻。2018年TOP100排行榜發布單位變更為中國計算機學會高性能計算專業委員會與中國工業與應用數學學會高性能計算與數學軟件專業委員會,發布單位于2018年8月修定了“中國高性能計算機性能TOP100排行榜工作條例”,進一步細化明確了排行榜規則等細節。
2020年11月15日,最新一期中國HPC TOP100排行榜在北京召開的第二屆中國超級算力大會上發布。本文基于最新排行榜數據,對我國高性能計算機的性能、制造廠商、體系結構、應用領域和部署機構等進行了討論分析。
與去年類似,本年度中國HPC TOP100排行榜對同一用戶、同一廠商、同一地區安裝的相似結構的計算機,在榜單中列出Linpack較高的一套。改進的規則使得更多的系統或高性能計算用戶得以進入榜單,能更好地反映我國高性能計算現狀。2020年聯想、浪潮、聯泰集群、同方和DELL集團分別提交了32,38,1,1和1套新系統。聯想提交的32套系統合并了10套,合并后是22套,其中上榜21套;浪潮提交的38套系統合并了14套,合并后是24套,其中上榜23套;聯泰集群、同方和DELL集團提交的3套系統均上榜。合計新增73套,排除并列后新增49套,其中上榜47套。去年榜單留存系統53套。今年全部榜單中100個性能位置共有154套高性能計算系統。
2020年,由國家并行計算機工程技術研究中心研制、部署于國家超級計算無錫中心的神威·太湖之光超級計算機繼續占據榜首,它是當前中國最高性能的超級計算機系統,同時也是全球性能第4的系統。神威·太湖之光由40個機柜、總共160個超級結點組成,每個超級結點含256個計算結點,每個計算結點配備1顆1.45 GHz、260核的申威26010處理器,全系統總峰值性能為125.435 9 PFlops,Linpack實測性能值為93.014 6 PFlops,是排名第2的天河二號系統Linpack測試值的1.51倍。
2020年排行榜中第2名依舊是由國防科技大學研制的部署于國家超級計算廣州中心的天河二號超級計算機。2018年天河二號系統使用國產加速卡Matrix 2000進行了升級,系統峰值性能達到100 PFlops,排名前2名的系統峰值性能均達到了100 PFlops。
排名第3的系統是2020年由DELL集團研制、部署在北京超級云計算中心的北京超級云計算中心A分區超級計算機,該超算系統安裝在中國西北地區,包含3 000個計算結點共6 000個AMD EPYC 7452 32C 2.350 GHz處理器,總核數為192 000,網絡配置為FDR。Linpack實測性能為3.74 PFlops,系統峰值為7.03 PFlops,Linpack效率為53.20%。
排名第4的系統是2020年由同方公司研制、部署在內蒙古自治區和林格爾新區的內蒙古高性能計算公共服務平臺(青城之光),包含1 600個計算結點,共3 200個Intel Xeon Gold 6254 18C 3.1 GHz處理器,總核數為57 600,網絡配置為EDR。Linpack實測性能為3.18 PFlops,系統峰值為5.34 PFlops,Linpack效率為59.60%。第3名和第4名系統的部署也增加了我國超算系統的安裝地點的多樣性。
排名第5~第10的是聯想公司的5套系統,均為深騰8800超級計算機,其中新增系統3套,2019年榜單系統2套。峰值性能在5.82~6.08 PFlops,Linpack測試性能在2.96~3.08 PFlops。值得一提的是,根據TOP100規則,對聯想公司提交的系統進行了合并,其中新增的第6名和第10名的系統各并列了4套和3套,這7套系統均部署在網絡公司。
完整的前10名榜單如表1所示。
2019年榜單中第9名和第10名由國防科技大學研制、部署于國家超級計算天津中心的天河一號A超級計算機和部署在國家超算濟南中心的神威E級原型系統,今年下降到了第29和第30名。位居于其上的系統中,除去第3名和第4名,新增的18套系統中有16套是聯想公司的深騰8800超級計算機,2套是浪潮公司的TS10000 HPC 集群,大部分也部署于網絡公司,這充分說明了互聯網和視頻大數據處理在我國大陸的強勁發展勢頭。
聯泰集群新增的4800IG集群排名第72,由1 680個Intel Xeon 6146 12C 3.2 GHz處理器和560個NVIDIA Tesla V100 32G GPU構成,網絡配置為 FDR,部署在科技公司,其主要應用領域是人工智能,Linpack實測性能為2.06 PFlops,系統峰值為4.36 PFlops,Linpack效率為41.6%。
2020年上榜系統的Linpack性能全部超過了1.5 PFlops,P級系統已經基本成為高端計算的主流,其中Linpack性能值超過2 PFlops的系統達到81套。
2020年,作為入榜門檻的第100名系統是曙光公司的TC 6000系統,部署于政府信息中心,其Linpack性能值為1 869 TFlops,和2019年第100名的1 556 TFlops相比,性能提升了1.20倍(參見圖1)。這一入門性能值與2019年估計的1.8~2.0 PFlops相符。
2020年所有100套入榜系統的Linpack平均性能為3 842 TFlops,這是2019年平均性能3 471 TFlops的1.10倍。平均性能增速與2019年的1.13相近,主要是因為沒有增加峰值性能百P以上的大系統,并且新增系統的Linpack數值并沒有太大提高,導致今年僅有47套新增系統,與去年的55套接近,而2015年~2017年每年都有超過70套新系統,2018年更是新增了83套系統達到歷年最大值。

Table 1 Top 10 systems of China HPC TOP100 in 2020表1 2020中國HPC TOP100前10名系統

Figure 1 System performance comparison for China HPC TOP100 between 2019 and 2020圖1 2020年中國HPC TOP100系統與2019年系統性能對照
2020年,性能排名前100的共154套上榜系統由浪潮、聯想、曙光等9家廠商研制,排除并列系統數后,聯想以35套排名廠商份額第1,浪潮32套排名第2,曙光22套排名第3,華為、國防科技大學和國家并行計算機工程技術研究中心以2,4,2的裝機數量分列第4~6名,清華同方、聯泰集群和DELL各上榜1套并列第7。圖2給出了中國HPC TOP100計算機制造商的前100套系統統計。

Figure 2 Vendors system share圖2 制造商系統份額(前100套系統)

Figure 3 Performance share圖3 性能份額(前100套系統)
以聯想、曙光、浪潮為代表的國內廠商是我國HPC系統的主要研制單位,占據了絕大部分市場份額,2018年國外廠商的系統全部退出TOP100榜單,為歷史首次,2019年的榜單再次為全國產機器,DELL公司提交一套安裝在武漢大學超算中心的異構系統,但是Linpack性能為1 403 TFlops,未能上榜。今年DELL公司新增的系統上榜,為我國超算領域的多元化發展提供了動力。2020年榜單國產系統依然達到了99套,這再次佐證了我國高性能計算機研制能力的提升和市場份額的持續擴大。
如圖3所示,從系統的性能份額來看,國家并行計算機工程技術研究中心依然以25%領先,聯想占據23%系統性能緊隨其后,超過了浪潮公司和國防科技大學的18%。國家并行計算機工程技術研究中心和國防科技大學2家單位的6套系統占據了全部系統總性能的43%。以國防科技大學、國家并行計算機工程研究中心為代表的國家隊專注于數量少但世界領先的超大規模計算系統,而以曙光、聯想和浪潮等為代表的商業化公司致力于HPC系統的市場化和普及化,這種兩條腿走路的模式已經是并將依舊是相當長一段時間內我國HPC系統研制的常態。
共享內存(SMP)、分布式共享內存(DSM)和大規模并行處理(MPP)等多種體系架構百花爭艷的時代已經過去,分布式集群計算系統(Cluster)成為當前高性能計算機的絕對主流,近6年來進入TOP100榜單的系統絕大部分都是采用集群架構。但需要注意的是,基于自主眾核高性能處理器并采用專有架構的神威·太湖之光系統更接近于傳統的MPP架構,結合當前世界排名前10的系統中有5套采用MPP架構的事實,可見在高端系統中,MPP仍是重要的體系架構。
除神威·太湖之光采用國產申威處理器,國防科技大學采用國產Matrix 2000加速卡,以及今年新增的一套DELL系統使用AMD處理器外,其余系統均采用了Intel Xeon系列處理器,IBM Power處理器依然未出現在榜單中。
專用加速計算部件首次出現在TOP100榜單中是2009年,由國防科技大學研制部署于國家超級計算天津中心的天河一號系統配備了2 560塊ATI Radeon加速卡,并以此獲得了563.1 TFlops的計算性能,成為該年最高性能的HPC系統。自2010年起,基于NVIDIA公司的Tesla系列GPU的HPC系統登上榜單并逐漸成為加速計算的主流?;贗ntel Xeon Phi加速卡的系統出現于2013年,并在TOP100榜單中占據少量但穩定的份額。除去國防科技大學天河二號升級系統采用了Matrix 2000作為加速部件外,2020年有39套系統采用NVIDIA Tesla GPU或Intel Xeon Phi等進行性能加速,這一數據較去年的24大幅增加(如圖4所示),其主要原因是今年新增的47套上榜系統中有15套系統配置了加速器。今年共有38套系統采用NVIDIA Tesla GPU,其中絕大部分用于與深度學習相關的計算。需要指出的是,Intel已宣布停產Xeon Phi。

Figure 4 Variations of accelerator and network from 2010 to 2020圖4 2010~2020年加速計算部件及系統網絡變化
關于專用加速計算設備的應用,特別需要指出的是,無論是NVIDIA/AMD GPU,還是Intel Xeon Phi,在上榜系統中最先都是由國防科技大學、中國科學院等科研類機構研制采用,且主要應用于基礎科學研究;隨后才被浪潮、曙光、聯想等商業化公司采用,并在眾多領域得到大規模應用。這無疑是一種良好的模式。
體系結構上變化最為明顯的是系統互連網絡,千兆以太網5年前占據了100套系統中的70%,而自2017年以來連續3年不再在榜單中出現,已經徹底退出歷史舞臺;相對應地,萬兆以太網從6年前的16%到去年的65%再至今年的71%,仍然是高性能計算系統的絕對主流互連網絡。需要注意的是,這里的萬兆網包括了100 GbE,40 GbE,25 GbE和最低性能的10 GbE共4類,而在今年占據主流的是10 GbE和25 GbE。
InfiniBand網絡繼續保持較高占比,盡管相比去年的29%,今年降低為23%,這一占比主要與榜單中用于科學計算的機器數目相當。從需求和用戶的角度,我們期望這兩者能保持良好的競爭態勢,以提供性能更佳、價格更優的互連網絡環境。
圖5給出了2020年中國HPC TOP100中的行業應用領域的系統數量統計。今年細化了互聯網這一大領域,包括云計算(17%)、互聯網(7%)、人工智能(1%)和電子商務(1%),合計達到54%;傳統大規模科學和工程計算領域:科學計算(10%)、教育科研(2%)和工業制造(2%),其他主要包括金融(7%)和電信(5%)等。

Figure 5 Application area share圖5 TOP100系統在不同應用領域的分布
依據應用模式的不同,上述應用可進一步大致歸并為3大類:
(1)數據分析挖掘類。Map Reduce、深度學習計算模型等基于數據的(非數值類)應用。
(2)科學與工程計算類。主要指傳統的數值計算類應用,通常是計算密集型(也有數據密集型)。
(3)信息服務類。頻繁交互的互聯網服務類應用。
2020年度,數據分析挖掘類應用系統占據了所有系統的54%,較2019年的53%有所提升,接近2017年的56%;傳統的科學與工程計算系統由去年的36%降低到30%,與2018年持平,信息服務類系統比2018年有所增加,從11%提升到了15%。
2020年中國HPC TOP100系統部署機構統計如圖6所示,互聯網企業以45%占最大份額,相比2019年的33%大幅增加,其他企業(金融、制造業等)占17%,兩者合計為62%,這一數據與2019年的65%持平??蒲性核统阒行母髡?3%和12%,這表明科學計算的系統數量繼續維持穩定,也充分說明了高性能計算機、高性能計算技術的主要應用還是在科學計算領域,并在多個領域尤其是互聯網領域發揮著不可替代的作用。今年的系統中有13%用于視頻公司,因此將其單獨列出,充分反映當前以短視頻為代表的多種新興應用的蓬勃發展。

Figure 6 System sites share圖6 TOP100系統部署機構類別

Figure 7 China HPC TOP100 from 2002 to 2020圖7 2002~2020 年TOP100數據
2020年中國高性能計算機繼續呈現快速發展態勢,無論是性能、應用領域還是應用規模均有著長足發展。圖7 給出了2002~2020年共19年來TOP100數據變化??梢钥吹剑陙恚?名系統受國家相關科研計劃影響,其性能呈跳躍式發展,在神威·太湖之光之后,下一臺E級系統可望在2021年后出現;最后1名性能則呈規律性指數增長,但是幅度逐步減緩,2021年入榜性能預計在2.2~2.3 PFlops。