白香君
中國航空研究院
高性能計算是指利用多處理單元所形成的強大計算能力來解決用單個工作站無法完成的密集型計算任務。高性能計算的發展水平已經成為衡量一個國家綜合實力和高科技發展水平的重要標志,美國、歐盟、日本、英國都高度重視高性能計算的發展,并在國家層面設有專門機構負責研究、制定高性能計算發展策略,我國也逐漸將高性能計算的發展提升到了國家戰略層面。
高性能計算能夠推進人類對諸如星系等太大、原子等太小、核聚變等太快、宇宙等太慢、破壞性試驗等太危險或昂貴的問題的研究。高性能計算集群(HPC)拆解復雜問題的能力可以非常顯著地縮短突破科技創新瓶頸、解決實際問題的時間,為快速實現科技創新帶來機遇,為工業領域取得跨越式發展奠定基礎。
本文從我國高性能計算發展現狀分析入手,通過中美高性能計算發展多維度對標分析,高性能計算技術管理多方面難點剖析,提出中國高性能計算發展的四大總體策略,并設計出未來工業領域高性能計算發展的架構模型。
當前,我國高性能計算在宇宙探索、氣候模擬、材料研發、工業設計、試驗研究等領域發揮著重要的作用,對國防建設和國民經濟發展具有不可替代的作用。
從2021 年中國高性能計算性能(Linpack 測試)TOP100 排行榜前10 名(見表1)來看,中國最強超算僅有20%由國家機構研制并安裝在國家超算中心;60%由網絡公司研制安裝,占比過半??梢姡覈咝阅苡嬎慵夹g能力十分分散,缺少國家層面的統籌。
表1 2021年中國高性能計算性能TOP100排行榜前10名
從TOP100 高性能計算機應用發展趨勢(如圖1所示)來看,數據分析/機器學習等新興領域的應用占比由2015 年的27%上升到了2020 年的55%,已遠遠超過科學/工程計算的占比,可見我國高性能計算正在由科學計算向應用計算領域發展。
圖1 TOP100高性能計算機應用發展趨勢圖
從2021 年高性能計算應用領域份額來看(如圖2所示),算力服務占比達到46%,人工智能應用占比達到9%,金融、互聯網、教育科研、能源/石油、電子商務、工業/制造、電信等應用領域都開始使用高性能計算機,高性能計算正在成為產業發展的重要基礎設施。
圖2 2021年高性能計算應用領域份額
美國高性能計算發展水平一直處于國際前列,具
有示范引領作用,本節從戰略規劃、能力提升、軟件研發、高性能計算應用等4 個層面,對中美高性能計算發展現狀進行對標分析,明確我國高性能計算發展存在的主要短板弱項,為后續提出我國高性能計算發展策略奠定基礎。
在戰略規劃層面,美國從2015 年就發布了“國家戰略性計算計劃”(NSCI),NSCI 是比較全面的國家級頂層規劃,在此計劃下應運而生的HPC4EI 計劃更是涵蓋了制造技術改進、新材料研發、移動系統發展等3 個能源創新型子計劃。我國通過國家高技術研究發展計劃(“863”計劃)和國家重點基礎研究發展計劃(“973”計劃)支持過一批高性能計算技術研究和基礎建設的項目,但至今沒有類似“國家戰略計算”的頂層規劃。因缺少國家層面持續性的戰略性計劃支持,多數網絡公司利用自身力量難以維持高性能計算領域長足的發展,缺少高層次項目統攬全局,各平行的高性能計算項目之間難以協同創新。
在能力提升層面,美國發展高性能計算主要是靠應用牽引,其E 級計算機研制成功的標志不僅是Linpack 測試,而是25 個應用的幾何平均值。我國E級計算機研制成功的標志仍然停留在Linpack 測試階段,但隨著大數據、人工智能等新興領域對于高性能計算體系結構的要求越來越高,單純追求“容量型”高性能計算的計算速度而忽略了“能力型”高性能計算的計算效率,顯然不是明智之舉。
在軟件研發層面,我國常用高性能計算軟件主要依靠進口,自主研發軟件使用極少,并且在超算經費投入中用于軟件研發的費用還不足10%,距離實現軟件自主可控差距較大。美國高性能計算常用軟件主要依靠自主研發,其每年在軟件研發方面投入的經費約為中國的6 倍。
在高性能計算應用層面,我國使用高性能計算機較多的是網絡公司,制造業普遍使用高性能計算較少,且規模較小。美國汽車、航空航天、電子通信等制造業普遍使用高性能計算機,每家企業都有多個高性能計算中心,美國公司的總體超算規模約為中國的10 倍。只有大多數企業使用高性能計算集群,才能加速科技創新,使國家走向高質量發展的道路。
從工業領域來看,當前各單位高性能計算在技術和管理層面均存在一些難點,制約其持續發展。
在技術層面,高性能計算運行維護涉及專業技術廣泛,各單位普遍缺乏HPC 專業人員;高性能計算軟件購買成本高,各單位Licence 軟件普遍不夠用;高性能計算主要支撐復雜計算任務,內存需求量極大,存儲容量不足現象頻現;同一項目的不同單位人員分別在本單位高性能計算集群進行計算,協同設計十分困難;除此之外,存在計算網格量巨大,本單位高性能計算資源難以支撐;用戶個性化定制成本過高,存儲數據量利用率極低等問題,嚴重制約了本單位高性能計算的高效運行。在管理層面,當計算項目較多時,各單位存在階段性應用需求旺盛、資源不足的現象;當計算項目較少時,又會出現階段性資源空閑的情況;各單位高性能計算軟件研發能力分散,自主創新能力不強,持續性維護成本高,科研投入支撐十分薄弱,持續性維護高性能計算機存在資金困難。
面對國內、國際高性能計算發展現狀及趨勢,為加速科技創新,加快構建高性能計算發展的良好生態環境,我國應當從以下4 個方面發力。
一是制定高性能計算發展頂層規劃,強化國家層面統籌,促進高層次項目間的協同創新,系統提升高性能計算實力。二是注重現有高性能計算資源的統籌,充分利用已有優勢資源力量,構建現階段高性能計算技術發展生態環境。三是注重高性能計算應用牽引,促進大數據、人工智能與高性能計算的深度融合,大力發展“能力型”高性能計算。四是加強高性能計算軟件研發投資,提升自研軟件應用占比,爭取實現軟件自主可控。
面對工業領域高性能計算發展現狀及普遍存在的問題,高性能計算云平臺將會是工業領域高性能計算未來主要的架構模型。高性能計算云平臺能夠從技術上解決各單位軟硬件資源不足、存儲容量不夠,協同設計困難等問題;從管理上解決高性能計算維護成本高、自主創新能力不足等問題。
高性能計算云平臺架構模型如圖3 所示。它具體指的是以行業內某單位其中一個高性能計算集群為中心,以各單位高性能計算分中心為節點,連接所有高性能計算中心,整合各單位閑時計算、存儲資源,形成一個大的資源池,對計算資源、存儲資源進行統籌管理,根據各單位實際使用需求,合理調配、占用其他單位閑時資源,大幅提高計算、存儲資源使用效率;利用軟件浮動Licence,實現各單位軟件資源的共享,大幅降低行業軟件購買成本;聯合各單位自研軟件研發團隊,在線協同設計,促進科技創新,提升自研軟件占比;聘請高性能計算專業團隊,對高性能計算云平臺進行管理,不斷優化管理水平,提升自主創新能力。
圖3 高性能計算云平臺架構模型
行業內高性能計算云平臺將形成計算資源調度能力,應用軟件共享能力,數據管理分析能力,自研軟件創新能力,應用發展支撐能力等五大能力,支撐本領域高質量發展。
行業內高性能計算云平臺建設第一階段的主要任務是解決各單位高性能計算資源連接起來、統一調度起來的問題;第二階段的難點是構建高性能計算的“高速公路”,即解決行業內不同單位高性能計算連接網絡帶寬、速率的問題。現階段,部分工業領域可使用5G網絡連接高性能計算,但如航空、航天、船舶等軍工行業因保密原因,僅能使用行業內專網連接高性能計算資源,且網絡帶寬嚴格受限。行業內統一設計、部署實施高速網絡是高性能計算云平臺建設第二階段的重點,也是行業走上高質量發展道路的關鍵一步。高性能計算云平臺建設第三階段應重點關注大數據應用技術的發展,行業高性能計算云平臺的一個顯著特點是解決的問題均是行業內復雜難點問題,數據存儲量大;存儲數據均為行業內計算數據,數據類型較統一;利用高性能計算云平臺的大數據優勢,發展本行業大數據應用技術,對于支撐行業重大決策部署,成為尖端科技發展的引領者具有重大意義。