◎北京臨近空間飛行器系統工程研究所 吳茂永 盧康 周智力 李坤遠 孫沃
新一代航天器數字化設計對多樣化、個性化的計算資源需求日益強烈,高適用性高性能計算系統建設成為必備條件。本文研究了高適用性高性能計算系統構建方法,分析了高性能計算在多個航天型號研發設計中的應用實踐及應用效果,提出了相關經驗和體會。
目前,我國航天科技技術已經從跟蹤追隨型向全面自主創新型加快轉變,基礎研究薄弱與新型航天科技自主創新發展的矛盾日益加劇。傳統單一的高計算峰值已經不能全面覆蓋新一代航天器數字化設計對計算資源的需求,新一代航天器數字化設計對多樣化、多粒度、個性化的計算資源需求越來越強烈。
高性能計算系統采用硬件資源集中式共享、軟件資源靈活浮動調度、資源動態快速回收的工作方式,可便捷地為設計、計算、仿真、分析提供全面支撐。高性能計算系統的高適用性(High Serviceability)與航天飛行器設計多專業耦合特點、復雜應用需求直接相關,同時也是涉及技術領域最廣、最難實現的重要特性。高適用性實質是在高性能計算資源之上提供多樣化、多粒度、個性化的服務,解決高性能計算資源的服務化和服務的按需即取問題。

圖1 高適用性高性能計算系統架構圖
航天型號設計是多學科交叉耦合的系統工程理論與方法研究,需要通過先進數字化手段開展系統級的總體性能驗證、預示與評估,需要借助高性能計算能力進行全系統、全流程飛行特性模擬數字仿真試驗,實現航天火箭或飛行器氣動力、氣動熱、結構、載荷和控制等多學科耦合飛行過程進行全程模擬仿真,對飛行過程中的多物理場飛行特性進行考察。以大規模數值模擬、科學計算為核心的高適用性高性能計算系統已逐漸成為航天飛行器設計總體單位的必備條件。
高適用性高性能計算系統是以高性能計算主機系統為基礎,應用服務平臺為服務入口,大規模并行計算應用軟件平臺為特色的大型數字化系統。該系統對我所研制的多個型號、多個應用領域起全面支撐作用。高適用性高性能計算系統架構如圖1 所示。
高性能計算主機系統主要由具備強大計算能力的計算節點和海量數據存儲節點組成,兼配備若干臺具備較強圖形處理能力的圖形服務器,同時配備若干管理與服務處理服務器,如圖2 所示。
應用服務平臺是以資源管理與作業調度軟件為中心,以面向服務為導向,在資源調度軟件、虛擬化軟件、并行和分布式文件系統、門戶軟件以及各學科應用軟件基礎之上整合和定制開發的軟件平臺。將設計、仿真、優化應用集中部署到服務器端,采用B/S 架構,通過統一的Web 門戶實現CAD 設計和CAE 前后處理等二維/三維可視化設計應用軟件使用和調度管理,用戶可在低端桌面機上不用安裝任何應用軟件的情況下,運行大型的設計、仿真和優化任務,并完成所有日常工作,如圖3 所示。
高適用性主要體現在統一調度和管理對資源的合理分配。常采用的資源分配模式有兩種共存的調度模式。

圖2 高性能計算主機

圖3 統一調度平臺圖片
該策略下作業按照提交順序依次執行。在這種情況下,一旦某個用戶一次性提交了大量的作業并占據了所有計算資源,則在其后其他用戶提交作業時將不得不等到計算資源被釋放的時候才能運行。Fairshare 策略的原理是對不同的用戶自動設置優先級,按照優先級來確定作業分發和運行的順序。優先級是動態變化的,變化的根據是此用戶已經消耗的計算資源和當前的share 數目。已經消耗的計算資源較少和share 數目較多的用戶將擁有較高的作業執行度,其作業將更有可能被分發和運行。應用Fairshare 策略有效避免了用戶一家獨占計算資源的情況,提高了計算資源使用的公平性和適用性。
型號研制過程中使用高性能計算系統,經常會出現以下兩種作業:
1)要求短時間內計算完成,所需CPU 核數較多的作業,如次日急需某個結果以完成報告的作業;
2)要求計算時間較長,但是CPU核數要求不多的作業,如某些需要計算數周的串行作業。
對于以上兩種情況特殊的作業,如果將其按照同樣的策略進行調度,在計算資源緊張的情況下,通常難以同時滿足核數和完成時間的要求。針對這種情況,在原有隊列的基礎上增加了一個應急隊列,此隊列能夠應對中小規模的計算。針對此隊列,進行了以下的控制和管理措施:
1)提交的作業必須屬于上文提到的兩種情況,即計算時間短或需求核數少;
2)提交作業前必須經過系統管理員的審核;
3)系統管理員對應急隊列進行嚴密的監控,在其他隊列負載不滿時及時將對應作業移動到相應隊列。
在應急隊列投入使用后,大部分優先度較高的作業能按照各自的需求正常運行,基本滿足了不同優先度的作業的需求,提高了用戶滿意度和型號研制過程中特殊需求,可以適應多樣化的計算需求。
高適用性高性能計算系統在計算能力、通信能力、I/O 能力和系統軟件能力等方面,呈現出面向航天型號研發優化設計、技術先進、實用高效的突出特點。高適用性高性能計算系統全面支撐多種復雜應用,承擔大規模科學工程計算、仿真計算等任務,涵蓋總體、氣動、結構、防隔熱、制導控制、動力、系統仿真等專業,成功應用于多個型號研發設計過程中。具體主要體現在以下幾個方面。
在航天飛行器精細化設計過程中,氣動力/ 熱數值模擬、結構強度有限元分析、電磁仿真計算等大規模科學計算都不同程度的依賴于高性能計算。氣動力數值模擬對高性能計算的需求尤為強烈。CFD 技術作為高效的設計手段廣泛應用于氣動優化設計和氣動特性分析工作,可以彌補地面風洞實驗能力的不足。依托高性能計算系統和航天型號需求開發了具有自主知識產權的HyperCFD 并行計算平臺。
該平臺具有完全界面化、標準化、可擴展、可維護等特點。能夠高效解決總體氣動力計算、部件氣動力計算、一般氣動特性仿真與分析等計算問題。最終形成的系統將包括定常/ 非定常計算核心求解器、前處理工具、后處理工具、網格重剖分工具、人機交互界面等模塊,用戶只需在平臺終端通過簡單的操作即可實現在高性能計算系統中自動提交計算任務實現并行計算。由于采用多分區并行計算、多重網格加速收斂算法、高效并行算法與其他優化方法,大規模并行CFD 計算平臺具有可觀的加速比,大幅提高航天型號設計能力。
依靠高適用性高性能計算系統平臺,基于復雜外形高精度氣動熱環境數值模擬技術,開展了航天飛行器外形的不同飛行剖面下的熱環境數值仿真,獲得了大量的三維熱環境數據,并應用于熱環境設計中;同時在高性能計算系統強大的計算能力支持下,逐漸建立了氣動熱數據庫與綜合分析平臺,從而逐漸實現對氣動熱相關數據的綜合管理,實現對氣動熱算法對比分析以及試驗數據、飛行遙測數據的驗證和考核,同時發展基于數據庫分析的熱環境預測與設計方法,實現針對新型航天飛行器的熱環境精細化設計。
基于高性能計算系統強大的計算能力,開展多專業、大規模聯合仿真,提升航天型號設計精度,解決了過去在PC 機無法完成的工作,實現了設計人員已從單一的領域仿真發展到氣動、防隔熱、控制、強度、電磁等多個專業領域聯合設計仿真。同時,高性能計算系統部署了30 余種應用軟件,為總體一體化協同設計、數字樣機協同設計、基于大規模數值計算的飛行器氣動特性分析、高升阻比外形真實氣體氣動熱環境高精度數值模擬、大型結構強度仿真分析、控制系統數學仿真、系統級熱環境分析與仿真、特殊電磁環境模擬建模分析、全程攻防對抗仿真分析等任務提供工具支撐。
高適用性高性能計算系統在航天設計應用實踐中,取得了顯著效果,具體體現在以下幾個方面:
基于高適用性高性能計算系統的計算能力將過去的計算時間大幅縮短。例如,依托HyperCFD 并行計算平臺可同時利用上百顆CPU 對某一型號網格模型進行并行計算,加速比可達到23 倍,過去采用串行計算一個500 萬網格量的作業需要13 天,而如今利用高性能計算系統HyperCFD 并行計算平臺計算一個狀態僅僅需要13 小時左右,大大縮短了計算周期,并且保證了并行計算精度與原串行軟件一致。
高適用性高性能計算系統在航天設計中的應用徹底改變設計模式和設計理念。依托高性能計算系統的計算能力和存儲能力,設計人員可以將航天型號網格模型設計的非常精細,而不用擔心過去由于精細化的模型計算機無法進行仿真計算問題。因此,網格精細化可以有效提升了航天型號設計精度和質量,對提升航天型號質量發揮了重大作用。
高適用性高性能計算系統改變了設計人員的設計理念。過去設計過程中由于無法采用計算機進行仿真模式,需要大量的實物試驗對設計進行驗證,實物試驗耗時、耗財,非常低效。而高性能計算系統全面支撐多種復雜應用,用戶可在低端桌面機上不用安裝任何應用軟件的情況下,運行大型的設計、仿真和優化任務。過去的實物試驗好多都可以依托高性能計算而進行虛擬仿真,不需要再進行試驗或者只進行一次試驗就可以完成設計的迭代。設計理念的改變,大幅降低了成本和周期。
高性能計算系統前期投入很大,運營成本也很大。但與傳統的資源獨占式的使用方式相比,高適用性高性能計算系統便捷地為幾乎所有設計、計算、仿真、分析提供全面支撐,潛在經濟效益很高。同時硬件資源的集中式的共享,軟件許可證資源的靈活浮動調度以及資源的動態回收,使得高性能計算系統軟硬件資源利用率很高。
高適用性高性能計算系統為航天型號研制提供高效的計算和大數據分析能力,支撐了多型火箭及飛行器型號并行研制,實現了型號的精細化研發設計,在確保各項型號圓滿成功中發揮重要作用,促進了我國質量強國、航天強國國家重大戰略的有效落實。通過高適用性高性能計算系統在航天型號設計中成功應用并發揮了重要作用,我們總結了以下四點經驗與體會。
高性能計算系統結構復雜,技術迭代很快,因此價值折舊也快,需要提前進行頂層規劃,面向需求建設。建設后需要盡快投入使用發揮效益。堅持硬件系統與軟件平臺集中建設、應用軟件集中共享的原則,形成了良好的頂層設計,這是高適應性高性能計算系統能夠真正落地并在型號研制過程中發揮巨大作用的原動力。
在航天領域,以基于高性能計算的高精度的大規模數值模擬取代傳統的工程計算方法,更有利于復雜的機理研究;同時,高性能計算能夠節省型號研制時間,提高型號研制精細度,使得理論方法轉換成工程實踐,這種全新的研究、設計與分析手段,是一種先進的生產力,也是航天企業的核心競爭力,對新型號的順利研制起著巨大的促進作用。
對航天飛行器設計而言,高性能計算系統的高適用性是多專業耦合、解決復雜應用需求最直接的途徑,涉及技術領域最廣、技術難度最大。高性能計算系統建成之初使用方法復雜,僅僅應用于CFD 計算。隨著應用服務平臺的深入定制開發,單一系統映像的逐步實現和界面化的應用方法實現,能夠讓更多專業的設計人員像使用個人PC 機一樣使用高性能計算系統,輕易獲得高性能計算能力和大型圖形交互設計能力,從而使更廣泛的設計人員得益,除此之外,使得系統的使用趨向統一化和規范化。提升系統的高適用性是發揮系統全面支撐作用的關鍵因素,也決定著系統能否在更大范圍內推廣使用。
針對航天飛行器設計總體單位的現狀,建立了一支高素質高效率的管理人員隊伍,并建立了一套完備的行之有效的管理制度,為航天飛行器設計人員提供了高效靈活的設計仿真驗證一體化平臺,形成了一批掌握高性能計算能力的專業設計人員。同時,建立資源調度管理和特急計算任務應對機制,在保障高性能計算資源利用率的前提下,提高了高性能計算資源調度的靈活性。建立機房配套設備設施的管理運維制度,實現高性能計算系統及其配套設備的穩定運行和高效維護。
高適用性高性能計算系統,已經在航天型號研制過程中得到了充分實踐,取得了良好的效果。高性能計算系統不只是提供大規模數值計算,而且面向多專業領域的各種復雜應用提供多樣化服務,實現了大規模并行計算與航天產品大模型交互設計過程、圖形處理一體化,符合航天飛行器總體設計的多專業耦合特點,適應了多領域協同設計的要求。
未來依托高適用性高性能計算系統,結合航天型號需求和國家自主可控國家戰略要求,開發具有自主知識產權的航天研制軟件工具并進行更深入的應用,使得高性能計算系統在航天領域發揮更大的作用。