白香君 馬征 宋萬強
摘要:航空工業某高性能計算中心對于支撐各接入單位的數字化建模、仿真及優化等大規模復雜系統任務,縮短項目研制周期,節約項目經費起到了重要作用。通過應用軟件集成優化、調度系統優化及資源監控和統計分析優化,有效解決了該計算中心運行管理過程中命令行作業提交及管理方式限制用戶群、固定的資源調度及分配原則限制計算效率及計算資源使用率的提升、資源監控及統計分析結果難以可視化等問題,為航空領域高性能計算中心的管理提供參考。
關鍵詞:高性能計算;集成;調度;統計分析;優化
中圖分類號:V211文獻標識碼:ADOI:10.19452/j.issn1007-5453.2020.08.010
高性能計算是利用超級計算機強大的計算能力來解決現實復雜問題的工具。美國能源部、國防部和美國航空航天局等國家機構、企業和大學都在開展為數眾多的高性能計算項目。歐盟專門成立了戰略研究委員會來研究高性能計算基礎設施的發展戰略。日本從1977年就已經開始了超級計算機的研制以及應用。英國在國家層面上就設有高性能計算戰略規劃委員會,負責規劃英國高性能計算的發展[1]。2019年,我國全部使用自主知識產權芯片的神威“太湖之光”超級計算機更是在全球超級計算機排行榜Top500中位居第三。可見高性能計算的重要性已經被提升到了國家戰略層面。從Top500排名的統計來看,學術界、政府部門、產業界、科研界作為高性能計算應用的主體,其應用領域在不斷擴大[1-2]。
伴隨著高性能計算在飛行器設計領域的廣泛應用,利用數值分析和建模技術,進行快速設計、優化和仿真驗證,再進行地面物理試驗和飛行試驗的新型迭代過程,逐漸成為標準的現代飛行器設計方法。高精度、多學科的數值模擬和設計優化技術作為區別于傳統理論分析與物理試驗的第三種手段,正在變革著飛機設計的流程和理念[3-4]。高性能計算可以更快地獲得更復雜問題的解決方案、更精確的數值結果以改進飛行器性能,縮短新產品開發周期、降低先進技術的應用和新產品開發的總體成本[5]。
部署在航空工業專網上的某高性能計算集成平臺,集成了航空領域主要的通用軟件和自研軟件,按照分布模式,共享軟硬件資源和公共數據庫,為專網內接入該計算中心的各航空廠所提供了專用的、安全可靠的異地協同創新平臺[6]。計算平臺涉及諸多的軟硬件解決方案,系統架構設計復雜,同時與用戶的應用系統和行業專網緊密集成,由此給高性能計算中心的運行管理帶來諸多技術難題。本文主要通過應用軟件集成優化、調度系統優化及資源監控和統計分析優化來解決單一復雜的命令行作業提交及管理方式限制用戶群、固定的資源調度及分配原則限制計算效率及計算資源使用率的提升、資源監控及統計分析結果難以可視化[7]等問題,為航空領域高性能計算中心的管理提供參考。
1航空工業某高性能計算中心整體架構
航空工業某高性能計算中心基于行業專網建設,以提高航空工業綜合創新能力和促進航空科學技術進步為宗旨,面向先進航空產品研發和技術研究,專門為飛機、直升機、發動機和機載系統等領域設計中的數字化建模、多學科仿真及綜合優化等大型復雜任務提供高性能計算服務;提供多學科數值模擬方法的數值工具、技術支持和業務咨詢;支持開展空氣動力學、計算流體力學、計算結構力學等方面的計算研發、應用和驗證[8];通過基于數值方法的飛行器新概念設計、性能分析及驗證服務,為各單位解決綜合性設計和優化問題。計算中心整體架構分為應用軟件、基礎軟件、基礎硬件和物理環境4個層面,如圖1所示。
2應用軟件集成優化
傳統的高性能計算中心用戶采用命令行的方式提交和管理作業,這不僅要求用戶具備本專業領域軟件的操作能力,還需具備熟練的計算機專業技能,很大程度上限制了用戶群。為了優化作業提交和管理模式,開發了航空工業數值模擬與應用系統AVICNAS,為集群用戶和管理員提供靈活的、以應用程序為中心且易于使用和管理的界面,使得用戶通過AVICNAS方便地提交作業,然后通過作業調度管理器LSF對作業進行調度、管理和排隊,從而實現對軟件的靈活控制,對整個集群節點的整體管理和調度。AVICNAS包含軟件體系模塊和作業及數據模塊,組織架構如圖2所示。用戶通過AVICNAS系統實現作業提交、作業管理、數據管理及圖形管理等功能。
除此之外,為了滿足航空領域用戶對結構力學相關軟件、流體力學相關軟件、空氣動力學相關軟件,以及自研軟件等的不同使用需求,AVICNAS提供了一套基于XML二次開發接口模板,支持集成應用程序接口以及軟件操作界面的靈活定制。以某流體動力學計算程序為例,集成軟件和定制界面需遵循如下操作流程:
(1)在管理節點上編寫XML文件來設計軟件的顯示界面,或者直接通過Web portal來定制Web界面,為用戶提供“所見即所得”的軟件操作界面定制模式。
(2)配置LSF隊列文件lsf.queues,根據優先級分配需要設計的計算程序隊列組,以確保用戶提交的計算作業能夠進入資源調度排隊,正常或者優先使用計算資源。
(3)在LSF應用程序配置文件lsb. applications中增加對該應用程序的定義,使得作業調度管理器能夠正確識別計算軟件并且合理調度作業,然后重新配置系統,使得該操作生效。
(4)配置LSF與AVICNAS的接口程序,這樣用戶在Web界面的操作就能通過接口程序傳遞給作業調度管理器,并實現數據上傳、作業提交、作業排隊、資源調度、應用程序運行計算以及結果數據處理等一系列操作。在管理節點上配置接口程序,接收AVICNAS傳遞的環境變量,并根據這些變量設置LSF作業提交和應用程序運行選項及參數,最終生成實際的作業提交命令。
(5)創建針對該應用程序的作業裝載程序,在該程序中需根據LSF傳遞來的節點分配信息、應用程序運行選項及參數,為并行計算程序制定程序啟動的全部配置,完成作業運行環境的設置。軟件集成定制流程如圖3所示。
3調度系統優化
航空工業某高性能計算中心采用LSF作為作業管理調度系統。隨著計算中心用戶以及任務作業數量的不斷增加,計算任務的種類也變得更加多樣化,根據各個計算任務的緊迫程度以及種類進行優先級別的劃分、資源的限制和分配變得很有必要。
(1)優先級別的劃分
根據航空工業某高性能計算中心用戶使用計算資源進行計算的規律,遵循資源利用率最大化以及用戶等待時間最小化的原則,按照優先級別,在lsb.users中對用戶進行了分組,分別為普通級用戶組、優先級用戶組和獨占資源用戶組。在lsb.queues中為不同優先級別的用戶組定義相應的隊列,并針對用戶分組進行訪問控制,獨占資源用戶組的資源在lsb.hosts中進行單獨定義。
普通級用戶計算的優先等次為普通,作業提交到普通級隊列,優先級別低于優先級用戶,同級別用戶先到先算,保證了普通用戶能夠根據工作需要,有序使用計算資源。
優先級用戶計算的優先等次為優先,作業提交到優先級隊列,優先級別是高于普通級用戶的,同屬該級別的用戶先到先算,這樣既能保證比較緊迫的計算任務優先占用計算資源進行計算,也能使得優先級用戶能夠優先且有序地使用計算資源。
獨占資源用戶區別于普通級用戶和優先級用戶,不需要排隊使用計算資源,而是獨自占用一部分計算資源進行計算,這有效保障了特殊緊迫任務能夠及時使用計算中心資源進行計算,獲得計算結果。
(2)資源的限制
為解決計算中心用戶作業多、相互等待時間長,某用戶長期大量占用計算資源及存儲資源不釋放,導致計算及存儲資源短缺的問題,采取限制單個用戶使用資源的方式來均衡各單位用戶計算作業的有序進行。在lsb.resources文件中的多個Limit段可以配置資源分配限制,Limit段設置不同類型的作業指定的可用資源參數和該限制應用于哪些消費者參數,例如:
除此之外,由于在不同的文件中可以對相同的參數進行限制,從而出現限制沖突。常見的限制沖突有兩種,對于配置在lsb.resources/lsb.users/lsb.hosts/lsb.queues的類似限制,將采用最嚴格的限制。例如,在lsb.resources中為所有用戶配置slot限制為3,在lsb.users中配置的MAX_JOBS為2,兩個限制類似,但不等價,則以lsb.users中配置的限制較為嚴格的參數為準。對于在lsb.resources中的新限制和已有的在lsb.users/lsb.hosts/lsb.queue中的限制等價,但值不同,新的限制將覆蓋已有的限制,在lsb.users/lsb.hosts/lsb. queues等價的限制被忽略,采用在lsb.resources中的新限制。
4資源監控和統計分析優化
高性能計算中心通過shell腳本從AVICNAS和LSF中獲取用戶作業使用資源的數據,并根據用戶的統一身份認證及軟件的種類來對用戶和軟件使用的計算資源進行監控和統計分析,但監控和統計的結果數據難以可視化。為了以友好界面的方式向用戶呈現計算中心使用資源的情況,并且對統計的結果數據進行有效的驗證與分析,開發了一套資源監控與統計分析系統。該系統包含系統監控和分析模塊、系統統計模塊、消息推送和報警模塊、系統運行報告模塊。
系統監控和分析模塊主要針對高性能計算集群運行的作業及節點狀態進行監控,從作業調度系統及系統負載,性能數據采集軟件獲取信息并以HTTPAPI提供集群狀態信息,方便進行二次開發。該系統模塊定期從作業調度系統獲取作業信息更新作業狀態,將作業信息存儲到數據庫中。Web界面從數據庫獲得作業信息數據,所有人都可以通過網頁查看高性能計算集群的作業運行狀態。
該模塊還能以圖表形式顯示集群整體利用率,集群是否可用、是否有故障,以及節點負載狀態等信息。
根據門戶分系統中對作業信息和計算資源信息的統計分析要求,系統統計模塊提供對作業來源信息、作業使用資源信息、作業運行及歷史信息、資源池實時負載信息、資源池運行信息和資源池歷史負載信息的統計分析。該模塊主要包括作業信息統計分析子功能和計算資源信息統計分析子功能。
消息推送和報警模塊確保在系統各項負載達到管理員設定的閾值時通過郵件或是網頁消息的方式發送報警信息給管理員,以便及時處理。
系統運行報告模塊可以根據用戶需求進行定制,自動生成系統使用報告,如圖4所示。
5結論
航空工業某高性能計算中心的運行管理中主要存在命令行提交及管理作業方式限制用戶群,不合理的調度策略導致計算效率低下、資源監控和統計分析結果無法可視化等難點。通過應用軟件集成優化,使得用戶在不經過專業培訓的情況下就能夠快速入門并且直觀簡便地實現對計算中心各種軟件的使用和控制,極大保障了各類用戶群的使用需求;通過調度系統優化,使計算中心的資源得到合理配置和調度,確保用戶都有較好的使用體驗,提高了計算效率及計算資源使用率;通過資源監控和統計分析優化,管理團隊能夠通過報表直觀全面掌握整個計算中心的使用情況,并根據統計數據分析做出科學的決策,提升高性能計算機使用效率,同時接入用戶可以清楚掌握各自作業的運行狀況,并對作業進行優化配置,提高運行效率。
參考文獻
[1]唐川,姜禾,張勐,等.高性能計算國家發展態勢分析[R].中國科學院國家科學圖書館,2008. Tang Chuan,Jiang He,Zhang Meng,et al.Analysis of national development trend of high performance computing[R].National Library of Science, Chinese Academy of Science, 2008. (in Chinese)
[2]顧蓓蓓,顧虹,遲學斌,等.國內外高性能計算應用發展概況分析[J].科研信息化技術與應用,2014,5(4):82-91. Gu Beibei,Gu Hong,Chi Xuebin,et al. Analysis on the development of high performance computing application at home and abroad[J]. Research Information Technology and Application,2014,5(4):82-91. (in Chinese)
[3]李思昆,蔡勛,王文珂,等.大規模流場科學計算可視化[M].北京:國防工業出版社,2013. Li Sikun, Cai Xun, Wang Wenke,et al. Visualization of largescale flow field scientific calculation[M]. Beijing: National Defense Industry Press, 2013. (in Chinese)
[4]陳國良.并行計算-結構?算法?編程[M].北京:高等教育出版社,2012. ChenGuoliang.Parallelcomputing-structure?algorithm? programing [M]. Beijing: Higher Education Press, 2012. (in Chinese)
[5]劉巍,張理論,王勇獻,等.計算空氣動力學并行編程基礎[M].北京:國防工業出版社,2013. Liu Wei,Zhang Lilun,Wang Yongxian,et al. Computational aerodynamicsparallelprogrammingbasics[M]. Beijing: National Defense Industry Press, 2013. (in Chinese)
[6]魏金鐘,白文,田志民,等.航空工業高性能計算和網格應用系統[J].航空科學技術,2011(2):40-43. Wei Jinzhong,Bai Wen,Tian Zhimin,et al.High performance computing and grid[J]. Aeronautical Science & Technology,2011(2):40-43. (in Chinese)
[7]宋萬強,徐悅,徐琳.CFD軟件可視化交互技術在航空領域應用研究[J].航空科學技術,2017(5):63-66. Song Wanqiang,Xu Yue,Xu Lin.Application study of visual interactiontechniquesinaeronauticalCFDsoftware[J]. Aeronautical Science & Technology,2017(5):63-66. (in Chinese)
[8]鐘敏,華俊,孫俠生,等.空氣動力學驗證模型與CFD-風洞數據相關性[J].航空科學技術,2020,31(1):1-16. Zhong Min,Hua Jun,Sun Xiasheng, et al. The correlation between aerodynamics verification model and CFD-wind tunnel data [J].Aeronautical Science & Technology,2020,31(1):1-16. (in Chinese)(責任編輯王為)
作者簡介
白香君(1989-)女,碩士,工程師。主要研究方向:高性能計算。
Tel:18811432330E-mail:baixiangjun@cae.ac.cn
Optimization of Management Technology of a High Performance Computing Center in Aviation Industry
Bai Xiangjun*,Ma Zheng,Song Wanqiang
Chinese Aeronautical Establishment,Beijing 100012,China
Abstract: The HPC center in the aviation industry plays an important role in supporting large-scale and complex system tasks such as digital modeling, simulation and optimization of each access unit,shortening the development period of the project and saving project funds. By means of application software integration optimization,scheduling system optimization,job management technology optimization,resource monitoring and statistical analysis optimization, we can effectively solve the problems in the process of operation and management of the computing center such as single and complex command line job submission and management mode limiting the user group, fixed resource scheduling and allocation principle limiting the calculation efficiency and the improvement of the utilization rate of computing resources,resource monitoring and statistical analysis results which are difficult to be visualized,and provide reference for the management of HPC in the aviation field.
Key Words: HPC; integrate; schedule; statistical analysis; optimize