

摘? 要:為支持國家重大科技專項大型先進壓水堆核電站等非能動核電的研發與設計,設計實現大型非能動核電軟件計算平臺是比較緊迫的任務。本文結合非能動核電燃料和堆芯設計軟件系統平臺的現狀,利用LSF集群計算技術,設計了一套高性能計算平臺,實現了統一入口、統一賬戶、統一數據存儲,達到了硬件資源、軟件資源和數據資源的高效使用。與商業計算機軟件集成不同的是,其需集成的軟件數量眾多,遠遠超過一般國家級高性能計算中心的應用軟件數量,且該軟件為非能動核電專有軟件,軟件開發方沒有為軟件的分布式計算提供開放透明的接口,需要逐個探索評測改進軟件的集成開發工作,該課題組完成主要軟件的集成開發工作,有力地支撐了AP1000依托項目設計分包項目、CAP1000、CAP1400等非能動核電的研發與設計工作。
關鍵詞:非能動核電;計算集群;LSF
中圖分類號:TP311;TP338.8? ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)07-0001-05
Abstract:In order to support the development and design of large-scale advanced pressurized water reactor (PWR) nuclear power plants and other passive nuclear power plants,it is an urgent task to design and implement a large-scale passive nuclear power software computing platform. In this paper,a high performance computing platform is designed based on LSF cluster computing technology,which combines the status of the software platform for passive nuclear fuel and core design. It realizes unified access,unified account and unified data storage,and achieves the efficient use of hardware resources,software resources and data resources. Different from the integration of commercial computer software,the number of software it needs to integrate is large,far exceeding the number of applications in general national high performance computing centers,and the software is proprietary software for passive nuclear power. The software developer does not provide an open and transparent interface for distributed computing of software,so it is necessary to explore and evaluate the integrated development of improved software one by one. Complete the integrated development of main software,strongly support AP1000 relying on project design subcontracting project,CAP1000,CAP1400 and other passive nuclear power research and development and design work.
Keywords:passive nuclear power;computing cluster;LSF
0? 引? 言
國家重大科技專項大型先進壓水堆核電站等非能動核電的研發與設計的計算任務量和核電仿真軟件精細度不斷提高,當前核電燃料和堆芯設計軟件平臺面臨諸多問題[1,2]。上海核工程研究設計院有限公司(以下簡稱“上海核工院”)作為承擔第三代核電技術引進消化吸收和再創新重任的國家核電技術公司的核心單位,通過對AP1000技術的消化和吸收,在核電燃料和堆芯設計軟件平臺方面積累了寶貴經驗,并積極探索非能動核電燃料和堆芯設計軟件平臺的技術方案[3-7]。筆者認為需亟待研究的課題至少有以下三個:第一,將軟件系統升級為高性能并行計算集群系統;第二,AP1000軟件與現有軟件的有效整合問題;第三,軟件運行的安全問題[8]。此論文為第一個課題的研究成果。
1? 核電燃料和堆芯設計軟件系統介紹及其面臨的問題
核電燃料和堆芯設計是AP1000技術的關鍵領域,也是AP1000技術密集度較高和技術更新最快的領域。從2007年起,西屋電氣公司逐步向國家核電技術公司交付AP1000軟件,燃料和堆芯設計軟件是由西屋電氣公司核燃料和堆芯設計事業部開發和維護的,運行在一套獨立的軟件系統平臺之上。上海核工院有多套軟件系統,每套系統都是獨立運行的。其面臨的主要問題如下:第一,硬件資源利用率低。硬件資源的使用處于分散狀態,在部門及項目團隊之間難以建立合理機制進行協調工作,大量計算任務基本靠用戶個體之間協調,應用效率低下。第二,高負載軟件運行“撞車”問題。關鍵軟件屬于典型的CAE計算軟件,在運行時占用非常高的負載,不同用戶的作業同時運行,降低了作業的執行效率,例如當一個用戶的ANC作業在一臺機器上運行的時候,另一個用戶在不知情的情況下使該機啟動了ANC或NEXUS等計算量很大的作業,兩個作業會因為“撞車”而導致作業執行速度下降,運行時間過長。第三,平臺對較舊版本的兼容問題。由于軟件升級頻繁,平臺對很多舊版軟件兼容性不好,用戶調用較舊版本的軟件往往會出現問題。
另外,AP1000核電燃料和堆芯設計平臺的軟件集成工作的工作量和技術難度非常大。這主要體現在以下三個方面:第一,數量眾多,包含輔助軟件總計達近百個(不計軟件重復版本)。第二,該平臺的技術領域進步很快,大約每4個月更新一個版次關鍵軟件,平均大約15個月升級一次平臺的操作系統版本,這遠遠超過一般商業計算仿真軟件更新迭代的速度。第三,集成接口不透明,與ANSYS等商用軟件開放集群分布式計算的接口不同,軟件開發方沒有為軟件的分布式設計提供開放透明的接口,需要逐個不斷地探索、評測,不斷改進軟件的集成開發工作。
2? 基于LSF集群系統的分布式計算平臺設計
2.1? 基于LSF集群系統
基于集群的分布式計算,由高速網絡將同一或不同地理位置的計算機和應用軟件連接起來,使用并行計算管理軟件形成一個松散耦合的并行計算系統,統一協調地解決計算問題[9]。LSF(全稱“Load Sharing Facility”)原是加拿大Platform Computing公司(現被IBM公司收購)基于Toronto大學的Utopia系統研制和開發的一個用來管理分布式資源的工具[10],被很多大型分布式及計算使用,例如,上海超級計算中心的“魔方”高性能計算平臺[11](運算能力達230萬億次,在2008年11月公布的TOP500全球超級計算排名中名列世界第十一、亞洲第一)和國家超級計算深圳中心(深圳云計算中心)的“星云”高性能計算平臺[12](運算能力達3000萬億次,在2010年11月公布的TOP500全球超級計算排名中名列世界第三)就采用了LSF的技術方案。
LSF集群系統的分布式計算結構如圖1所示,此結構包含3類節點,分別為提交節點(submission host)、管理節點(master host)和處理節點(execution host,也稱計算節點)。一個作業在LSF集群系統中的完整調度過程分為:提交作業、調度作業、分發作業、運行作業、返回輸出和返回結果到提交節點等6個過程[13]。
2.2? 總體設計
在總體設計中,由于目前擁有超過20個計算節點,為降低管理節點的負載,將管理節點設置為用戶登錄節點(即平臺訪問入口)和平臺管理節點(用于管理員軟件安裝調試、Master Host等);根據軟件版本的不同,將計算節點進行分組;計算平臺的管理網絡與計算網絡相分離,計算網絡一般采用高速InfiniBand網絡,以提高整個系統IO效率。將存儲設置為高性能存儲和普通存儲,其中,高性能存儲可為Lustre[14],在開展計算量很大的任務時極大地提高了計算效率。Lustre與GPFS[15]均為并行文件系統的解決方案,被著名超算中心使用,例如,Titan[16]采用Lustre管理數據和存儲資源,天河系列超級計算機[17]在Lustre的基礎上輔以H2FS實現異構存儲資源的管理。平臺總體設計架結構如圖2所示。
2.3? 設計評估
此平臺的設計評估如下:
(1)LSF統一管理調度所有作業,解決了硬件資源利用無序、低效和應用程序相互沖突的問題;
(2)LSF作業優先管理方案解決了資源調度與項目匹配脫節的問題;
(3)按軟件版本將計算節點進行分組,用戶在使用軟件時,將調用支持相關版本的計算節點。
因此,該平臺的設計基本解決了該論文第1部分提出的主要問題。
3? 平臺的實現與應用效果模擬分析
平臺采用了6臺惠普HP BL406Gen7設備的計算環境、系統配置等內容如表1,其中計算節點運行軟件ANC版本9.4.0和VIPRE-W版本7.11.1。
與ANSYS等商用軟件開放集群分布式計算的接口不同,核電燃料和堆芯設計軟件需深入研究和不斷探索與LSF等軟件的集成工作。在配置完成后,運行LSF命令bhosts顯示集群狀況,如圖3所示。
4? 應用效果模擬分析
為簡化模擬分析的復雜度,忽略平臺分配作業等系統時間和舊平臺作業撞車導致作業運行時間過長等因素,現使用ANC版本940的一個算例進行模擬分析。其具體方法如下:
(1)編制一個將該算例運行960次的程序腳本;
(2)使用EXCEL函數RANDBETWEEN產生1至4的隨機整數,隨機分配到4個計算節點;
(3)將上述腳本運行5遍,產生模擬實驗數據。
而LSF將960次作業平均分配到4個計算節點,每個節點可同時運行12個作業,一個算例運行時間為66秒,共運行1320秒。該模擬實驗結果詳見表2,LSF的作業調度系統將提高平臺的計算效率。
5? 軟件的集成開發工作
AP1000核電燃料和堆芯設計平臺的軟件集成工作工作量和技術難度非常大。這主要體現在以下三個方面:第一,數量眾多,包含含輔助軟件總計達近百個(不計軟件重復版本)。第二,該平臺的技術領域進步很快,大約每4個月更新一個版次關鍵軟件,平均大約15個月升級一次平臺的操作系統版本,這遠遠超過一般商業計算仿真軟件更新迭代的速度。第三,集成接口不透明,與ANSYS等商用軟件開放集群分布式計算的接口不同,軟件開發方沒有為軟件的分布式設計提供開放透明的接口,需要逐個不斷地探索、評測,以改進軟件的集成開發工作。
軟件集成開發主要將軟件用戶和系統管理人員從Linux Shell命令行里解脫出來,通過Web界面與系統交互。IBM Platform Application Center(簡稱“PAC”)是一個為LSF集群而設計Web Portal門戶,它主要包含作業及其數據管理、應用集成模板、用戶與安全管理、遠程可視化和集群狀態監控、用戶定制化開發等功能。由于篇幅限制,下面僅介紹應用模板的集成工作。
5.1? 軟件模板集成開發步驟
在Web Portal創建軟件應用模板主要包括以下幾個步驟:
(1)創建應用軟件的應用模板;
(2)定義應用模板內域元素的依賴關系;
(3)自動探測和上傳輸入文件、數據文件等;
(4)在應用表單里增加使用介紹頁面。
5.2? 圖形交互軟件的集成開發
近來富客戶端技術的發展,尤其是WebSocket技術的開發,Web程序的交互能力和表現效果逐漸增強,越來越多的應用逐漸從C/S模式轉變為B/S模式。在評測了VNC、TurboVNC、NICE Desktop Cloud Visualization(DCV)、HP Romote Graphics Software(RGS)和Exceed onDemand(EoD)后選擇了Exceed onDemand(EoD)實現對遠程2D/3D圖形進行交互的技術方案,其原因如下:
(1)在Linux平臺其安全性、便利性、高效性表現出眾;
(2)可同時支持OpenGL圖形和GPU共享的應用程序接口;
(3)實現對向用戶直接推送交互的應用界面,而不是通過推送桌面間接實現。
PAC和Exceed onDemand的融合可以實現2D/3D任務的圖形化集中管理和調度,從PAC上可以實現2D/3D任務的建立、提交、運行、暫停、終止、查看等全程監控及管理。通過這種方式可以共享計算資源和應用許可證,提高資源的利用率和減少硬件和軟件的支出。圖5為PAC和Exceed onDemand的集成架構。
BEACON是堆芯在線監測分析程序,利用中子學模型和堆芯實時數據進行堆芯的監測、分析和預測,可提供堆芯實時3D功率分布,是一款典型的可視化交互式軟件,其集成開發的效果見圖6所示。
6? 結? 論
本文通過分析核電燃料和堆芯設計軟件平臺的不足,提出了非能動核電燃料和堆芯設計軟件系統平臺的設計方案,并實現了平臺與部分軟件的初步集成。這將為非能動核電燃料和堆芯設計剩余軟件的集成工作提供重要參考,也為核電研發設計行業、設備制造行業、政府監管部門的AP1000設計軟件的用戶提供有益借鑒。下一步將研究如何為非能動核電燃料和堆芯設計軟件構建高性能并行計算集群平臺監控和統計分析及后續課題內容。
參考文獻:
[1] 葉成,鄭明光,王勇,等.AP1000非能動安全殼冷卻水WGOTHIC分析 [J].原子能科學技術,2013,12(47):2225-2230.
[2] 王國棟,王喆,扈本學,等.應用DAKOTA程序耦合WGOTHIC程序進行安全殼壓力響應敏感性分析 [J].原子能科學技術,2015,49(12):2176-2180.
[3] 鄭明光,葉成,韓旭.新能源中的核電發展 [J].核技術,2010,33(2):81-86.
[4] 吳劍鳴.核電技術和產業發展的動向 [J].自動化儀表,2010,31(8):1-5.
[5] 繆鴻興.AP1000先進核電技術 [J].自動化博覽,2009(8):32-35.
[6] 歐陽予.核能和平利用的發展歷程與前景展望 [J].電氣技術,2009(8):16-21.
[7] 鄭明光.從AP1000到CAP1400,我國先進三代非能動核電技術自主化歷程 [J].中國核電,2018,11(1):41-45.
[8] 劉海永.第三代核電燃料和堆芯設計軟件系統的研究 [J].計算機光盤軟件與應用,2012(14):198+200.
[9] 何軍.PowerScript語言·事件·函數 [M].北京:電子工業出版社,2004.
[10] GJB 2634-96,飛機電網設計通用要求 [S].北京:國防科技大學工業委員會,1996.
[11] TOP500.org. Shanghai Supercomputer Center [EB/OL].https://www.top500.org/site/49697,2008-11-02.
[12] TOP500.org. National Supercomputing Centre in Shenzhen(NSCSE) [EB/OL].https://www.top500.org/system/176819,2010-11-01.
[13] Platform Computing Inc. Administering PlatformTM LSFTM [OL].http://www.ccs.miani.edu/hpc/lsf/7.0.6/admin/terms.html,2009-08-31.
[14] 莊園.基于Lustre文件系統MPI-I/O優化的改進與實現 [D].濟南:山東大學,2017.
[15] 張新諾,王彬.GPFS文件系統的安裝配置與維護 [J].計算機技術與發展,2018,5:174-178.
[16] Cluster File System,Inc. Lustre:A scalable,high-performance file system [R].New York:Cluster File System,Inc,2012.
[17] 周恩強,張偉,董勇,等.面向分層混合存儲架構的協同式突發緩沖技術 [J].國防科技大學學報,2015,1(37):47-52.
作者簡介:劉海永(1981-),男,漢族,河南柘城人,工程師,碩士,研究方向:信息系統、高性能計算和云計算。