張 焱, 鄧伯軍, 王 勤
(南京航空航天大學(xué)a.信息化處;b.馬克思主義學(xué)院;c.通用航空飛行科室,南京 210016)
隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)信息爆炸式增長,各領(lǐng)域研究問題的計(jì)算量也大幅提升[1],科學(xué)研究越來越依賴于高性能計(jì)算資源[2]。2022 年國務(wù)院發(fā)布的《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》文件中就曾明確指出,要加快構(gòu)建算力、算法、數(shù)據(jù)、應(yīng)用資源協(xié)同的全國一體化數(shù)據(jù)中心體系,推進(jìn)云網(wǎng)協(xié)同發(fā)展,提升數(shù)據(jù)中心跨網(wǎng)絡(luò)、跨地域的數(shù)據(jù)交互能力。
科學(xué)計(jì)算已經(jīng)成為與理論研究和科學(xué)實(shí)驗(yàn)并列的第3 種科學(xué)研究方法[3]。高性能計(jì)算(High Performance Computing,HPC)作為一種由數(shù)千甚至更多處理器組成的能提供高響應(yīng)效率的并行處理系統(tǒng),能計(jì)算普通計(jì)算機(jī)和服務(wù)器不能完成的大型復(fù)雜數(shù)據(jù)運(yùn)算[4],是開展科學(xué)計(jì)算的主要基礎(chǔ)設(shè)施,是國家科技發(fā)展水平和創(chuàng)新能力的重要標(biāo)志。如高性能計(jì)算能以極低的成本模擬高溫、高壓以及強(qiáng)磁場等極端環(huán)境下研究對象的變化,反復(fù)運(yùn)行來獲取實(shí)驗(yàn)全過程、全時空的變化信息,并對各種條件下的獲得所有數(shù)據(jù)進(jìn)行比較,這些都是真實(shí)實(shí)驗(yàn)無法達(dá)到或?qū)嶒?yàn)代價過于昂貴而被認(rèn)為不值得的[5]。
高校作為科學(xué)研究的主力軍之一,要建成世界一流大學(xué),關(guān)鍵的一條標(biāo)準(zhǔn)就是科研成果和學(xué)術(shù)聲譽(yù)。商業(yè)上的計(jì)算需求,有各種各樣的商業(yè)解決方案可以滿足,但高校科研工作很多找不到更適合商業(yè)云計(jì)算方案,難以馬上落地成技術(shù)。因此,這時學(xué)校如果有超算平臺,就能支持很多基礎(chǔ)科研開展,實(shí)施起來更方便靈活。
我校作為一所包含理、工、管、經(jīng)、哲、法、文、藝等多學(xué)科協(xié)調(diào)發(fā)展的綜合研究型大學(xué)[6],其中,理、工等主要學(xué)科對高性能計(jì)算有著迫切需求[7],特別是在航空航天、動力工程、機(jī)械設(shè)計(jì)、電氣工程、電子信息、材料科學(xué)、人工智能以及數(shù)理分析等學(xué)科領(lǐng)域。目前有多個科研團(tuán)隊(duì)承擔(dān)著國家自然科學(xué)基金和軍事攻關(guān)等研究項(xiàng)目,這都依賴于高性能計(jì)算平臺來承擔(dān)海量的計(jì)算任務(wù)[6]。
高校不少課題組均擁有一定數(shù)量的計(jì)算機(jī),但這些計(jì)算機(jī)由各單位獨(dú)立管理與使用,缺乏專門的機(jī)房及維護(hù)人員[5],導(dǎo)致師生不僅需專注于科研還需考慮機(jī)房基礎(chǔ)設(shè)施(如空調(diào)、配電等)建設(shè)和儀器正常運(yùn)行;此外,分散配置的計(jì)算機(jī)缺乏資源共享,導(dǎo)致多數(shù)設(shè)備重復(fù)購置,沒有科學(xué)合理地利用資源,投資效益高。
基于以上情況,建設(shè)滿足高校學(xué)科發(fā)展的高性能計(jì)算平臺,以“服務(wù)用戶”為理念,充分發(fā)揮集群性能,不斷探索平臺在建設(shè)和管理領(lǐng)域的需求與創(chuàng)新,具有舉足輕重的作用。
隨著高性能計(jì)算需求的增加以及國家、政府、科研機(jī)構(gòu)等對科學(xué)計(jì)算的大力投入,各地的超算平臺如雨后春筍一般蓬勃發(fā)展。相比于公共超算平臺通用性強(qiáng)、易于擴(kuò)展的優(yōu)點(diǎn),高校高性能計(jì)算平臺在數(shù)據(jù)傳輸速率、溝通交互成本以及數(shù)據(jù)安全可控等方面均具有其獨(dú)特的優(yōu)勢。
(1)數(shù)據(jù)傳輸效率高。高校校園網(wǎng)絡(luò)環(huán)境良好,數(shù)據(jù)連接系統(tǒng)完善。隨著信息化水平的提升以及學(xué)校對信息化的投入,多數(shù)高校基于一校多地多校區(qū)的辦學(xué)格局,在各校區(qū)之間實(shí)現(xiàn)全光網(wǎng)絡(luò)互聯(lián),校園主要區(qū)域?qū)崿F(xiàn)F5G與WiFi6 網(wǎng)絡(luò)全覆蓋,進(jìn)一步提升網(wǎng)絡(luò)的實(shí)時性和覆蓋度。其中,我校在各學(xué)院建立計(jì)算室與高性能計(jì)算平臺直連,并通過物聯(lián)網(wǎng)技術(shù)及支持海量設(shè)備鏈接的5G網(wǎng)絡(luò),實(shí)現(xiàn)對各設(shè)備的高效管理,能提供精準(zhǔn)的資源覆蓋,實(shí)現(xiàn)快速接入。
(2)溝通交互成本低。高校高性能計(jì)算平臺建設(shè)的出發(fā)點(diǎn)是服務(wù)師生,助力科學(xué)研究與人才培養(yǎng),因此通常設(shè)有專門的管理服務(wù)中心,聚焦用戶具體業(yè)務(wù)而非平臺本身。校內(nèi)師生可直接與管理人員進(jìn)行交流,以期平臺提供差異化服務(wù)。同時在作業(yè)運(yùn)行期間,任何與平臺有關(guān)的問題均可直接向管理人員反映,溝通交互成本低,應(yīng)急措施快速。
(3)數(shù)據(jù)安全可控。高校信息系統(tǒng)安全穩(wěn)定,網(wǎng)絡(luò)安全管理制度體系完善,用戶權(quán)限管理嚴(yán)格,任何使用平臺的校內(nèi)用戶均需與校內(nèi)統(tǒng)一身份認(rèn)證平臺對接,數(shù)字校園、智慧校園的開展,有效保障了數(shù)據(jù)的機(jī)密性和完整性,數(shù)據(jù)安全可靠。
為支持學(xué)校“雙一流”建設(shè),保障學(xué)校人才培養(yǎng)、科學(xué)研究、學(xué)科建設(shè)等計(jì)算服務(wù)需求,自2018 年開始規(guī)劃建設(shè)高性能計(jì)算平臺。截至2022 年,平臺已陸續(xù)投入使用多套集群,現(xiàn)有計(jì)算總核心數(shù)達(dá)18 996 個,峰值計(jì)算能力為3Pflops,存儲容量達(dá)3PB。集群系統(tǒng)架構(gòu)如圖1 和圖2 所示:

圖2 高性能計(jì)算集群二期系統(tǒng)架構(gòu)
基于高校高性能計(jì)算平臺的優(yōu)勢,為進(jìn)一步提升平臺的服務(wù)支撐能力,吸引校內(nèi)用戶廣泛使用,保障平臺穩(wěn)定、安全、高效運(yùn)行。學(xué)校利用信息化手段,從管理、技術(shù)、服務(wù)以及合作體系4 個方面出發(fā),進(jìn)一步探索平臺協(xié)同化建設(shè)管理模式。
管理制度體系建設(shè)是高校高性能計(jì)算平臺開放共享的基礎(chǔ)性、長期性工作,需要與高校學(xué)科發(fā)展規(guī)劃和文化價值理念相融合,隨著平臺發(fā)展不斷進(jìn)行完善與修訂,持續(xù)進(jìn)行優(yōu)化。
高性能計(jì)算中心制定了“南京航空航天大學(xué)高性能計(jì)算平臺服務(wù)管理辦法”“南京航空航天大學(xué)高性能計(jì)算中心機(jī)房安全管理規(guī)定”“高性能計(jì)算平臺用戶使用手冊”等一系列規(guī)章制度來規(guī)范平臺的開放政策和使用模式[6]。建立“產(chǎn)出導(dǎo)向、鼓勵創(chuàng)新”的激勵機(jī)制,制定“平臺共享實(shí)施細(xì)則”來擴(kuò)展平臺覆蓋范圍,提高平臺利用效率,鼓勵用戶產(chǎn)出優(yōu)質(zhì)成果。如設(shè)立青年教師專項(xiàng)來為符合要求的青年教師提供免費(fèi)機(jī)時支持,緩解青年教師科研經(jīng)費(fèi)壓力,幫助青年教師成長;設(shè)立實(shí)踐教學(xué)專項(xiàng),滿足相關(guān)課程的實(shí)踐需求,助力教學(xué)實(shí)施;設(shè)立平臺共建專項(xiàng),鼓勵用戶研究平臺性能優(yōu)化技術(shù),提升平臺服務(wù)水平;設(shè)立成果獎勵專項(xiàng),為依托平臺開展高質(zhì)量研究、產(chǎn)出高質(zhì)量成果的用戶提供機(jī)時獎勵。
為保證平臺7 ×24 h 持續(xù)穩(wěn)定運(yùn)行,機(jī)房配有一整套智能動環(huán)管理系統(tǒng)[8],包括:溫濕度監(jiān)控、配電間監(jiān)控、漏水監(jiān)測、空調(diào)監(jiān)控、短信提醒、雷電防控、消防報(bào)警等。并利用信息化手段,與管理人員通信設(shè)備相連,對機(jī)房存在的故障問題及時發(fā)送預(yù)警信息,提醒管理人員進(jìn)行相應(yīng)處理,實(shí)現(xiàn)疫情常態(tài)化防控下的遠(yuǎn)程機(jī)房監(jiān)控。圖3、4 分別為高性能計(jì)算平臺的動環(huán)管理系統(tǒng)和實(shí)時監(jiān)控系統(tǒng)。

圖3 高性能計(jì)算平臺動環(huán)管理系統(tǒng)

圖4 高性能計(jì)算平臺實(shí)時監(jiān)控系統(tǒng)
平臺堅(jiān)持“客戶思維”,簡化用戶開戶、技術(shù)協(xié)議簽訂以及資源申請流程,改紙質(zhì)為線上辦事大廳辦理[9],讓“數(shù)據(jù)多跑路,師生少跑腿”,提高平臺使用效率,降低管理成本。技術(shù)協(xié)議簽署流程如圖5 所示,平臺開放共享專項(xiàng)申請流程如圖6 所示。

圖5 技術(shù)協(xié)議簽署流程

圖6 平臺開放共享專項(xiàng)申請流程
除此之外,平臺技術(shù)人員還創(chuàng)新性的使用圖形化管理系統(tǒng),讓用戶無須撰寫復(fù)雜的腳本即可提交和運(yùn)行作業(yè),方便用戶使用。同時不斷升級動態(tài)資源調(diào)度技術(shù),對項(xiàng)目周期短,社會價值高的任務(wù)優(yōu)先提供資源;對項(xiàng)目周期長,平臺性能要求低的任務(wù)降低作業(yè)優(yōu)先級,保證用戶公平合理地共享集群資源,提高系統(tǒng)利用率和吞吐率[10]。
高性能計(jì)算平臺與其他儀器設(shè)備不同,沒有固定的操作規(guī)程,用戶不同,具體需求則不同[11]。平臺管理人員根據(jù)用戶類別進(jìn)行細(xì)分,創(chuàng)辦難度不等的培訓(xùn)班,撰寫對應(yīng)《用戶使用手冊》[6],提供更精準(zhǔn)的差異化服務(wù)。針對剛開始接觸平臺的新用戶加強(qiáng)宣傳、培訓(xùn)與服務(wù),幫助其盡快掌握一些高性能計(jì)算的基礎(chǔ)知識[12];針對科研產(chǎn)出率高的用戶進(jìn)行重點(diǎn)服務(wù)與支持,甚至特別定制適合用戶使用的操作系統(tǒng)[12];針對自己開發(fā)軟件的用戶提供深入開發(fā)幫扶[12],鼓勵中心技術(shù)人員積極參與,協(xié)同創(chuàng)新。
平臺還定期與用戶組織交流會,了解用戶在使用過程中所遇難題及期望平臺所能提供的服務(wù),分析撰寫“用戶常見問題與解答”等技術(shù)文檔[6],幫助用戶了解高性能計(jì)算的專業(yè)知識,并逐步升級平臺性能,提供更優(yōu)質(zhì)的服務(wù)。
為培養(yǎng)具有較高學(xué)術(shù)水平和創(chuàng)新能力的高性能計(jì)算人才,提高后備儲蓄力量,平臺與研究高性能計(jì)算相關(guān)的課題組和學(xué)院展開合作,為他們免費(fèi)提供場地、實(shí)驗(yàn)數(shù)據(jù)和設(shè)備資源,組成創(chuàng)新開發(fā)團(tuán)隊(duì),共同探索資源調(diào)度方法以及軟硬件協(xié)同配置方案。同時,在團(tuán)隊(duì)老師的帶領(lǐng)下共同申報(bào)國家、省部級重大項(xiàng)目,尋找最佳平臺建設(shè)方案,達(dá)到合作共贏,協(xié)同發(fā)展的新態(tài)勢。
同時,平臺管理人員還將當(dāng)前領(lǐng)域內(nèi)的重大熱點(diǎn)引入校園,定期組織有關(guān)的學(xué)術(shù)報(bào)告,讓學(xué)生對新興熱點(diǎn)技術(shù)有所了解[13];開展高性能計(jì)算大賽,鼓勵全校師生積極參與[14],豐富校園學(xué)術(shù)氛圍,推廣平臺使用;在滿足校內(nèi)用戶服務(wù)需求的前提下,與大規(guī)模超算平臺互動,實(shí)現(xiàn)資源的有效整合,從資源池中獲取支持,保證高校計(jì)算平臺的可持續(xù)發(fā)展,自我造血;加強(qiáng)與兄弟院校、研究所、企業(yè)之間的交流合作[6],充分發(fā)揮各專業(yè)聯(lián)合優(yōu)勢,實(shí)現(xiàn)“產(chǎn)、教、學(xué)、研”多元一體化共享平臺建設(shè),為國家和地方經(jīng)濟(jì)提供計(jì)算服務(wù)。
高性能計(jì)算平臺自2020 年6 月投入使用以來,師生廣泛參與,覆蓋了全校所有理工科學(xué)院和專業(yè)技術(shù)部門,2021 年用戶數(shù)即超過400 人,完成作業(yè)量超過90 萬件,服務(wù)項(xiàng)目數(shù)超290 個,其中與航空航天相關(guān)的學(xué)科使用尤為明顯。如圖7、8 分別為2021 年學(xué)校高性能計(jì)算平臺的用戶分布和項(xiàng)目分布情況。

圖7 2021年南航高性能計(jì)算平臺用戶分布

圖8 2021年南航高性能計(jì)算平臺項(xiàng)目分布
同時,高性能計(jì)算平臺作為計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院一級學(xué)科的重要平臺以及學(xué)校籌建“先進(jìn)計(jì)算產(chǎn)業(yè)學(xué)院”的重要載體,面向全校師生開展“跨學(xué)科實(shí)驗(yàn)室探索”教學(xué)活動,為近1 000 名學(xué)生提供教學(xué)支撐,助力人才培養(yǎng)。
高性能計(jì)算平臺建設(shè)是新世紀(jì)高校學(xué)科建設(shè)和人才培養(yǎng)的重要組成部分[15]。學(xué)校從高校平臺數(shù)據(jù)傳輸效率高、溝通交互成本低、數(shù)據(jù)安全可控等優(yōu)勢出發(fā),以信息化技術(shù)為手段,進(jìn)一步探索平臺在管理體系、技術(shù)體系、服務(wù)體系以及合作體系四大方面的創(chuàng)新,以期提高平臺開放共享能力,為用戶提供更好的服務(wù)。實(shí)踐結(jié)果表明,協(xié)同化的平臺建設(shè)模式能有效提高資源的利用效率和支撐學(xué)校人才培養(yǎng)。