孟玲玲
(河南師范大學 網絡中心,河南 新鄉 453007)
高性能計算集群系統建設與運行管理研究
孟玲玲
(河南師范大學 網絡中心,河南 新鄉 453007)
高性能計算集群系統是一種投入較大、設備更新速度較快的大型儀器設備系統。探討了以科學計算為基礎的高性能計算集群系統建設、高效運行及可持續維護管理問題。以河南師范大學高性能計算中心為例,對中心高性能計算集群系統建設經驗及特點進行了介紹。
高性能計算;集群建設;作業調度;安全管理;運維管理
河南師范大學網絡中心于2014年成立了高性能計算中心,簡稱HPC。 HPC中心是一個硬件先進、功能齊全、資源豐富,面向全校師生提供高性能計算服務的開放性公共基礎設施。HPC中心搭建了高可靠、運行良好的HPC集群系統,該系統由硬件系統、軟件管理系統、環境監控系統3部分構成,采用機架式,可動態擴展,運營以來大大改善了科研人員從事大型數值模擬計算的硬件條件,本文對系統合理建設、高效利用和有效管理進行了探討。
高性能計算(High-performance computing)是計算機科學的一個分支,它致力于開發超級計算機,研究并行算法,開發相關軟件。高性能計算集群主要用于處理復雜的計算問題,應用在需要大規模科學計算的環境中,如天氣預報、石油勘探與油藏模擬、分子模擬、基因測序等。本文研究內容是高性能計算集群系統[1-6]。高性能計算集群上運行的應用程序一般使用并行算法,把一個大的普通問題按照一定的規則分為許多小的子問題,在集群內的不同節點上進行計算[7],而這些小問題的處理結果,經過處理可合并為原問題的最終結果。這些小問題的計算一般可以并行完成,從而縮短問題的處理時間。高性能計算集群在計算過程中各節點是協同工作的,它們分別處理大問題的一部分,并在處理中根據需要進行數據交換,各節點的處理結果都是最終結果的一部分。高性能計算集群的處理能力與集群規模成正比,是集群內各節點處理能力之和。
1.1 HPC集群硬件配置
河南師范大學高性能網格計算平臺硬件為IBM Flex System刀片服務器,其體系結構(見圖1)為高性能計算集群架構,平臺由140臺IBM Flex System X240兩路刀片服務器計算節點、2臺管理和登錄節點以及高性能存儲系統組成,所有節點通過56Gb Infiniband高速網絡連接。該計算平臺浮點運算次數理論峰值達到39.424TFlops,存儲能力為120 TB(60*2TB NL SAS)。此外還有機柜、供電系統、布線系統、散熱系統、主控制臺等。
1.2 軟件配置
登陸節點機器名:login;登陸節點地址:sc.htu.cn(校內直接登陸,校外須使用VPN后登陸);運算節點名:c01n01-c10n14;各節點配置:兩個Intel XEON E5-2660 8核主頻2.2GHz CPU(共16核)、32GB內存及300GB SAS硬盤;計算網絡:56Gbps InfiniBand高速計算網和千兆以太網;管理網絡:千兆以太網;操作系統:x86_64架構的64位RHELS6.4-x86_64;編譯器:Intel、PGI和GNU等C/C++ Fortran編譯器;數值函數庫:Intel MKL;并行環境:Intel MPI和Open MPI等,支持MPI等分布式內存程序:節點內和節點間;OpenMP等共享內存程序:節點內;資源管理和作業調度:IBM Platform LSF。
1.3 HPC集群特點
高性能計算集群具有以下特點:①高可用性。本身互為冗余節點,能夠為用戶提供不間斷服務。系統包括了多個結點,當一個結點出現故障時,整個系統仍然能繼續為用戶提供服務;②高可擴展性。在集群系統中可以動態加入新的服務器,刪除需要淘汰的服務器,從而能夠最大限度地擴展系統以滿足不斷增長的應用需要;③多用戶和多任務。Linux系統是一個分時多任務環境,它可以同時做多個事情。Linnux系統可以處理一個用戶的多個要求,并支持多人同時活動。

圖1 HPC集群系統結構
HPC集群是置于網絡中的一臺具有服務器功能,并能進行大型數值模擬計算的大型設備,按照用戶需求,此設備需要7×24小時×365天不間斷運行。因此,網絡運行和安全運維管理非常重要。采取LSF作業管理系統進行調度管理,合理分布資源池;同時采取一系列的安全和運維管理,以保證系統更好地為科研服務。
2.1 LSF作業管理系統
HPC集群系統采用LSF(Load Sharing Facility)作業管理系統(見圖2)運行。LSF是分布資源管理工具[4-7],用來調度、監視、分析聯網計算機負載、故障分析、作業提交與管理、資源管理、系統監視等功能。河南師范大學HPC中心采用IBMPlatformLSFV9.1進行資源作業。

圖2 HPC集群系統管理、作業調度及運行監控
根據用戶作業提出的需求分配對應資源給作業,避免作業間無序干擾,盡量使整個系統負載均衡,保證用戶占用資源公平。鑒于LSF作業調度在集群管理系統的重要地位,制定了高性能計算集群使用規范,基本原則是:
(1) 所有需要運行的作業必須通過作業提交命令bsub提交。
(2) HPC要求用戶在使用集群系統時,一律通過安裝在相應集群上的作業管理系統提交作業,進行計算,不可繞過作業管理系統使用超算集群。
(3)作業應提交到合適隊列,鼓勵提交運行時間短的作業。
(4)提交后可利用相關命令查詢作業狀態。
2.2 HPC集群安全管理
為保證集群系統運行安全,防止物理因素、自然因素和人為因素對集群的破壞,HPC中心為集群系統建設了標準機房,配備機房空調冷風道設施,常年保持標準溫度;配備不間斷電源UPS,以保證短時間停電等突發狀況下不影響系統正常工作;在不得不關機的情況下,系統能夠將用戶的程序截斷、保存、再恢復。保證用戶作業公平合理,共享計算資源,提高計算資源利用率和作業吞吐量,同時保障計算資源7×24×365不間斷運行。具體措施有:①用戶應自覺遵守有關保密制度,不利用高性能計算中心計算資源泄露國家機密,或從事違法犯罪活動;②不擅自轉讓、出借用戶帳號,將口令隨意告訴他人;也不借用他人帳戶使用計算資源;③不使用軟件或硬件方法竊取他人口令,非法入侵他人帳戶,閱讀他人文件,竊取他人計算研究成果或受法律保護的資源;④自覺遵守國家有關保護知識產權的各項規定,不在高性能計算中心集群上擅自復制和使用未經授權的程序和文件,擅自傳播或拷貝享有版權的軟件,違反者責任自負;⑤用戶不得利用高性能計算中心制造和傳播計算機病毒;禁止破壞數據、破壞程序或其它行為;⑥用戶應對自己的作業和結果安全負責,防止發生數據損壞、丟失和泄密事故。
2.3 HPC集群運維管理
HPC中心要求設備管理人員必須站在信息化建設前沿,積極參加高性能計算研討會,及時了解設備管理更新升級信息,使儀器設備維護管理科學化、規范化、先進化[3];加強日常檢查,要經常查看系統日志文件并分析,從中發現問題,及時解決問題。定期檢查,確保設備處于正常工作狀態。根據硬件設備報警信息判斷出現問題設備,發現問題及時解決;做好設備檢查和維護記錄,對于設備經常發生的故障要熟練掌握解決方法,及時排除故障。
HPC中心通過Web瀏覽器使用局域網、VPN(虛擬專用網絡)、互聯網訪問計算資源。通過定制的Web portal集成用戶各類應用軟件(包括用戶自編軟件)。無需安裝客戶端,終端用戶通過圖形界面就能完成作業遞交、文件傳輸、作業中間結果在線查看、過往作業查詢等工作,大大方便了用戶使用。
河南師范大學HPC中心,通過合理的集群系統運行和管理制度執行,構建了一個良好的適用于科研的HPC平臺,為科研工作作出了貢獻。為了更好地服務于廣大師生,還需要進一步加強HPC中心建設,認真學習設備生產商提供的各項技術資料,滿足科研工作者更多需求。
[1] 關偉豪,吳汝明,郭清順,等.中山大學高性能計算服務平臺的建設[J].實驗技術與管理,2011,8(4):303-306.
[2] 黃建忠,張滬寅,程媛.開放式高性能計算平臺的建設與研究[J].計算機教育,2012(22):55-59.
[3] 初建崇,韓海濤,張來紅,等.新形勢下提升教學儀器設備保障管理能力研究[J].實驗技術與管理,2013,30(6):217-219.
[4] 安喜鋒.高性能計算集群管理系統與作業調度技術研究與實現[D].西安:西北工業大學,2005.
[5] 李薛劍.高性能計算平臺在高校中的應用及服務模式探索[J].電腦知識與技術,2015(1):42-43.
[6] 林皎,張武生,徐偉平.高性能計算平臺開放服務的探索與實踐[J].實驗技術與管理,2012,29(3):334-336.
[7] 王陽,周智力,盧康.高性能計算集群調度策略優化及應用程序并行效率研究[J].硅谷,2013(20):31-32.
(責任編輯:杜能鋼)
孟玲玲(1984-),女,河南正陽人,碩士,河南師范大學網絡中心助理工程師,研究方向為高性能計算、數值代數與圖像處理。
10.11907/rjdk.162690
TP319
A
1672-7800(2017)003-0138-02