游偉倩 盛樂標 張予倩
摘 要:2016年,南京大學高性能計算中心新建了一套大規模高性能計算集群系統。本文詳細闡述了該套大型高性能計算集群系統的搭建過程。該套集群的各項存儲以及Linpack測試結果,皆表明南京大學高性能集群系統的優良性能。
關鍵詞:高性能計算 集群建設 Linpack測試 系統測試
中圖分類號:G642 文獻標識碼:A 文章編號:1674-098X(2018)02(a)-0126-02
高性能計算(High Performance Computing, HPC)主要致力于開發超級計算機,提高并行計算效率。高性能計算集群主要用于處理復雜的科學計算問題。近些年,高性能計算發展非常迅速[1-6],高性能計算涉及的領域越來越寬廣,由此各地的高性能計算機群也應運而生[7-10]。南京大學高性能計算中心[11]自2010年成立以來,先后搭建兩套高性能計算機群。第一套IBM刀片集群于2009年建成,集群總的計算節點有402個,總計3216個核。由于這套設備不足以滿足校內科研用戶的計算需求。
1 Flex集群硬件配置
由南京大學Flex集群系統拓撲圖見圖1,該系統包含:
(1)管理節點配置:1臺管理節點,負責系統的軟硬件管理和系統部署,所配的型號為x3650 M5。
(2)作業調度節點配置:三臺x3650 M5的作業調度節點,作業調度節點運行Platform LSF作業調度系統,其中一個節點運行Platform LSF的主調度程序,另外兩個節點運行LSF從調度進程,三個節點組合保證了調度系統的高可用。
(3)登陸節點配置:4個聯想Flex x240 M5登錄節點,負責所有用戶登錄集群,進行源文件的編輯、編譯以及提交作業使用。
(4)計算節點配置:總計910臺Lenovo System Flex X240 M5刀片節點,共21840個CPU核,總CPU計算能力達873Tflops。可以滿足大規模科學計算需求。
(5)其他硬件配置:KVM系統,本系統通過一套LCM8 KVM系統作為系統安裝調試的顯示。因為所有節點IMM管理接口都接入到硬件管理網絡,所有刀片節點和機架節點通過IP管理和訪問。顯示系統,本系統配置1臺筆記本電腦,作為系統管理的顯示端。還配置大屏幕顯示器2臺,型號為于Sony KDL-75W850C,壁掛安裝。機柜,本系統配置滿足系統使用的42U機柜和相對應的PDU模塊及相關線纜。
2 Flex集群軟件配置
本中心接入校園萬兆光纖至交換機,2條萬兆線路接入登錄刀片中心交換機。通過登錄節點登錄集群,集群軟件配置如下。
(1)操作系統:本系統操作系統為Red Hat V6.7 。
(2)并行文件系統:本系統配置的并行文件系統為GPFS,GPFS是一種專門為群集環境設計的高性能、可擴展的并行文件系統。GPFS可以在群集中的多個節點間實現快速存取,為HPC系統在多節點實現單一的文件名空間和文件系統之間實現性能擴展和故障恢復。
(3)作業管理系統:IBM Spectrum LSF作業調度軟件10.1.0.0。采用LSF作業調度系統進行調度管理,可以合理分布資源,除了一般的作業管理特性外,它還在負載平衡、系統容錯、系統監視等方面發揮重要的作用。
(4)編譯軟件:目前Flex集群系統上已經安裝的編譯軟件有Intel C version 17.0.1.132、Intel Fortran version 17.0.1.132、gcc version 4.4.7、gcc version 4.9.4、gcc version 5.4.0、openmpi version 1.10.1、openmpi version 2.0.1(intel編譯器編譯)。
(5)IBM Spectrum LSF RTM系統,該系統是面向IBM Spectrum LSF的一個管理系統,可以全面監控、報告和管理工作負載。
(6)LICO集群管理監控軟件:可以利LICO 監控界面查看整個集群的狀態顯示。
(7)LDAP用戶管理軟件:可以通過ldap admin圖形化工具及openldap命令兩種方式進行管理。
3 Flex集群性能測試結果
3.1 ESS存儲iozone性能測試
iozone是一個文件系統的benchmark工具,可以測試不同的操作系統中文件系統的讀寫性能。Flex集群ESS存儲聚合帶寬性能測試結果如表1:單位:(GB/s)
3.2 SSD存儲iozone性能測試
同SSD性能測試一樣,ssd存儲存儲聚合帶寬性能測試結果如表2,15臺IO server測試結果如下:單位:(GB/s)
3.3 Flex集群系統Linpack測試報告
硬件環境:計算節點,共有910臺IBM Flex System x240服務器,每臺服務器配置兩路E5 2680v3 2.5GHz 12核處理器,128GB內存,使用FDR Infiniband互連。測試時采用899臺節點測試結果最優。
軟件環境:Intel Parallel Studio 2017。
測試結果:集群理論浮點計算峰值為
2.5×16×24×899=863040GFlops。
實測結果:687147GFlops。
效率:687147/863040*100%=79.62%。
由上述測試結果可見:ESS存儲系統IO讀寫速度大于等于18GB/s,SSD并行存儲IO讀寫速度大于等于80GB/s,Linpack測試結果為79.62%。眾所周知,由于在超大規模集群系統中,存儲的IO性能是整個計算系統的最大瓶頸, 而我們這兩套存儲系統不論在存儲容量上和IO讀寫帶寬上都達到了很高的標準,為整個系統安全、可靠、高效的運行提供了強有力的保障。
4 結語
南京大學高性能計算中心一直走在高校高性能計算的前沿,本文以“中心”新建的Flex集群系統為對象,詳細闡述了整個系統的構架以及各個硬件系統配置。最后給出該套系統的測試結果,這些測試指標證明該套系統的性能優越性。Flex集群系統共計包括兩萬多個核數,目前規模在國內高校位列第一,由于其規模巨大且性能高,勢必將為南京大學乃至全國的從事高性能計算的科研人員或企事業單位作出更好的計算服務,也為國內的高性能計算發展起到一個良好的帶頭作用。
參考文獻
[1] 黃建忠,張滬寅,程媛.開放式高性能計算平臺的建設與研究[J].計算機教育,2012(22):55-59.
[2] 遲學斌,趙毅.高性能計算技術及其應用[J].學科發展,2007,22(4):306-313.
[3] 周興銘.高性能計算技術發展[J].自然雜志,2011,33(5):249-254.
[4] 李紅梅.Linux高性能計算集群的設計與實現[J].計算機工程應用技術,2008(14):971-973.
[5] 李波,曹福毅,王祥鳳.高性能計算機技術發展概述[J].沈陽工程學院學報,2012,8(3):252-254.