搭建高性能計(jì)算集群平臺(tái)探討

2021-12-19 23:47:35李淑倩楊敏董玉敏侯波

電腦知識(shí)與技術(shù) 2021年32期

關(guān)鍵詞：探討

李淑倩楊敏董玉敏侯波

摘要：隨著全球計(jì)算機(jī)技術(shù)的高速發(fā)展，本企業(yè)致力于研究高性能計(jì)算集群技術(shù)多年，且在生產(chǎn)和實(shí)踐中取得了良好效果。本文旨在通過(guò)對(duì)高性能計(jì)算集群平臺(tái)搭建而總結(jié)的一些粗淺認(rèn)識(shí)，對(duì)高性能計(jì)算集群在本企業(yè)中的應(yīng)用進(jìn)行探討，為企業(yè)高性能計(jì)算集群運(yùn)行維護(hù)人員提供一些借鑒和參考。

關(guān)鍵詞：搭建;HPCC;平臺(tái);探討

中圖分類號(hào)：TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）32-0147-02

1 前言

高性能計(jì)算集群High Performance Computing Cluster，簡(jiǎn)稱HPCC，能為擁有大數(shù)據(jù)計(jì)算要求的應(yīng)用程序提供高性能數(shù)據(jù)并行處理能力，應(yīng)用集群技術(shù)能在部分節(jié)點(diǎn)出現(xiàn)操作系統(tǒng)、應(yīng)用或數(shù)據(jù)存儲(chǔ)故障時(shí)，避免整個(gè)系統(tǒng)免于崩潰。

1.1 企業(yè)概述

本企業(yè)是集地震勘探處理、解釋、信息技術(shù)應(yīng)用于一體的科研機(jī)構(gòu)，經(jīng)過(guò)多年技術(shù)研究和努力，引進(jìn)了大規(guī)模高性能計(jì)算集群系統(tǒng)，搭建了能為地震勘探處理解釋等應(yīng)用提供高效計(jì)算能力的高性能計(jì)算集群平臺(tái)，以滿足企業(yè)計(jì)算處理和存儲(chǔ)需求。

1.2 平臺(tái)設(shè)計(jì)

企業(yè)對(duì)用戶業(yè)務(wù)進(jìn)行了詳細(xì)調(diào)研和分析，集群節(jié)點(diǎn)涵蓋了CPU刀片、GPU機(jī)架式和其他機(jī)架式節(jié)點(diǎn)，存儲(chǔ)以分布式為主，網(wǎng)絡(luò)結(jié)構(gòu)基于萬(wàn)兆以太網(wǎng)絡(luò)和InfiniBand（縮寫(xiě)IB）無(wú)限帶寬技術(shù)相結(jié)合原則而搭建，計(jì)算網(wǎng)絡(luò)核心由2臺(tái)HPCC交換機(jī)構(gòu)成，分別進(jìn)行10X10G鏈路捆綁，增強(qiáng)數(shù)據(jù)傳輸帶寬。

圖1是本企業(yè)高性能計(jì)算集群HPCC網(wǎng)絡(luò)拓?fù)鋱D，大虛框內(nèi)是專為高性能計(jì)算而設(shè)計(jì)的計(jì)算網(wǎng)，與辦公網(wǎng)絡(luò)隔離，業(yè)務(wù)互不交叉。隨著高性能計(jì)算處理能力的日新月異，平臺(tái)也經(jīng)過(guò)升級(jí)和擴(kuò)容，數(shù)據(jù)處理能力逐步提高，數(shù)據(jù)存儲(chǔ)容量從最早的G級(jí)到T級(jí)，直到目前的P級(jí)，此平臺(tái)也成為企業(yè)生產(chǎn)建設(shè)中不可缺少的重要環(huán)節(jié)。

2 平臺(tái)搭建

2.1 基礎(chǔ)設(shè)計(jì)

2.1.1 節(jié)點(diǎn)

1）CPU節(jié)點(diǎn)

搭建的CPU計(jì)算節(jié)點(diǎn)為集群刀箱刀片式，配置2個(gè)6核CPU，主頻3.2GHz，主板插槽8個(gè)I/O端口，其中4個(gè)高速I/O端口，內(nèi)存48G，硬盤(pán)600G，做RAID1數(shù)據(jù)保護(hù)，配IB網(wǎng)卡，4臺(tái)集群管理節(jié)點(diǎn)和1臺(tái)軟件管理節(jié)點(diǎn)配置同上，為機(jī)架式節(jié)點(diǎn)。

2）GPU節(jié)點(diǎn)

GPU計(jì)算節(jié)點(diǎn)為機(jī)架式，配置4個(gè)6核CPU，主頻3.2GHz，內(nèi)存48G，為利于圖形計(jì)算業(yè)務(wù)配2塊GPU圖形顯卡，硬盤(pán)1.5T，做RAID1數(shù)據(jù)保護(hù)，配IB網(wǎng)卡，2臺(tái)集群管理節(jié)點(diǎn)與CPU節(jié)點(diǎn)同樣配置。

2.1.2 存儲(chǔ)

存儲(chǔ)搭建以分布式存儲(chǔ)為主，相對(duì)于集中式存儲(chǔ)，分布式存儲(chǔ)除了傳統(tǒng)的分布式文件系統(tǒng)、分布式塊存儲(chǔ)和分布式對(duì)象存儲(chǔ)外，還包括分布式數(shù)據(jù)庫(kù)和分布式緩存等，在分布式架構(gòu)中服務(wù)器分為管理數(shù)據(jù)的元數(shù)據(jù)節(jié)點(diǎn)和負(fù)責(zé)實(shí)際數(shù)據(jù)的管理服務(wù)器。

當(dāng)客戶端需要從某個(gè)文件讀取數(shù)據(jù)，首先從元數(shù)據(jù)節(jié)點(diǎn)獲取該文件具體在哪個(gè)數(shù)據(jù)節(jié)點(diǎn)，元數(shù)據(jù)節(jié)點(diǎn)是主備部署，數(shù)據(jù)節(jié)點(diǎn)由大量節(jié)點(diǎn)構(gòu)成一個(gè)集群，由于數(shù)據(jù)節(jié)點(diǎn)集群分散了客戶端請(qǐng)求，使得元數(shù)據(jù)的訪問(wèn)頻度和訪問(wèn)量相對(duì)要小，通常不會(huì)成為性能瓶頸，這種分布式存儲(chǔ)架構(gòu)可通過(guò)動(dòng)態(tài)擴(kuò)展數(shù)據(jù)節(jié)點(diǎn)數(shù)量來(lái)增加承載能力。

分布式存儲(chǔ)也是一種完全無(wú)中心架構(gòu)計(jì)算模式，客戶端通過(guò)一個(gè)設(shè)備映射關(guān)系計(jì)算出數(shù)據(jù)位置，核心組件只需安裝監(jiān)控服務(wù)、對(duì)象存儲(chǔ)服務(wù)和客戶端軟件，其中監(jiān)控服務(wù)用于維護(hù)存儲(chǔ)系統(tǒng)中服務(wù)器和硬盤(pán)等在線信息的硬件邏輯關(guān)系，監(jiān)控服務(wù)通過(guò)集群方式保證其服務(wù)可用性，對(duì)象存儲(chǔ)服務(wù)用于實(shí)現(xiàn)對(duì)磁盤(pán)的管理，通常一個(gè)磁盤(pán)對(duì)應(yīng)一個(gè)對(duì)象存儲(chǔ)服務(wù)。客戶端訪問(wèn)存儲(chǔ)從監(jiān)控服務(wù)讀取存儲(chǔ)資源布局信息，計(jì)算出具體的物理服務(wù)器信息和磁盤(pán)信息，最終與該位置直接通信進(jìn)行讀寫(xiě)存操作，不同于傳統(tǒng)的硬件RAID，所有數(shù)據(jù)全部由文件系統(tǒng)管理。

由于早期數(shù)據(jù)存儲(chǔ)量穩(wěn)定，引進(jìn)了2套T級(jí)別的分布式存儲(chǔ)，均10G掛載在HPCC交換機(jī)A下，為CPU和GPU節(jié)點(diǎn)提供數(shù)據(jù)存儲(chǔ)服務(wù)。

2.1.3 網(wǎng)絡(luò)

最初的網(wǎng)絡(luò)規(guī)模如圖1所示設(shè)計(jì)了一臺(tái)HPCC交換機(jī)A，此交換機(jī)是專為大數(shù)據(jù)計(jì)算應(yīng)用到智能、融合的企業(yè)邊緣網(wǎng)絡(luò)提供強(qiáng)大性能、功能需求而設(shè)計(jì)，主要有模塊化體系結(jié)構(gòu)、集成安全身份識(shí)別、高度虛擬化數(shù)據(jù)中心的自動(dòng)化特性，可實(shí)現(xiàn)以太網(wǎng)自動(dòng)保護(hù)交換、無(wú)中斷切換和自我修復(fù)功能，通用端口借助強(qiáng)大的事件驅(qū)動(dòng)框架支持網(wǎng)絡(luò)部署和配置，允許基于身份的訪問(wèn)控制和策略，同時(shí)具有高可用性模塊化架構(gòu)，提供進(jìn)程監(jiān)控、內(nèi)存保護(hù)功能，主備管理模塊系統(tǒng)的無(wú)中斷切換和模塊級(jí)軟件升級(jí)功能可為啟用了堆疊交換機(jī)提供無(wú)中斷切換保護(hù)，模塊化和內(nèi)存保護(hù)設(shè)計(jì)防止系統(tǒng)損壞，支持融合網(wǎng)絡(luò)日益增長(zhǎng)的需求設(shè)計(jì)，增強(qiáng)網(wǎng)絡(luò)安全性管理。CPU和GPU節(jié)點(diǎn)與客戶端通訊通過(guò)IB網(wǎng)關(guān)轉(zhuǎn)換為以太網(wǎng)絡(luò)，IB網(wǎng)關(guān)12X10G上連到HPCC交換機(jī)A。IB技術(shù)基于高性能計(jì)算網(wǎng)絡(luò)通信標(biāo)準(zhǔn)，具有極高的吞吐量和極低的延遲，可用于節(jié)點(diǎn)間交換互連、節(jié)點(diǎn)與存儲(chǔ)間直接或交換互連、存儲(chǔ)間互連，IB技術(shù)具有配置簡(jiǎn)單、管理方便功能，適合企業(yè)級(jí)大數(shù)據(jù)計(jì)算網(wǎng)絡(luò)的應(yīng)用。

2.1.4 軟件

節(jié)點(diǎn)全部安裝LINUX操作系統(tǒng)，建立網(wǎng)絡(luò)信息服務(wù)NIS和時(shí)間同步NTP服務(wù)器，針對(duì)企業(yè)需求，在不同節(jié)點(diǎn)安裝CGG、Geoeast、Paradigm、Tomodel、Eposdb等業(yè)務(wù)軟件，部署Light/NCI、Pns等許可服務(wù)器。

2.2 升級(jí)擴(kuò)容

由于企業(yè)規(guī)模的擴(kuò)大，系統(tǒng)已不能滿足現(xiàn)狀，如圖1所示，隨后設(shè)計(jì)了數(shù)據(jù)交換性能和轉(zhuǎn)發(fā)能力更強(qiáng)的HPCC交換機(jī)B，與HPCC交換機(jī)A 10X10G互連，新節(jié)點(diǎn)均為刀片式CPU計(jì)算節(jié)點(diǎn)，接在HPCC交換機(jī)B下，配置4個(gè)10核CPU，主頻2.8GHz，內(nèi)存128G，硬盤(pán)1.2T，做RAID1數(shù)據(jù)保護(hù)，集群管理節(jié)點(diǎn)和IO節(jié)點(diǎn)配置4個(gè)12核CPU，主頻2.6GHz，內(nèi)存256G，硬盤(pán)2.4T（數(shù)據(jù)庫(kù)節(jié)點(diǎn)為6T），做RAID1數(shù)據(jù)保護(hù)。I/O節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)并響應(yīng)計(jì)算節(jié)點(diǎn)的存儲(chǔ)請(qǐng)求，企業(yè)采用了多I/O節(jié)點(diǎn)服務(wù)模式，將計(jì)算所需的初始數(shù)據(jù)、計(jì)算得出的最終數(shù)據(jù)和平臺(tái)數(shù)據(jù)存儲(chǔ)在I/O節(jié)點(diǎn)上，提高運(yùn)行效率。

介于企業(yè)存儲(chǔ)數(shù)據(jù)業(yè)務(wù)規(guī)模，設(shè)計(jì)了P級(jí)別的大型分布式存儲(chǔ)，接到HPCC交換機(jī)B下，由于老的分布式存儲(chǔ)性能和運(yùn)行指標(biāo)的下降，作為企業(yè)備份存儲(chǔ)，各自在企業(yè)生產(chǎn)中肩負(fù)著不同的角色。

2.3 用戶訪問(wèn)

計(jì)算網(wǎng)雖通過(guò)匯聚交換機(jī)接入核心交換機(jī)，但沒(méi)有設(shè)立網(wǎng)關(guān)、不發(fā)布路由，與辦公網(wǎng)業(yè)務(wù)安全隔離。對(duì)于有計(jì)算業(yè)務(wù)需求的用戶，須到指定的計(jì)算網(wǎng)區(qū)域，使用計(jì)算網(wǎng)資源從事計(jì)算業(yè)務(wù)，用戶在作業(yè)進(jìn)行時(shí)，通過(guò)特定的作業(yè)調(diào)度軟件自動(dòng)被分配到不忙的計(jì)算節(jié)點(diǎn)運(yùn)行程序、提交數(shù)據(jù)，縮短集群作業(yè)運(yùn)行時(shí)間，杜絕網(wǎng)絡(luò)安全隱患的發(fā)生。

2.4 運(yùn)維監(jiān)控

2.4.1 節(jié)點(diǎn)監(jiān)控

企業(yè)對(duì)節(jié)點(diǎn)的監(jiān)控管理選用了開(kāi)源的網(wǎng)絡(luò)監(jiān)控系統(tǒng)Nagios Core，它可監(jiān)控SMTP、POP3、HTTP、NNTP、PING等網(wǎng)絡(luò)服務(wù)，監(jiān)視處理器負(fù)載、磁盤(pán)使用情況等節(jié)點(diǎn)資源情況，能檢測(cè)和區(qū)分主機(jī)是宕機(jī)或不通，可直觀地查看當(dāng)前網(wǎng)絡(luò)狀態(tài)、問(wèn)題歷史記錄、日志文件等，當(dāng)主機(jī)、服務(wù)出現(xiàn)問(wèn)題或問(wèn)題解決時(shí)發(fā)出預(yù)警通知。

企業(yè)定義了對(duì)當(dāng)前負(fù)載Current Load、當(dāng)前用戶數(shù)Current Users、根分區(qū)Root Partition、總進(jìn)程數(shù)Total Processes、交換分區(qū)Swap Usage、SSH和PING的監(jiān)控。

2.4.2 存儲(chǔ)監(jiān)控

針對(duì)存儲(chǔ)監(jiān)控，定制了服務(wù)器運(yùn)行情況、磁盤(pán)狀態(tài)、文件讀寫(xiě)統(tǒng)計(jì)和歷史報(bào)警信息等，如磁盤(pán)狀態(tài)、總系統(tǒng)容量達(dá)到上限或閾值時(shí)預(yù)警。

3 實(shí)施效益

考慮到通信延遲是高性能計(jì)算集群應(yīng)用面臨的最關(guān)鍵技術(shù)挑戰(zhàn)，因此構(gòu)建了響應(yīng)速度更快的IB網(wǎng)絡(luò)、GPU加速等技術(shù)，同時(shí)在數(shù)據(jù)方面使用更具成本效益、速度穩(wěn)定的持久性存儲(chǔ)服務(wù)，部署這些技術(shù)均進(jìn)行網(wǎng)絡(luò)連通性、延遲和性能、CPU和GPU穩(wěn)定性以及節(jié)點(diǎn)間運(yùn)行大數(shù)據(jù)的測(cè)試，結(jié)果均滿足各專業(yè)計(jì)算軟件傳遞數(shù)據(jù)的運(yùn)行需求，使平臺(tái)業(yè)務(wù)得到穩(wěn)定運(yùn)行。

在實(shí)施運(yùn)行中做到了勘探處理解釋研究的可視化和高效運(yùn)算，使用戶在短時(shí)間內(nèi)完成大數(shù)據(jù)量的分析和運(yùn)算，進(jìn)一步為油氣開(kāi)發(fā)研究做保障，極大滿足用戶對(duì)科研生產(chǎn)的應(yīng)用需求。未來(lái)我們將積極探索，尋求虛擬化和云計(jì)算資源對(duì)HPCC的支持，實(shí)時(shí)結(jié)合生產(chǎn)實(shí)際并運(yùn)用新技術(shù)保障HPCC業(yè)務(wù)的穩(wěn)定發(fā)展，為企業(yè)經(jīng)濟(jì)發(fā)展助力。

參考文獻(xiàn)：

[1] 計(jì)算機(jī)技術(shù)與發(fā)展.基于MPICH2的高性能計(jì)算集群系統(tǒng)研究[Z].2020.10.

[2] 百度文庫(kù).高性能計(jì)算集群系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[Z]. 2020.9.

[3] CSDN網(wǎng).配置高性能計(jì)算集群[Z].2020.12.

【通聯(lián)編輯：李雅琪】