黃建強(qiáng),孟永偉,曹騰飛,王曉英
(青海大學(xué) 計(jì)算機(jī)技術(shù)與應(yīng)用系,青海 西寧 810016)
隨著清華大學(xué)對(duì)口支援和中西部高校綜合能力提升工程的推進(jìn),青海省高等教育得到了迅速發(fā)展,在人才培養(yǎng)、科學(xué)創(chuàng)新上取得了驕人的成績(jī),科學(xué)研究的方式也發(fā)生了改變,計(jì)算科學(xué)將成為現(xiàn)代科學(xué)研究的重要手段。清華大學(xué)捐贈(zèng)青海大學(xué)計(jì)算機(jī)系的高性能計(jì)算集群將深遠(yuǎn)影響各科研領(lǐng)域的發(fā)展。高性能計(jì)算集群由128個(gè)計(jì)算節(jié)點(diǎn),采用10GB InfiniBand網(wǎng)絡(luò)進(jìn)行互連組成,理論峰值計(jì)算速度達(dá)1.331萬(wàn)億次/秒,從而為各類應(yīng)用任務(wù)的計(jì)算提供最優(yōu)的支持和性能表現(xiàn),開(kāi)展高性能科學(xué)計(jì)算可視化研究、提高軟件環(huán)境的可用性、方便各相關(guān)學(xué)科研究人員開(kāi)展研究工作,通過(guò)拓展數(shù)據(jù)存儲(chǔ)能力,對(duì)多學(xué)科海量計(jì)算數(shù)據(jù)開(kāi)展高性能計(jì)算數(shù)據(jù)庫(kù)和知識(shí)計(jì)算(并行數(shù)據(jù)挖掘、知識(shí)工程、數(shù)據(jù)融合)等方面的研究。在三江源數(shù)據(jù)分析中心及高性能計(jì)算平臺(tái)的建設(shè)支撐下,重點(diǎn)打造高性能計(jì)算與應(yīng)用的技術(shù)隊(duì)伍,聚焦高性能計(jì)算平臺(tái)技術(shù)服務(wù)與高性能計(jì)算學(xué)科建設(shè)支撐,越來(lái)越多的科學(xué)研究和重大工程中的關(guān)鍵問(wèn)題需要大規(guī)模、高性能的計(jì)算和模擬[1-5]。此高性能計(jì)算集群系統(tǒng)不僅作為校內(nèi)科技服務(wù)平臺(tái),更為青海省的氣象、地震、環(huán)保、生態(tài)等一些需要大規(guī)模數(shù)據(jù)處理的單位提供了有力的支撐。
超算中心機(jī)房一般是位于某一棟樓的一層或多層,那么選址就牽扯到地理位置選擇和樓層選擇。由于超算中心機(jī)房主要是對(duì)大規(guī)模數(shù)據(jù)進(jìn)行處理,需要一定的網(wǎng)絡(luò)服務(wù),進(jìn)而進(jìn)行可視化呈現(xiàn)和遠(yuǎn)程作業(yè)提交,因此在選址時(shí)一般選擇在網(wǎng)絡(luò)服務(wù)較好的地域。在樓層的選擇中,要注意防潮、防塵、防盜、防干擾、防雷等,考慮到青海地區(qū)氣候干燥,選擇在一樓。因?yàn)轫攲釉馐芾讚舻目赡苄源螅瑴夭畲螅哟罅丝照{(diào)系統(tǒng)運(yùn)行的成本。防盜上除了必要的防盜措施外,應(yīng)該選擇在人流量較少的樓層中。因此,超算中心機(jī)房的建設(shè)選擇在寬敞、明亮、整潔、安全的樓層中[6]。
設(shè)計(jì)內(nèi)容包括裝修工程、電氣工程、空調(diào)通風(fēng)系統(tǒng)、綜合布線系統(tǒng)、環(huán)境集中監(jiān)控系統(tǒng)、安防系統(tǒng)、消防系統(tǒng)、監(jiān)控室顯示系統(tǒng)等8個(gè)子系統(tǒng)。三江源數(shù)據(jù)分析中心位于青海大學(xué)基礎(chǔ)物理實(shí)驗(yàn)樓的一層,分為操控室和機(jī)房2個(gè)房間,裝修總面積約為115m2,操控室面積約57m2,機(jī)房面積約58m2。房間層高3.8 m,已鋪設(shè)陶瓷面層防靜電活動(dòng)地板,地板架高高度為0.35m。該建筑沒(méi)有地下室。數(shù)據(jù)中心主要由機(jī)房環(huán)境、網(wǎng)絡(luò)環(huán)境、計(jì)算資源、集中存儲(chǔ)、數(shù)據(jù)運(yùn)行環(huán)境、安全體系、容災(zāi)中心幾部分組成。
(1)機(jī)房環(huán)境。機(jī)房建設(shè)主要指提供防塵、防靜電的環(huán)境,充足持續(xù)的電力系統(tǒng),恒溫、恒濕的制冷系統(tǒng),消防系統(tǒng);門禁與監(jiān)控系統(tǒng),綜合布線及合理的布局,比如機(jī)柜的擺放、區(qū)域的劃分等。
(2)網(wǎng)絡(luò)環(huán)境。主要指在數(shù)據(jù)中心內(nèi)部建立冗余的網(wǎng)絡(luò)鏈接,當(dāng)某一部分出現(xiàn)故障時(shí),數(shù)據(jù)中心內(nèi)部的所有數(shù)據(jù)交換不會(huì)因此而中斷,保證網(wǎng)絡(luò)的暢通無(wú)阻,此外要加強(qiáng)網(wǎng)絡(luò)監(jiān)控,能及時(shí)發(fā)現(xiàn)問(wèn)題。
(3)計(jì)算資源環(huán)境。主要指服務(wù)器架構(gòu)的設(shè)計(jì)必須從整體上進(jìn)行容量規(guī)劃,根據(jù)應(yīng)用的需求合理布局,使系統(tǒng)易于擴(kuò)展性,實(shí)現(xiàn)資源共享,避免浪費(fèi)。
(4)集中存儲(chǔ)。集中存儲(chǔ)是實(shí)現(xiàn)數(shù)據(jù)共享、建立高可用運(yùn)行環(huán)境的關(guān)鍵環(huán)節(jié),根據(jù)數(shù)據(jù)訪問(wèn)方式及重要程度采用不同的技術(shù),實(shí)現(xiàn)數(shù)據(jù)集中存儲(chǔ)。
(5)數(shù)據(jù)運(yùn)行環(huán)境,主要涉及數(shù)據(jù)庫(kù)管理系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)和數(shù)據(jù)共享與交換。
(6)容災(zāi)中心建設(shè)。需要根據(jù)學(xué)校的實(shí)際情況分步進(jìn)行。數(shù)據(jù)的丟失可以有很多因素,誤操作、磁盤等設(shè)備出問(wèn)題等,都可以導(dǎo)致數(shù)據(jù)丟失。因此數(shù)據(jù)備份應(yīng)是數(shù)據(jù)中心提供的基本服務(wù)。從數(shù)據(jù)中心的角度來(lái)講,不僅要考慮到數(shù)據(jù)的快速備份、恢復(fù)等問(wèn)題,還要提供應(yīng)付災(zāi)難性的后備與恢復(fù)措施。
高性能計(jì)算服務(wù)器集群系統(tǒng)是高性能計(jì)算和高可用技術(shù)有機(jī)結(jié)合的性能強(qiáng)大、高可用的集群系統(tǒng)[7],是整個(gè)高性能計(jì)算平臺(tái)的核心。按照業(yè)務(wù)實(shí)際需要,三江源數(shù)據(jù)分析中心配備惠普機(jī)架服務(wù)器作為計(jì)算節(jié)點(diǎn);配置HP高性能服務(wù)器節(jié)點(diǎn)作為I/O節(jié)點(diǎn),配置高性能服務(wù)器manager,同時(shí)復(fù)用為登錄節(jié)點(diǎn)和集群管理節(jié)點(diǎn),負(fù)責(zé)整個(gè)集群系統(tǒng)的軟、硬件管理、維護(hù)與監(jiān)控。整個(gè)集群的網(wǎng)絡(luò)系統(tǒng)配置測(cè)試網(wǎng)和計(jì)算網(wǎng)2套網(wǎng)絡(luò),測(cè)試網(wǎng)由eth1和eth2兩組網(wǎng)絡(luò)構(gòu)成。eth1網(wǎng)絡(luò)傳輸整個(gè)千兆網(wǎng)的控制信號(hào),eth2網(wǎng)絡(luò)用來(lái)管理硬件設(shè)備,用戶可以在測(cè)試網(wǎng)中調(diào)試運(yùn)行程序。計(jì)算網(wǎng)由所有節(jié)點(diǎn)服務(wù)器通過(guò)InfiniBand網(wǎng)絡(luò)連接,使得這些節(jié)點(diǎn)可以高速訪問(wèn)。計(jì)算網(wǎng)只允許用戶訪問(wèn)登錄節(jié)點(diǎn),通過(guò)LSF作業(yè)管理系統(tǒng)提交作業(yè)使用計(jì)算資源,以保證系統(tǒng)安全性[8]。整個(gè)集群系統(tǒng)的構(gòu)建如圖1所示。
LSF server:用戶提交作業(yè)的服務(wù)器。Jobmaster:作業(yè)管理(不需要外網(wǎng)),要掛載到j(luò)obfront上。manager:管理節(jié)點(diǎn)(eth2需要配置外網(wǎng),讓外網(wǎng)去訪問(wèn))。nismaster/nisslave:各個(gè)服務(wù)器去取nis上的用戶信息。計(jì)算節(jié)點(diǎn)cn1、cn2…cn128是并行計(jì)算節(jié)點(diǎn),它提供核心計(jì)算能力,即各種系統(tǒng)資源,包含處理器、內(nèi)存及I/O設(shè)備。計(jì)算節(jié)點(diǎn)一方面連接到登陸/管理節(jié)點(diǎn),接收?qǐng)?zhí)行指令,一方面通過(guò)InfiniBand交換機(jī),實(shí)現(xiàn)進(jìn)程之間高速消息通信;同時(shí)訪問(wèn)I/O節(jié)點(diǎn)上的文件系統(tǒng),從而獲得較好的I/O性能。I/O節(jié)點(diǎn)為計(jì)算節(jié)點(diǎn)提供共享文件系統(tǒng)、數(shù)據(jù)傳送等功能[8]。與I/O系統(tǒng)相關(guān)的網(wǎng)絡(luò)包括3部分:
(1)共享文件系統(tǒng)控制支撐網(wǎng)絡(luò),在I/O節(jié)點(diǎn)上建立網(wǎng)絡(luò)文件系統(tǒng)(NFS),作為服務(wù)器共享存儲(chǔ),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)訪問(wèn)。它控制支撐網(wǎng)絡(luò),用來(lái)傳遞共享文件系統(tǒng)NFS的控制信息,是支撐計(jì)算節(jié)點(diǎn)和I/O節(jié)點(diǎn)間數(shù)據(jù)交換的管理網(wǎng)絡(luò)。當(dāng)多個(gè)計(jì)算節(jié)點(diǎn)同時(shí)訪問(wèn)某個(gè)建立在共享存儲(chǔ)上的共享文件系統(tǒng)時(shí),共享文件系統(tǒng)需要通過(guò)該網(wǎng)絡(luò)系統(tǒng)在多個(gè)節(jié)點(diǎn)間進(jìn)行協(xié)調(diào)和管理。共享文件系統(tǒng)控制支撐網(wǎng)絡(luò)傳輸?shù)闹皇切┛刂菩畔ⅲ菙?shù)據(jù)本身,所以網(wǎng)絡(luò)負(fù)載非常小。
(2)節(jié)點(diǎn)間數(shù)據(jù)傳輸網(wǎng)絡(luò),用來(lái)支持計(jì)算節(jié)點(diǎn)和I/O節(jié)點(diǎn)間的數(shù)據(jù)傳輸,即通過(guò)InfiniBand網(wǎng)絡(luò)實(shí)現(xiàn)進(jìn)程之間高速消息通信。

圖1 集群系統(tǒng)構(gòu)建圖
(3)存儲(chǔ)備份網(wǎng)絡(luò),實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)移與備份。本項(xiàng)目中未配置單獨(dú)備份,而是在I/O節(jié)點(diǎn)上配置磁盤陣列,通過(guò)RAID實(shí)現(xiàn)磁盤冗余,在滿足存儲(chǔ)要求的情況下,提高了讀寫(xiě)效率。登陸/管理節(jié)點(diǎn)完成集群系統(tǒng)的監(jiān)控、管理、登錄、作業(yè)調(diào)度等任務(wù),用戶登錄到這個(gè)節(jié)點(diǎn)上編譯源程序,并提交作業(yè)。該節(jié)點(diǎn)上部署的作業(yè)調(diào)度與集群管理系統(tǒng)是管理員與用戶主要使用的應(yīng)用軟件系統(tǒng)。
(1)基于Cluster的高性能計(jì)算平臺(tái)建設(shè)。采用Cluster集群架構(gòu),有很好的擴(kuò)展性,能擴(kuò)充到上千個(gè)節(jié)點(diǎn),從而獲得更高的性能和比較低的總體成本。針對(duì)不同類型應(yīng)用對(duì)不同架構(gòu)計(jì)算平臺(tái)具有不同的適應(yīng)性,為各類應(yīng)用任務(wù)的計(jì)算都提供了最優(yōu)的支持和性能表現(xiàn)。配置分布式集群存儲(chǔ)系統(tǒng),具有高性能、高可靠性、高擴(kuò)展性、易整合、易管理等特性。主要應(yīng)用領(lǐng)域包括高性能計(jì)算、互聯(lián)網(wǎng)海量文件處理、動(dòng)漫渲染、地理信息系統(tǒng)(GIS)等應(yīng)用。
(2)高性能計(jì)算軟件與可視化。根據(jù)不同學(xué)科特點(diǎn),采取開(kāi)放式軟件策略,并在此基礎(chǔ)上開(kāi)展可視化研究,提高軟件環(huán)境的可用性,方便各相關(guān)學(xué)科研究人員開(kāi)展研究工作,使得我校基于三江源數(shù)據(jù)分析中心平臺(tái)在復(fù)雜流動(dòng)、鹽湖化工、地震、生命科學(xué)等領(lǐng)域中可以申請(qǐng)國(guó)家級(jí)、省部級(jí)的研究項(xiàng)目,同時(shí)可以與工業(yè)部門開(kāi)展許多合作研究,積累了使用商用軟件和可視化軟件的豐富經(jīng)驗(yàn),為自主開(kāi)發(fā)高性能計(jì)算與應(yīng)用軟件打下良好的基礎(chǔ)。
(3)建設(shè)海量數(shù)據(jù)存儲(chǔ)系統(tǒng)。通過(guò)拓展數(shù)據(jù)存儲(chǔ)能力,根據(jù)高性能計(jì)算與應(yīng)用的特點(diǎn),對(duì)多學(xué)科海量計(jì)算數(shù)據(jù)開(kāi)展高性能計(jì)算數(shù)據(jù)庫(kù)和知識(shí)計(jì)算(并行數(shù)據(jù)挖掘、知識(shí)工程、數(shù)據(jù)融合)等方面的研究,滿足各學(xué)科高性能計(jì)算與應(yīng)用對(duì)數(shù)據(jù)存儲(chǔ)空間的需要和提高各學(xué)科高性能計(jì)算與應(yīng)用的起點(diǎn)。
三江源數(shù)據(jù)分析中心集群計(jì)算系統(tǒng)采用SSH和Platform LSF集群管理軟件相結(jié)合的方式進(jìn)行管理[9]。IBM Platform LSF平臺(tái)集群可以分成2組主機(jī),分別是管理主機(jī)和計(jì)算主機(jī)。管理主機(jī)為集群提供專業(yè)化的服務(wù),計(jì)算主機(jī)運(yùn)行用戶的工作量,如圖2是IBM Platform LSF平臺(tái)在集群中的系統(tǒng)環(huán)境下的通信通道。

圖2 LSF在集群系統(tǒng)的通信通道圖
(1)作業(yè)提交。從LSF客戶端,或者是一個(gè)運(yùn)行bsub命令的服務(wù)器上提交一份作業(yè),當(dāng)提交這份作業(yè)時(shí),如果不指定哪個(gè)隊(duì)列,這份作業(yè)就會(huì)被提交到系統(tǒng)默認(rèn)的隊(duì)列中,作業(yè)在隊(duì)列中等待安排,這些作業(yè)處于等待狀態(tài)。
(2)調(diào)度作業(yè)。后臺(tái)的主進(jìn)程mbatchd將處理隊(duì)列中的作業(yè),在一個(gè)預(yù)定的時(shí)間間隔里,將這些作業(yè)按設(shè)定的計(jì)劃傳遞給主調(diào)度進(jìn)程mbschd。主調(diào)度進(jìn)程mbschd評(píng)估這份工作時(shí),根據(jù)作業(yè)的優(yōu)先權(quán)制定調(diào)度決策、調(diào)度機(jī)制和可利用資源。主調(diào)度進(jìn)程選擇最佳的主機(jī)及在哪里作業(yè)可以運(yùn)行,并將它的決策返回給后臺(tái)主進(jìn)程mbatchd。主負(fù)載信息管理進(jìn)程(LIM)收集資源信息,主LIM與mbatchd主進(jìn)程交流這些信息,反過(guò)來(lái)mbatchd主進(jìn)程使用之前交流信息支持調(diào)度決定。
(3)分配作業(yè)。mbatchd主進(jìn)程一收到mbschd發(fā)過(guò)來(lái)的決定,立即分配作業(yè)到主機(jī)。
(4)運(yùn)行作業(yè)。從屬批處理進(jìn)程(sbatchd),從mbatchd主進(jìn)程接到要求,為這份作業(yè)創(chuàng)建一個(gè)子sbatchd和一個(gè)執(zhí)行環(huán)境,通過(guò)使用一個(gè)遠(yuǎn)程執(zhí)行服務(wù)器開(kāi)始這個(gè)作業(yè)。
(5)返回輸出。當(dāng)一個(gè)作業(yè)完成時(shí),如果這個(gè)作業(yè)沒(méi)有任何問(wèn)題,它處于一個(gè)完成狀態(tài)。如果有錯(cuò)誤作業(yè)無(wú)法完成,這份作業(yè)處于退出狀態(tài)。sbatchd傳達(dá)作業(yè)信息,包括錯(cuò)誤提示和給mbatchd的輸出信息。
(6)給客戶端發(fā)郵件。mbatchd通過(guò)郵件提交主機(jī)反饋?zhàn)鳂I(yè)輸出信息、作業(yè)錯(cuò)誤、提示信息、作業(yè)信息。
學(xué)校的高性能網(wǎng)格計(jì)算平臺(tái)主要為校內(nèi)的院系、科研團(tuán)隊(duì)或教師提供服務(wù),在滿足校內(nèi)需求的前提下,也將考慮向社會(huì)提供多種形式的服務(wù)。服務(wù)層次主要有計(jì)算資源使用、技術(shù)咨詢以及研發(fā)服務(wù)。服務(wù)形式將作為學(xué)校數(shù)字化科研的重要內(nèi)容逐步融入學(xué)校的數(shù)字化校園服務(wù)平臺(tái),為不同地區(qū)的各種用戶提供統(tǒng)一高效的優(yōu)質(zhì)服務(wù)[10-11]。
青海大學(xué)三江源數(shù)據(jù)分析中心機(jī)房環(huán)境監(jiān)控分別對(duì)UPS監(jiān)控、空調(diào)監(jiān)控、供配電監(jiān)控、漏水監(jiān)測(cè)、溫濕度監(jiān)控、消防監(jiān)測(cè)、郵件報(bào)警設(shè)置、短信報(bào)警設(shè)置、參數(shù)設(shè)置等9個(gè)方面。如圖3所示,參數(shù)設(shè)置可以對(duì)環(huán)境參數(shù)進(jìn)行修改控制。

圖3 環(huán)境參數(shù)修改圖
通過(guò)三江源數(shù)據(jù)分析中心高性能計(jì)算集群的建設(shè),使本學(xué)科基礎(chǔ)設(shè)施及實(shí)驗(yàn)條件趨于完備,可支持教師進(jìn)行前沿科研方向的研究。在管理團(tuán)隊(duì)上考慮用不同層次的人員,完成不同的任務(wù),引入自動(dòng)化的管理手段,管理質(zhì)量和管理效率同時(shí)抓,降低人的成本投入。提升團(tuán)隊(duì)結(jié)構(gòu)水平和層次,進(jìn)一步爭(zhēng)取國(guó)家和省部級(jí)重點(diǎn)、重大項(xiàng)目,獲得一批具有科研前沿水平的原創(chuàng)性的研究成果,在國(guó)際學(xué)術(shù)刊物上發(fā)表一批高水平的學(xué)術(shù)論文,為實(shí)現(xiàn)建立計(jì)算機(jī)科學(xué)與技術(shù)碩士學(xué)位授權(quán)點(diǎn)的目標(biāo)創(chuàng)造必要條件。
(
)
[1]林新華.走出高性能計(jì)算中心的建設(shè)誤區(qū)[J].中國(guó)教育網(wǎng)絡(luò),2009(5):42-43.
[2]嚴(yán)雋琪.上海高性能計(jì)算公共服務(wù)平臺(tái)[J].工業(yè)工程與管理,2005(1):1-5.
[3]姚繼鋒.什么成就了超算中心[J].中國(guó)教育網(wǎng)絡(luò),2010(6):18-20.
[4]姚繼鋒.高性能計(jì)算:CIO 的必修課[J].中國(guó)計(jì)算機(jī)用戶,2008(12):50-51.
[5]劉紅.中醫(yī)藥高性能計(jì)算公共服務(wù)平臺(tái)的建設(shè)與探索[J].中國(guó)中醫(yī)藥信息雜志,2010(增刊1):74-75.
[6]楊濱.學(xué)校計(jì)算中心機(jī)房建設(shè)分析[J].科技風(fēng),2013(17):243.
[7]關(guān)偉豪,吳汝明,郭清順,等.中山大學(xué)高性能計(jì)算服務(wù)平臺(tái)的建設(shè)[J].實(shí)驗(yàn)技術(shù)與管理,2011,28(4):303-306.
[8]林皎,陳玉潔,張武生,等.高性能計(jì)算平臺(tái)建設(shè)的探索與實(shí)踐[J].實(shí)驗(yàn)技術(shù)與管理,2012,29(5):217-220.
[9]李圣強(qiáng),李閩峰,劉桂平,等.高性能集群計(jì)算系統(tǒng)的構(gòu)建[J].地震,2012,32(1):144-147.
[10]龔偉.高性能計(jì)算中心站系統(tǒng)設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2009(20):5534-5535.
[11]陳文波,李嬋娟,周慶國(guó),等.高性能計(jì)算平臺(tái)HPCC的性能分析[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(10):95-97.