999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高性能計(jì)算平臺(tái)建設(shè)、運(yùn)行與服務(wù)模式的探索

2021-08-02 03:35:28陳園園崔貫勛
關(guān)鍵詞:作業(yè)用戶服務(wù)

陳園園,崔貫勛

(重慶理工大學(xué),重慶 400054)

0 引 言

在高校科學(xué)研究中,隨著各領(lǐng)域研究問題的計(jì)算量大幅增加,數(shù)據(jù)規(guī)模呈數(shù)量級(jí)增長,高性能計(jì)算方面的快速發(fā)展為研究這些科學(xué)問題提供了強(qiáng)有力的支持。但高性能計(jì)算平臺(tái)在管理上存在很多難點(diǎn):

(1)服務(wù)器異構(gòu)、數(shù)量多、類型復(fù)雜,管理技術(shù)人員配比少,只依靠人工管理方式無法完成系統(tǒng)運(yùn)維;

(2)故障類型多,定位故障要求專業(yè)技術(shù)程度高并處理及時(shí);

(3)高性能計(jì)算平臺(tái)需7*24h對(duì)外提供運(yùn)行穩(wěn)定、不間斷的服務(wù)。

基于以上現(xiàn)狀[1],為使高性能計(jì)算平臺(tái)滿足高校多學(xué)科應(yīng)用的需求,并具備可持續(xù)發(fā)展的科研競爭實(shí)力,重慶理工大學(xué)明確平臺(tái)定位,將“服務(wù)用戶”理念[2]落實(shí)到平臺(tái)建設(shè)、運(yùn)維和管理服務(wù)等各個(gè)方面,吸引校內(nèi)外用戶,促進(jìn)平臺(tái)健康發(fā)展。

1 高校高性能計(jì)算平臺(tái)的搭建

1.1 高校對(duì)高性能計(jì)算的需求與建設(shè)

1.1.1 高校對(duì)高性能計(jì)算的需求

重慶理工大學(xué)是一所包含理、工、文、管、經(jīng)、法、醫(yī)、藝等多學(xué)科協(xié)調(diào)發(fā)展的綜合應(yīng)用研究型大學(xué)。其中,理、工、醫(yī)等主要學(xué)科在高性能計(jì)算方面有著巨大需求,特別是在理論物理、氣候分析、機(jī)械工程、材料科學(xué)、汽車制造、電力通信、生物醫(yī)學(xué)等領(lǐng)域。目前有多個(gè)科研團(tuán)隊(duì)承擔(dān)著國家自然科學(xué)基金項(xiàng)目和科技攻關(guān)等項(xiàng)目,都依賴于高性能計(jì)算平臺(tái)來完成海量計(jì)算工作。

1.1.2 高校高性能計(jì)算平臺(tái)按需建設(shè)

2016年,重慶理工大學(xué)以開放、共享為前提部署一套高性能計(jì)算平臺(tái),集群總體計(jì)算能力為20 Tflop/s、數(shù)據(jù)存儲(chǔ)能力為100 TB。該平臺(tái)正好滿足學(xué)校目前科研與教學(xué)的需求。后期將根據(jù)學(xué)校發(fā)展需要,遵照“按需建設(shè),逐步升級(jí)”的建設(shè)原則,實(shí)行資源與應(yīng)用需求同步增長,提高資源利用率,使其發(fā)揮最大作用。

1.2 高性能計(jì)算集群簡介

高性能計(jì)算集群[3]是整個(gè)高性能計(jì)算平臺(tái)的核心,是融合了計(jì)算、網(wǎng)絡(luò)、軟件和存儲(chǔ)的綜合體系。重慶理工大學(xué)高性能計(jì)算集群系統(tǒng)為異構(gòu)系統(tǒng)[4],集群系統(tǒng)架構(gòu)如圖1所示。

圖1 高性能計(jì)算集群系統(tǒng)架構(gòu)

1.2.1 高性能計(jì)算集群硬件

重慶理工大學(xué)高性能計(jì)算集群系統(tǒng)采用Cluster集群架構(gòu)[5]。其中計(jì)算節(jié)點(diǎn)由雙路刀片通用計(jì)算節(jié)點(diǎn)、四路SMP胖計(jì)算節(jié)點(diǎn)和眾核GPU計(jì)算節(jié)點(diǎn)組成,并配置一臺(tái)管理監(jiān)控節(jié)點(diǎn)用于集群的管理,在該節(jié)點(diǎn)上部署集群管理系統(tǒng)GridView3.2、PBS作業(yè)調(diào)度系統(tǒng)和用戶主要應(yīng)用軟件,負(fù)責(zé)整個(gè)集群系統(tǒng)的軟硬件管理、監(jiān)控與維護(hù);同時(shí)該節(jié)點(diǎn)復(fù)用為I/O存儲(chǔ)節(jié)點(diǎn),部署1套NFS文件系統(tǒng)。配置一臺(tái)登錄節(jié)點(diǎn),為普通用戶提供登錄和高性能計(jì)算服務(wù)。將管理節(jié)點(diǎn)與登錄節(jié)點(diǎn)分開,大大提高了集群的安全性。

1.2.2 高性能計(jì)算集群網(wǎng)絡(luò)

整個(gè)集群配置3套網(wǎng)絡(luò)系統(tǒng)[6]:FDR InfiniBand計(jì)算網(wǎng)、千兆管理/監(jiān)控網(wǎng)絡(luò)(Eth1)和硬件管理網(wǎng)(Eth2)。計(jì)算網(wǎng)由所有服務(wù)器節(jié)點(diǎn)通過InfiniBand萬兆交換機(jī)連接,使得這些節(jié)點(diǎn)可以高速訪問,但只允許普通用戶通過登錄節(jié)點(diǎn)訪問計(jì)算網(wǎng),通過PBS作業(yè)調(diào)度系統(tǒng)提交作業(yè)使用計(jì)算資源,以保證系統(tǒng)安全。Eth1千兆管理/監(jiān)控網(wǎng)絡(luò)傳輸整個(gè)千兆網(wǎng)的控制信號(hào)。Eth2管理網(wǎng)絡(luò)為千兆以太網(wǎng),用來管理硬件設(shè)備。高性能計(jì)算集群拓?fù)鋄7]如圖2所示。

圖2 高性能計(jì)算集群拓?fù)?/p>

另外,系統(tǒng)內(nèi)嵌1臺(tái)筆記本電腦作為系統(tǒng)管理的物理顯示端,并配置一套Cluskvm100 KVM以供系統(tǒng)安裝調(diào)試用。

1.2.3 高性能計(jì)算平臺(tái)軟件

平臺(tái)除部署高性能計(jì)算必需的編譯器、數(shù)學(xué)庫、并行庫外,還安裝了各學(xué)科領(lǐng)域用戶常用的開源或商用等軟件,逐步構(gòu)建一個(gè)簡便、友好的平臺(tái)使用環(huán)境。

2 高性能計(jì)算平臺(tái)運(yùn)維管理

為向用戶提供良好的科研環(huán)境,中心在運(yùn)維管理體系[8]建設(shè)中不斷完善管理制度、隊(duì)伍建設(shè)以及管理技術(shù),三者的有機(jī)結(jié)合,保障高性能計(jì)算平臺(tái)安全、高效、穩(wěn)定運(yùn)行。高性能計(jì)算平臺(tái)運(yùn)維管理體系如圖3所示。

圖3 高性能計(jì)算平臺(tái)運(yùn)維管理體系

2.1 管理制度建設(shè)

嚴(yán)格的制度管理是設(shè)備安全、穩(wěn)定運(yùn)行的前提保障。中心制定了《高性能計(jì)算平臺(tái)管理辦法(試行)》《高性能計(jì)算平臺(tái)操作管理手冊(cè)》《高性能計(jì)算平臺(tái)值班巡檢守則》《用戶使用手冊(cè)》等規(guī)章制度。另外為規(guī)范資源申請(qǐng)流程[9],改紙質(zhì)為線上申請(qǐng),提高資源準(zhǔn)備效率。資源申請(qǐng)流程如圖4所示。

圖4 資源申請(qǐng)流程

2.2 管理隊(duì)伍建設(shè)

2.2.1 提高專業(yè)技術(shù)服務(wù)水平

高性能計(jì)算平臺(tái)的建設(shè)和管理對(duì)管理人員[10]要求非常高,除了精通硬件、網(wǎng)絡(luò)和軟件等專業(yè)技術(shù),還要具備各學(xué)科知識(shí)背景,了解各應(yīng)用領(lǐng)域研究現(xiàn)狀,具體涉及各學(xué)科專業(yè)軟件的使用。因此中心鼓勵(lì)技術(shù)人員努力學(xué)習(xí)各領(lǐng)域知識(shí),提供參加高性能計(jì)算行業(yè)先進(jìn)技術(shù)培訓(xùn)和溝通交流的機(jī)會(huì)。

2.2.2 管理隊(duì)伍“傳、幫、帶”

為提供高效、穩(wěn)定的高性能計(jì)算服務(wù),平臺(tái)管理人員需要定期檢查設(shè)備、查看分析系統(tǒng)日志、正確判斷問題故障、熟練掌握解決辦法,確保設(shè)備正常運(yùn)行。在管理人員欠缺的情況下,中心申請(qǐng)1~2名相關(guān)專業(yè)的研究生助管,由管理人員教導(dǎo)助管進(jìn)行設(shè)備檢查和故障排除,在維護(hù)中傳授高性能計(jì)算基礎(chǔ)知識(shí)和實(shí)踐經(jīng)驗(yàn),為高性能計(jì)算平臺(tái)的運(yùn)維管理提供保障。

2.2.3 增加科研經(jīng)歷

鼓勵(lì)管理人員參與科研,加入課題小組,在提供高性能計(jì)算平臺(tái)技術(shù)服務(wù)的同時(shí)提升其科研能力。通過參與科研,力圖打造一支技術(shù)過硬,多學(xué)科交叉,科研經(jīng)歷豐富的管理團(tuán)隊(duì)。

2.3 安全、高效的集群管理

2.3.1 環(huán)境監(jiān)控

為保證集群系統(tǒng)7*24h提供服務(wù),機(jī)房配有不間斷電源UPS,并配備一套智能監(jiān)控系統(tǒng)[11],包括:供配電監(jiān)控、空調(diào)監(jiān)控、溫濕度監(jiān)控、視頻監(jiān)控、漏水監(jiān)測、消防報(bào)警、聲光報(bào)警、防雷、短信報(bào)警等。另外,管理人員每天進(jìn)入機(jī)房對(duì)集群系統(tǒng)進(jìn)行例行檢查,每周做一次全面檢查,以保證安全性[12]。

2.3.2 集群管理系統(tǒng)——GridView

平臺(tái)采用曙光GridView集群管理系統(tǒng)[13],該系統(tǒng)整合了clusconf、clussoft、HPC_installer等工具。GridView提供對(duì)節(jié)點(diǎn)硬件的實(shí)時(shí)全狀態(tài)監(jiān)控及遠(yuǎn)程協(xié)助管理。

2.3.3 PBS作業(yè)調(diào)度系統(tǒng)

中心采用PBS作業(yè)調(diào)度系統(tǒng)[14]為高性能計(jì)算資源提供統(tǒng)一的Web訪問接口,整合集群軟硬件資源及認(rèn)證信息,控制用戶權(quán)限,為用戶作業(yè)統(tǒng)一分配資源,避免沖突。平臺(tái)采用Web Portal方式[15]提交用戶作業(yè),Web Portal包括了basic類型的mpi、serial、general三個(gè)基本應(yīng)用portal。用戶無需安裝客戶端,僅通過Web界面就能完成提交作業(yè)、傳輸文件、查看結(jié)果等操作,簡便易用。

2.3.4 安全、可靠的遠(yuǎn)程終端訪問

當(dāng)管理人員或用戶需要傳輸數(shù)據(jù)或使用命令調(diào)試運(yùn)行程序時(shí),可通過SSH、PuTT、VNC等工具遠(yuǎn)程終端軟件訪問平臺(tái)[16]。

2.3.5 用戶管理

(1)用戶信息登記備案。

中心根據(jù)用戶資源申請(qǐng)表相關(guān)信息建立用戶信息庫,了解用戶背景和需求,根據(jù)用戶需求及其研究內(nèi)容為用戶作業(yè)配置資源隊(duì)列,再根據(jù)其課題和成果設(shè)置用戶優(yōu)先級(jí)[17],優(yōu)先保障對(duì)國家級(jí)重大課題的支持。年終,中心根據(jù)用戶研究成果及論文發(fā)表情況給予機(jī)時(shí)獎(jiǎng)勵(lì),保證獲得高水平研究成果的用戶更多使用計(jì)算資源,形成良性循環(huán)。

(2)用戶目錄隔離。

用戶訪問高性能計(jì)算平臺(tái)門戶網(wǎng)站[18],系統(tǒng)將建立用戶唯一訪問目錄/public/userName,用戶之間相互隔離。在用戶整個(gè)會(huì)話期內(nèi),系統(tǒng)管理用戶證書,以此提供更加細(xì)粒度的資源分配和服務(wù)控制。

(3)作業(yè)提交隔離。

用戶一律通過作業(yè)管理系統(tǒng)提交作業(yè)、隊(duì)列計(jì)算和查詢結(jié)果,嚴(yán)禁繞過作業(yè)管理系統(tǒng)使用計(jì)算資源,不可查詢他人作業(yè)。

3 服務(wù)模式探索

重慶理工大學(xué)高性能計(jì)算平臺(tái)建設(shè)至今,積極開展各種形式的對(duì)外合作與交流,充分發(fā)揮自身優(yōu)勢(shì)為不同用戶和企業(yè)提供優(yōu)質(zhì)的服務(wù)。已發(fā)展成為集高性能計(jì)算應(yīng)用、科學(xué)研究與創(chuàng)新、技術(shù)咨詢、產(chǎn)學(xué)研合作、人才培養(yǎng)等多功能為一體的技術(shù)先進(jìn)、服務(wù)優(yōu)良、成果突出的科研創(chuàng)新支撐平臺(tái)。通過不斷地創(chuàng)新和探索,總結(jié)出面向校內(nèi)外開放、資源共享的校級(jí)高性能計(jì)算平臺(tái)服務(wù)模式[19],如圖5所示。

圖5 高性能計(jì)算平臺(tái)服務(wù)模式框架

3.1 科學(xué)研究服務(wù)

作為校級(jí)公共計(jì)算資源平臺(tái),始終以“服務(wù)用戶”為宗旨,為校內(nèi)的科研團(tuán)隊(duì)、教師和學(xué)生提供高效、穩(wěn)定的計(jì)算服務(wù)。在滿足校內(nèi)需求的同時(shí),向社會(huì)開放應(yīng)用,滿足社會(huì)用戶的計(jì)算需求,提高服務(wù)水平。

3.2 承擔(dān)技術(shù)培訓(xùn)和咨詢服務(wù)

3.2.1 專業(yè)培訓(xùn)

平臺(tái)大部分用戶為非計(jì)算機(jī)專業(yè)的教師和學(xué)生,對(duì)高性能計(jì)算平臺(tái)熟悉程度參差不齊。因此,中心根據(jù)用戶的不同情況,創(chuàng)辦難度不同的培訓(xùn)班,并撰寫《用戶使用手冊(cè)》。培訓(xùn)內(nèi)容包括Linux基礎(chǔ)、專業(yè)軟件安裝優(yōu)化、并行程序開發(fā)等,為不同層次、不同需求的用戶提供高性能計(jì)算培訓(xùn)[20]。

3.2.2 咨詢服務(wù)

在使用平臺(tái)計(jì)算服務(wù)的過程中,管理人員認(rèn)真回答用戶在使用過程中遇到的問題,并撰寫“用戶常見問題與解答”等技術(shù)文檔,幫助用戶了解高性能計(jì)算的專業(yè)知識(shí)和技術(shù),以提供優(yōu)質(zhì)的咨詢服務(wù)。

3.3 產(chǎn)學(xué)研合作

中心積極參與學(xué)校和本地區(qū)各類高性能計(jì)算項(xiàng)目的申報(bào),加強(qiáng)與兄弟院校、研究所、企業(yè)之間的交流合作[21],鼓勵(lì)并支持平臺(tái)管理人員深入到重大科研項(xiàng)目中,建立跨學(xué)科、專業(yè)聯(lián)合的科研模式,發(fā)揮各自所長,充分體現(xiàn)各專業(yè)聯(lián)合優(yōu)勢(shì),使項(xiàng)目研究取得顯著突破,使平臺(tái)服務(wù)水平獲得質(zhì)的飛躍。

3.4 加強(qiáng)平臺(tái)推廣

采用多種方式加強(qiáng)平臺(tái)的推廣[22],體現(xiàn)開放、共享、交流特色。

3.4.1 大力宣傳和推廣平臺(tái)

為宣傳和推廣高性能計(jì)算平臺(tái),中心搭建了高性能計(jì)算平臺(tái)門戶網(wǎng)站[23],一是用于展示中心資源、發(fā)布新聞通知、技術(shù)培訓(xùn)、論文發(fā)表、科研成果等信息,體現(xiàn)科研競爭實(shí)力;二是用于促進(jìn)合作交流,擴(kuò)大資源開放共享范圍。通過宣傳和推廣,努力將其建設(shè)成為設(shè)施一流,功能齊全,面向社會(huì)開放,資源共享的高性能計(jì)算公共服務(wù)平臺(tái)。

3.4.2 開展平臺(tái)應(yīng)用交流活動(dòng)

作為學(xué)校科研服務(wù)平臺(tái)的建設(shè)單位,中心積極與國內(nèi)超算中心、相關(guān)實(shí)驗(yàn)室和企業(yè)交流,邀請(qǐng)高性能計(jì)算專家來校指導(dǎo),舉辦高性能計(jì)算應(yīng)用系列講座,探討高性能計(jì)算平臺(tái)建設(shè)管理經(jīng)驗(yàn),大力創(chuàng)新服務(wù)模式。

3.4.3 定期用戶回訪,提高服務(wù)質(zhì)量

加強(qiáng)用戶溝通交流對(duì)提高服務(wù)質(zhì)量起到至關(guān)重要的作用。平臺(tái)定期對(duì)用戶進(jìn)行調(diào)查回訪和意見收集,對(duì)用戶使用情況進(jìn)行統(tǒng)計(jì)分析,不斷優(yōu)化系統(tǒng)管理,提高服務(wù)質(zhì)量。

4 高性能計(jì)算平臺(tái)管理情況分析

重慶理工大學(xué)高性能計(jì)算平臺(tái)自2016年底建成即投入使用,該文以2017~2018年高性能計(jì)算平臺(tái)開戶情況(圖6)、提交作業(yè)數(shù)(表1)、使用機(jī)時(shí)(表2)等情況作為參考,分析改進(jìn)管理模式的有效性[24],如下。

圖6 2017~2018年HPC開戶情況對(duì)比

表1 2017~2018年提交作業(yè)數(shù)情況

表2 2017~2018年機(jī)時(shí)使用情況(核時(shí))

從圖6、表1中可以看出,在2017年使用初期,只有計(jì)算機(jī)、藥學(xué)、理學(xué)、車輛、電氣等幾個(gè)專業(yè)申請(qǐng)開戶,只計(jì)算一些簡單、用時(shí)少的作業(yè),資源利用率低。發(fā)現(xiàn)問題后,中心通過提高管理人員專業(yè)技能、廣泛宣傳、組織培訓(xùn)交流、提供咨詢等方式,大膽進(jìn)行管理制度和運(yùn)行機(jī)制的創(chuàng)新。從2018年的開戶情況上看,學(xué)科專業(yè)領(lǐng)域在橫向和縱向上都有所增長。從圖7、圖8看,雖然2017~2018年在作業(yè)提交數(shù)和機(jī)時(shí)使用量上有浮動(dòng),但從月度使用差額來看,總體趨勢(shì)向上。

圖7 2017~2018年提交作業(yè)數(shù)情況對(duì)比

圖8 2017~2018年機(jī)時(shí)使用情況對(duì)比

改進(jìn)管理模式后,平臺(tái)使用量自2018年11月顯著增長,極大地提高了平臺(tái)的科研服務(wù)水平和資源利用率,更好地保障了學(xué)校激增的科研計(jì)算需求,成效顯著。

5 結(jié)束語

在圍繞把重慶理工大學(xué)建設(shè)成為國內(nèi)一流的高水平應(yīng)用研究型大學(xué)的總體要求下,該校高性能計(jì)算平臺(tái)的建設(shè)與發(fā)展以智慧校園建設(shè)為核心,引進(jìn)先進(jìn)技術(shù),升級(jí)管理系統(tǒng),整合各重點(diǎn)學(xué)科優(yōu)勢(shì),對(duì)平臺(tái)管理機(jī)制、服務(wù)模式進(jìn)行全面探索與創(chuàng)新,加強(qiáng)與研究機(jī)構(gòu)的交流與合作,積極吸引和開拓用戶群,構(gòu)建一個(gè)技術(shù)先進(jìn)、服務(wù)優(yōu)良、成果突出的科研創(chuàng)新支撐平臺(tái),從而促進(jìn)學(xué)校基礎(chǔ)科研的發(fā)展,提高核心競爭力。

猜你喜歡
作業(yè)用戶服務(wù)
快來寫作業(yè)
服務(wù)在身邊 健康每一天
服務(wù)在身邊 健康每一天
服務(wù)在身邊 健康每一天
招行30年:從“滿意服務(wù)”到“感動(dòng)服務(wù)”
商周刊(2017年9期)2017-08-22 02:57:56
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
作業(yè)
故事大王(2016年7期)2016-09-22 17:30:08
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
主站蜘蛛池模板: 国产激情国语对白普通话| 精品少妇人妻一区二区| 91网红精品在线观看| 日本黄色a视频| 波多野结衣一区二区三区AV| 午夜啪啪网| 四虎成人免费毛片| 狠狠久久综合伊人不卡| 不卡的在线视频免费观看| a毛片在线| 亚洲天堂精品在线观看| 精品国产三级在线观看| 精品福利视频网| 国产簧片免费在线播放| 日本在线亚洲| 欧美成人精品在线| 亚洲日韩第九十九页| 91精品久久久久久无码人妻| 视频二区亚洲精品| 久久网欧美| 黄色片中文字幕| 国产精品任我爽爆在线播放6080 | 激情无码视频在线看| 国产精品开放后亚洲| 午夜a级毛片| 国产一在线观看| 国产成人精品综合| 欧美亚洲欧美| av手机版在线播放| 国产麻豆福利av在线播放| 91成人在线观看视频| 亚洲精品色AV无码看| 人妻少妇久久久久久97人妻| 午夜毛片福利| 国产污视频在线观看| 免费在线观看av| 国产精品无码久久久久AV| 99精品在线视频观看| 欧美97欧美综合色伦图 | 国外欧美一区另类中文字幕| 色AV色 综合网站| 亚洲天堂网2014| 国产精品人人做人人爽人人添| 久久综合色天堂av| 成人在线观看不卡| 成人午夜视频网站| 国产成人艳妇AA视频在线| 成人年鲁鲁在线观看视频| 黄色成年视频| 国产手机在线小视频免费观看| 四虎成人精品在永久免费| 国产69囗曝护士吞精在线视频 | 国产青榴视频| 欧美国产中文| 伊人婷婷色香五月综合缴缴情| 色欲国产一区二区日韩欧美| 久草网视频在线| 精品91在线| 热伊人99re久久精品最新地| 国产欧美日韩综合在线第一| 欧美午夜在线观看| 欧美福利在线| 国产高清在线观看| 欧美在线观看不卡| 日韩中文无码av超清| 日韩免费毛片视频| 真人免费一级毛片一区二区| 色综合色国产热无码一| 国产毛片不卡| 久久综合五月| 亚洲精品国产首次亮相| 国产AV无码专区亚洲精品网站| 人妻91无码色偷偷色噜噜噜| 国产乱人伦精品一区二区| 国产无码精品在线| 亚洲啪啪网| 精品三级网站| 四虎精品国产AV二区| 乱人伦99久久| 亚洲福利片无码最新在线播放 | 五月天在线网站| 免费 国产 无码久久久|