999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向科研院校服務的高性能計算集群平臺的設計與實現(xiàn)

2022-03-29 15:00:45涂金龍
河南科技 2022年3期

涂金龍

摘 要:本研究闡述了高性能計算集群平臺的特點,然后介紹了平臺的硬件和軟件組成,并簡要地闡述了平臺的構建過程,最后通過一個測試案例探討了利用平臺進行作業(yè)調(diào)度的流程和方法,希望可以為企業(yè)高性能計算運維人員提供一些借鑒和參考。

關鍵詞:高性能計算;集群部署;高??茖W計算

中圖分類號:TP38 ? ? 文獻標志碼:A ? ? 文章編號:1003-5168(2022)3-0026-04

DOI:10.19968/j.cnki.hnkj.1003-5168.2022.03.006

Design and Implementation of High Performance Computing Cluster Platform for Scientific Research Institutions

TU Jinlong

(Network and Information Technology Center of Jiangxi University of Chinese Medicine,

Nanchang 330004,China)

Abstract:This paper describes the characteristics of high-performance computing cluster platform, then introduces the hardware and software composition of the platform, and briefly describes the construction process of the platform. Finally, through a test case, this paper discusses the process and method of job scheduling using the platform, hoping to provide some reference for enterprise high-performance computing operation and maintenance personnel.

Keywords:high performance computing; cluster deployment; scientific computing in colleges and universities

0 引言

高性能計算(High Performance Computing,HPC)也被稱為數(shù)據(jù)分析的超級計算機,是一套計算性能強大、數(shù)據(jù)傳輸率超高、具有大規(guī)模存儲空間和完整軟件的系統(tǒng),通常包含計算處理單元、并行存儲單元、網(wǎng)絡單元、管理調(diào)度軟件單元,主要采用集群架構,通過網(wǎng)絡將大量的服務器連接起來,讓所有服務器協(xié)調(diào)工作來完成一系列計算任務[1]。超級計算機和傳統(tǒng)的計算機不同,它具有超強的計算能力,能夠解決很多在日常生活中難以處理的問題。當前,計算與理論方法、試驗手段并列為人類認識世界的三大主要手段[2]。在大型工程中,試驗和理論方法在解決尖端問題,如開展科學研究等,存在著一定程度的瓶頸。因此,使用高性能計算技術來解決此類問題,就成為發(fā)展的必然趨勢。現(xiàn)代科技和經(jīng)濟的發(fā)展使高性能計算服務應用的門檻不斷降低。美國、日本等發(fā)達國家在高性能計算技術發(fā)展的支持下,其工業(yè)、科學研究、新材料、新能源、服務行業(yè)等產(chǎn)業(yè)發(fā)展很快,高性能計算技術已經(jīng)與社會生產(chǎn)發(fā)展實現(xiàn)了深度融合。

江西省在物理、化學、生物、新能源、新材料等領域?qū)Ω咝阅苡嬎愕男枨罂偭糠逯颠_100萬億次以上。然而,江西省的高性能計算基礎設施非常薄弱并且較分散,基本以科研單位購買自用為主。江西省內(nèi)各高校對各類科學計算的超算資源需求都比較旺盛。但目前各類研究單位在高性能計算能力方面相對比較薄弱,資源供給無法滿足應用發(fā)展的需求。因此,迫切需要構建一個集中公共的高性能計算服務平臺,來應對各類科學計算服務。建設基于高性能計算集群的服務平臺,可以大大緩解這樣的不利局面。

1 高性能計算集群平臺的設計

1.1 高性能計算集群的硬件配置

某高校高性能集群系統(tǒng)拓撲圖如圖1所示。該系統(tǒng)包含以下幾部分。

1.1.1 管理節(jié)點。由一臺管理節(jié)點組成,負責用戶登錄、管理調(diào)度整個集群、任務提交等,對整個系統(tǒng)進行監(jiān)控管理,所配的型號為NF5270M4。

1.1.2 登錄節(jié)點。包括一臺登錄節(jié)點服務器,為用戶登錄平臺使用,是直接和用戶交互的節(jié)點,便于用戶作業(yè)的上傳、程序代碼的編寫、作業(yè)的提交和任務結果的查看等,所配的型號為NF5270M4。

1.1.3 存儲節(jié)點。配置了分布式存儲系統(tǒng)和Lustre并行文件系統(tǒng),負責存儲大量的計算數(shù)據(jù),高可用、高安全,所配置型號為SA5224H。

1.1.4 計算節(jié)點。由25臺高性能刀片服務器組成,承載平臺的計算任務請求,所配置的型號為NX5440M4;胖節(jié)點型號為NF8460M3;MIC加速節(jié)點、GPU加速節(jié)點型號為NF5588M3。

1.1.5 網(wǎng)絡子系統(tǒng)。由管理網(wǎng)絡和業(yè)務網(wǎng)絡組成,管理網(wǎng)絡負責集群管理使用,由以太網(wǎng)1 000 M連接管理交換機。業(yè)務網(wǎng)絡由Infiniband網(wǎng)絡連接計算節(jié)點和存儲子系統(tǒng),是業(yè)務數(shù)據(jù)通信的專用網(wǎng)絡。

1.1.6 KVM切換器。KVM系統(tǒng)用于連接所有計算節(jié)點、存儲節(jié)點和管理節(jié)點,方便運維人員系統(tǒng)調(diào)式和管理使用。

1.1.7 顯示系統(tǒng)。配置2臺電視顯示屏和1臺筆記本電腦,電視大屏作為集群平臺監(jiān)控和作業(yè)調(diào)度可視化,為TCL電視,掛壁安裝。

1.2 高性能集群平臺的軟件組成

高性能集群平臺的軟件包括底層Linux操作系統(tǒng)、集群管理系統(tǒng)、集群作業(yè)調(diào)度系統(tǒng)、集群平行環(huán)境和集群開發(fā)環(huán)境[3]。

①集群平臺運行環(huán)境管理節(jié)點和計算節(jié)點均安裝Redhat as 6.5企業(yè)版64位操作系統(tǒng)。

②集群管理系統(tǒng)。實現(xiàn)集群集中管理和集中監(jiān)控的功能,部署的軟件為ClusterEnginer。

③集群作業(yè)調(diào)度系統(tǒng)。OpenPBS作業(yè)調(diào)度系統(tǒng)以支持命令行及web方式實現(xiàn)作業(yè)的提交、查看等。

④集群平行開發(fā)環(huán)境。安裝Intel C++/Fortran編譯器、Intel編譯、調(diào)試軟件等編譯器,Intel MKL數(shù)學核心庫等數(shù)學庫,滿足大部分科學計算需要。

2 高性能計算集群平臺的部署

2.1 高性能計算集群平臺基礎環(huán)境的配置

高性能計算集群平臺基礎環(huán)境的配置主要包括RSH、NIS、NFS、SSH等4個服務的配置過程。

2.1.1 RSH服務。需要在集群全部的節(jié)點中配置RSH權限,配置步驟如下:首先,在其中的一個節(jié)點的配置HOSTS文件中,配置全部計算節(jié)點的IP地址及計算機名信息;其次,共享給其他節(jié)點通用;然后,需要對操作系統(tǒng)中的RHOSTS和HOSTS.EQUIV文件配置加入全部節(jié)點的計算機名信息;最后,完成RSH服務配置,可以重啟RSH服務。

2.1.2 NIS服務。NIS服務是一項目錄服務技術,用來對多個系統(tǒng)管理的數(shù)據(jù)庫作集中控制的網(wǎng)絡產(chǎn)品服務[4]??蛻舳擞脩舨挥米约航⒆约旱?etc/passwd,可利用NIS服務使用服務器端的管理文件,需要負責維護在NIS服務器的文件即可。服務端的NIS配置#echo 'nisdomainname TS10K' >>/etc/rc.d/rc.local。

2.1.3 NFS服務。NFS服務是網(wǎng)絡文件共享服務。NFS的作用是借助于計算機網(wǎng)絡,可以把自己的文件目錄共享給他人使用,遠程服務器端的文件,能夠被用戶和程序隨機地訪問和使用[5]。在本集群管理節(jié)點中配置好共享。配置的步驟如下:

建立文件/etc/exports

vi/etc/exports/,在文件內(nèi)添加上語句:

/home*(rw,insecure,no_root_squash,sync)

/opt*(rw,insecure,no_root_squash,sync)

啟動nfs

#/sbin/chkconfig nfs on

#/sbin/service nfs restart

在客戶端通過利用命令showmount-e IP查看服務器端開放共享出來的文件目錄。

2.1.4 SSH服務。SSH服務能夠提供一種較可靠、專為桌面遠程登錄使用、為其他網(wǎng)絡服務等提供的一種安全性的協(xié)議[6]。集群節(jié)點之間一般都是通過腳本配置無密碼訪問,在腳本中配置HOSTFILE文件中加入需要SSH服務的節(jié)點的主機名稱。

2.2 集群管理軟件的部署

批處理是指通過命令對所有計算節(jié)點進行統(tǒng)一操作。本集群平臺批處理采用的是開源軟件Tentakel。Tentakl是集群常用軟件,能十分方便地在管理節(jié)點中安裝配置軟件。# vi /etc/tentakel.conf 中添加需要管理的機器名和群組。使用普通用戶登錄集群,然后所有計算節(jié)點執(zhí)行以下命令,如果正常輸出,可說明節(jié)點狀態(tài)正常。輸入# tentakel -g allc 'date'來驗證Tentakel是否正常部署。

2.3 集群平臺平行開發(fā)環(huán)境的配置

①將intel編譯器壓縮包放到/root下。輸入如下命令,安裝編譯程序。

# tar -xvf parallel_studio_xe_2015_update1.tgz # 。/install.sh

②配置環(huán)境變量??梢酝ㄟ^編寫.sh腳本,配置全局環(huán)境變量,將腳本放在/etc/profile.d下。如果是單用戶的變量,可以寫入每個用戶的$HOME/.bashrc下。

# vi /etc/profile.d/intel.sh source /opt/intel/composer_xe_2015.1.133/bin/compilervars.sh intel64so-urce /opt/intel/mkl/bin/intel64/mklvars_intel64.sh

2.4 集群平臺作業(yè)調(diào)度軟件的配置

作業(yè)調(diào)度軟件是專為高性能集群平臺而開發(fā)的一款作業(yè)調(diào)度軟件,底層用openpbs和maui作業(yè)調(diào)度管理軟件。作業(yè)管理提供負載均衡共享服務,有時被稱作為負載管理。它主要用于用戶的作業(yè)調(diào)度,能最優(yōu)地調(diào)度和優(yōu)化系統(tǒng)中的各類計算資源[7]。目的是有效地管理集群,合理地調(diào)度作業(yè),充分利用集群的軟硬件資源及寶貴的CPU時間,提高系統(tǒng)的吞吐率和利用率,如圖2所示。

3 作業(yè)提交調(diào)度實踐

利用作業(yè)調(diào)度系統(tǒng),可以對集群平臺中的硬件資源和軟件資源進行集中統(tǒng)一的管理,也可以管理用戶所提交的作業(yè)任務,并根據(jù)集群中資源使用的實際情況,合理調(diào)度作業(yè)執(zhí)行,從而達到提高各類資源的利用率及用戶作業(yè)的執(zhí)行度的作用[8]。作業(yè)調(diào)度過程如圖3所示。

下面以一個實際的案例,闡述作業(yè)提交的步驟和作業(yè)調(diào)度的流程。

3.1 添加新用戶

在集群中添加新用戶,首先在管理節(jié)點mu01上添加新用戶,編輯/var/yp 目錄,這樣client端可以使用創(chuàng)建的用戶登錄系統(tǒng)。創(chuàng)建完用戶后,在NIS基礎上,節(jié)點間實現(xiàn)ssh無密碼訪問后,還需要針對環(huán)境變量進行相關設定。只需要在mu01節(jié)點上修改(/home/tujl1010目錄是共享的),使用Tentakel工具在所有節(jié)點上執(zhí)行source命令即可。在bashrc添加對應的環(huán)境變量,環(huán)境變量中可以指定Intel c、Intel fortran、MKL和MPI的安裝路徑。此處修改后就不需要在pbs腳本中指定。bashrc文件輸入如下命令。

#vi? /home/tujl1010/.bashrc

source /opt/intel/composer_xe_2015.1.133/bin/compilervars.sh intel64

source /opt/intel/impi_5.0.2/bin64/mpivars.sh

source /opt/intel/mkl/bin/mklvars.sh intel64

以lammps應用為例,圖4介紹PBS腳本文件的編寫。

3.2 提交作業(yè)

使用普通用戶,登錄到mu01節(jié)點,使用#qsub sleep.pbs提交作業(yè),每個作業(yè)提交后必有一個作業(yè)號碼。

3.3 查看作業(yè)狀態(tài)及結果

通過qstat -n命令查看作業(yè)的狀態(tài),計算完畢后查看輸出結果,以sleep為例,這里的名字取決于在腳本中設定的作業(yè)名字,后面的數(shù)字15即作業(yè)號。運行后看到多出了文件sleep.e15 sleep.o15,其中e代表錯誤輸出,o代表正確輸出。同時也可以通過web監(jiān)控界面觀察作業(yè)調(diào)度情況,如圖5所示。Job statistics 中Q為排隊狀態(tài)、R為正在執(zhí)行狀態(tài)、C為執(zhí)行結束狀態(tài)。

4 結語

高性能計算集群平臺要求有直觀的界面化操作,以虛擬化技術快速部署資源,實現(xiàn)動態(tài)的、可伸縮可擴展的服務,按需求提供資源,通過互聯(lián)網(wǎng)提供服務等智能化的管理體系來提高科學計算的效率、節(jié)省計算成本。平臺的建立將極大地推動超級計算機的普及應用和產(chǎn)業(yè)化,解決目前科研院校計算資源不足的問題,從而促進藥物設計、新材料、新能源等領域的發(fā)展,有效地推進了江西省產(chǎn)業(yè)結構優(yōu)化升級、發(fā)展方式轉(zhuǎn)變。

參考文獻:

[1] 黃建強,孟永偉,曹騰飛,等.青海大學三江源數(shù)據(jù)分析中心高性能計算集群的構建與設備管理[J].實驗技術與管理,2014(12):237-240.

[2] 廖湘科,肖儂.新型高性能計算系統(tǒng)與技術[J].中國科學:信息科學,2016(9):1175-1210.

[3] 安喜鋒.高性能計算集群管理系統(tǒng)與作業(yè)調(diào)度技術研究與實現(xiàn)[D].西安:西北工業(yè)大學,2005.

[4] 吳夢蕓.一種基于1分布式數(shù)值計算模式軟件的實現(xiàn)[D].成都:電子科技大學,2016.

[5] 劉建.基于CIFS的文件屬性信息掃描方法研究[J].硅谷,2012(24):100-101.

[6] 郭默.分布式網(wǎng)絡爬蟲的研究與實現(xiàn)[D].西安:西北大學,2016.

[7] 葉慶華.基于服務的機群作業(yè)管理系統(tǒng)設計與實現(xiàn)[D].北京:中國科學院研究生院(計算技術研究所),2002.

主站蜘蛛池模板: 中文字幕精品一区二区三区视频| 最新精品久久精品| 久久久久久久久18禁秘| 欧美α片免费观看| 日韩国产黄色网站| 2022国产无码在线| 亚洲国产精品无码AV| 免费久久一级欧美特大黄| 成人午夜久久| 欧美国产综合色视频| 亚洲日本在线免费观看| 一级看片免费视频| 一区二区三区国产精品视频| 国产美女主播一级成人毛片| 尤物精品视频一区二区三区| a在线观看免费| 日本一区中文字幕最新在线| 福利一区在线| 色欲不卡无码一区二区| 成人免费网站久久久| 在线观看精品自拍视频| 国产福利免费在线观看| 国内视频精品| 国产成人精品亚洲77美色| a毛片免费观看| 国产精品性| 99在线视频免费| 亚洲啪啪网| 在线观看国产精品第一区免费 | 69视频国产| 99视频在线观看免费| 制服丝袜亚洲| 国产成人三级| 亚洲国产天堂久久九九九| 亚洲Aⅴ无码专区在线观看q| 91国语视频| 91精品国产91久无码网站| 日韩av高清无码一区二区三区| 国产主播福利在线观看| 91久久国产热精品免费| 91丝袜乱伦| 日本www在线视频| 国产精品亚洲va在线观看| 亚洲黄色成人| 国产欧美成人不卡视频| 国内a级毛片| 亚洲第一色视频| 国产精品网址你懂的| 亚洲综合极品香蕉久久网| 乱人伦中文视频在线观看免费| 亚洲一道AV无码午夜福利| 亚洲三级色| 国产手机在线ΑⅤ片无码观看| 久久国产黑丝袜视频| 99热这里只有精品国产99| 色综合色国产热无码一| 国产香蕉在线| 狠狠躁天天躁夜夜躁婷婷| 国产小视频在线高清播放 | 亚洲精品波多野结衣| 一区二区理伦视频| 亚洲欧美激情另类| 自拍偷拍欧美| 成年女人a毛片免费视频| 亚洲欧洲自拍拍偷午夜色| 亚洲精选高清无码| 国产成人精彩在线视频50| 久久国产精品国产自线拍| 114级毛片免费观看| 亚洲天堂免费在线视频| 狠狠亚洲五月天| 人人看人人鲁狠狠高清| 天天躁狠狠躁| 国产免费久久精品99re不卡| 26uuu国产精品视频| 不卡色老大久久综合网| 国产乱人免费视频| 2020国产免费久久精品99| 国产超碰一区二区三区| 超碰91免费人妻| 亚洲成肉网| 亚洲AV色香蕉一区二区|