999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

安徽大學HPC平臺資源管理優(yōu)化策略

2022-12-21 03:02:18段運生
中國教育網(wǎng)絡 2022年8期
關(guān)鍵詞:進程作業(yè)資源

文/段運生

隨著信息技術(shù)的飛速發(fā)展,高性能計算HPC得到眾多科研領(lǐng)域的青睞,如生物基因、材料設計、金融計算、計算機科學等領(lǐng)域[1]。高性能計算是計算機科學的分支之一,其采用并行化技術(shù),將計算復雜度較高的計算任務分解成眾多小型計算任務,將其分配給眾多處理器同時計算,以實現(xiàn)高性能計算的目的[2]。目前,高性能計算已成為繼理論科學和實驗科學之后科學探索的第三范式,被廣泛應用在高能物理學、材料科學、航天航空飛行器設計、國民經(jīng)濟預測與決策、能源勘探、衛(wèi)星圖像處理、情報分析、互聯(lián)網(wǎng)服務、工業(yè)仿真等領(lǐng)域,對國民經(jīng)濟發(fā)展和國防建設具有重要價值。

高性能計算平臺一般由管理節(jié)點、登錄節(jié)點、網(wǎng)絡管理節(jié)點、計算節(jié)點和存儲資源構(gòu)成,其中計算節(jié)點一般包括CPU計算節(jié)點和GPU計算節(jié)點[3]。此外,高性能計算平臺還可以擴展公有云的校外計算資源,由此構(gòu)成一套完整的異構(gòu)化的混合計算平臺。高性能計算平臺中各計算節(jié)點由高性能網(wǎng)絡(InfiniBand/ OPA)相互連接,構(gòu)成一個高性能計算集群。

Slurm是可用于高性能計算集群的開源集群管理器和作業(yè)調(diào)度系統(tǒng),維護待處理的作業(yè)隊列并管理此集群的整體資源[4,5]。針對Slurm的調(diào)度軟件的應用,眾多學者在其基礎(chǔ)上提出了許多適應于自身平臺的優(yōu)化改進策略。例如,為應對超大規(guī)模計算系統(tǒng)帶來的大量監(jiān)控數(shù)據(jù),文獻[6]提出了超大規(guī)模計算系統(tǒng)的監(jiān)控、調(diào)度及網(wǎng)絡優(yōu)化實踐,使集群節(jié)點數(shù)量可以達到上萬。針對Slurm的計費功能,文獻[7]提出了一種基于Slurm作業(yè)調(diào)度系統(tǒng)的預計費裝置和方法,通過將Slurm調(diào)度系統(tǒng)與GOLD機時記賬系統(tǒng)集成,將作業(yè)使用機時從用戶可用機時中預約,作業(yè)結(jié)束后扣除機時。此外,文獻[8]還提出一種基于Slurm作業(yè)管理的可視化調(diào)度系統(tǒng),通過Web前端實現(xiàn)了用戶以可視化方式使用作業(yè)調(diào)度系統(tǒng)。

Slurm系統(tǒng)也存在不足,Slurm調(diào)度系統(tǒng)默認實現(xiàn)用戶在各節(jié)點間的無障礙跳轉(zhuǎn),也就是說用戶可以通過登錄節(jié)點直接SSH登錄任意計算節(jié)點,并在此節(jié)點直接繞過Slurm調(diào)度軟件進行作業(yè)計算[9]。這將導致用戶可以不再受Slurm資源管理的限制,隨意使用計算資源,造成管理和運維的不便。此外,Slurm在登錄節(jié)點的監(jiān)管方面也存在嚴重缺陷,用戶可以直接無限制使用資源,而這將增加平臺登錄節(jié)點宕機的可能性。

針對上述問題,本文提出一套基于Slurm的智能化高性能計算資源管理方法,該方法包含一系列的控制功能:限制節(jié)點訪問、智能化管理資源、資源異常查殺等,為平臺的有效運行提供了一套完備的管理手段和策略。

Slurm簡介

Slurm資源調(diào)度工具是面向Linux、Unix類似內(nèi)核的免費和開源工作調(diào)度程序,由世界上許多超級計算機和計算機集群使用。它提供了三個關(guān)鍵功能:首先,它在一段時間內(nèi)為用戶分配對資源(計算機節(jié)點)獨占和/或非獨占的訪問權(quán)限,以便他們可以執(zhí)行工作;其次,它提供了一個框架,用于在一組分配的節(jié)點上啟動、執(zhí)行和監(jiān)視工作(通常是并行作業(yè),例如MPI);最后,它通過管理待處理作業(yè)隊列來仲裁資源爭用。

Slurm的設計非常模塊化,有大約100個可選插件。在最簡單的配置中,它可以在幾分鐘內(nèi)完成安裝和配置,并為更復雜的配置提供數(shù)據(jù)庫集成,管理資源限制和工作負載優(yōu)先級[10]。

Slurm資源管理系統(tǒng)的正常運行還需要一些系統(tǒng)服務與支撐環(huán)境的正確設置,比如系統(tǒng)配置、節(jié)點、分區(qū)、調(diào)度、記賬存儲、網(wǎng)絡拓撲等。Slurm提供了豐富的配置文件,如主配置文件、記賬存儲服務配置文件、節(jié)點配置文件、分區(qū)配置文件和通用資源配置文件等。

Slurm資源管理系統(tǒng)由多個部分構(gòu)成,如控制進程、記賬存儲進程、節(jié)點監(jiān)控進程、作業(yè)管理進程、命令工具等,其系統(tǒng)結(jié)構(gòu)如圖1所示。

圖1 Slurm系統(tǒng)結(jié)構(gòu)

基于Slurm的資源管理策略優(yōu)化

本文主要針對高性能計算集群的登錄節(jié)點、管理節(jié)點和計算節(jié)點進行資源和權(quán)限的管理配置,其中使用到的軟件資源有:Slurm、CpuLimit模塊、pam_access.so插件和Linux基本的指令集。實現(xiàn)的功能如下:

1.對各節(jié)點的root進行固定IP訪問限制;

2.限制登錄節(jié)點中用戶的資源使用;

3.限制用戶登錄無作業(yè)的計算節(jié)點;

4.在計算節(jié)點查殺非Slurm用戶的大計算進程;

5.GPU節(jié)點的異常作業(yè)處理。

通過上述工具配置相應策略,可實現(xiàn)高性能計算平臺的安全運行和資源智能化、自動化的監(jiān)管與調(diào)度。

root固定IP訪問限制

高性能計算平臺默認為用戶提供計算服務器,所以訪問端口對外開放。root用戶擁有整個系統(tǒng)中至高無上的權(quán)力,為了避免一些潛在的風險,我們需對root用戶進行訪問權(quán)限的設置。該功能需要使用pam_access.so插件,該插件的功能和作用是根據(jù)主機名(包括普通主機名或者FQDN)、IP地址和用戶實現(xiàn)全面的訪問控制。pam_access.so模塊的具體工作行為根據(jù)配置文件/etc/security/access.conf來決定。具體設置策略如下:

管理節(jié)點只允許指定IP地址root訪問,禁止非root用戶訪問;登錄節(jié)點允許指定IP的root訪問和所有用戶訪問;計算節(jié)點允許指定IP的root訪問,禁止用戶直接訪問。

實現(xiàn)方法:

1.在/etc/pam.d/sshd添加如下一句account required pam_access.so

2.在 /etc/security/access.conf添加+ : root : xxx.xxx.xxx.xxx-: root : ALL+ : ALL : ALL

該配置文件的主體包含了三個字段:權(quán)限、用戶和訪問發(fā)起方。格式上是一個用“:”隔開的表。其中第一個字段:權(quán)限(permission),使用“+”表示授予權(quán)限,用“-”表示禁止權(quán)限。第二個字段:用戶(user),定義了用戶、組以及用“@”表示的不同主機上的同名用戶和同一主機上不同名用戶。第三個字段:訪問發(fā)起方(origins),定義了發(fā)起訪問的主機名稱、域名稱和終端名稱。

登錄節(jié)點中用戶的資源使用限制

登錄節(jié)點是高性能計算的門戶,主要用于用戶的登錄訪問和作業(yè)提交功能。若用戶在登錄節(jié)點執(zhí)行大規(guī)模的計算任務,會導致該登錄節(jié)點宕機。我們通過定時檢測用戶的進程信息,對CPU使用率比較高的進程進行CPU資源限制。CPU資源限制選用的是cpulimit插件,具體設置策略如下:

1.通過在登錄節(jié)點執(zhí)行如下命令實現(xiàn)對用戶進程的獲取(grep -h '^.[0-9]{4}'是依據(jù)安徽大學的賬戶規(guī)則進行的匹配篩選):ps -o ruser=userForLongName -e -o pid,%cpu--sort=-%cpu |grep -v root |grep -v PID|head-10 |grep -h '^.[0-9]{4}'

2.對檢測到的進行pid,進行CPU資源對比,超過閾值的pid進行cpu限制:if [ $(echo "$cpu>80"|bc) == 1 ]; then cpulimit --pid $pid --limit 50 &fi

登錄節(jié)點的大規(guī)模計算資源限制的處理流程如圖2所示,配置crontab定時任務計劃,使腳本定制執(zhí)行。

圖2 登錄節(jié)點資源限制流程

限制用戶登錄無作業(yè)的計算節(jié)點

該功能主要實現(xiàn)用戶在登錄節(jié)點無法直接SSH到計算節(jié)點,只有用戶通過Slurm提交作業(yè)后,才有權(quán)限SSH到運行該作業(yè)的計算節(jié)點。本功能需要使用Slurm的PAM插件來實現(xiàn)。

實現(xiàn)方法:

1.添加不包含pam_systemd.so的PAM配置:grep -v pam_systemd.so /etc/pam.d/passwordauth> /etc/pam.d/password-auth-no-systemd

2./etc/security/access.conf 里添加如下:+:root:ALL-:ALL:ALL

3./etc/pam.d/sshd 添加:account sufficient pam_access.so account required pam_slurm.so

4.在/etc/pam.d/目錄下創(chuàng)建slurm文件,文件內(nèi)容如下:auth required pam_localuser.so account required pam_unix.so session required pam_limits.so

計算節(jié)點查殺非Slurm用戶的大計算進程

用戶在作業(yè)運行期間,可以SSH到相應的計算節(jié)點。這時用戶可以直接在該計算節(jié)點進行提交作業(yè)操作,這個操作是系統(tǒng)不允許的。但是如果作業(yè)結(jié)束后,直接阻截該用戶的所有進程,也不合理。為此,我們添加了對計算節(jié)點異常進程的查殺操作,操作流程如圖3所示,其具體設置策略如下:

圖3 計算節(jié)點的異常進程處理流程

1.通過squeue查詢當前計算節(jié)點的作業(yè)信息;

2.通過ps指令查詢排除提交作業(yè)用戶的進程信息;

3.對各進程信息的CPU使用率進行檢測,對使用率較高的進程進行查殺操作。

GPU節(jié)點異常作業(yè)處理

GPU計算節(jié)點主要用于計算深度學習等高性能計算,不允許提交傳統(tǒng)的CPU計算作業(yè),但是Slurm無法準確判斷和管理該功能。為此,我們編寫了在異常GPU作業(yè)查殺的模塊。其操作流程如圖4所示,具體設置策略如下所示:

圖4 GPU節(jié)點的異常進程處理流程

1.通過squeue查詢當前計算節(jié)點的作業(yè)信息;

2.通過scontrol輪詢各作業(yè),判斷是否有申請GPU的字段信息(TresPerNode=gpu),對未使用GPU的作業(yè)進行scancel操作。

策略部署與性能測試

本文針對安徽大學校級高性能計算平臺在實際運行中遇到的問題提出了基于Slurm的資源管理調(diào)度優(yōu)化方法。該優(yōu)化策略包括:根據(jù)IP地址的類型確定是否允許IP地址訪問對應的節(jié)點,以及根據(jù)用戶的類型確定是否允許用戶訪問對應的節(jié)點;根據(jù)用戶在登錄節(jié)點使用的CPU資源和預設的CPU資源閾值,確定是否進行CPU限制;根據(jù)用戶提交作業(yè)的情況,確定是否允許用戶登錄到計算節(jié)點;獲取已提交作業(yè)的用戶信息,根據(jù)非作業(yè)用戶進程的CPU使用率和預設的使用率閾值,確定是否查殺該用戶進程;對GPU計算節(jié)點中的非GPU作業(yè)進行取消等功能。

本文將Slurm的優(yōu)化策略在安徽大學校級高性能計算平臺進行部署,并測試其性能。安徽大學高性能計算平臺是集傳統(tǒng)超算和GPU計算于一體的混合計算平臺,該平臺系統(tǒng)拓撲圖如圖5所示。

圖5 安徽大學高性能計算平臺拓撲

目前,該平臺的建設規(guī)模如下:

存儲空間186T,CPU總核數(shù)3340核,GPU總卡數(shù)59張,總計算節(jié)點數(shù)量為85個CPU節(jié)點和10個GPU節(jié)點,平臺單精度性能總算力1316.8 Tflops。

安徽大學高性能計算平臺于2021年底部署了基于Slurm的資源管理優(yōu)化策略,并結(jié)合用戶培訓、群里通知等方式協(xié)助管理。經(jīng)過2022年第一季度實際測試,統(tǒng)計異常平臺記錄如表1所示。從表中可以看出,平臺的異常IP的節(jié)點訪問現(xiàn)象顯著降低,有效解決了登錄節(jié)點異常宕機的問題,同時切實保證了作業(yè)正常運行,極大減少了平臺運維工程師的工作量。

表1 安徽大學高性能計算平臺的異常信息統(tǒng)計

本文提出一種基于Slurm的智能化的高性能計算平臺的資源管理優(yōu)化策略,其能夠保證高性能計算平臺資源管理和分配,有效避免了Slurm的常見漏洞;此外,該策略能夠限制root的安全訪問權(quán)限和計算節(jié)點的權(quán)限訪問,同時也限制登錄節(jié)點中用戶的資源使用和計算節(jié)點的異常進程查殺。

猜你喜歡
進程作業(yè)資源
基礎(chǔ)教育資源展示
快來寫作業(yè)
一樣的資源,不一樣的收獲
債券市場對外開放的進程與展望
中國外匯(2019年20期)2019-11-25 09:54:58
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
作業(yè)
故事大王(2016年7期)2016-09-22 17:30:08
社會進程中的新聞學探尋
民主與科學(2014年3期)2014-02-28 11:23:03
我國高等教育改革進程與反思
我想要自由
主站蜘蛛池模板: 91青草视频| 午夜精品一区二区蜜桃| 在线看片免费人成视久网下载| 国产精品亚欧美一区二区| 国产va在线| 99人体免费视频| 欧美色亚洲| 在线毛片网站| 国产黑人在线| www.youjizz.com久久| 日韩精品一区二区三区大桥未久| 欧美国产在线一区| 黑人巨大精品欧美一区二区区| 日韩中文精品亚洲第三区| 国产区免费| 五月天福利视频| 国产福利在线免费观看| 国产一二视频| 欧洲亚洲欧美国产日本高清| 国产精品v欧美| 日本免费精品| 一区二区三区成人| 日韩欧美国产精品| a级毛片网| 伊人久久青草青青综合| 伊人久久久大香线蕉综合直播| 亚洲欧美在线综合一区二区三区| 九九视频免费在线观看| 99一级毛片| 丁香六月激情婷婷| 亚洲无码A视频在线| 日韩大片免费观看视频播放| 亚洲精品免费网站| 在线观看精品自拍视频| 午夜人性色福利无码视频在线观看| 狠狠ⅴ日韩v欧美v天堂| 亚洲嫩模喷白浆| 国产精品视频猛进猛出| 亚洲全网成人资源在线观看| 91欧美在线| 日本午夜三级| 男人的天堂久久精品激情| 自拍偷拍一区| 视频二区中文无码| 日韩专区第一页| 97国产成人无码精品久久久| 怡红院美国分院一区二区| 国产v欧美v日韩v综合精品| 国产亚洲欧美日本一二三本道| 中文毛片无遮挡播放免费| 免费无码网站| 久久香蕉国产线看观| 久久亚洲精少妇毛片午夜无码| 亚洲第一中文字幕| 日韩欧美国产中文| 91精品啪在线观看国产| 毛片视频网址| 99re热精品视频国产免费| 欧美在线精品一区二区三区| 久久精品最新免费国产成人| 亚洲乱伦视频| 国产剧情一区二区| 亚洲成年人网| 亚洲日本中文综合在线| AV熟女乱| 欧美精品1区| 97色婷婷成人综合在线观看| 国产特级毛片| 三区在线视频| 国产网友愉拍精品视频| 中文字幕欧美日韩| 国产大片黄在线观看| 国产成人夜色91| 亚洲嫩模喷白浆| 99视频在线看| 狼友视频国产精品首页| 国产成人无码AV在线播放动漫| 久久99国产综合精品1| 久久久四虎成人永久免费网站| 色亚洲成人| 麻豆精品在线| 国产导航在线|