999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Slurm作業(yè)調(diào)度系統(tǒng)在高性能集群中的應用

2021-03-07 23:09:07楊敏李淑倩關(guān)宇何蕓侯波
電腦知識與技術(shù) 2021年36期

楊敏 李淑倩 關(guān)宇 何蕓 侯波

摘要:集群作業(yè)管理系統(tǒng)作為高性能計算領(lǐng)域的核心技術(shù),伴隨著計算機技術(shù)的發(fā)展進步逐漸成為計算機學科的熱點研究領(lǐng)域。作為集群系統(tǒng)軟件的重要組成部分,集群作業(yè)管理系統(tǒng)可以根據(jù)用戶的需求,統(tǒng)一管理和調(diào)度集群的軟硬件資源,保證用戶作業(yè)公平合理地共享集群資源,提高系統(tǒng)利用率和吞吐率。傳統(tǒng)作業(yè)管理系統(tǒng)大多需要以命令行的方式進行管理,用戶需要熟練掌握多種調(diào)度器命令。Slurm 是一種可用于大型計算節(jié)點集群的高度可伸縮和容錯的集群管理器和作業(yè)調(diào)度系統(tǒng),被世界范圍內(nèi)的超級計算機和計算集群廣泛采用。本文以Slurm作業(yè)調(diào)度器為例,對其體系結(jié)構(gòu)、作業(yè)執(zhí)行過程做了重點研究,重點闡述其在地震處理軟件中的應用。其高效便捷的操作方式,極大提升工作效率,極大程度地優(yōu)化了集群管理工作。

關(guān)鍵詞:Slurm;高性能計算;作業(yè)調(diào)度系統(tǒng)

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)36-0153-02

開放科學(資源服務(wù))標識碼(OSID):

1 引言

新疆油田公司地球物理研究所主要業(yè)務(wù)是地震資料處理解釋勘探研究,同時也是高性能計算中心。油氣地震勘探研究是利用高性能計算機的數(shù)據(jù)處理能力對野外收集的原始資料進行各種去粗取精、去偽存真的數(shù)據(jù)處理加工工作。隨著地震勘探技術(shù)進步,特別是近幾年油氣勘探地質(zhì)目標逐步轉(zhuǎn)向“低、深、隱、難”的小斷裂和薄儲層識別,野外高密度寬方位地震采集技術(shù)逐步推廣,采集的地震資料數(shù)據(jù)量動輒幾十TB甚至上百TB,數(shù)據(jù)體規(guī)模越來越大,數(shù)據(jù)類型繁雜,數(shù)據(jù)結(jié)構(gòu)復雜,地震勘探研究邁進大數(shù)據(jù)時代隨著油氣地震勘探工作難度的日益增大,引進以密集計算為特征的新的地震資料處理方法和運行平臺HPC集群,來滿足復雜地質(zhì)目標研究需求。我所建成了一套計算規(guī)模9000多核CPU+GPU異構(gòu)集群,每秒354.55Tflops萬億次浮點運算的理論處理能力,為油田公司資料數(shù)據(jù)處理提供了有力保障。主要應用于Paradigm2011處理系統(tǒng)、CGGVeritas Geovation處理系統(tǒng)、Geoeast處理解釋一體化平臺、AGT逆時偏移軟件、Lightning疊前偏移軟件。集群節(jié)點應用層面,地震資料處理過程中的常規(guī)處理工作依舊通過CPU節(jié)點進行,地震疊前逆時偏移等高精度成像技術(shù)由于計算量巨大,通過CPU/GPU節(jié)點的協(xié)同進行數(shù)據(jù)并行計算。這么大規(guī)模的集群存儲節(jié)點,集群作業(yè)調(diào)度系統(tǒng)作為集群系統(tǒng)軟件的重要組成部分,是地震勘探處理軟件的核心內(nèi)容。用戶自定義集群分組信息,作業(yè)在分組計算節(jié)點單元按需求運行,Slurm操作界面高效管理和便捷調(diào)度,保障用戶作業(yè)有序高效進行,共享整個集群計算資源,提高計算節(jié)點資源的利用率和吞吐率。Slurm是具備開源、容錯、高可伸縮的集群管理和大型小型 Linux 集群作業(yè)調(diào)度系統(tǒng)。由60萬行C代碼組成。它不需要對操作系統(tǒng)內(nèi)核進行修改,而是相對獨立的。Slurm在一段時間內(nèi)為用戶分配獨占或者非獨占的計算資源節(jié)點,按照自定義好的計算資源執(zhí)行作業(yè)任務(wù);其次,它能提供管理功能,用于分配的計算節(jié)點集上啟動作業(yè)、執(zhí)行作業(yè)、監(jiān)視計算資源利用情況的功能,常規(guī)是并行作業(yè)任務(wù);最后,它通過管理掛起的工作隊列,來仲裁資源爭奪問題。

2 Slurm技術(shù)架構(gòu)

處理集群通常有多個用途,安裝多種應用軟件,為多個用戶提供服務(wù)、集群用途和系統(tǒng)配置經(jīng)常調(diào)整,日常維護服務(wù)體系復雜。集群資源調(diào)度難,需要將通用的集群監(jiān)控調(diào)度軟件和集群運維定制開發(fā)工具相結(jié)合,搭建適用于實際工作環(huán)境的集群資源調(diào)度管理體系,通過監(jiān)控收集集群運行數(shù)據(jù),支撐集群優(yōu)化,保障系統(tǒng)高效穩(wěn)定運行。

Slurm是適應不同計算規(guī)模Linux集群的資源管理和調(diào)度軟件。它提供高效的資源與作業(yè)管理。包括狀態(tài)監(jiān)控、資源管理、作業(yè)調(diào)度和用量記賬。

Slurm技術(shù)架構(gòu)如下:

1)運行在每個計算節(jié)點上的Slurmd守護進程;

2)運行在管理節(jié)點上的中央Slurmctld守護進程(可選的故障切換節(jié)點模式) 。

它的一個管理控制進程是Slurmctld運行在管理節(jié)點,是資源的控制中樞。它負責記錄節(jié)點狀態(tài)、進行分區(qū)作業(yè)管理、作業(yè)調(diào)度和資源分配。記賬存儲進程Slurmdbd也運行在管理節(jié)點,它將作業(yè)信息保存到數(shù)據(jù)庫,記錄用戶、賬號、資源限制、QOS等信息,負責用戶認證和安全隔離。節(jié)點監(jiān)控進程Slurmd運行在每個計算節(jié)點,監(jiān)控節(jié)點狀態(tài),并向控制進程注冊,接收來自控制進程與用戶的請求并進行處理。作業(yè)管理進程Slurmstepd加載計算任務(wù)時由節(jié)點監(jiān)控進程啟動,管理一個作業(yè)步的所有任務(wù),啟動計算任務(wù)進程、標準I/O轉(zhuǎn)發(fā),信號傳遞和任務(wù)控制與資源使用信息收集。

如下圖2所示,由這些 Slurm 守護程序管理的實體,包括:

1)計算資源node;

2)計算資源組成的邏輯集partition;

3)分配給用戶指定的時間量的資源分配job;

4)作業(yè)中的一組任務(wù)(有可能是并行任務(wù))。

這些分區(qū)可以被視為作業(yè)隊列, 其中每一個都有各種約束, 如作業(yè)大小限制、工作時間限制、允許使用它的用戶等。 按照優(yōu)先級排序的作業(yè),從隊列中分配節(jié)點,直至該隊列分資源,如節(jié)點、處理器、內(nèi)存等耗盡。一旦一個job分配了一組節(jié)點后, 用戶就能夠按照任何分配配置,以作業(yè)步驟形式啟動并行工作。 例如, 可以啟動一個作業(yè)步驟, 利用分配給作業(yè)的所有節(jié)點, 或者多個作業(yè)步驟可以獨立地使用分配的一部分。

作業(yè)運行模式分為:交互模式、批處理模式和分配模式。這幾種模式只是用戶使用方式區(qū)別,管理、調(diào)度和記賬是一樣的模式。交互模式作業(yè)yhrun,在終端提交資源分配請求,指定資源數(shù)量與限制,等待資源分配,獲得資源后,加載計算任務(wù),運行中,可與任務(wù)進行交互,任務(wù)結(jié)束后資源釋放。批處理模式y(tǒng)hbatch,用戶編寫作業(yè)腳本、提交作業(yè)、作業(yè)排隊等資源分配,分配后,在首節(jié)點加載執(zhí)行作業(yè)腳本,腳本運行結(jié)束,釋放資源,運行結(jié)果定向到指定的文件中記錄。一個作業(yè)可使用多個yhrun生成多個作業(yè)步。分配模式y(tǒng)halloc,它的模式是提交資源分配請求,作業(yè)排隊等待資源分配,執(zhí)行用戶指定命令,命令執(zhí)行結(jié)束后,釋放資源。

3 Slurm 在生產(chǎn)中的應用

基于Slurm的高性能集群管理,選定一臺機器作為控制節(jié)點,其他機器作為計算節(jié)點;獲取到集群中所有計算節(jié)點的主機名或IP信息,將集群安裝包和安裝腳本拷貝到各個計算節(jié)點;在控制節(jié)點上通過SSH服務(wù)登錄到各個計算節(jié)點,通過安裝腳本完成節(jié)點上集群環(huán)境的搭建部署;在控制節(jié)點部署控制接收進程,用于監(jiān)控計算資源,接收計算節(jié)點發(fā)送的信息;在各個計算節(jié)點上存在守護進程用來管控集群中的計算節(jié)點,定時采集節(jié)點狀態(tài)以及節(jié)點上信息并通過SSH服務(wù)發(fā)送給控制節(jié)點;對計算節(jié)點及冗余備份節(jié)點進行協(xié)同管理;基于Slurm作業(yè)管理機制和節(jié)點狀態(tài)監(jiān)控進程,依據(jù)集群系統(tǒng)資源的當前狀況對隊列中的作業(yè)進行部署、監(jiān)控和分配操作。

筆者單位共64個節(jié)點,建立了7組隊列,每個隊列節(jié)點不一,同時并發(fā)執(zhí)行,Slurm管理查看界面分為工作列表、分區(qū)列表、節(jié)點情況等,故障點標紅宜排查,能夠?qū)崟r監(jiān)測查看隊列作業(yè)執(zhí)行情況,管理操作高效簡潔。

4 結(jié)論

本文從高性能計算集群管理的需求環(huán)境背景,到Slurm作業(yè)調(diào)度系統(tǒng)研究背景、技術(shù)架構(gòu)和應用前景等進行了深入分析闡述。從應用實踐得出,Slurm 是優(yōu)秀的開源作業(yè)調(diào)度系統(tǒng),Slurm 集成度更高,操作管理簡潔,性能穩(wěn)定且功能強大。

參考文獻:

[1] 張軍華,臧勝濤,單聯(lián)瑜,等.高性能計算的發(fā)展現(xiàn)狀及趨勢[J].石油地球物理勘探,2010,45(6):918-925,936,791-792.

[2] 段新華,王宏勇,丁汨.集群作業(yè)管理系統(tǒng)的關(guān)鍵技術(shù)分析及比較[J].計算機技術(shù)與發(fā)展,2009,19(2):87-90.

[3] 薛勇,萬偉,艾建文.高性能地學計算進展[J].世界科技研究與發(fā)展,2008,30(3):314-319.

[4] 欒翠菊,宋廣華,鄭耀,等.一種網(wǎng)格并行任務(wù)執(zhí)行時間預測算法[J].計算機集成制造系統(tǒng),2007,13(9):1805-1810.

[5] 趙宗弟,胡凱,胡建平.基于PBS的集群作業(yè)調(diào)度策略的設(shè)計與實現(xiàn)[J].計算機與數(shù)字工程,2006,34(11):123-127.

[6] 羅紅兵,張曉霞,魏勇.大規(guī)模并行計算機作業(yè)調(diào)度評價[J].計算機工程與應用,2006,42(10):79-83.

【通聯(lián)編輯:李雅琪】

主站蜘蛛池模板: 国产精品成人不卡在线观看| 久久精品国产国语对白| 亚洲欧洲日韩久久狠狠爱| 欧美日本激情| 亚洲一区二区三区国产精华液| 一本二本三本不卡无码| 免费中文字幕一级毛片| 亚洲侵犯无码网址在线观看| 色网站免费在线观看| 视频一本大道香蕉久在线播放| 午夜欧美在线| 亚洲国产中文综合专区在| 久久精品视频一| 91精品国产一区| 亚洲一欧洲中文字幕在线| 青青草原国产| 国产精品99久久久久久董美香| 亚洲AV一二三区无码AV蜜桃| 亚洲第一视频网站| 久久久噜噜噜| 99精品免费在线| 日韩欧美中文字幕一本| 草草影院国产第一页| 亚洲动漫h| 毛片免费在线视频| 亚洲欧美日韩中文字幕一区二区三区| 日韩av资源在线| 欧美自慰一级看片免费| 欧美一级高清片欧美国产欧美| 日本欧美午夜| 伊人色婷婷| 全午夜免费一级毛片| 毛片久久网站小视频| 日本五区在线不卡精品| 欧日韩在线不卡视频| 一级毛片在线直接观看| 亚卅精品无码久久毛片乌克兰| 在线无码av一区二区三区| 精品三级网站| 在线免费无码视频| 亚洲国产日韩欧美在线| 欧美午夜网| 99视频在线观看免费| 强乱中文字幕在线播放不卡| 看你懂的巨臀中文字幕一区二区| 亚洲精品久综合蜜| 欧美在线综合视频| 国产伦精品一区二区三区视频优播 | 一本色道久久88| 日本成人一区| 欧美一级黄片一区2区| 国产成人综合亚洲网址| 国产精品女在线观看| 成人无码区免费视频网站蜜臀 | 国产一区二区精品福利| 免费国产在线精品一区| 四虎精品黑人视频| 女人18一级毛片免费观看| 香蕉伊思人视频| 尤物特级无码毛片免费| 免费日韩在线视频| 国产在线拍偷自揄观看视频网站| 久99久热只有精品国产15| 国产精品亚洲专区一区| 国产精品天干天干在线观看| 一区二区日韩国产精久久| 在线视频一区二区三区不卡| 欧美一区精品| 国产丝袜无码一区二区视频| 日本成人福利视频| 日韩A级毛片一区二区三区| 欧美啪啪一区| 成年A级毛片| 日韩精品无码免费专网站| 精品久久国产综合精麻豆| 少妇精品网站| 免费无码又爽又黄又刺激网站| 亚洲欧美一区在线| 欧美翘臀一区二区三区| 国产精品无码AV中文| 欧美三级视频网站| 91精品啪在线观看国产91|