尹常紅 胡雅超 袁文波 涂明 侯靜



摘要:高性能計算機在氣象部門得到了廣泛應用,發揮了重要作用,對高性能計算集群的科學高效的運維管理是確保高性能計算機系統正常運行的首要任務。本文結合武漢軍運會氣象高性能計算機的實際情況,對高性能計算機在業務應用、運行監控與維護管理等方面做了介紹,對業務科研人員和運維管理人員具有一定參考借鑒意義。
關鍵詞:高性能計算;集群;監控;管理
中圖分類號:TP311? ? ?文獻標識碼: A
文章編號:1009-3044(2021)02-0204-03
1 引言
隨著現代科學技術特別是信息技術的不斷發展,高性能計算應用逐步走進科研和服務領域。高性能計算應用不是單一的片面的簡單應用,而是一整套科學合理的系統布局。高性能計算應用主要包括高性能計算應用和高性能計算機技術,它們在功能發揮和相互促進方面有著密切的聯系。高性能計算機及其相關技術的創新研發,為高性能計算的應用奠定了堅實的基礎。同時,高性能計算應用的物質設備來自高性能計算機及相關技術。
高性能計算機近年來發展迅速,已逐漸成為計算機科學的一個分支。高性能計算集群(HPC)是先進的高可用性技術與高性能計算機的有機結合。它在軍工軍事、物質材料、生物醫療、天氣預報等越來越多的科學領域得到應用。
高性能計算集群由多臺計算機(稱之為節點)共同完成整個系統承擔的工作負載,目的是完成超大、超高和超復雜的計算任務,使用并行算法,通過SMP或Cluster架構計算平臺,解決CPU、內存、網絡和存儲的性能瓶頸,實現高并發性能的計算過程。實現了求解規模更大、計算時間更短、計算任務更多的目的。高性能集群是由一個性能良好的管理節點和多臺計算節點組成,管理節點對所有計算節點進行統一管理,每個子節點獨立運行自己的操作系統,節點與節點之間通過內部高速局域網相互連接。工作流程是,管理節點負責與用戶進行人機交互,當它接收到用戶根據一定規則一定語法提交的任務請求后,再通過高性能集群的作業管理系統,按照作業任務申請的高性能計算資源,將作業任務分配給計算節點。根據作業調度安排,計算節點通過系統組件完成計算任務,計算結果返回給管理節點,管理節點通過外部網絡提供最終用戶下載。
高性能計算系統具有超強的計算能力,它不但可以解決大規模計算問題,而且它更容易根據計算能力的要求逐步實現性能擴展。高性能計算機的每個節點獨立運行,如果其中一個節點宕機,它運行的程序和連接到它的服務器將被系統自動接管。這樣,整個集群就不會受到故障節點的影響,計算服務不會中斷。高性能計算集群大多采用 Linux 操作系統,加載相關的編程和編譯環境,例如編程環境、編譯器、數學庫等。
2 武漢氣象高性能計算機系統
武漢市氣象局在第七屆世界軍人運動會前面建設了氣象高性能計算系統,以滿足武漢軍運會期間武漢市全境1km分辨率多源資料逐時快速融合分析系統和逐時快速更新循環同化預報系統業務,實現每小時1次的12小時的天氣預報,為武漢市提供精細化的氣象預報服務。武漢氣象高性能計算平臺系統整體上由計算子系統、存儲子系統、網絡子系統、管理區功能節點以及相關軟件系統組成。
系統配置了26個計算節點、2個登錄節點、1個管理節點、1個后處理節點,6個存儲節點,一套風冷排級微模塊機柜系統。安裝了曙光Gridview集群管理軟件、數學庫、并行環境以及氣象軟件包等。理論峰值計算能力為127TFlops,實測效率為66%。系統裸盤存儲容量544TB,讀寫聚合帶寬大于8GB/s。采用InfiniBand 100G EDR高速計算網絡確保了數據信息高速傳輸。結構圖如如圖1。
武漢氣象高性能計算機系統主要運行武漢市快速更新循環同化預報業務系統RUC(RapidUpdateCycle),實現逐小時精細化氣象預報服務。如圖2所示。
3 高性能計算機基本應用
高性能計算機系統最基本的應用主要是系統登錄、文件交換以及作業調度。
3.1 系統登錄
武漢氣象高性能計算機開放普通用戶從氣象廣域網登錄,用戶可以通過ssh方式登錄集群系統,也可以通過 VNC、xmanager 等軟件訪問桌面圖形界面。用戶提交作業和軟件編譯調試建議都在登錄節點進行。
采用SSH方式 登錄時, Windows 用戶可以使用相關客戶端軟件登錄,例如PuTTY、SecureCRT、 xShell、SSH Secure Shell Client,如圖3所示。Linux 用戶能夠直接執行 ssh 命令進行登錄:
$ ssh username@IP
3.2 文件上傳下載
Windows 用戶可以使用客戶端軟件實現文件的上傳下載,例如winscp、SSH Secure Shell Client 等,如圖4。
Linux 操作系統直接使用 scp 命令
scp filenametest@ip:/home/test
3.3 作業調度
武漢氣象高性能計算機系統采用 Gridview 作業調度系統,該調度系統基于 pbs 作業調度。集群隊列設置如下表所示。
同時,可以采用PBS(Portable Batch System)命令行模式來進行作業調度。
用戶通過qsub命令向高性能計算機系統提交任務,有兩種方式:腳本模式和命令行模式。
在腳本模式下提交作業任務時,用戶可以使用簡單的文本編輯器編寫腳本,預先將要執行的程序或命令寫入腳本,同時可以根據需要添加一些必要的或可選的語句,然后使用qsub提交腳本。PBS將根據腳本內容執行工作任務。在PBS系統中,作業腳本由運行程序的用戶命令和PBS環境變量的設置組成。注釋以“#”開頭,PBS命令以“#PBS”開頭。語法為:
qsub xxx.pbs
在以命令行模式提交時,不用寫腳本,用戶可以直接從命令行輸入,輸入的內容基本上和腳本中輸入的相同,其基本格式如下:
qsub? ? ? ? ? ?//輸入qsub命令后回車
[directives]? ?//pbs指示語句(以#pbs為前綴)
[tasks]? ? ? ? //任務或命令
ctrl-D? ? ? ? ?//結束輸入,提交任務
與作業調度其他相關命令有(具體使用可以參考有關PBS的說明文檔):
查詢隊列信息:qmgr -c 'p s'
查詢節點信息:pestat |more
查詢作業運行狀態:qstat -an |more
刪除作業: qdel 作業號
4 高性能集群運行監控
武漢氣象高性能計算系統安裝部署了Gridview管理軟件,它是一款面向集群管理以及高性能計算的綜合管理系統,它擁有較為強大的負載管理平臺,實現對曙光HPC安裝部署、系統配置、運行狀態監控、故障告警以及報表分析等運維管理工作;實現對高性能計算資源的調度分配、作業提交、作業管理、統計記賬等。Gridview 通過 Web 瀏覽器即可輕松地實現監控和管理,采用 Html5、CSS3 等先進技術,對機房、機柜、服務器等信息實現三維視圖的方式進行監控,所見即所得,直觀地監控到高性能計算機機房的各種設備信息,并且能夠準確定位故障點。
登錄系統后,默認進入導航頁面,如圖5所示。每個圖標對應于一個功能項,點擊可以直接進入對應的功能頁面,點擊“開始”可以進入系統“首頁”。
在對高性能計算集群的運行監控中,管理人員最為關注的就是資源利用情況、故障告警情況以及作業調度情況。Gridview提供了強大的系統監控功能。
其中在集群總覽功能頁面上,提供了共享存儲利用率、最近一小時CPU利用率、最近一小時內存利用率、節點網絡可用性、計算能力峰值、已使用核時、已使用核數、集群運行時長、運行作業數、歷史作業數統計等功能,這些功能對集群當前工作狀態提供了一個總體運行報告,詳見圖6。在集群負載的功能頁面上,提供了本地磁盤利用率、內存平均利用率、共享存儲利用率、CPU平均利用率、相對一分鐘負載、共享存儲概況等實時監測信息,同時在集群告警概況中展現了最近一個月來每一天中對刀片機箱、交換機、服務器、盤陣、機柜和存儲系統的告警數量統計值,這對于管理人員有針對性地對集群故障情況定位提供了很好的幫助,如圖7。根據這些告警分類,可以在相應的“監控”也沒的機房視圖、機柜視圖、節點視圖、分組視圖以及熱圖中查看相關設備的故障情況。
在用戶對高性能計算資源的使用中,會有多個用戶提交數量不等的作業任務,在Gridview的作業管理中,提供了歷史作業、狀態視圖、作業熱圖頁面的跳轉功能以及作業查詢和作業控制功能,管理員可以根據情況對作業進行保留、釋放、掛起、恢復、重新運行和刪除等操作。此外管理員也可以對相關資源進行調度管理,對隊列和節點資源進行相應的管理和配置,如圖8。
此外,Gridview提供了較為詳盡的報表管理功能,用戶可以生成指定時間范圍內服務器、交換機、刀片機箱、磁盤陣列等的監控指標報表,這對分析高性能集群資源利用分析提供了參考。如圖9、圖10分別以服務器15分鐘負載統計和CPU使用時間統計為例,展示了Gridview的查詢統計功能。
5 機房動力環境監控
武漢氣象高性能計算機系統對機房動力環境有著嚴格要求。系統電源電壓與PC服務器相同,一般為單相220V,工作頻率為50Hz,特別要求做好接地保護,零地電壓應小于1V。武漢氣象高性能計算機機房配備有3組行間精密空調和除塵除濕設備,確保運行環境溫度控制在22℃左右,相對濕度應為60%左右。同時配備防水、防火、報警以及抗電磁干擾等設備實施。
武漢氣象高性能計算機系統可以在線對動力環境進行監控,可以對列頭柜的電壓、電流、頻率進行監控,對除塵除濕機的溫濕度、風機檔位、壓差等指標進行監控,對機柜的前后門開關狀態、煙霧報警燈進行監控,重點對行間空調的上下回風溫度濕度以及室內外機的其他工作參數進行監控,對故障信息提供頁面告警和短信告警,提醒運維管理人員及時處置,確保高性能集群系統工作正常。圖11和圖12分別截取了動力環境監控系統的部分監控頁面。
6 小結
高性能計算機的應用范圍越來越廣,其重要程度也越來越高,氣象業務服務對高性能計算機的依賴也越來越強。為確保高性能計算機能夠安全、穩定運行,必須做好高性能計算機的運行監控與維護管理工作,這就要求系統管理人員熟練掌握相應的運維管理技術,并不斷從實踐中總結經驗,只有這樣,才能使高性能計算機在氣象業務科研工作中的作用得以充分發揮,才能讓更加優質高效的氣象預報產品為經濟社會發展和人民生產生活提供更好的服務。
參考文獻:
[1] 趙立成,沈文海,肖華東,等.高性能計算技術在氣象領域的應用[J].應用氣象學報,2016,27(5):550-558.
[2] 王俊超,彭濤,馮光柳.曙光高性能計算機在數值預報模式中的應用[J].計算機技術與發展,2014,24(10):178-181,185.
[3] 秦運龍,許瑋,張冰松.華中區域高性能計算機監控管理平臺設計與實現[J].電子制作,2016(14):37-38.
[4] 王彬.高性能計算技術在氣象部門的應用[J].計算機工程與設計,2014,35(4):1476-1479.
[5] 宗翔,王彬.國家級氣象高性能計算機管理與應用網絡平臺設計[J].應用氣象學報,2006,17(5):629-634.
[6] 文洮,金能智,馬堯,等.中小型規模高性能計算集群的搭建與維護[J].現代信息科技,2019,3(5):20-24.
【通聯編輯:梁書】