999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

“魔方-3”高性能計算機運維管理平臺設計與實現

2020-11-05 04:43:02趙奇奇
計算機工程與科學 2020年10期
關鍵詞:故障作業管理

趙奇奇

(上海超級計算中心,上海 201203)

1 引言

進入信息社會,人類對數據處理的要求越來越高,為了滿足科學計算、工程計算等海量數據的處理需求,超級計算機被廣泛應用到各行各業。2019年7月“魔方-3”高性能計算機在上海超級計算中心建成并投入使用。“魔方-3”能顯著提升上海超算的計算能力,為天文氣象、生命科學、能源勘探等領域的模擬計算提供有力支撐。

為了保障“魔方-3”的穩定運行,提高運維效率,需要有一套能對軟硬件進行監控管理的系統。由于上海超級計算中心是一個面向社會的開放計算平臺,應用場景紛繁復雜。而主機廠商提供的集群管理軟件作為一套通用化的軟件,并沒有針對上海超算的應用場景進行優化和定制,日常使用過程中存在諸多不便。正是在這樣的需求推動下,上海超級計算中心系統運維部組織開發了一套適合超算中心運行模式的主機運維管理平臺。

2 平臺設計

主機運維管理平臺采用瀏覽器/服務器(B/S)結構[1]。平臺的運行離不開數據的支撐,本平臺的基本數據主要分成2大類:集群硬件數據和用戶作業數據。平臺通過調用“魔方-3”的IPMI(Intelligent Platform Management Interface)管理網絡接口獲取集群運行的溫度、CPU、內存、硬盤、網絡等硬件信息,通過IBM Platform LSF作業調度軟件接口獲取用戶作業運行信息,并將獲取的信息進行組織、篩選、分析,最終實現平臺的各項功能。各類數據的采集頻率可根據集群運行狀況隨時調節,獲取數據之后定時導入MySQL數據庫。用戶通過終端瀏覽器訪問Web服務器獲取數據庫里的信息,如圖1所示。

Figure 1 Framework of Magic Cube-3 maintenance and management platform圖1 “魔方-3”運維管理平臺架構

平臺采用模塊化架構,針對功能需要動態性、可擴展性,構建運維管理平臺軟件模塊“熱插拔”機制,靈活應對平臺的動態擴展需求。這種模塊插件架構體系的核心理念是基于松散的模塊積累方式,通過新增模塊插件以及升級原有模塊插件的方法來完善平臺的功能。一個模塊的更新不需要對整個運維管理平臺進行重新編譯,不會影響其它模塊。模塊插件架構體系的優點非常明顯,像硬件一樣即插即用。在開發的初期只需劃分好模塊,只要遵循接口協議,就能開發出互不影響的模塊插件,方便開發和調試;由于其靈活性,可以實現平臺的靈活定制,當需要新增功能或者修改功能時,只需要對相應模塊插件進行修改即可實現,為平臺的后續擴展帶來了極大的靈活度。

目前平臺集成了機房運維、集群監控、自動巡檢和數據統計分析4大模塊。為了提升操作便利性,顯示內容直觀明了,該平臺采用了基于Web的圖形界面。使用者只要通過Web Portal登錄運維管理平臺,點擊鼠標打開界面即可獲取當前主機運行狀況,包括各結點CPU使用率、集群當前負載、各隊列作業數量等眾多信息,可生成統計分析報表,也可對集群的軟硬件故障進行處置。

硬件配置:Intel Xeon E5-2620,32 GB 內存,雙網卡獨立服務器;

操作系統:選用CentOS release 6.4版本;

數據庫軟件:選用MySQL共享版;

服務器端軟件:選用Tomcat;

主機端開發工具:Java、shell腳本語言;

服務器端開發工具:選用Java、JSP語言、echart繪圖插件。

3 數據采集

主機運維管理平臺通過數據采集引擎對多種采集方式進行封裝,并對底層硬件以及作業調度軟件進行數據采集。在保存這些信息時引入硬件池、指標池、線程池和數據池概念,對采集的各類數據進行分類存儲,從而搭建運維管理平臺的采集框架。通過采集框架對數據進行統一分發,為上層監控、巡檢、統計分析等模塊提供數據支撐。

3.1 硬件數據采集

“魔方-3”擁有管理網絡、IPMI網絡[1]和OPA(Omni-Path Architecture)計算存儲網絡3套網絡系統,如圖2所示。其中IPMI由千兆以太網組成網絡,并通過一臺萬兆交換機匯聚所有千兆IPMI交換機。刀箱通過管理模塊的千兆網口接入IPMI網絡。系統管理員通過計算結點的IPMI網絡接口和機柜中的IPMI監控交換機構建IPMI遠程管理網絡。通過IPMI網絡接口,對集群內各個結點的CPU、內存、硬盤、網卡、功耗、溫度等信息進行采集監控,以實現日志歷史查詢、遠程開關機、遠程訪問結點圖形界面等功能。

Figure 2 IPMI topographic map of Magic Cube-3圖2 “魔方-3”的IPMI網絡拓撲圖

“魔方-3”預裝了Gridview軟件,開機后啟動Gridview服務進程,該軟件會通過IPMI網絡采集集群硬件信息并導入Gridview自帶的數據庫。系統管理員可以通過Gridview數據庫接口和Gridview API接口2種方式來獲取實時硬件信息。

3.1.1 通過訪問數據庫直接獲取

利用mysqldump命令遠程登錄Gridview的數據庫安裝節點,獲取并壓縮數據;通過管道符號將傳回的數據導入“魔方-3”運維管理平臺的數據庫。例如:“mysqldump-h 遠程ip-u用戶名-p密碼-P 指定端口--opt--compress 數據表--skip-lock-tables | mysql-h 本地ip-u用戶名-p密碼 本地數據庫”。這種方法的優點是獲取數據簡便直接,可以通過一次傳輸獲取所有的硬件信息。缺點是在后期進行數據篩選時,需要知曉Gridview源數據庫中每個字段以及對應數值的含義,耦合性較高。

3.1.2 利用API接口獲取

Gridview API接口為HTTP形式,支持HTTP協議。接口采用基于HTTP cookie與session用戶認證機制,調用接口時需要先調用登錄接口進行登錄,服務器將在cookie中返回登錄的會話信息,在調用接口時將會話信息同時傳遞。默認返回結果為JSON格式,接口中定義的對象都將轉換為JSON格式,字符編碼格式為UTF-8。數據返回時客戶端首先需要判斷HTTP響應的狀態碼(Status Code),如果狀態碼為404,500這一類請求錯誤狀態,則按照瀏覽器等常用HTTP客戶端的慣例處理;如果返回狀態碼為200,表示服務器處理正常。返回結果的對象屬性基本類型如下:string:字符型;integer:數值型;boolean:布爾型true/false。對象在接口中都將被轉換為JSON格式,對象的屬性為key,對象實例值為value。例如,機房對象實際格式為:

{"id":10001,"name":"room001","displayName":"Data Center","description":"This is the first Data Center"}。

3.2 用戶作業數據采集

“魔方-3”集群選用IBM Platform LSF作為作業調度軟件來統一管理和調度所有軟硬件資源,同時監控并收集用戶作業信息。作業信息分為運行中作業信息和已完成作業信息。運行中作業信息保存在LSF服務器的內存中,可通過LSF命令行形式輸出作業信息。已完成作業信息以文本形式保存在lsb.acct文件中。

獲取LSF作業數據的方式有2種:一是通過ElasticSearch分布式的搜索與數據分析引擎,這種方式需要另外安裝elasticsearch-head客戶端;二是通過LSF提供的命令行腳本方式獲取。在此本文選用第2種方式。

使用bjobs-u all-r命令可獲取運行中作業信息,但默認輸出的格式并不符合本文的要求,需要用awk、sed等文本處理工具進行篩選、轉換后將數據保存到文件,然后導入數據庫。bacct命令可輸出已完成作業信息,同樣需要對輸出格式進行篩選轉換再導入數據庫。本文在調試作業采集腳本時發現,LSF提供的bacct命令隨著歷史作業的累積增加,輸出的數據量非常龐大,頻繁運行bacct命令會使服務器負載上升,輸出響應時間變長,影響數據采集效率。LSF的作業記賬信息是保存在lsb.acct文件中的,當執行bacct這個命令腳本時其實會去讀取lsb.acct的內容并且輸出作業信息,那么可以改用Java程序直接讀取lsb.acct文件內容,僅篩選截取本文需要的數據內容,并按既定格式輸出數據導入數據庫[3]。這樣可以大大降低服務器負載,提高數據采集效率。

4 “魔方-3”運維管理平臺的功能及實現

“魔方-3”運維管理平臺實現的功能均基于“魔方-3”集群運維需求,可按使用者角色和應用場景提供不同的功能,顯示界面簡潔直觀,具有良好的交互性和操作體驗,如圖3所示。

平臺主要功能模塊如下所示:

(1)系統監控模塊。

(2)自動巡檢模塊。

(3)機房運維管理模塊。

(4)數據統計分析模塊。

Figure 3 Home page of Magic Cube-3 maintenance and management platform圖3 魔方-3運維管理平臺

4.1 系統監控

系統監控模塊可分為2類,一類是對“魔方-3”集群的硬件運行狀態進行監控,另一類是對集群上運行的作業和隊列進行監控。

硬件監控主要對集群CPU利用率、內存利用率、磁盤I/O利用率和網絡I/O利用率等進行監控。圖4所示監控界面又分為單結點監控和全機監控、實時監控和歷史監控。“魔方-3”集群一共有21個機柜。每一小方格代表一個計算結點,根據結點CPU利用率的高低,小方格的顏色會發生變化,利用率為0~50顯示綠色,利用率為51~80顯示黃色,利用率為80以上顯示紅色。左下方的3個圓形碼表顯示集群全機實時CPU使用率、內存使用率和1分鐘負載。右下方的柱狀圖以小時為單位顯示集群全機歷史使用率,時間軸長度為12小時。

Figure 4 Monitoring interface of Magic Cube-3 maintenance and management platform圖4 運維管理系統監控界面

圖5所示作業監控系統實時顯示“魔方-3”集群各個作業隊列中運行的作業。界面左側以核數進行分塊,每個計算結點32核,全機共35 840核。不同用戶提交的作業用不同顏色顯示,當前有哪些作業運行在哪些結點上、共占用了多少核數可一目了然。右側的柱狀圖滾動顯示當前提交作業的用戶單位、賬號、核數、作業數等信息。下方的餅圖按作業占用核數的比例顯示全機運行的作業規模分布,按0~4核、5~16核、17~64核、65~128核、129~512核來劃分。

Figure 5 Job state of Magic Cube-3 maintenance and management platform圖5 “魔方-3”運維管理平臺作業監控界面

圖6所示為隊列監控界面,上方以柱狀圖的形式顯示“魔方-3”集群各隊列中運行作業和排隊作業的數量,時間軸長度為3天。通過這種形式可直觀反映集群各隊列作業排隊和運行情況,為今后隊列調整提供參考依據。下方滾動顯示作業ID、用戶賬號、作業名、提交隊列、占用核數、作業狀態、結點號等實時信息。

Figure 6 Queue state of Magic Cube-3 maintenance and management platform圖6 “魔方-3”運維管理平臺隊列監控界面

4.2 自動巡檢

自動巡檢功能是通過IPMI管理網絡和SNMP及采集代理對計算刀片、機箱、功能結點、磁盤陣列、網絡交換機等硬件設備的運行指標進行定時采集[4],并通過自動巡檢引擎進行數據篩選和分析。如果發現設備異常,會觸發主動報警,以此實現7*24小時的集群全面監控,保障集群的正常運行。系統管理員可通過Web客戶端界面查看自動巡檢引擎的返回信息,如圖7和圖8所示,直觀掌握各類設備的運行狀態,并可以依據獲取的監控數據對設備狀態進行分析,預測集群運行風險和隱患,提高運維管理的效率,保障集群始終運行在穩定的健康狀態。自動巡檢主要監測項目如表1所示。

Figure 7 Fault list of Magic Cube-3 maintenance and management platform圖7 “魔方-3”運維管理平臺故障列表

Figure 8 Troubleshooting interface of Magic Cube-3 maintenance and management platform圖8 “魔方-3”運維管理平臺故障處理界面

當自動巡檢引擎發現某個設備出現故障時,會啟動郵件發送功能向系統管理員發送故障告警郵件,并且會在Web客戶端界面彈出告警窗口顯示故障信息。系統管理員可根據這些信息快速定位發生故障的設備,并初步判定故障類型。系統管理員也可結合結點健康度和集群運行負載情況對告警閾值進行靈活調整,以提高巡檢準確率。自動巡檢還可根據某一設備健康指標的歷史表現,結合該設備的固有故障模型,預測出未來某段時間的設備故障概率,從而將設備告警從事后處理提前到事前預防。

Table 1 Automatic detection services of Magic Cube-3 maintenance and management platform表1 魔方-3運維管理平臺自動巡檢項目

故障處理流程如下所示:

(1)監控集群:根據集群現狀實時采集各設備運行信息。

(2)自動告警:巡檢程序判斷異常后向系統管理員發送告警信息,并生成故障case。

(3)故障判斷:系統管理員在收到告警并判斷故障問題后,對故障case給出解決方案。

(4)故障處置:按解決方案修復故障,如無法修復故障可將case反饋主機廠商解決。

(5)處置完成:故障修復后平臺會更新case狀態,每月匯總故障case生成運維月報。

4.3 機房運維管理

上海超級計算中心擁有多套主機系統及外圍基礎設備,涵蓋了科學計算、工程計算、大數據和云計算等多個應用領域,運維人員在控制機房內對這些設備進行操控和管理。通過本平臺的機房運維管理模塊對控制機房內的日常運維工作實現信息化管理,使整個運維過程變得有序、連貫、可控,如圖9所示。

Figure 9 Control room management platform interface圖9 魔方-3運維管理平臺機房管理界面

日報發送功能將自動記錄當日集群運行的各項性能指標以及發生的故障情況,并生成報表通過郵件方式發送,接班的系統管理員閱覽郵件即可快速了解上一個班次集群運行狀況。機房環境記錄和運行監測記錄是要求當班的運維人員在規定的機房巡視檢查時間段-10分鐘 ~+30分鐘內將水冷、UPS供電、環境溫濕度等數據錄入平臺,同時提供歷史數據查詢功能,超過規定時間將無法錄入數據。通過上述一系列方式將運維人員的日常工序形成數字化記錄管理,使得日常工作考核有據可依,有助于減少運維人員簡單、重復工作,提高員工的工作效率,并提升管理集群的能力和水平。

4.4 統計分析

數據統計分析是通過采集用戶提交的作業信息統計“魔方-3”集群在某時間段內的CPU利用率、內存使用率、作業平均運行效率、平均排隊時間、作業吞吐量和應用對資源的使用情況,并通過多角度的數據挖掘生成分析報表,能直觀反映“魔方-3”集群運行效率,找出影響系統性能的資源瓶頸[5],為今后升級優化,改善用戶使用體驗提供科學的決策依據。

機時查詢可統計“魔方-3”集群所有用戶賬號在某一時間段內提交作業的運行時間,統計單位為“core/小時”,統計結果默認包含該時間段內正在運行還未結束的作業機時,也可輸入某一用戶賬號,進行精確匹配統計,如圖10所示。

Figure 10 User CPU time statistics interface圖10 用戶機時統計界面

作業規模查詢按作業使用核數規模劃分來統計某一時間段內在“魔方-3”上運行作業的規模比例,如圖11所示。“魔方-3”單個計算結點為32核,故作業規模通常按32的倍數來劃分,也可小于32。有典型代表的規模區間為1~16核、17~32核、33~64核、65~128核和256核以上。通過作業規模分析可得出某一時間段內大小作業的運行比例,并據此來調整隊列配置和作業提交策略。

Figure 11 Job scale statistics interface圖11 作業規模統計界面

CPU利用率查詢可按天顯示在指定時間段內程序占用集群CPU資源的情況,反映集群的使用負荷。core占用率可按天顯示指定時間段內程序占用全機核數的百分比。上海超級計算中心作為一個開放計算平臺,有來自各領域不同類別的用戶提交不同的作業,有些作業運行時會占用大量CPU資源,而有些作業特性是雖然占用了內核運行,但CPU利用率并不高。這種情況下單純通過CPU利用率不能準確反映“魔方-3”集群使用情況,結合core占用率這個指標可更全面完整地反映集群使用情況,“魔方-3”core占用率如圖12所示。

Figure 12 Occupancy rate of core of Magic Cube-3 computer圖12 “魔方-3”core占用率

5 結束語

主機運維管理平臺通過軟件和硬件不同渠道對“魔方-3”集群進行全面監控、數據校對和分析、告警,根據數據分析結果提供自動巡檢功能,進行集群巡檢,并根據故障結點的數量和健康狀況調整監控頻率及監控閾值。利用歷史數據通過故障模型來實現故障預測。能實時將各管理點傳輸來的監控數據從數據隊列中取出,通過各資源池進行分類匯總后存儲到數據庫中,通過瀏覽器為用戶提供統一的界面入口,使得運維人員能夠清晰地瀏覽集群中各服務器結點的實時狀態及監控數據。

根據高性能計算、深度學習、大數據和云計算幾類應用特征,借助IPMI網絡協議并融合作業調度軟件,通過可訂制化的策略配置,實現運維管理平臺靈活、彈性部署在“魔方-3”高性能計算機之上,對所有軟件、硬件、虛擬化資源進行統一的管理、監控和調度,保障集群高效運行。

猜你喜歡
故障作業管理
棗前期管理再好,后期管不好,前功盡棄
今日農業(2022年15期)2022-09-20 06:56:20
快來寫作業
故障一點通
作業
故事大王(2016年7期)2016-09-22 17:30:08
奔馳R320車ABS、ESP故障燈異常點亮
“這下管理創新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
故障一點通
人本管理在我國國企中的應用
現代企業(2015年8期)2015-02-28 18:54:47
江淮車故障3例
我想要自由
主站蜘蛛池模板: 国产AV毛片| 亚洲一区二区约美女探花| 新SSS无码手机在线观看| 色香蕉网站| 日韩东京热无码人妻| 亚洲国产一成久久精品国产成人综合| 尤物亚洲最大AV无码网站| 亚洲全网成人资源在线观看| 91精品日韩人妻无码久久| 在线观看视频99| 亚洲an第二区国产精品| 成人午夜视频免费看欧美| 四虎影视8848永久精品| 91av成人日本不卡三区| 国产一区二区三区在线观看视频 | 欧美日韩在线观看一区二区三区| 女人18毛片一级毛片在线 | 午夜国产理论| 国产视频你懂得| 日本国产精品一区久久久| 婷婷丁香在线观看| 真实国产乱子伦高清| 亚洲无线视频| 四虎国产在线观看| 欧美午夜网站| 伊人久久大香线蕉成人综合网| 国产成人资源| 国产亚洲精品在天天在线麻豆| 99精品视频九九精品| 国产精品va| 秘书高跟黑色丝袜国产91在线| 欧美综合一区二区三区| 久久精品无码一区二区日韩免费| 一本大道香蕉中文日本不卡高清二区| 国产主播喷水| 最近最新中文字幕在线第一页| 日韩小视频网站hq| 成人免费网站久久久| 欧美日本在线一区二区三区| 丁香综合在线| 日韩欧美网址| 日韩av手机在线| 亚洲三级影院| 最近最新中文字幕免费的一页| 欧美成人二区| 午夜一级做a爰片久久毛片| 亚洲男人的天堂久久香蕉| 99热免费在线| 中文字幕永久在线看| 四虎AV麻豆| 国产成人乱无码视频| 欧美精品1区2区| 欧美一区二区三区香蕉视| 国产美女在线免费观看| 亚洲一区二区黄色| 人妻精品久久久无码区色视| 免费不卡视频| 色窝窝免费一区二区三区 | 亚洲 欧美 偷自乱 图片| 国产a v无码专区亚洲av| 亚洲丝袜中文字幕| 久久精品国产电影| 亚洲国产精品成人久久综合影院| 午夜不卡视频| 亚洲天堂日本| 国产第一页免费浮力影院| 精品欧美一区二区三区在线| 美女免费黄网站| 中文国产成人精品久久一| 香蕉eeww99国产在线观看| 99久久精品免费看国产电影| 国产网友愉拍精品视频| 日韩欧美中文在线| 日韩二区三区| 精品无码一区二区三区电影| 四虎永久免费地址| 亚洲国产午夜精华无码福利| 麻豆国产原创视频在线播放| 亚洲欧美日韩动漫| 91精品视频网站| 国产哺乳奶水91在线播放| 国产国产人在线成免费视频狼人色|