999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海洋數值模式運行管理系統的設計與實現

2020-04-18 13:14:56韓琦琦曾云輝朱光慧
計算機應用與軟件 2020年4期
關鍵詞:故障作業系統

韓琦琦 劉 鑫 曾云輝 朱光慧

(齊魯工業大學(山東省科學院) 山東 濟南 250000) (山東省計算中心(國家超級計算濟南中心) 山東 濟南 250101) (山東省計算機網絡重點實驗室 山東 濟南 250014)

0 引 言

海洋數值模式研究在21世紀非常重要,已經成為海洋研究領域的主要手段之一。隨著海洋數值模式網格細化、分辨率提高,海洋模擬所需要的計算性能越來越高,一般說來,水平分辨率每提升1倍,模式的計算量要增大10倍以上,為模式的業務化運行帶來了巨大的挑戰。

隨著高性能計算技術和超級計算機的發展,特別是近年來CPU/GPU、CPU/MIC等異構系統的異軍突起,高性能計算機的峰值計算能力得到了快速提升,使E級計算成為可能。百億億次超級計算機又稱“E級計算機”,被公認為“超級計算機界的下一頂皇冠”。2018年8月5日中國新一代超級計算機神威E級原型機在濟南正式啟用。神威E級計算機原型系統由國家并行計算機工程技術中心研制,落戶于國家超級計算濟南中心,系統架構源自神威太湖之光[1],采用了申威眾核國產處理器申威26010+,具有4顆主核、256顆從核,處理器性能與神威太湖之光的申威26010處理器性能相同,其運行速度約3~4 PFlops,主要應用在海洋模擬、電磁計算、醫養健康和高端裝備等方面。

目前,海洋數值模式軟件大約有數十種,大多數是基于分散的命令行方式進行離線管理,相同數值模式的多個版本部署在同一高性能計算機環境中,其依賴的基礎編譯器和第三方擴展庫也有多種不同的版本,在管理上比較隨意和混亂。用戶在使用模式軟件時,大多基于命令行或交互界面的方式提交到作業管理系統排隊運行。用戶在提交前需要自行選擇模式軟件、配置模式和設計算例,運行完成后再離線對結果進行診斷分析,這種方式既不方便用戶使用,也容易引入意外的失誤。為了規范海洋數值模式軟件的管理和使用流程,簡化用戶的編譯和使用過程,我們基于國產神威超級計算機研制了海洋模式運行管理系統,以提高國產超級計算機的易用性和海洋數值模式的運行管理效率。

1 系統設計

1.1 設計目標

海洋模式運行管理系統的設計目標是為了規范海洋數值模式軟件的管理和使用流程,簡化用戶的編譯和使用過程,能夠保障海洋數值模式的連續性運行。海洋數值模式在國產神威超級計算環境上運行時,能夠快速分析和定位模式軟件的運行故障問題,實現模式作業自動重新提交、實時監測、在線分析、性能比對和結果比對,提供在線可視化功能,提高國產神威超級計算系統使用的友好程度,為模式軟件系統的優化提供運行數據支撐。

1.2 體系結構

該系統采用主流的B/S模式,用戶通過瀏覽器即可進入系統,采用JeeSite框架實現系統快速開發。后臺采用MySQL數據庫,對節點信息、作業信息、模式運行特征、各性能參數的閾值范圍、故障信息、異?,F象和故障處理方法等進行集中統一管理。文件系統用來存儲模式軟件、模式運行日志和初始/中間/結果數據等。該系統的節點、隊列、作業信息等數據通過國產神威超級計算機的監控平臺獲得。系統體系結構圖如圖1所示。

圖1 系統的體系結構圖

1.3 功能模塊

為了實現系統的設計目標,依據系統的先進性、穩定性、科學性以及安全性原則,該系統設計了系統監控、日志解析、智能分析、模式流程管理、軟件與數據管理、性能比對和結果比對、輔助工具等七大模塊,如圖2所示。

圖2 系統功能模塊圖

(1) 系統監控。系統監控包括資源狀態監控和作業管理監控兩個子模塊。資源狀態監控模式運行時的資源性能情況,包括計算節點(含主核和從核)狀態及負載率、內存(含mpeMEM和speMEM)剩余大小、網絡連接狀態及速率、文件系統掛載狀態、文件數量和文件占用空間大小等。作業管理監控作業運行情況,包括作業編號、作業狀態、作業所在計算節點和隊列的狀態等。

(2) 日志解析。日志解析包括作業日志解析、隊列日志解析、節點日志解析和網絡日志解析四個子模塊,日志信息通過國產神威超級計算機的集中監控平臺實時獲取。作業日志解析所有用戶提交的作業信息,包括作業編號、作業名稱、作業狀態、作業運行的隊列和節點、開始時間和結束時間等信息。隊列日志解析所有隊列信息,包括隊列名稱、隊列狀態、隊列包含的節點和隊列中的用戶等信息。節點日志解析所有計算節點的信息,包括節點編號、CPU編號、核心數、狀態、內存、所在隊列等信息。網絡日志解析網絡文件名稱、網絡內容等。

(3) 智能分析。智能分析包括模式故障發現與快速定位、運行特征分析、預警分析三個子模塊。其中,模式故障發現與快速定位是該系統的重要功能,為海洋數值模式的業務連續運行提供保障。本文基于狀態獲取的故障信息,對可能導致作業運行失敗的原因事件進行分類和嚴重等級分級,進而通過問題規模及其關聯關系,有效解決了大規模作業運行過程中故障快速定位的問題。運行特征分析提取模式運行時特征,將同一用戶的同一模式的各次運行情況進行記錄,進而對模式運行規模、運行時長、模式參數變更等特征作出對比分析。預警分析推送故障告警信息、隱患信息和異常現象等給用戶或者平臺管理人員處理。

(4) 模式流程管理。模式流程管理主要對海洋數值模式軟件使用流程進行規范化管理。通過梳理分析模式軟件的使用過程及相關參數設置情況,該系統將模式軟件使用流程分解為“選模式—配模式—資源準備—作業提交”等環節。超級計算環境負責后臺與計算機密切相關的軟件編譯、作業提交、變量抽取及數據的比對工作,用戶只需要直觀地選擇模式軟件及依賴的相關庫、設定算例及計算規模后即可提交運行,運行完成后對模式結果進行比對分析。

該系統在模式流程管理提交作業階段設置了是否自動重提交選項,若選擇了自動重提交,模式作業由于故障異常退出后,系統會在2分鐘內自動重提交作業。此時,如果計算資源充足,則模式作業即可運行;否則,模式作業先進行排隊,等待故障資源處理完成后恢復可用時即可運行。對于三次重新提交仍不能成功運行的模式作業交由客戶分析處理。

(5) 軟件與數據管理。軟件與數據管理主要為模式協商確定標準統一的數據格式和存儲規范,對海洋數值模式計算數據進行規范分類和管理[2-3]。軟件管理模塊對海洋數值模式軟件、依賴的第三方庫、編譯環境和模式算例等進行集中管理。用戶使用時僅需要對新的版本軟件進行在線編譯,對系統中已有的軟件版本用戶直接調用即可,方便用戶使用的同時也避免了軟件版本混亂。數據管理主要對初始數據、邊界數據、地形數據、驅動場數據、再啟動數據、結果數據等進行統一分類后規范化存儲和管理。

(6) 性能比對和結果比對。性能比對和結果比對是以原始模式的串行計算作為基準,同一模式在不同計算進程規模下的并行計算結果與其進行比對[4]。將同一用戶的同一模式的各次運行情況進行記錄,進而對模式運行規模、運行時長、模式參數變更等特征作出對比分析,方便用戶快速地對自己模式的各個規模的計算進行性能比對、加速比和效率分析,作為依據供給用戶選擇最優的模式參數方案和運行規模。

(7) 輔助工具。輔助工具包括性能測試和計算拓撲優化兩個子模塊。性能測試基于國產神威超級計算機的監控和監測工具、模式軟件的運行及輸出情況,對國產神威超級計算機系統的節點計算性能、MPI通信性能、文件系統I/O性能和負載均衡等指標進行分析[5]。計算拓撲優化讓具有不同通信要求的進程映射到具有不同網絡性能分布的異構節點上,從而起到優化網絡設置,提高通信效率、模式運行效率和優化性能的目的。

2 主要方法和實現技術

2.1 數據庫切分技術

該系統采用MySQL作為數據庫,對計算節點信息、作業信息和模式運行特征等數據進行集中統一存儲。隨著系統的穩定運行,需要存儲的的計算節點信息數量巨大,以神威藍光國產超級計算機運行萬核規模作業為例,需要至少2 500顆CPU,每顆CPU分成4個核組,以5 s/次的頻率獲取計算節點信息,那么作業持續運行一個月,讀取的計算節點信息超過10億條。龐大的數據量和頻繁的讀取給數據庫服務器帶來巨大的壓力,導致應用程序運行崩潰。

為了解決這一問題,在應用程序端對每次獲取的計算節點信息進行篩選判斷,對于同一計算節點下一個時序點僅將和上一個時序點的信息不同的記錄存儲到數據庫里[6],計算節點歷史記錄表中只存儲了節點初始狀態和其變化的記錄,根據模式作業運行時長和計算節點的穩定性,大大縮減了數據量,減輕了數據庫的存儲壓力。但是隨著系統的穩定運行,計算節點信息表數量會非常巨大,單機數據庫將不能滿足大規模的數據存儲和訪問的需求,因此本系統利用了數據庫切分技術將數據切分到不同的數據庫中,來提高系統的整體性能。

系統采用Mycat實現數據切分[7]。Mycat是介于數據庫與應用之間進行數據處理與交互的中間服務,其核心功能就是分庫分表,主要修改server.xml、schema.xml和rule.xml文件。server.xml是Mycat服務器參數調整和用戶授權的配置文件;schema.xml是邏輯庫定義和表以及分片定義的配置文件;rule.xml是分片規則的配置文件。數據庫切分思路是:首先進行一次垂直切分,把計算節點記錄表切分到一個獨立的數據庫中。由于該計算節點記錄表匯總數據量巨大,一次性查數據速度很慢,所以再對計算節點記錄表進行水平切分。通過對計算節點的VN號的取模規則將數據分別存放到三個數據庫中,把計算節點的VN號記為n,則分別把n%3=1、n%3=2、n%3=3的計算節點記錄分別存放到單獨數據庫中,但是表結構是完全一樣的。數據庫架構如圖3所示。

圖3 數據庫切分

2.2 模式運行時特征分析

模式運行時特征綜合了硬件資源的運行性能情況和模式軟件的運行性能情況,對模式運行速度、中間變量和統計量的趨勢特征、數據文件的輸出特征、計算負載、內存負載、網絡利用率和MPI通信特征等模式運行特征數據進行表征。利用統計分析和時間序列分析技術[8],通過對模式運行時特征數據的關聯分析和動態分析,預測模式運行時特征在下一時刻的趨勢走向和量值范圍,通過比較實際輸出與預期輸出的差別來判斷是否發生異常。模式性能異常分析基于模式運行時特征,主要包括四類分析方法:

(1) 相關性分析。計算節點運行狀態、計算性能負載、(主核/從核)內存負載的使用時段和使用變化時間點應基本一致。

(2) 常態范圍判別。在模式運行過程中模式運行速度、運行時計算負載、運行時內存負載和中間統計量的幅值應基本固定,其中運行時計算負載上下浮動范圍應不超過10%的負載率,運行時內存負載上下浮動范圍應不超過50 MB的內存負載。另外,同一版本模式軟件在同一算例、同等計算規模下的MPI通信特征應一致,通信矩陣中發送/接收進程的關系保持不變,通信次數和通信量基本一致。所以,一個直接的方法就是按上下浮動范圍不超過10%進行判定。

(3) 固定周期預測。在模式進入正常的計算模擬后,模式運行日志文件和數據文件即表現為周期性增長的現象,包括增長的時間點、增長的大小等。如超出1.5個周期仍未監測到日志輸出,則可判斷為運行異常。

(4) 時間序列分析。通過時間序列分析方法對單變量的數據序列值進行時間序列模型識別、周期信息獲取、預測和判別等。

① 輸出的中間變量數值,在模式作業運行一定周期(2個至10個)后即進入穩定運行過程,呈現出顯著的周期性特征。如果監測到的中間變量值超出基于時間序列模型預測的范圍,則判別為作業運行異常。

② 網絡利用率,在模式作業運行過程中呈現周期性變化,但會存在一定的背景通信流量,因此建議容許不超過20%的上下浮動范圍。

2.3 模式故障快速定位

本文通過問題規模及國產神威超級計算機架構之間的關聯關系,實現了針對批量大規模并行作業運行故障的快速定位。根據獲取到的故障信息,主要包括作業ID號、作業狀態、與作業相關的故障節點數量、對應的計算節點號、結構號、計算節點狀態、HCA卡狀態和文件系統狀態等,把導致故障發生的原因分為直接原因和間接原因。直接原因通過故障現象本身或直接關聯知識庫,即可給出故障原因和處理建議;間接原因則通過故障關聯分析方法找到故障的根本原因。對于故障之間存在關聯關系的情況,首先根據問題規模及其關聯關系,判斷故障的類型和級別,篩選出主要故障;然后按照已有歷史故障處理方法排查局部故障[9-10]。故障定位分析流程圖如圖4所示。

圖4 故障定位分析流程圖

3 系統實現

3.1 主界面

海洋數值模式運行管理系統已經開發完成,并部署應用到神威藍光超級計算環境和神威E級原型驗證系統環境中。用戶在瀏覽器中輸入網址http://192.168.126.66:8080/csms/,進入海洋數值模式運行管理系統網站登錄界面,輸入用戶名和密碼后進入系統主頁。主頁包含了用戶功能、日志解析、系統監控、智能分析、模式流程管理和軟件與數據管理等欄目,海洋數值模式運行管理系統網站主頁如圖5所示。

圖5 海洋數值模式運行管理系統主頁

3.2 軟件與數據管理

軟件管理功能對海洋數值模式軟件、依賴的第三方庫、編譯環境和模式算例等進行集中管理,如圖6所示。數據管理功能對邊界數據、初始數據、地形數據和參考數據集進行集中分類后規范化存儲和管理,如圖7所示。該系統對模式軟件和算例進行了依賴關聯,選擇某一模式軟件,會列出其對應的算例供用戶選擇,避免用戶使用時造成混亂。

圖6 軟件管理界面

圖7 數據管理界面

3.3 模式流程管理

下面以運行海洋數值模式軟件MPIPOM為例,演示模式流程管理功能。首先在模式流程管理選模式階段選擇軟件名稱、軟件版本、編譯器、配置算例和第三方庫,如圖8所示。然后進入配模式階段,如圖9所示,輸入日志存放路徑、診斷變量、中間文件名稱、數據文件和參數文件。接著進入資源準備階段,如圖10所示,該界面顯示可用隊列、狀態及可用節點情況,為用戶提交作業階段選擇隊列做參考。最后進入提交作業階段,用戶可以在模式作業提交時設置是否自動重提交選項,如圖11所示,設置自動提交后,若模式作業異常退出,則2分鐘內系統自動重提交作業。這樣一個MPIPOM的算例就提交完成了。

圖8 選模式界面

圖9 配模式界面

圖10 資源準備界面

圖11 提交作業界面

3.4 模式故障發現與快速定位

針對批量大規模并行作業運行的故障發現與快速定位是該系統的重要功能,為海洋數值模式的業務連續運行提供保障。例如:某客戶在國產神威超級計算機上提交了2個作業,分配的計算資源分別為0~63和64~127號CPU。在作業運行過程中執行bjobs命令檢查發現作業1和作業2狀態變為異常結束。通過cnload命令檢查發現作業1和作業2分配的計算節點都出現了同樣的文件系統掛載失敗現象,且對應同一個文件系統服務節點,由此判定為該文件系統服務節點狀態出現異常。通過重啟該服務節點后,問題解決并恢復正常。系統中的故障定位診斷結果如圖12所示。

圖12 運算系統服務節點故障界面

4 結 語

本文分析了海洋模式運行管理系統的主要功能,基于國產神威超級計算機設計開發了一套海洋模式運行管理系統并開展了應用示范。該海洋模式運行管理系統的數據來源于超算中心環境已有的工具手段,適用于國產環境和通用集群環境,適應多種模式軟件及多個版本的使用需求,能夠簡化模式軟件的技術服務成本,大大提升我國超級計算基礎設施的應用和服務能力。目前,該海洋模式運行管理系統已部署應用到神威藍光超級計算環境和神威E級原型驗證系統環境,后續也可以應用到未來的神威E級計算環境。

猜你喜歡
故障作業系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
快來寫作業
故障一點通
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
作業
故事大王(2016年7期)2016-09-22 17:30:08
奔馳R320車ABS、ESP故障燈異常點亮
故障一點通
江淮車故障3例
主站蜘蛛池模板: 超碰精品无码一区二区| 亚洲h视频在线| 国产区成人精品视频| 国产成人免费观看在线视频| 亚洲色大成网站www国产| 婷婷激情五月网| 一级毛片免费观看久| 国产精品视频观看裸模| 国产区精品高清在线观看| 国产在线观看第二页| 亚洲精品在线观看91| 亚洲国产成人自拍| 久久黄色小视频| 58av国产精品| 日韩欧美国产中文| 18禁色诱爆乳网站| 亚洲永久视频| 久久精品aⅴ无码中文字幕| 原味小视频在线www国产| 久久伊人操| 国产精品无码制服丝袜| 色噜噜狠狠狠综合曰曰曰| 91人妻在线视频| 欧美亚洲一二三区| 国产鲁鲁视频在线观看| 欧美国产日韩另类| 亚洲一区二区三区在线视频| 在线欧美一区| 亚洲精品图区| 国产91无码福利在线| 亚洲国产一区在线观看| 久热精品免费| 精品一区二区三区水蜜桃| 丰满少妇αⅴ无码区| 精品国产免费第一区二区三区日韩| 欧美日韩国产精品综合| 国内精品91| 26uuu国产精品视频| a级免费视频| 国产91色在线| 免费a级毛片18以上观看精品| 毛片视频网址| 91美女视频在线| 91在线视频福利| 99热亚洲精品6码| 国产色婷婷| 亚洲欧洲日产无码AV| 亚洲日韩每日更新| 国产SUV精品一区二区| 亚洲欧洲日产国码无码av喷潮| 国产香蕉在线| 精品成人一区二区三区电影 | 婷婷成人综合| 亚洲午夜天堂| 亚洲综合欧美在线一区在线播放| 国产日韩AV高潮在线| 九九九久久国产精品| 亚洲人精品亚洲人成在线| 欧美日本激情| 国产欧美视频在线| 国产精品入口麻豆| 全色黄大色大片免费久久老太| 国产成人无码Av在线播放无广告| 亚洲精品日产AⅤ| 国产在线八区| 国产精品永久在线| 亚洲电影天堂在线国语对白| 亚洲欧洲AV一区二区三区| 美女啪啪无遮挡| 精品欧美日韩国产日漫一区不卡| 国产精品亚洲五月天高清| 五月婷婷亚洲综合| 国产凹凸视频在线观看| 国产高清不卡视频| 亚洲中文无码h在线观看 | 国产免费羞羞视频| 一级毛片高清| 无码一区中文字幕| 91在线日韩在线播放| 97国产在线观看| 永久免费av网站可以直接看的| 欧美成人看片一区二区三区 |