999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

GRAPES_GFS四維變分同化預報系統應用特征分析

2021-07-16 08:12:32顧文靜張新諾
計算機應用與軟件 2021年7期
關鍵詞:進程特征系統

顧文靜 李 娟 張新諾

(國家氣象信息中心高性能計算室 北京 100081)

0 引 言

隨著氣象業務的快速發展,中國氣象局業務模式已經蘊含了天氣、氣候、人工影響天氣和公共服務模式等四個主要部分。其中天氣模式包含GRAPES集合預報、GRAPES全球預報、臺風和海浪預報,以及核應急模式和睿圖-STv2.0系統等;氣候模式包含月動力延伸預測、季節氣候預測、大氣污染潛勢氣候預測、東亞重要環流型預測和厄爾尼諾/拉尼娜監測診斷預測等;人工影響天氣模式包含CPEFS和GRAPES_CAMS;公共服務模式包含全國風能太陽能預報、近海海上預報和RMAPS_Wind系統等。

2018年4月,中國氣象局派-曙光高性能計算機系統正式提供給用戶使用,派-曙光高性能高性能計算機系統分為兩個子系統(業務和科研),每個子系統計算性能4 004.25 TFLOPS,存儲物理容量23 088 TB。2019年8月,氣象業務模式基本完成移植工作,派-曙光系統資源使用量隨之增長,業務子系統CPU使用率超過60%,科研子系統CPU使用率高達80%,存儲資源使用率近70%。如此規模的高性能計算機系統上線僅一年,資源使用量約三分之二,業務應用的運行特征分析變得至關重要。建立應用軟件的運行特征是對業務模式分析的最有效手段。

GRAPES_GFS系統的核心部分是模式動力框架和物理過程,是一類非常具有典型性的科學計算類應用;整個過程不僅涉及密集的計算,同時伴隨大量的網絡操作,應用運行特征復雜。GRAPES_GFS是目前發展較為完善的業務模式,本文將以該模式作為分析對象,從資源使用情況和運行特征進行分析并提出優化建議。

1 應用運行特征分析方法

隨著時間的變化,在特定的負載環境和特定的測試方法下,對業務模式運行時硬件各類資源的消耗情況即為該應用運行特征。采用一種應用運行特征的快速分析架構,從系統級、應用級和微架構級綜合出發,應用Paramon和Paratune軟件采集真實、準確的性能指標數據,憑借這些指標數據完整呈現應用程序的基本運行特征[1]。

系統級的指標考慮CPU、內存和磁盤網絡共計9種特征指標。其中:CPU%為CPU總利用率,衡量CPU資源的使用情況,CPU SYS %為CPU系統開銷利用率,衡量CPU資源中系統開銷的比例,二者反映出當前應用在CPU資源上的運行特征,Memory%為內存利用率,對應用程序的性能影響很大,MemBW(GB/s)為內存帶寬,連接CPU與內存之間的橋梁,決定了內存數據訪問的速度,SWAP%為交換分區利用率,在物理內存用盡后,將磁盤空間虛擬成內存來使用,應用程序在用盡內存后,使用SWAP分區后,應用程序的性能一定會降低,三者可以反映出當前應用在內存資源上的運行特征,Disk Read(MB/s)為磁盤讀速率(磁盤讀帶寬),Disk Write (MB/s)為磁盤寫速率(磁盤寫帶寬),IB Send (MB/s)為IB網發送速率,IB Recv (MB/s)為IB網接收速率,派-曙光系統InfiniBand網絡雙向100 GB/s,四者衡量應用在磁盤和網絡上的運行特征標準為速率,即磁盤讀寫速率以及網絡收發速率[1]。

微架構級指標考慮浮點計算、向量化比例、指令執行效率等5類特征指數。其中GFLOPS的峰值與節點CPU主頻和核數有關,派-曙光系統每個計算節點包含2個Intel Xeon Gold 6142處理器,每個處理器主頻2.6 GHz,浮點運算2 662.4 GFLOPS。VEC%和AVX%為向量化比例,實現單指令流多數據流SIMD,向量化是CPU峰值計算的倍數因子,對應用程序性能影響很大,向量化指令需要根據應用的邏輯,取值范圍為0%~100%。CPI(Cycles Per Instruction)表示每條指令平均時鐘周期數。GIPS為單位時間內的指令總數,統計每秒鐘執行的指令總數。CPI越小或GIPS越高,表示指令執行效率越高。LLCM%為Cache Miss的百分比,在Cache 內存和物理盤中Cache是CPU讀寫速度最快的,Cache miss表示CPU在Cache中找不到需要讀取的頁。Cache miss會導致CPU花費更多的時間在查找和讀取以及內存替換上,降低了CPU的性能[1]。

2 GRAPES_GFS模式介紹

全球區域一體化同化預報系統GRAPES(Global/Regional Assimilation and Prediction System)是在科學技術部和中國氣象局支持下我國自主研發的數值預報系統,該系統是氣象與氣候研究的基礎和核心。在“十一五”科技支撐計劃的支持下建立了GRAPES全球同化預報系統試驗版,2007年面向業務應用,開始系統的建設和優化全球數值預報系統GRAPES_GFS(GEAPES Global Forecast System)[2]。

隨著多核計算技術的發展,基于多核處理器的集群系統逐漸成為主流架構,為了滿足GRAPES計算和時效需求,研發部門對GRAPES全球模式進行MPI與OpenMP混合并行方案設計和優化。2018年至2019年GRAPES_GFS由IBM系統遷移到派-曙光系統上,同化方面實現了從三維變分(3DVar)到四維變分(4DVar)的改進,四維變分(4DVar)實現了高低分辨率內外循環、多重外循環和高低分辨率之間的插值精度,優化線性化物理過程使之發揮作用,有效使用衛星等多時次連續觀測資料,優化計算效率,保障業務運行的時效[2]。

目前,GRAPES_GFS_V2.4正式業務運行,每天運行四個時次,分別是世界標準時00時次(03:40UTC)、06時次(09:40UTC)、12時次(15:40UTC)和18時次(21:40UTC),業務系統包含數據檢索及處理、臺風渦旋初始化、同化處理、模式積分、數據后處理和數據備份等模塊,其中同化內外循環(4DVar)和模式積分(fcst)是GRAPES_GFS主要的并行應用模塊,本文以此為研究對象進行并行應用特征分析。

3 GRAPES_GFS應用特征分析

3.1 特征分析

(1) 算例描述和運行環境。當GRAPES_GFS模式在曙光高性能計算機系統上運行時,收集整個過程的應用運行數據,然后對性能指標數據進行分析。

4DVar使用0.25°/1.0°(外循環/內循環)分辨率算例。模式積分(fcst)使用0.25°算例。00時次和12時次預報240小時,06時次和18時次預報120小時,前120小時3小時輸出一次模式面變量modvar,后120小時6小時輸出一次modvar。4DVar模塊使用1 024進程,fcst模塊使用4 096進程。

運行環境是中國氣象局派-曙光高性能計算系統。操作系統是Red Hat Enterprise Linux Server release 7.4,配置2路32核Intel Xeon Gold處理器,浮點運算能力為2 662.4 GFLOPS、12通路DDR4 2666的內存(192 GB/384 GB)和雙向100 GB/s 的InfiniBand 網絡。

(2) 運行特征指標分析。對GRAPES_GFS同化內外循環(4DVar)模塊和模式積分(fcst)的各類指標情況匯總如表1和表2所示。

表1 GRAPES_GFS系統級性能指標表

表2 GRAPES_GFS微架構性能指標表

CPU使用效率接近100%,系統開銷比例較小,因此CPU絕大部分時間在處理用戶程序,說明GRAPES_GFS是計算密集型的應用程序;LLCM%在60%左右,一定程度上影響了CPU性能。

Gflops%和VEC%值偏低,說明浮點計算運算效率偏低,沒有充分利用CPU浮點計算部件。AVX%峰值基本為0%,派-曙光系統支持AVX指令,可以通過向量化提高程序性能。CPI方面,4DVar優于fcst模塊,但指令執行效率仍有待提升。

整個計算過程持續有網絡數據的收發,數據收發是通過派-曙光系統InfiniBand網絡完成的,通信傳輸率方面,二者均達到500 MB/s以上,但相較派-曙光系統100 GB/s網絡帶寬,仍有可優化空間。

內存使用量僅為峰值的1/3~1/2,說明當前計算規模下,每個進程的邏輯計算較少。4DVar模塊使用虛擬內存(SWAP%),會影響應用性能。

(3) F/M和F/C分析。除直接獲取的特征數據外,也可以通過計算獲得一些指標數據,如F/M、F/C等。F/M,即GFLOPS與Memory BandWidth的比值,每字節內存讀寫操作對應的浮點計算能力,可以精確定位應用是否為內存帶寬敏感型應用;F/C,即GFLOPS與網絡通信的比值,每字節網絡操作對應的浮點計算操作,可以精確定位應用是否為網絡帶寬敏感型應用。其他比值操作類似。

通過這些性能指標提供的數據,詳細了解應用程序在運行過程中對各類節點上處理器、內存、網絡和存儲的依賴情況,快速地建立應用的運行特征[3-4]。

通過收集到的定量數據可知,4DVar和fcst模塊的F/M和F/C數值如表3所示,F/M、F/C的結果越小表示對CPU之外的系統資源的依賴越明顯。

表3 F/M和F/C數值表

(4) 運行特征圖分析。GRAPES_GFS模式4DVar和fcst模塊運行特征如圖1和圖2所示。回放各個指標的任意歷史時段的瞬時信息,CPU、內存利用率在運行過程中平穩,各進程間運行特征相似,運行過程階段性強。各進程間運行特征有細微差別,說明負載比較均衡。

圖1 4DVar運行特征

圖2 fcst運行特征

3.2 函數級分析

應用Intel itac工具收集GRAPES_GFS運行中邏輯處理函數和通信函數信息,并用Intel VTune分析各通信函數中計算執行效率較低和CPU等待時間(Spin Time)較長的邏輯熱點。Spin Time是CPU busy的等待時間,當同步API導致CPU輪詢,而軟件線程正在等待時,通常會發生這種情況。由于實驗資源有限,本文僅以GRAPES_GFS的fcst模塊為分析對象,計算規模選擇512進程,函數各進程數據分析如下。

(1) 通信函數分析。根據 itac采集數據,fcst模塊邏輯處理時間占比為58%,MPI通信時間占比42%。MPI通信中以MPI_Sendrecv、MPI_Allreduce操作居多(見圖3),涉及全局范圍的同步操作。

圖3 各熱點函數耗時比例

對通信函數各進程耗時的統計結果如圖4所示。① MPI通信函數MPI_Sendrecv、MPI_Allreduce占比最高。② MPI_Sendrecv函數0-18進程段的計算耗時明顯偏低,其他進程段通信函數耗時呈現波浪狀周期性變化,波動約15%,負載均衡需要微調。③ 其他通信函數各進程周期性波動較小。

圖4 fcst各進程間通信函數耗時變化

(2) 邏輯熱點分析。根據VTune采集數據,MPI_Sendrecv通信函數中Spin Time最長的邏輯熱點主要集中在module_model_parallel_mp_glob_Updatehalo,占比達24.6%。分析結果如圖5所示,其中多個數組元素更新操作,操作熱點分散,條件判斷操作居多,計算過程中基本為內存訪問,訪存方式為連續和跨步訪存,導致Spin Time時間較多,對應用程序性能和可伸縮性產生負面影響。

圖5 熱點函數分析

MPI_Allreduce函數的計算效率較低的程序邏輯熱點主要集中在module_gcr_mp_psolve_gcr_main,psolve_gcr_main調用的matrixpro函數源碼如下,該函數循環邏輯復雜,編譯器未能進行向量化。

DO j=jbegin,jend

DO k=kts,kte

DO i=ibegin,iend

c(i,k,j) = &+

a(1,i,k,j)*b(i,k,j) &+

a(2,i,k,j)*b(i-1,k,j) &+

a(3,i,k,j)*b(i+1,k,j) &+

a(4,i,k,j)*b(i,k,j-1) &+

a(5,i,k,j)*b(i,k,j+1) &+

a(6,i,k,j)*b(i+1,k,j+1) &+

a(7,i,k,j)*b(i+1,k,j-1) &+

a(8,i,k,j)*b(i-1,k,j-1) &+

a(9,i,k,j)*b(i-1,k,j+1) &+

a(10,i,k,j)*b(i,k-1,j) &+

a(11,i,k,j)*b(i-1,k-1,j) &+

a(12,i,k,j)*b(i+1,k-1,j) &+

a(13,i,k,j)*b(i,k-1,j-1) &+

a(14,i,k,j)*b(i,k-1,j+1) &+

a(15,i,k,j)*b(i,k+1,j) &+

a(16,i,k,j)*b(i-1,k+1,j) &+

a(17,i,k,j)*b(i,k+1,j-1) &+

a(18,i,k,j)*b(i,k+1,j-1) &+

a(19,i,k,j)*b(i,k+1,j+1)+

END DO

END DO

END DO

3.3 不同進程下運行狀況對比

不同進程下運行狀況比較可以測試應用的可擴展性,根據各項特征指標變化趨勢選擇最適合計算的規模,提供模式業務化運行。

(1) 4DVar模塊。同化分高低分辨率的內外循環,目前低分辨率的格點數少,分辨率使用0.1°算例,因此計算規模選擇512、1 024和2 048進程測試。性能指標如表4所示,隨著計算規模的增加,CPU和內存利用率逐漸減少,在進程規模較大時,內存使用率偏低,每個進程的邏輯計算減少,說明在同等計算規模下,可以適當地加大算例規模,進行更大問題的計算;通信方面,計算期間無密集通信時間顯著增加(圖6),網絡通信速率(IB Send和IB Recv)在1 024進程時達最大值。微架構方面,各規模差異不大。各項指標均衡考量,1 024進程的規模比較適合4DVar模塊。

表4 不同進程4DVar模塊性能指標表

圖6 4DVar不同規模應用運行特征示例圖

(2) fcst模塊。fcst模塊使用0.25°算例,分辨率較高,故選擇1 024、2 048、4 096和8 192四種規模進行比較測試,結果顯示fcst模塊相對4DVar模塊具有較好的可擴展性。性能指標如表5所示,隨著計算規模的增加,CPU和內存利用率較為平穩;通信方面,運行特征圖(圖7)顯示,隨著進程數的增多,粒度變小,計算期間密集通信程度減弱,相較4DVar模塊,無密集通信網絡時間減少不明顯;通信速率(IB Send和IB Recv)隨進程增加呈增長趨勢,到4 096進程后銳減;內存使用率均偏低,未飽和,且與計算規模關聯較小;微架構級指標方面,8 192規模浮點計算能力降低,向量化比例和代碼執行效率增加,Cache miss對CPU性能影響降低。綜合各項指標,4 096進程的規模優勢明顯。

表5 不同進程fcst模塊性能指標表

圖7 fcst不同規模應用運行特征示例圖

4 GRAPES_GFS運行特征分析和優化方向

4.1 運行特征

通過對應用特征和函數級分析,GRAPES_GFS模式CPU%比例較高,屬于計算密集性應用。Cache miss比例高,一定程度上影響CPU性能。F/M、F/C值偏小,內存帶寬和網絡通信依賴明顯。浮點計算運算效率和向量化比例偏低,指令執行效率不高。MPI通信負載比較均衡。MPI_Sendrecv、MPI_Allreduce等函數耗時較多。

4.2 優化方向

代碼優化是自上而下的,從系統到應用再到處理器,可以通過串行和標量、并行化、內存訪問,以及向量化幾個方面優化。

進行向量化優化。從應用特征的向量化指標值(VEC,AVX)可以看出應用程序在該算例執行過程中的向量化比率低,導致集群系統的浮點運算效率低。因此需要通過對代碼的核心計算部分,深入分析數據操作的依賴關系,進行向量化優化,對于有規律的離散訪存,通過數組轉置方法將離散訪存轉換為連續訪存[5-7],以提高應用程序整體的運行性能。

降低Cache miss對性能的影響。在處理數據前,盡量使用連續數據。修改數據結構或通過內存拷貝,將非連續數據變成連續數據存儲。根據算法模型,調整數據結構,以降低Cache miss對性能的影響。

減少CPU等待時間。從VTune分析數據看出,MPI_Sendrecv通信函數中Spin Time最長的邏輯熱點的計算過程中基本為內存訪問,訪存方式為連續和跨步訪存,導致Spin Time時間較多[8]。可調整通信策略和拓撲結構,降低通信時間。對于小的循環,可以展開,或者使用臨時空間記錄重復使用的數據。

消除負載不均衡。從函數級分析可以看出,在整個運行過程中,應用代碼耗時在不同進程間的占比有波動,說明GRAPES對該算例處理過程中有潛在的負載不均衡因素,需要結合代碼以及算例的處理邏輯,進行深入的分析,通過負載均衡的改善,提高程序性能。

5 結 語

基于本文的應用運行特征分析方法,實現了對GRAPES_GFS模式主要并行模塊的快速分析,通過分析結果,精確定位了應用的類型,完整地建立了應用的運行特征,定位應用運行瓶頸,找到應用優化的方向。本文方法不僅可以針對氣象類應用,同樣適合其他行業的應用運行特征建立、應用優化,甚至機群方案設計。

猜你喜歡
進程特征系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
如何表達“特征”
債券市場對外開放的進程與展望
中國外匯(2019年20期)2019-11-25 09:54:58
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
社會進程中的新聞學探尋
民主與科學(2014年3期)2014-02-28 11:23:03
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产精品手机在线观看你懂的| 亚洲一区二区精品无码久久久| 亚洲第一香蕉视频| 一区二区欧美日韩高清免费 | 日韩黄色大片免费看| 国产永久免费视频m3u8| 国产成人资源| 99热免费在线| 亚欧成人无码AV在线播放| 欧美综合一区二区三区| 久久黄色影院| 99精品视频播放| 成人va亚洲va欧美天堂| 免费黄色国产视频| 免费观看无遮挡www的小视频| 亚洲区一区| 成人在线综合| 久草视频中文| 国产成人精品视频一区视频二区| 91在线精品麻豆欧美在线| 午夜综合网| 人人爱天天做夜夜爽| 欧美性猛交一区二区三区| 成人国内精品久久久久影院| 激情爆乳一区二区| av尤物免费在线观看| 欧美www在线观看| 午夜激情婷婷| 97在线公开视频| 亚洲精品图区| 2021最新国产精品网站| 免费中文字幕一级毛片| 伊人激情综合| 91年精品国产福利线观看久久| 亚洲an第二区国产精品| 国产精品久久久久久影院| 日韩AV无码免费一二三区| 国产精彩视频在线观看| 55夜色66夜色国产精品视频| 国产亚洲欧美另类一区二区| 成人永久免费A∨一级在线播放| 国产永久免费视频m3u8| 青草精品视频| 国国产a国产片免费麻豆| 中文字幕日韩久久综合影院| 精品人妻无码区在线视频| 亚洲精品卡2卡3卡4卡5卡区| 日本高清在线看免费观看| 情侣午夜国产在线一区无码| 伊人久综合| 国产第一色| 久久性视频| 2020最新国产精品视频| 日韩国产高清无码| 国产永久无码观看在线| 日韩av手机在线| 成人国产精品2021| 99国产精品一区二区| 好久久免费视频高清| 制服丝袜国产精品| www.亚洲色图.com| 四虎成人免费毛片| 无码综合天天久久综合网| 一级毛片在线播放| 狼友视频国产精品首页| 欧美色99| 亚洲丝袜中文字幕| 日韩无码黄色网站| 国产亚洲精品97在线观看| 欧美成a人片在线观看| 亚洲国产欧美国产综合久久| 手机永久AV在线播放| 综合色在线| 亚洲欧美日韩中文字幕在线| 色有码无码视频| 一本色道久久88亚洲综合| 国产精品女主播| 欧美成人a∨视频免费观看| 欧美三级不卡在线观看视频| 国内精自视频品线一二区| 色精品视频| 少妇精品在线|