劉鑫++郭猛
摘 要:海洋數(shù)值模擬有計算密集、IO讀寫量大、并行擴展性良好的特點,對大規(guī)模并行計算有強烈的需求。國家超級計算濟南中心的“神威藍(lán)光”超級計算機是第一臺全國產(chǎn)的千萬億次超級計算機,在CPU、文件系統(tǒng)、操作系統(tǒng)、編譯環(huán)境各方面實現(xiàn)了全部國產(chǎn)化。本文主要介紹大氣、海洋模式MITgcm在“神威藍(lán)光”上大規(guī)模并行的運行情況和加速評測。其結(jié)果表明MITgcm在全國產(chǎn)的運行環(huán)境下具有良好的擴展性和并行效率,也對“神威藍(lán)光”上的其他應(yīng)用提供了可借鑒的經(jīng)驗。
關(guān)鍵詞:MITgcm 神威藍(lán)光 全國產(chǎn) 并行計算
中圖分類號:TP319 文獻標(biāo)識碼:A 文章編號:1672-3791(2014)09(b)-0015-02
隨著半導(dǎo)體集成電路的快速發(fā)展,計算機處理器的性能越來越高,但是解決大規(guī)模的科學(xué)和工程計算問題,還是依賴計算和存儲能力更加強大的超級計算機。近幾年來國產(chǎn)處理器取得了長足的發(fā)展,尤其值得一提的是,國家超級計算濟南中心的“神威藍(lán)光”超級計算機采用的是國產(chǎn)申威-1600多核心通用處理器,并正在穩(wěn)定地對外提供高性能計算服務(wù)。“神威藍(lán)光”的應(yīng)用涵蓋了海洋科學(xué)與產(chǎn)業(yè)、藥物篩選、氣候氣象、生物信息、物理、化學(xué)、材料、工業(yè)設(shè)計等領(lǐng)域,其中海洋科學(xué)是“神威藍(lán)光”重點支持的方向之一。
1 “神威藍(lán)光”概況
“神威藍(lán)光”的建設(shè)成功標(biāo)志著我國已成為繼美國、日本后第三個能夠采用自主處理器構(gòu)建千萬億次超級計算機系統(tǒng)的國家[1]。“神威藍(lán)光”超級計算機系統(tǒng)由8704顆申威-1600 CPU組成,每顆CPU有16個核心,計算能力達128GFlps。經(jīng)國家權(quán)威機構(gòu)測試,其系統(tǒng)峰值性能達到1.07PFlops(PetaFlops,千萬億次浮點運算/秒),持續(xù)性能為0.796PFlops,LINPACK效率為74.4%,性能功耗比超過741MFlops/W(百萬次浮點運算/秒·瓦),組裝密度和性能功耗比居世界先進水平。與國產(chǎn)化硬件配套的軟件系統(tǒng)包含了“神威睿思”國產(chǎn)并行操作系統(tǒng)、海量并行文件系統(tǒng)、“神威睿智”并行編譯器和并行數(shù)學(xué)庫等。系統(tǒng)綜合水平處于當(dāng)今世界先進行列,完美實現(xiàn)了國家大型關(guān)鍵信息基礎(chǔ)設(shè)施核心技術(shù)的“自主可控”目標(biāo)。[2]
2 MITgcm運行與加速評測
MITgcm(MIT General Circulation Model)是麻省理工學(xué)院開發(fā)的一種大氣、海洋數(shù)值模式。該模式支持在非靜力近似條件下進行數(shù)值模擬,能夠模擬各種不同尺度的海洋、大氣過程,目前已在海洋領(lǐng)域獲得了廣泛的應(yīng)用,如Ravela等[3]將其用于實驗室尺度的數(shù)值模擬,A.Khazendar等[4]將其用于Totten冰架的研究,Guo等[5]將其應(yīng)用于南海內(nèi)孤立波的數(shù)值研究,Parmentier等[6]甚至將該模型用于木星大氣的研究。
2.1 模式運行
(1)在MITgcm模式運行前需要按照“神威藍(lán)光”超級計算機的編譯系統(tǒng)對模式的編譯選項進行相應(yīng)的設(shè)置,將編譯器指定為mpiswcc及mpiswf90。
(2)在運行目錄下創(chuàng)建以下幾個模式運行所必須的子目錄:input、code、build和run。
(3)在input目錄下,輸入模式地形數(shù)據(jù)、初始條件(如初始溫、鹽、流速場等)、邊界條件及模式運行的相關(guān)參數(shù)(如運行步數(shù)、步長、粘性與擴散系數(shù)、模式的水平及垂直空間分辨率等)。[7]
(4)在code目錄下,設(shè)置模式中經(jīng)向及緯向網(wǎng)格數(shù),垂向分層數(shù)及所需的進程數(shù)。[7]
(5)在build目錄下編譯:首先通過MITgcm模式自帶的腳本genmake2自動創(chuàng)建一個生成文件Makefile,之后只需要創(chuàng)建相關(guān)信息和編譯代碼即可。編譯完成后,在build目錄下會生成一個可執(zhí)行文件mitgcmuv。[7]
(6)進入run目錄,將input目錄下的所有文件和build目錄下的mitgcmuv文件軟鏈接或復(fù)制到該目錄下,此時運行mitgcmuv文件即開始模式的計算。
(7)提交任務(wù)到“神威藍(lán)光”主機,提交任務(wù)命令如下:
bsub-q<隊列名稱>-n<進程數(shù)目>-o<日志文件名>./mitgcmuv,其中進程數(shù)應(yīng)與code目錄中設(shè)置的進程數(shù)一致。[2]
2.2 加速評測
加速比的定義為:(1)
表示用最好的串行算法在一個處理器上求解規(guī)模為的問題所需的時間,而表示使用并行算法在P個處理器上求解同樣大小的問題所需的時間,當(dāng)時為理論加速比。[8]
本文基于MITgcm建立了一個南海東北部區(qū)域正壓潮模型,用于對其進行100、200、400、800、1600、3200、6000、10000核心的并行測試。該模型采用矩形網(wǎng)格,采用靜力近似,水平分辨率為250m,沿緯向及經(jīng)向網(wǎng)格數(shù)分別為4000、3000,垂向分5層。
在本算例中加速比根據(jù)實際試驗情況將公式(1)更改為:(2)
其中是用100核心并行運算花費的時間,以此為基準(zhǔn)除以各個大于100并行核心數(shù)的運算時間得到各個規(guī)模的加速比。
本例中的理論加速比是以100進程數(shù)作為基準(zhǔn),則其理論加速比(3)
加速效率(4)
根據(jù)實驗結(jié)果和上述公式得到下表所示結(jié)果:
根據(jù)表1繪制了下圖正壓潮測試計算時間和加速比曲線,水平坐標(biāo)為進程數(shù)目,采取以2為底對數(shù)坐標(biāo);左側(cè)縱坐標(biāo)為運行時間,單位為秒(s);右側(cè)縱坐標(biāo)為加速比。
從表1和圖1可以看出,算例在總核心數(shù)小于6000時,核心數(shù)的增加能夠帶來較好的加速;但受限制于模式規(guī)模(6000核時,每個網(wǎng)格只負(fù)責(zé)約40×50個水平網(wǎng)格),當(dāng)核心數(shù)超過6000后,計算所需時間隨著核心數(shù)的增加而增加。當(dāng)通訊等額外開銷的增加大于因并行規(guī)模增加導(dǎo)致運行時間的減少時就會出現(xiàn)這種情況。對于本算例,6000核心左右的計算規(guī)模是實際應(yīng)用中最大的可選規(guī)模。endprint
3 結(jié)語
上述實驗展示了MITgcm模式在“神威藍(lán)光”超級計算機上萬核級別的運行和加速情況,可以看出該模式在6000核心之前有良好的加速,課題擴展性好。但當(dāng)并行規(guī)模繼續(xù)增大之后,程序并不會一直加速。在加速比圖上,這表現(xiàn)為加速比隨進程數(shù)變化的曲線出現(xiàn)拐點。這個拐點對于并行計算的實際應(yīng)用有很重要的指導(dǎo)意義:在實際運算中,我們應(yīng)該根據(jù)算例的規(guī)模、時間和資源消耗等,在加速比曲線的拐點之前選取合適的并行進程數(shù)進行計算,盲目擴大計算規(guī)模是不可取的。
此外,模式的加速比曲線會隨著網(wǎng)格數(shù)及相關(guān)參數(shù)(如I/O設(shè)置)的變化而變化,即使網(wǎng)格數(shù)相同的模式,采用不同的參數(shù)設(shè)置(如非靜力近似、求解方程時的迭代次數(shù)等)也會影響加速比曲線。對于需要反復(fù)運行的任務(wù)(如用于業(yè)務(wù)化預(yù)報的模式)及運行時間較長的任務(wù),在正式運行前先通過試運行評估其加速比對提高資源的利用率有顯著意義。
4 致謝
感謝中國海洋大學(xué)的遲樂泉、龔延昆對試驗的大力支持和協(xié)助。
參考文獻
[1] 趙秋麗,李志臣.“神威藍(lán)光”再顯自主創(chuàng)新實力[N].光明日報,2011-10-28(1).
[2] http://www.nsccjn.cn
[3 Ravela,S.,J.Marshall,C.Hill,A.Wong and S.Stransky(2009) A Real-time Observatory for Laboratory Simulation of Planetary Flows,Experiments in Fluids,DOI:10.1007/s00348-009-0752-0.
[4] A.Khazendar,M.P.Schodlok,I.Fenty, S.R.M.Ligtenberg,E.Rignot and M.R.van den Broeke(2013),Observed thinning of Totten Glacier is linked to coastal polynya variability,Nature Communications 4,Article number:2857 doi:10.1038/ncomms3857.
[5] Guo,C.,V.Vlasenko,W.Alpers,N. Stashchuk and X.Chen(2012),Evidence of short internal waves trailing strong internal solitary waves in the northern South China Sea from synthetic aperture radar observations, Remote Sensing of Environment,Volume 124,September 2012,Pages 542-550,doi:10.1016/j.rse.2012.06.001.
[6] Parmentier Vivien,Adam P.Showman, Yuan Lian.3D mixing in hot Jupiter atmospheres.I.application to the day/night cold trap in HD 209458b,arXiv:1301.4522v2,2013.
[7] http://mitgcm.org.
[8] Yuefan Deng.APPLIED PARALLEL COMPUTING[M].Singapore:World Scientific,2013.17-18.endprint
3 結(jié)語
上述實驗展示了MITgcm模式在“神威藍(lán)光”超級計算機上萬核級別的運行和加速情況,可以看出該模式在6000核心之前有良好的加速,課題擴展性好。但當(dāng)并行規(guī)模繼續(xù)增大之后,程序并不會一直加速。在加速比圖上,這表現(xiàn)為加速比隨進程數(shù)變化的曲線出現(xiàn)拐點。這個拐點對于并行計算的實際應(yīng)用有很重要的指導(dǎo)意義:在實際運算中,我們應(yīng)該根據(jù)算例的規(guī)模、時間和資源消耗等,在加速比曲線的拐點之前選取合適的并行進程數(shù)進行計算,盲目擴大計算規(guī)模是不可取的。
此外,模式的加速比曲線會隨著網(wǎng)格數(shù)及相關(guān)參數(shù)(如I/O設(shè)置)的變化而變化,即使網(wǎng)格數(shù)相同的模式,采用不同的參數(shù)設(shè)置(如非靜力近似、求解方程時的迭代次數(shù)等)也會影響加速比曲線。對于需要反復(fù)運行的任務(wù)(如用于業(yè)務(wù)化預(yù)報的模式)及運行時間較長的任務(wù),在正式運行前先通過試運行評估其加速比對提高資源的利用率有顯著意義。
4 致謝
感謝中國海洋大學(xué)的遲樂泉、龔延昆對試驗的大力支持和協(xié)助。
參考文獻
[1] 趙秋麗,李志臣.“神威藍(lán)光”再顯自主創(chuàng)新實力[N].光明日報,2011-10-28(1).
[2] http://www.nsccjn.cn
[3 Ravela,S.,J.Marshall,C.Hill,A.Wong and S.Stransky(2009) A Real-time Observatory for Laboratory Simulation of Planetary Flows,Experiments in Fluids,DOI:10.1007/s00348-009-0752-0.
[4] A.Khazendar,M.P.Schodlok,I.Fenty, S.R.M.Ligtenberg,E.Rignot and M.R.van den Broeke(2013),Observed thinning of Totten Glacier is linked to coastal polynya variability,Nature Communications 4,Article number:2857 doi:10.1038/ncomms3857.
[5] Guo,C.,V.Vlasenko,W.Alpers,N. Stashchuk and X.Chen(2012),Evidence of short internal waves trailing strong internal solitary waves in the northern South China Sea from synthetic aperture radar observations, Remote Sensing of Environment,Volume 124,September 2012,Pages 542-550,doi:10.1016/j.rse.2012.06.001.
[6] Parmentier Vivien,Adam P.Showman, Yuan Lian.3D mixing in hot Jupiter atmospheres.I.application to the day/night cold trap in HD 209458b,arXiv:1301.4522v2,2013.
[7] http://mitgcm.org.
[8] Yuefan Deng.APPLIED PARALLEL COMPUTING[M].Singapore:World Scientific,2013.17-18.endprint
3 結(jié)語
上述實驗展示了MITgcm模式在“神威藍(lán)光”超級計算機上萬核級別的運行和加速情況,可以看出該模式在6000核心之前有良好的加速,課題擴展性好。但當(dāng)并行規(guī)模繼續(xù)增大之后,程序并不會一直加速。在加速比圖上,這表現(xiàn)為加速比隨進程數(shù)變化的曲線出現(xiàn)拐點。這個拐點對于并行計算的實際應(yīng)用有很重要的指導(dǎo)意義:在實際運算中,我們應(yīng)該根據(jù)算例的規(guī)模、時間和資源消耗等,在加速比曲線的拐點之前選取合適的并行進程數(shù)進行計算,盲目擴大計算規(guī)模是不可取的。
此外,模式的加速比曲線會隨著網(wǎng)格數(shù)及相關(guān)參數(shù)(如I/O設(shè)置)的變化而變化,即使網(wǎng)格數(shù)相同的模式,采用不同的參數(shù)設(shè)置(如非靜力近似、求解方程時的迭代次數(shù)等)也會影響加速比曲線。對于需要反復(fù)運行的任務(wù)(如用于業(yè)務(wù)化預(yù)報的模式)及運行時間較長的任務(wù),在正式運行前先通過試運行評估其加速比對提高資源的利用率有顯著意義。
4 致謝
感謝中國海洋大學(xué)的遲樂泉、龔延昆對試驗的大力支持和協(xié)助。
參考文獻
[1] 趙秋麗,李志臣.“神威藍(lán)光”再顯自主創(chuàng)新實力[N].光明日報,2011-10-28(1).
[2] http://www.nsccjn.cn
[3 Ravela,S.,J.Marshall,C.Hill,A.Wong and S.Stransky(2009) A Real-time Observatory for Laboratory Simulation of Planetary Flows,Experiments in Fluids,DOI:10.1007/s00348-009-0752-0.
[4] A.Khazendar,M.P.Schodlok,I.Fenty, S.R.M.Ligtenberg,E.Rignot and M.R.van den Broeke(2013),Observed thinning of Totten Glacier is linked to coastal polynya variability,Nature Communications 4,Article number:2857 doi:10.1038/ncomms3857.
[5] Guo,C.,V.Vlasenko,W.Alpers,N. Stashchuk and X.Chen(2012),Evidence of short internal waves trailing strong internal solitary waves in the northern South China Sea from synthetic aperture radar observations, Remote Sensing of Environment,Volume 124,September 2012,Pages 542-550,doi:10.1016/j.rse.2012.06.001.
[6] Parmentier Vivien,Adam P.Showman, Yuan Lian.3D mixing in hot Jupiter atmospheres.I.application to the day/night cold trap in HD 209458b,arXiv:1301.4522v2,2013.
[7] http://mitgcm.org.
[8] Yuefan Deng.APPLIED PARALLEL COMPUTING[M].Singapore:World Scientific,2013.17-18.endprint