呂 爽,馬艷軍 ,劉一謙
(四川省氣象信息中心,四川 成都 610071)
國家氣象網絡計算應用系統是采用網絡計算技術與網絡化遠程應用技術,通過整合、集成氣象部門內不同位置的10大高性能計算機系統,建成的面向區域、省氣象部門以及國內相關行業提供共享服務的高性能計算資源軟硬件平臺和網絡化應用環境。該系統聚合的總節點數有416個,采用了不同體系架構和操作系統平臺,總計算能力高達26.34 TFLOPS,總存儲能力 128.98TB[1]。為了將如此豐富的高性能計算資源和存儲資源進行高效管理,使其充分利用,發揮最大的使用價值和共享效益,國家氣象網絡計算應用系統建設項目組設計了有效的計算資源管理和共享方案,并已技術實現,成功應用到國家級氣象高性能計算機計算資源的業務管理和資源共享工作中。成都區域氣象中心的SGI高性能計算機系統是國家氣象網絡計算應用系統中的一個分節點,與其他節點相比,在體系結構上存在較大差異、具有一定代表性的的異構節點,本文詳細敘述了國家氣象網絡計算資源管理和共享方案在成都分節點的應用和實現過程。
國家氣象網絡計算資源管理技術方案主要包括三方面(圖1):

圖1 氣象網絡計算應用系統計算資源管理技術方案
2.1.1 異構節點 氣象網絡計算應用系統計算資源管理范圍不僅限于單個高性能計算機系統,而是將氣象部門內不同架構的高性能計算機系統作為分節點納入進來作為一個整體、使用全局統一的策略管理。
2.1.2 抽象量化模型 設計一個高性能計算資源抽象量化模型,屏蔽氣象網絡計算應用系統中各個節點之間的異構性,以統一的形式刻畫高性能計算資源,以量化手段實現高性能計算機虛擬計算單元計算力GCUP(General Computing Unit Productivity),精確地記錄和控制用戶資源使用量。1個資源虛擬計算單元(GCU)相當于目前一般高性能計算機系統1個CPU小時的計算能力[2]。
2.1.3 計算資源管理系統 在GCUP量化模型設計思想基礎上構建計算資源實時管理系統,該系統能夠實時動態地跟蹤、反映用戶對高性能計算機資源的使用情況,并能及時實施資源使用控制策略。系統利用GOLD+PostgreSQL技術實現,GOLD是一個開源的資源分配管理器,由美國的太平洋西北國家實驗室 PNNL 研發[3]。
由于氣象行業內多個中西部省份缺乏數值天氣預報所必需的高性能計算機系統,無法建立適合本地中小尺度的預報模式系統來支持當地的預報業務。針對資源匱乏地區用戶的實際需要,國家氣象網絡計算應用系統為異地遠程網絡用戶提供計算資源,建立區域模式預報應用系統,通過資源共享平臺的方式運行氣象網絡應用,經廣域網提供氣象應用產品,實現高性能計算資源的跨區域共享。
國家氣象網絡計算應用系統成都分節點是SGI新一代Altix 4700高性能計算機系統,該系統配置96顆英特爾安騰雙核處理器(192 Cores),主頻1.6GHz,384GB全局內存,理論浮點峰值可達到1.228 8萬億次/秒。
3.2.1 技術實現 將國家氣象網絡計算資源管理方案應用于成都分節點,對成都區域氣象中心高性能計算機系統上的高性能計算資源進行管理,其管理架構如圖2所示,具體實現過程如下所述。

圖2 成都分節點計算資源管理架構
①作業日志文件獲取。在SGI高性能計算機系統上設置資源預留程序prologue與資源記賬程序epilogue,作業調度節點及計算節點均能直接調用這兩個文件,作業通過pbspro作業調度系統被提交到計算節點上,作業運行之前和結束之后,分別調用prologue和epilogue程序,提取相關用戶作業信息,存入指定的日志文件中。作業日志文件包含隊列名、作業ID、用戶名、處理器個數、作業執行時間等信息,AREM用戶提交作業后生成的日志文件信息如下:express;29346.SGI4700;AREM;1;5104;"SGI4700/2exec_vnode";1;2010-01-14 07";SGI4700;"SERIAL"
②GOLD管理系統構建。用一臺linux服務器作為GOLD管理服務器(bccdgridsvr),在該服務器上搭建基于GOLD的成都區域中心高性能計算資源實時管理系統,安裝GOLD和Postgre數據庫,開發計算資源管理程序,實現按部門、用戶、機器等方面對資源使用情況進行實時查詢和統計分析,并實現計算資源使用統計信息xml文件的準實時上傳。
③計算資源預分配。根據GCUP模型的設計思想,對成都分節點SGI系統的計算資源進行量化統計,根據各個單位實際使用情況對計算資源以GCU為單位進行預分配,表1所示是SGI系統上2012年各個單位預分配和實際使用的計算資源情況。

表1 2012年計算資源預分配和使用情況
④用戶信息與作業日志文件入庫。根據計算資源記帳的要求,需要的基本數據結構包括用戶信息、單位組織信息、機器信息,因此設計數據庫來管理這些信息。在GOLD數據庫中有用戶和單位組織的相關信息,但不夠全面,在查詢時需要詳細的用戶和單位信息,因此在postgre數據庫中新建一個數據庫實例ui(userinfo),使用ui數據庫作為計算資源記帳基本信息庫。用戶信息編輯成txt文件,作為gadduser命令的參數進行入庫處理;作業日志文件通過程序每隔30 min從SGI系統上傳送到bccdgridsvr服務器指定目錄下,同時定時掃描目錄啟動計算資源記帳程序調用gcharge命令完成向GOLD數據庫的作業日志文件入庫記帳處理,每10 min刷新一次。
⑤資源統計信息xml文件的生成。利用計算管理程序對計算資源使用情況進行查詢和統計,定時運行genmonxmlfile程序將統計結果轉化為xml文件,經解析后供web頁面顯示。2011年9月SGI系統計算資源使用統計的xml文件(resstat_sc.xml)如下所示,包含時間、cpu利用率、資源使用量等信息。


3.2.2 應用效果分析及實例 成都區域氣象中心自從將國家氣象網絡計算資源管理方案成功應用到SGI系統以來,取得了較好的應用效果,系統管理員能夠從不同角度對成都區域氣象中心高性能計算資源使用情況有全面的了解,能夠對所掌握的計算資源進行合理的調度與分配,更好的保證了系統的負載均衡以及資源的充分利用,進一步為氣象模式用戶提供了一個模式運算的更高效的計算平臺,使其更好的滿足區域中心中尺度集合預報系統業務運行需求,同時也為管理部門提供了決策支持的有力依據。
通過成都區域中心高性能計算資源管理系統查詢得到的關于2009年成都區域中心高性能計算機系統各個單位用戶計算資源使用統計情況可以看出,2009年所有用戶單位中,成都高原氣象研究所(SWCB_gys)計算資源使用量最多,占總資源使用量的69.86%,其次為其他測試單位,占總資源使用量的19.59%;同時四川省氣象臺(SWCB_qxt)計算資源使用量占總資源使用量的10.05%。根據統計結果的指導,按資源使用比例合理的給各個單位預分配了2010年的計算資源,避免了出現資源不足、業務作業無法正常運行的現象。
在國家氣象網絡計算資源共享方案設計思想基礎上,擴展西南區域中心內重慶、云南異地用戶作為成都分節點SGI系統的網絡資源特色用戶,基于資源共享平臺為其提供計算資源,異地用戶在MPLSVPN網絡中通過FTP方式對WRF和MM5中尺度數值預報模式結果數據以及預報產品等資料進行定時接收和本地化應用研究,進一步豐富了異地用戶所在地區的氣象業務數值預報產品。
云南和重慶異地用戶借助成都分節點的計算資源,實現大量的WRF和MM5模式數值模擬試驗。針對其在本地的預報結果進行檢驗分析,初步評價模式性能。根據模式的性能設計試驗方案,進行模式各種物理過程組合的優選,為WRF和MM5模式在本地業務化方案定制提供各種客觀依據。
例如重慶異地用戶利用在成都分節點資源共享平臺運行的WRF模式結果模擬了2009年8月2-5日的渝西大暴雨天氣過程(圖3)。

圖3 2009年8月2—5日的渝西大暴雨天氣過程
通過利用國家氣象網絡計算資源管理和共享方案,成都區域氣象中心的高性能計算資源管理水平和共享效益有了一定程度的提高,但是隨著天氣、氣候模式預報精度的提高、物理過程的復雜化,以及集合預報樣本的增加,導致模式計算規模越來越大,模式運算所需的計算資源和存儲資源也將迅速增加,如何利用有限的資源為氣象用戶做到最優、最好的服務,是需要我們系統資源管理工作者認真思考的問題。
[1]宗翔,王彬.國家級氣象高性能計算機管理與應用網絡平臺設計[J].應用氣象學報,2006,17(5):629-634.
[2]王彬,宗翔,魏敏.一個精細粒度實時計算資源管理系統[J]. 應用氣象學報,2008,19(4):507 -511.
[3]呂爽,馬渝勇,劉一謙,等.基于Gold的氣象中心網格平臺資源管理系統構建及應用[J].計算機與現代化,2010,5:79-80.