文|羅紅艷
深圳氣象高性能計算機系統升級改造與應用
文|羅紅艷
深圳氣象高性能計算機系統位于深圳市氣象局蔡屋圍氣象觀測基地,建成于2011年初,采用曙光5000A刀片集群系統,共170臺刀片服務器組成,峰值計算能力達到34萬億次,配有共享存儲116TB,現在主要運行實時同化預報系統、四維實時數據同化系統、數值預報綜合系統、臨近預報決策平臺、雷達數據處理等氣象預報業務系統和數值預報模式。經過近幾年運行發展,高性能計算機系統效能逐年下降,設備宕機故障偶有發生,進行必要的升級改造不僅是業務發展需求,同時也是系統高效運行管理的要求。
(一)總體結構
深圳氣象高性能計算機系統根據計算資源需求劃分為業務區和科研區,其中業務區共80個刀片服務器、科研區共90個刀片服務器,配有6臺管理登入刀片服務器和14臺I/O節點刀片服務器,千兆光纖互聯;在存儲部分,配有一套ParaStor100并行存儲系統,兩套全光纖存儲曙光DS800-F20應用于業務區高端存儲,一套曙光DS800-F10應用于科研區大容量存儲,千兆光纖互聯;在控制部分,配有一套集群控制系統(含集群容錯)和一套Gridview商用版作業調度系統。總體結構見圖1。
(二)存在的主要問題
隨著近幾年深圳氣象業務和科研需求日益增加,高性能計算資源利用率不斷上升,在運行過程中也陸續遇到一些問題,很大程度上影響了高性能計算資源和存儲資源的正常、高效利用,主要問題有:
1. 在科研開發過程時,大多數用戶需要大量頻繁地訪問外部數據,對高性能計算機系統的網絡帶寬和穩定性要求較高,但目前只有一個節點(node182)能夠下載數據,已遠遠不能滿足需求。
2. 隨著數值預報模式業務和科學研究量的大幅增長,高性能計算機系統的存儲空間需求也越來越大,現有存儲空間僅為116TB,而在運行的三大業務系統每月數據量約為28TB,因存儲空間所限,導致系統系統僅能在線保留三個月數據,許多中間產品被迫刪除,這些中間產品一旦需要時又必須重新計算得出,給業務和科研帶來諸多不便。
3. 快速存儲部分(/data02)集群海量小文件數(inode總量140M)使用已經到98%了,連接存儲的I/O節點內存使用率高達99%,嚴重影響了系統運行和用戶訪問效率。
4. 現有超算資源監控和作業調度系統較為低端,一方面用戶無法對所有計算資源的使用情況進行一個整體把握,另一方面基于移動終端作業任務提交功能尚未建立,無法滿足氣象預警預報全天候24小時服務需求。
針對存在問題和不足,堅持利舊及兼容原則,堅持可擴充性原則以不斷適應高性能計算機新技術發展,重點對登錄節點、存儲資源、作業調度系統進行升級改造。
(一)登錄節點改造
系統共6個管理登錄節點(node171、node172、node173、node181、node182、node183),業務區和科研區各3個,現有配置為2顆六核2.2GHz CPU、16GB內存以及一塊146GB的 SAS硬盤,一塊Infiniband網卡(20Gbps)和一塊千兆以太網網卡,分別實現Infiniband交換機與氣象局局域網互聯,實現氣象數據和應用產品傳輸。改造方案包含三個方面,一是將node171、node172、node181、node182等四個節點的網卡升級為萬兆網卡與氣象局局域網互聯;二是對所有管理登錄節點的內存從原來的16GB升級為32GB;三是在確保信息安全基礎上,利用Infiniband專用接口以直連方式連接高性能計算機的Infiniband交換機和氣象局局域網,以簡化node173、node183原有管理登錄功能。

圖1 深圳氣象高性能計算機邏輯拓撲圖
(二)存儲資源升級
對于存儲系統,一方面要考慮擴容,滿足未來的數值模式業務和氣象科學研究需求,另一方面要重點考慮解決海量小文件存儲問題。根據對當前及未來三年業務和科研需求測算,在現有/data02存儲空間116TB基礎上,新增一套ParaStor200并行存儲系統,分別配置容量為192TB的ParaStor200高帶寬配置存儲和高IOPS配置存儲,前者配置2個索引控制器(4個24×4T的數據控制器)重點解決數據存儲空間不足的問題,后者新增一個數據控制器(新增擴容39塊600G2.5SAS硬盤至海量小文件存儲容量為28T)解決海量小文件存儲的問題,滿足至少三年業務和科研數據的存儲需求。
按此思路改造后新增兩套存儲系統data03和data04,系統data03為28T的SAS高速空間用來存儲海量小文件,data04為192T的SATA低速空間,作為高性能計算的數據存儲倉庫,將原data01和data02的數據遷移至data04中,釋放data01和data02存儲空間以提高數值預報模式業務和科研開發計算效率。具體見圖2。

圖2 改造后的存儲系統邏輯圖
(三)作業調度系統優化
一方面要解決高性能存儲升級后原有作業調度系統的兼容性問題,一方面要滿足超算資源有效監控和調度需求,本次改造重點是對高性能集群110個計算節點的作業調度系統進行升級,實現多集群統一監控平臺,即可實現多地計算資源在同一軟件界面的實時監控、基于移動終端的任務提交以及智能化監控整個系統計算能力使用情況、存儲使用情況、存儲I/O情況。特別是針對災害性天氣時,隨時可以通過移動客戶端實施監控高性能計算機運行狀況以及提交作業,進而有效提高高性能計算機運行效率。作業調度工作流程見圖3。

圖3 優化后的作業調度工作流程
深圳氣象高性能計算機系統是國內氣象系統中第一個擁有國內前100強高性能計算機的單位,是深圳氣象數值化氣象預報的關鍵業務支撐平臺。從業務應用和科研需求上來看,目前深圳氣象可以同化的觀測資料主要為深圳及周邊地區雷達和自動觀測站等氣象資料。本次升級改造后有效增加了對廣東省范圍內2000多個自動氣象站觀測資料和泛華南雷達組網數據的實時同化,使預報范圍由4公里精細到2公里,并將提供精細到覆蓋全市74個街道0~3小時降雨和氣溫預報,有效提高我市數值化氣象服務技術能力。主要效益有如下三個方面:
(一)有效提高天氣預報精準度。數值天氣預報是從大氣物理規律和機理出發,建立數學及物理模型,用數學及物理的方法,并借助現代并行計算技術預測反演未來天氣趨勢,因此是當前世界各大氣象預報中心的核心預報技術和關鍵手段,也是不斷提高天氣預報準確率的重要發展方向之一,它使得預報區域的精度提高一倍甚至更多,其涉及的數據量在現有基礎上還要提高16倍,同時數據同化所需要的計算能力越強,計算得出的預報信息才越精確。因此要想準確預報復雜多變的天氣,高性能計算機系統的計算能力和高效的數據讀取能力是關鍵。
(二)有效提高氣象預警預報自動化水平。精細化數值預報是在空間和時間尺度上的精細預報,由于深圳受海陸、復雜地形、季節等因素的影響,需要同化更多的稠密觀測資料,提供更多接近真實大氣的中小尺度天氣系統特征信息,更好的預報中小尺度天氣的能力。同時,經過數值預報產品的診斷,生成的數值預報釋用產品可以大大簡化預報員的工作量,預報員可以在此基礎上進行訂正即可,也極大地提高了氣象預報預警服務的自動化水平。
(三)有效提高氣象服務精細化水平。依托高性能計算機系統的數值模式系統可提供時空分辨率和準確率更高的氣象預報產品,為全市防災減災的組織提供更強有力的科學依據,并推廣應用于深圳文博會、高交會、春節春運等重大社會活動中,有效提升社會的防災減災能力,保障城市安全運行。同時,高性能計算機上強大的計算資源也有助于為社會公眾提供全程、連續、滾動、個性和新媒體化的氣象產品。
通過對深圳氣象高性能計算機系統升級改造,初步解決了I/O節點通信瓶頸和存儲空間的不足,同時結合實際對作業調度系統進行優化實現了一站式統一監控平臺和移動客戶端作業調度功能,達到了項目預期目標。未來,隨著氣象探測、預警預報、氣象服務等業務和科研事業快速發展,對高性能計算機系統的計算資源需求將越來越高,當前34萬億次計算資源短缺也將在未來三到五年內逐漸顯現,建設200萬億次甚至400萬億次的更高性能超算中心也在規劃中。
作者單位:深圳市國家氣候觀象臺