陳永剛+宋超+于廣輝
摘 要:面對各學科日益激增的高性能計算需求,大連理工大學啟動了校公共計算平臺的建設。本文在籌建過程中遇到的技術思路、資源管理和機制創新等方面進行了必要的探索。
關鍵詞:高性能計算;平臺建設;資源管理;機制創新
中圖分類號: TP38 文獻標識碼: A 文章編號: 1673-1069(2017)05-142-2
1 高性能計算平臺建設的籌備
面對學校各大理工學科對于科學計算的龐大需求,大連理工大學應當建一臺全校共享的大型高性能計算機為學校的科研提供基礎性平臺支持。
從平臺開放共享、全體受益的原則考慮,高性能計算設備考慮由一個技術型服務部門來負責建設、運行和管理,該部門應當有能力對網絡和IT設備提供專業的技術支持,能夠為大型計算機的運維提供保障。大連理工大學網絡與信息化中心是學校數字化校園建設的核心技術部門,有校園骨干網等大規模網絡架構的設計能力,有完善的運行管理制度和豐富的大型IT設備運維經驗。根據學校的具體情況,選擇了網絡與信息中心作為高性能計算平臺的托管單位。
高性能計算平臺的建設并不是簡單的設備采購,需要將購置和研發相結合,既要承擔一定的技術創新的任務,也要擔負起探索開放式公共服務體系和運營管理機制創新的工作。在項目建設正式啟動之前,網絡與信息中心先行建設了一臺64節點試驗性計算平臺,包含64個雙路8核刀片節點,理論峰值為3.2 Tflops,并專門成立了高性能計算運行管理部門,在開放運行的實踐中摸索平臺建設和管理經驗,大膽進行管理制度和運行機制的創新。試驗計算平臺的運行,在科研支持、需求培育和制度建設等諸多方面獲得了良好成效。通過對試驗平臺運行數據進行總結和分析,為高性能計算平臺的建設提供了必要的決策依據。
2 高性能計算平臺的設計思路
2.1 整體框架設計
通過深入開展調研并結合試驗計算平臺的運行統計,考慮到未來幾年計算需求的增量,根據“按需建設、適度超前”的指導思想,推算出學校需要投建性能不低于300萬億次/秒的集群才能滿足未來3~5年各學科的計算需求。而各學科在應用層面的多樣性也為集群的架構設計帶來了一定的挑戰。因此從全校角度出發通盤考慮,既要創建一個通用的計算環境,又需要照顧到不同用戶和應用的特殊需求,最終設計了一個多層次、相互補充和協同工作的高性能計算環境,其布局概念如圖1所示:全校的高性能計算環境由一個擁有最高端計算能力的校級高性能計算平臺和各院系自建的次級計算平臺或工作站組成,以達到全校計算資源的合理配置和優化利用。校級計算平臺提供大規模并行計算求解和異構加速計算服務,院系自建的計算設備可用于建模、前后端處理和小規模開發試算等應用。
圖1 全校高性能計算整體框架
2.2 高性能計算集群的設計
在前期論證研討過程中,根據學校實際應用需求情況,可采用技術較為成熟的大規模計算機集群,其中第一層設備兩路計算節點是大規模數值求解和海量數據處理的主力,選取高密度刀片式方案;第二層計算設備為按需配備一定比例的機架式MIC和GPU異構加速節點;計算網絡為Infiniband FDR 56GB網絡,管理網絡為千兆以太網;采用商業版作業調度和資源管理軟件,以滿足復雜的作業管理需求;節能方面考慮,部署水冷系統[1],根據北方地區氣候條件估算,機房電能使用效率(PUE)可控制在1.45左右,年均可節約電費約50萬元。圖2為集群框架概念圖。
3 高性能計算平臺運行管理機制探討
3.1 組織與建制
①組建超算部。在學校網絡與信息中心內已成立超算部,當前已借助試驗平臺做了一些前期建制的探索工作,具體包括負責擬定校高性能計算建設的總體發展規劃;制定合理的運行管理制度;根據用戶應用需求合對平臺資源進行合理分配和管理;培育和開發校內和周邊科研單位的重大應用;做好用戶培訓和教學,推動高性能計算的高水平應用。②成立高性能計算專家咨詢委員會。將主要由校內各學科應用學者代表組成,負責高性能計算相關工作的組織、協調和重大問題的決策;對高性能計算平臺建設的規劃和方案等重點問題進行指導、評估和論證;協調、組織高性能計算領域的學科交叉與合作、技術交流和人才培養等工作;對平臺在研項目進行評審,評定重點扶持或獎勵等級[2]。
3.2 服務與管理
優質的服務是高性能計算平臺為科研用戶創造良好科研環境的重要內容,服務工作主要應體現在如下方面:①管理制度嚴明。要滿足用戶長時間、不間斷計算的特點,高性能計算設備必需保證7X24小時正常運轉,因此必須配備嚴格的機房和設備管理制度,規定每日2次巡檢,定期對配電、空調、安防等設備進行檢查,消除安全隱患。定期出具運行統計報告,讓用戶了解平臺運行情況。②技術支持專業。高性能計算平臺技術支持的專業性不僅體現在系統日常管理與維護上,更要體現對用戶不同領域和學科專業的支持。因此對人員要求相對比較高,不僅要精通計算機網絡技能,還需要對物理、化學、力學等與計算相關的學科有深入的背景知識。因為高性能計算平臺服務對象主要是用到大規模并行計算的科研人員,具體則涉及各學科專業軟件的使用,如果沒有足夠深入的學科專業背景知識和科研經歷,那么平臺技術支持人員最多只能是維持系統的運行,而對于提升應用水平、發揮平臺效用則力不從心,因此比較理想的人選是在這些學科方向有一定研究基礎的博士來擔任。這也是將HPC的內涵從“High Performance Computer”到“High Performance Computing”的理念上的提升。
4 高性能計算應用培訓與教學
培養高性能計算人才、提升高性能計算在科研中的高水平應用是平臺建設的另一大任務。在試驗平臺運行期間,我們就已開展過幾期應用培訓,最終發現這類短期的應用培訓并不能滿足師生的需要。從培養科學計算用戶的角度出發,提煉學校各科研領域中共同關注的問題,傳授實用的科學計算技術,使師生能夠在各自的科研工作中用好高性能計算平臺和工具,提高科研效率和水平,這才是我們在設計高性能計算應用教學首要考慮的問題。為此,在校研究生院的支持下,我們開設了《大規模并行計算與應用》的研究生課程,聯合物理、化工、材料和力學等學科長期工作在教學科研一線的教授,結合科研實例講授各學科在高性能計算中的實踐和應用,并提供上機環境供學生演練,為學生開辟良好的高性能計算學習和實踐環境。
5 結束語
高性能計算平臺的建設與發展將圍繞該校《中長期發展戰略規劃》和《“十二五”發展規劃》的總體要求,以數字化智慧校園建設為核心,整合學校各重點學科的優勢資源,打造一個技術先進、服務優良、成果突出的科技創新支撐平臺。高性能計算平臺的建設不僅僅是設備采購、技術更新的過程,更是公共服務平臺運行機制、管理模式和制度建設的全面探索與創新。
參 考 文 獻
[1] 李根國,桂亞東,劉欣.淺談高性能計算的地位及作用[J].計算機應用與軟件,2006,23(9):3.
[2] 鄧寶林.高校校園網改造工程的規劃與設計[D].大連理工大學,2013.