周煒丹 郭傳江

[摘 要]本文主要介紹了南京大學(xué)大氣科學(xué)學(xué)院高性能計(jì)算及海量數(shù)據(jù)中心機(jī)房的建設(shè)和運(yùn)維管理實(shí)例,對(duì)比討論了當(dāng)前普通高校下屬院系自建機(jī)房的合理性,并對(duì)相關(guān)工作改進(jìn)和發(fā)展做出了探討,旨在為相關(guān)研究提供借鑒。
[關(guān)鍵詞]高性能計(jì)算;自建機(jī)房;運(yùn)維管理
doi:10.3969/j.issn.1673 - 0194.2019.14.103
[中圖分類號(hào)]TP308[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2019)14-0-02
0? ? ?引 言
現(xiàn)代大氣科學(xué)為實(shí)現(xiàn)對(duì)天氣和氣候過去狀態(tài)的模擬及未來(lái)狀態(tài)的預(yù)報(bào)或預(yù)估,需要將控制大氣運(yùn)動(dòng)的動(dòng)力學(xué)控制方程組數(shù)學(xué)模型離散化,借助計(jì)算機(jī)計(jì)算時(shí)間積分。自1950年ENIAC成功計(jì)算數(shù)值天氣預(yù)報(bào)起,數(shù)值模式越來(lái)越精密和復(fù)雜,對(duì)計(jì)算和存儲(chǔ)的需求越來(lái)越高。隨著經(jīng)濟(jì)和技術(shù)條件進(jìn)步,各單位自建機(jī)房變得更常見。本文結(jié)合校屬學(xué)院自建機(jī)房建設(shè)及運(yùn)維管理實(shí)例,討論了近年來(lái)的使用經(jīng)驗(yàn),并與其他計(jì)算及存儲(chǔ)解決方案進(jìn)行對(duì)比,探討了自建機(jī)房未來(lái)發(fā)展的前景。
1? ? ?學(xué)院機(jī)房建設(shè)概況
南京大學(xué)自2010年起建有校級(jí)高性能計(jì)算集群平臺(tái),大氣科學(xué)學(xué)院自行購(gòu)置科研用途的服務(wù)器、存儲(chǔ)系統(tǒng)等專用IT設(shè)備更早。學(xué)院自建的高性能計(jì)算及海量數(shù)據(jù)中心機(jī)房(以下簡(jiǎn)稱學(xué)院機(jī)房)工程自2013年參照國(guó)家標(biāo)準(zhǔn)開始實(shí)施,2014年暑期投入使用。機(jī)房正式運(yùn)行面積232 m2,包括(79+69) m2主機(jī)房?jī)砷g及UPS間、電池室、消防鋼瓶室,另有68 m2作為二期工程預(yù)留。機(jī)房工程以學(xué)科建設(shè)經(jīng)費(fèi)為主,總投入約650萬(wàn)元人民幣,主要子系統(tǒng)組成見表1,空調(diào)、UPS、集中監(jiān)控等主要配套設(shè)備設(shè)計(jì)壽命8~10年,機(jī)房建設(shè)方提供3年免費(fèi)質(zhì)保。后續(xù)招標(biāo)的配套設(shè)備維保每年支出在工程總價(jià)的5%以內(nèi)。
2? ? ?機(jī)房使用及運(yùn)維管理現(xiàn)狀
目前,主機(jī)房?jī)?nèi)已經(jīng)安裝500余臺(tái)IT設(shè)備,機(jī)柜空間利用率約85%。各種設(shè)備品牌型號(hào)多,采購(gòu)?fù)緩郊澳甏稚ⅲ俨糠譃槿珜W(xué)院共享,其余為學(xué)院內(nèi)各課題組自行購(gòu)置。大多數(shù)機(jī)房服務(wù)器運(yùn)行Linux系統(tǒng),主要依靠開源、免費(fèi)或自行編寫的應(yīng)用軟件,用于科學(xué)計(jì)算及數(shù)據(jù)分析,多為雙路CPU/2RU規(guī)格,另有數(shù)套高密度刀片式服務(wù)器,總計(jì)算能力約100 TFlops(雙精度)。存儲(chǔ)服務(wù)器主要為使用3.5英寸機(jī)械硬盤的SAN存儲(chǔ),絕大部分通過光纖或SAS通道直接連接至服務(wù)器HBA擴(kuò)展卡,另有數(shù)套并行存儲(chǔ)系統(tǒng)為中小型高性能集群服務(wù),總?cè)萘考s20 PB。機(jī)房網(wǎng)絡(luò)對(duì)外由10 GbE光纖接入校園網(wǎng),對(duì)內(nèi)以GbE速率下行交換機(jī)居多,另有少量10 GbE設(shè)備。部分服務(wù)器通過40/56 Gbps IB高速低延遲互聯(lián)組成高性能并行集群,目前有數(shù)套1 000左右CPU計(jì)算核心規(guī)模的集群和更小規(guī)模300左右CPU計(jì)算核心的集群。集群并行計(jì)算一般通過MPI,與本學(xué)科主流方案相同,運(yùn)行成熟軟件方便,同時(shí)也與學(xué)校平臺(tái)環(huán)境類似,可以較方便地遷移程序至學(xué)校平臺(tái)執(zhí)行更大規(guī)模的任務(wù)。隨著信息技術(shù)深入發(fā)展,網(wǎng)絡(luò)安全形勢(shì)日益嚴(yán)峻。為防范非法入侵、同時(shí)減少對(duì)高速數(shù)據(jù)傳輸?shù)挠绊懀瑱C(jī)房還配備全并行處理的NGFW(Next Generation Fire Wall)防火墻和堡壘機(jī)系統(tǒng)。前者用于機(jī)房對(duì)外網(wǎng)絡(luò)出入管控,后者用于學(xué)院公共平臺(tái)等重要系統(tǒng)的訪問認(rèn)證與安全審計(jì)。目前,機(jī)房有兩名工作人員,自2014年以來(lái),突發(fā)意外需要大面積關(guān)機(jī)的情況平均每年不到一次,均為空調(diào)故障導(dǎo)致,因及時(shí)處置未造成IT設(shè)備損壞。
3? ? ?自建機(jī)房與其他購(gòu)買服務(wù)方式的對(duì)比
筆者所在學(xué)院的各科研項(xiàng)目對(duì)并行計(jì)算和數(shù)據(jù)存儲(chǔ)都有較大需求。一般中小規(guī)模的計(jì)算學(xué)院機(jī)房?jī)?nèi)設(shè)備可滿足,較大規(guī)模的計(jì)算可交由學(xué)校大型平臺(tái)或校外超算中心計(jì)算。大規(guī)模并行計(jì)算后期海量數(shù)據(jù)的長(zhǎng)期存儲(chǔ)和分析仍主要在學(xué)院機(jī)房?jī)?nèi)進(jìn)行,以低成本、高可靠、大容量為主要需求。以學(xué)校計(jì)算平臺(tái)為例,其計(jì)算能力是學(xué)院機(jī)房的總和,但存儲(chǔ)系統(tǒng)以高速高性能為主,總?cè)萘績(jī)H有學(xué)院機(jī)房的1/10左右。
目前,高校機(jī)房常見的其他可選項(xiàng)包括自購(gòu)硬件托管至校外商業(yè)機(jī)房,購(gòu)買校外超算中心的計(jì)算服務(wù),采購(gòu)“云計(jì)算”服務(wù)等。學(xué)院機(jī)房目前平均運(yùn)行功率約180 kW,PUE值約1.7。每年電費(fèi)、配套維保和運(yùn)維薪資合計(jì)后,每月維持費(fèi)用約
100元/RU,僅為托管至校外商業(yè)機(jī)房的幾分之一。與從校外超算中心購(gòu)買機(jī)算服務(wù)相比,校內(nèi)平臺(tái)收費(fèi)標(biāo)準(zhǔn)略低于校外,且數(shù)據(jù)經(jīng)內(nèi)部網(wǎng)絡(luò)傳輸快,對(duì)產(chǎn)生海量數(shù)據(jù)應(yīng)用非常重要。超算中心一般不提供大規(guī)模存儲(chǔ),與采購(gòu)“云計(jì)算”服務(wù)相比,以阿里云ECS為例,零散付費(fèi)計(jì)算機(jī)的單價(jià)較校外超算中心還要高約50%,即使按最大優(yōu)惠5年整包,機(jī)時(shí)單價(jià)也僅與校內(nèi)平臺(tái)優(yōu)惠后零散單價(jià)相當(dāng),同時(shí)校內(nèi)包括學(xué)院內(nèi)的集群內(nèi)部高性能互聯(lián)速率更快,更有利于大規(guī)模科學(xué)計(jì)算任務(wù)。在存儲(chǔ)方面,阿里云32 TB高效云盤5年整包價(jià)34萬(wàn)余元,比學(xué)院機(jī)房采用的方案總費(fèi)用高出一個(gè)數(shù)量級(jí)。
與已經(jīng)規(guī)模化的商業(yè)方案比,對(duì)特定的計(jì)算和存儲(chǔ)需求而言,學(xué)院自建機(jī)房仍有優(yōu)勢(shì)。究其原因,可解釋為高校院系仍以公益類科研為主,成本投入占很大比例,包括機(jī)房建設(shè)、設(shè)備采購(gòu)甚至人力成本等,并不以直接經(jīng)營(yíng)收入為考核出發(fā)點(diǎn)。
4? ? ?對(duì)學(xué)院機(jī)房相關(guān)工作進(jìn)一步發(fā)展的探討
學(xué)院機(jī)房按較高標(biāo)準(zhǔn)籌建,基本順應(yīng)了近年來(lái)技術(shù)發(fā)展、科研投入增加和需求快速增長(zhǎng)的趨勢(shì)。結(jié)合實(shí)際規(guī)劃未來(lái),在以下方面的工作可做進(jìn)一步改善和提高。
(1)學(xué)校和學(xué)院的資源環(huán)境、機(jī)房規(guī)模等決定了可投入的人力物力無(wú)法與大型數(shù)據(jù)中心相比,但可考慮開發(fā)適用于本地軟硬件環(huán)境、易于部署的運(yùn)維自動(dòng)化功能,提高機(jī)房運(yùn)行的安全性和可靠性,使運(yùn)維管理人員將更多精力轉(zhuǎn)移到學(xué)習(xí)與研究如何提升各類設(shè)備利用效能上來(lái)。
(2)新的數(shù)據(jù)中心設(shè)計(jì)規(guī)范國(guó)家標(biāo)準(zhǔn)已于2018年開始實(shí)施,結(jié)合了數(shù)據(jù)中心發(fā)展趨勢(shì)、經(jīng)驗(yàn)以及新技術(shù),修訂了電氣、空調(diào)、環(huán)境等方面的內(nèi)容,對(duì)學(xué)院已建機(jī)房具有一定的參考借鑒意義。例如,可以參考新標(biāo)準(zhǔn)適度提高空調(diào)設(shè)定溫度,同時(shí)監(jiān)控各設(shè)備溫度變化,在安全范圍內(nèi)降低空調(diào)系統(tǒng)負(fù)荷,節(jié)約能源。同時(shí),還可考慮在空調(diào)室外機(jī)處加裝水噴霧系統(tǒng),以期同時(shí)達(dá)成節(jié)能和減少空調(diào)設(shè)備故障率。
(3)目前,各課題組設(shè)備分散,研究生自行管理水平參差不齊。高校應(yīng)將公共平臺(tái)為核心和范例,逐步推動(dòng)全院設(shè)備管理與資源融合,減少閑置。
(4)雖然學(xué)院機(jī)房在運(yùn)行成本、性能等方面有特定優(yōu)勢(shì),但對(duì)于特定需求,如公開數(shù)據(jù)共享、下載數(shù)據(jù)預(yù)處理等,仍可考慮與商業(yè)“云計(jì)算”服務(wù)相結(jié)合,運(yùn)維管理工作可從機(jī)房?jī)?nèi)向外拓展,充分利用和整合內(nèi)外各種條件,滿足未來(lái)需求。
主要參考文獻(xiàn)
[1]游偉倩,盛樂標(biāo),張予倩.南京大學(xué)高性能計(jì)算集群系統(tǒng)管理與運(yùn)維研究[J].中國(guó)設(shè)備工程,2018(22).
[2]中國(guó)電子工程設(shè)計(jì)院.電子信息系統(tǒng)機(jī)房設(shè)計(jì)規(guī)范:GB50174-2008[S].北京:中國(guó)計(jì)劃出版社,2009.
[3]趙立成,沈文海,肖華東,等.高性能計(jì)算技術(shù)在氣象領(lǐng)域的應(yīng)用[J].應(yīng)用氣象學(xué)報(bào),2016(5).
[4]游偉倩,盛樂標(biāo),張予倩.南京大學(xué)大型高性能計(jì)算集群平臺(tái)建設(shè)研究[J].科技創(chuàng)新導(dǎo)報(bào),2018(4).
[5]游偉倩,盛樂標(biāo),周慶林,等.高性能計(jì)算集群存儲(chǔ)系統(tǒng)搭建方式的對(duì)比研究[J].電腦知識(shí)與技術(shù),2018(9).
[6]湖南大學(xué)國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心.關(guān)于超算中心收費(fèi)執(zhí)行標(biāo)準(zhǔn)的通知[EB/OL].(2018-08-03)[2019-03-28].http://nscc.hnu.edu.cn/info/1004/1282.htm.
[7]中國(guó)電子工程設(shè)計(jì)院.數(shù)據(jù)中心設(shè)計(jì)規(guī)范:GB50174-2017[S].北京:中國(guó)計(jì)劃出版社,2017.
[8]邱培剛.空調(diào)室外機(jī)水噴霧節(jié)能技術(shù)在大型通信局所的應(yīng)用[J].電信技術(shù),2010(8).