王侃毅
(中國(guó)移動(dòng)通信集團(tuán)上海有限公司網(wǎng)絡(luò)維護(hù)中心,上海200233)
?
數(shù)據(jù)中心動(dòng)環(huán)系統(tǒng)風(fēng)險(xiǎn)分析及應(yīng)對(duì)策略
王侃毅
(中國(guó)移動(dòng)通信集團(tuán)上海有限公司網(wǎng)絡(luò)維護(hù)中心,上海200233)
摘要:通過(guò)對(duì)數(shù)據(jù)中心動(dòng)環(huán)系統(tǒng)組成和特點(diǎn)的總結(jié),結(jié)合實(shí)際建設(shè)和運(yùn)維工作的實(shí)踐經(jīng)驗(yàn),系統(tǒng)研究了動(dòng)環(huán)系統(tǒng)存在的安全運(yùn)行存在的風(fēng)險(xiǎn),并提出了相關(guān)應(yīng)對(duì)策略,為打造安全的數(shù)據(jù)中心提供了完善的方案。
關(guān)鍵詞:數(shù)據(jù)中心; 動(dòng)環(huán)系統(tǒng); 風(fēng)險(xiǎn); 應(yīng)對(duì)策略
伴隨著信息時(shí)代互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,承載這些技術(shù)的數(shù)據(jù)中心也象雨后春筍一般拔地而起。由于運(yùn)營(yíng)商在帶寬資源的優(yōu)勢(shì)和在移動(dòng)互聯(lián)網(wǎng)時(shí)代信息業(yè)務(wù)增長(zhǎng)的需要,因此在數(shù)據(jù)中心建設(shè)中投入巨大,也能夠吸引到許多高端客戶的入駐。
對(duì)數(shù)據(jù)中心客戶訴求來(lái)說(shuō),電子設(shè)備的安全可靠運(yùn)行是他們的主要考量。一旦數(shù)據(jù)中心出現(xiàn)宕機(jī),不僅給相關(guān)互聯(lián)網(wǎng)公司本身帶來(lái)巨大的經(jīng)濟(jì)損失,可能造成用戶更大的損失,客戶在這些事件中造成的損失是不可挽回的。例如2013年谷歌數(shù)據(jù)中心宕機(jī)損失,每分鐘損失達(dá)到10.8萬(wàn)美元,攜程網(wǎng)2015年宕機(jī)事件中直接損失超過(guò)1277萬(wàn)美元。2015年6月21日,阿里云香港節(jié)點(diǎn)出現(xiàn)權(quán)限宕機(jī),業(yè)務(wù)中斷超過(guò)12h,甚至出現(xiàn)部分用戶數(shù)據(jù)損毀。
在基礎(chǔ)設(shè)施安全方面最為重要的就是數(shù)據(jù)中心動(dòng)環(huán)系統(tǒng)的安全。本文作者通過(guò)多年在數(shù)據(jù)中心運(yùn)行維護(hù)管理的實(shí)踐經(jīng)驗(yàn),分析數(shù)據(jù)中心動(dòng)環(huán)安全的風(fēng)險(xiǎn)以及提出相應(yīng)的解決策略,供廣大運(yùn)維人員分享。
1.1動(dòng)環(huán)系統(tǒng)構(gòu)成
數(shù)據(jù)中心動(dòng)環(huán)系統(tǒng)由三大部分組成:電源系統(tǒng)、空調(diào)系統(tǒng)、監(jiān)控系統(tǒng)
電源系統(tǒng)包括:市電引入部分:包含市電進(jìn)線高壓柜、變壓器、二次側(cè)高壓柜,根據(jù)數(shù)據(jù)中心的規(guī)模和容量需求市電引入分22萬(wàn)伏、11萬(wàn)伏、3.5萬(wàn)伏、1萬(wàn)伏四個(gè)等級(jí);低壓配電部分:包含變壓器、低壓進(jìn)出線柜,電壓等級(jí)為380伏;電力配電部分:包含低壓分配柜、UPS設(shè)備、高壓直流設(shè)備以及蓄電池組。電壓等級(jí)交流220伏或直流240伏;數(shù)據(jù)機(jī)房配電部分:包括列頭柜;后備電源部分:高壓柴油機(jī)或低壓柴油機(jī);電源干線部分;包含連接各系統(tǒng)的母線和電纜。
空調(diào)系統(tǒng)包括:中央空調(diào)部分:包含中央空調(diào)機(jī)組、冷凍水泵、冷卻水泵、淋水塔、末端空調(diào);冷卻水系統(tǒng):包含冷卻泵、淋水塔、末端空調(diào);專用空調(diào)部分:專用空調(diào)又分為水冷專用空調(diào)系統(tǒng)和分冷專用空調(diào)系統(tǒng),其中水冷專用空調(diào)包括:冷卻泵、淋水塔、末端空調(diào),分冷系統(tǒng):主要由專用空調(diào)主機(jī)和室外機(jī)組成;管路部分:包含連接各系統(tǒng)的空調(diào)管路以及控制閥門;后備冷源部分:蓄冷設(shè)備、板換。
監(jiān)控系統(tǒng)包括:采集單元、總線、服務(wù)器、應(yīng)用軟件等,提供實(shí)時(shí)的AI、DI、DO的數(shù)據(jù)狀態(tài),對(duì)設(shè)備運(yùn)行情況實(shí)時(shí)監(jiān)測(cè),具有設(shè)備實(shí)時(shí)告警、告警過(guò)濾、遠(yuǎn)程控制、數(shù)據(jù)存儲(chǔ)和分析、故障派送等功能。
1.2動(dòng)環(huán)系統(tǒng)發(fā)展特點(diǎn)
數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,從原先的一幢樓1萬(wàn)平方,發(fā)展到一幢樓4~5萬(wàn)m2,以致到目前呈現(xiàn)了園區(qū)規(guī)模。其次單機(jī)架的功耗不斷提升,由原來(lái)單機(jī)架2KW,過(guò)渡到3.5~5kW,進(jìn)而發(fā)展到高功耗區(qū)單機(jī)架可達(dá)7~10kW。這些變化使動(dòng)環(huán)系統(tǒng)的架構(gòu)和設(shè)備發(fā)生了很大的變化。
對(duì)外電的需求從原先1萬(wàn)伏雙路進(jìn)行,每路3200kVA的容量,過(guò)渡到3.5萬(wàn)伏進(jìn)線,每路容量16000~20000kVA,如果是園區(qū)級(jí)的需要11萬(wàn)伏或22萬(wàn)伏進(jìn)線,每路容量達(dá)到12萬(wàn)~18萬(wàn)kVA。
單機(jī)架功耗的增長(zhǎng)和機(jī)房裝機(jī)密度提高,單機(jī)架功耗平均達(dá)到4kW以上,機(jī)房功率密度200W單位平方米,如果采用模塊化或倉(cāng)儲(chǔ)式建設(shè),單模塊的功率密度提高到300W單位平方米。對(duì)空調(diào)系統(tǒng)提出挑戰(zhàn),末端空調(diào)制冷量從原先的45kW提高到100kW,機(jī)房空調(diào)引入了冷池、列間空調(diào)、門板送風(fēng)、液管或冷凍水延伸至機(jī)房甚至直接接入機(jī)架。中央空調(diào)機(jī)組單機(jī)組制冷量也從500RT提高到1400RT。
出于對(duì)投資和節(jié)能的考慮,大型數(shù)據(jù)中心動(dòng)環(huán)系統(tǒng)引入了中壓設(shè)備,包括高壓柴油機(jī)、高壓冷凍機(jī)組。中央空調(diào)出水溫度由原先的7℃,回水溫度12℃,提升到出水溫度14℃,回水溫度19℃。機(jī)房送風(fēng)溫度控制也由最初的13~19℃,提升到18~27℃。另外,數(shù)據(jù)中心引入了自由冷卻系統(tǒng),在冬季室外氣溫低于一定濕球溫度時(shí),利用冷卻塔循環(huán)和熱交換,達(dá)到免費(fèi)取冷的系統(tǒng)。
動(dòng)環(huán)系統(tǒng)在上述演進(jìn)中的電源、制冷系統(tǒng)中集成后體現(xiàn)了更加復(fù)雜,結(jié)構(gòu)層級(jí)增加,設(shè)備安全等級(jí)提高,設(shè)備之間邏輯關(guān)系更復(fù)雜。
2.1設(shè)備安全風(fēng)險(xiǎn)
2.1.1電源設(shè)備故障及影響
電源設(shè)備故障主要指在設(shè)備運(yùn)行過(guò)程中發(fā)生的設(shè)備停止、損壞,造成其后級(jí)設(shè)備出現(xiàn)供電中斷。其中越靠近數(shù)據(jù)設(shè)備端的電源設(shè)備出現(xiàn)故障,其影響也越直接。如數(shù)據(jù)機(jī)房?jī)?nèi)列頭柜開(kāi)關(guān)如果發(fā)生跳閘故障的話,將直接造成所承載某個(gè)或某列服務(wù)器設(shè)備斷電停止運(yùn)行;UPS或高壓直流設(shè)備作為數(shù)據(jù)機(jī)房供電設(shè)備,如果出現(xiàn)設(shè)備故障,特別是輸出中斷的話,(輸出中斷最主要原因有逆變器停止工作、逆變器和市電轉(zhuǎn)換失敗、并聯(lián)冗余機(jī)組不同步,蓄電池低電壓、短路或開(kāi)路運(yùn)行故障),將會(huì)影響到所供機(jī)房的機(jī)柜,而且設(shè)備容量越大影響的機(jī)架數(shù)也越多,舉個(gè)簡(jiǎn)單例子,如果是400kW的UPS,單機(jī)柜容量是4kW,那就將有100個(gè)機(jī)柜斷電無(wú)法工作,但如果是120kW的UPS,單機(jī)柜容量是4kW,那只影響30個(gè)機(jī)柜。低壓設(shè)備輸出故障,主要由于開(kāi)關(guān)跳閘引起(主要原因有負(fù)載端過(guò)載、短路,也可能是開(kāi)關(guān)本身機(jī)械或電器故障),如果是出線柜故障則影響下級(jí)輸出所帶的負(fù)載,如果是頭柜的話,將使所有該列輸出停止供電。
2.1.2空調(diào)設(shè)備故障及影響
空調(diào)設(shè)備正常運(yùn)行主要是保證機(jī)房環(huán)境溫度和濕度能夠適合服務(wù)器設(shè)備的運(yùn)行,服務(wù)器設(shè)備能夠接受的進(jìn)風(fēng)溫度根據(jù)GB2887—89計(jì)算機(jī)場(chǎng)地技術(shù)條件4.4.1.3條規(guī)定開(kāi)機(jī)時(shí)機(jī)房?jī)?nèi)的溫度環(huán)境溫度、濕度標(biāo)準(zhǔn):其中A級(jí)22±2℃,B級(jí)15~30℃,C級(jí)10~35℃,環(huán)境濕度為A級(jí)45~65℃,B級(jí)40~70℃,C級(jí)30~80℃。傳統(tǒng)服務(wù)器的耐溫標(biāo)準(zhǔn)5~35度,機(jī)房溫度的升高,服務(wù)器的功耗將大幅增加。服務(wù)器CPU,正常情況下45~65℃。高于75~80℃,要檢查散熱,部分CPU會(huì)自我保護(hù),溫度過(guò)高會(huì)自動(dòng)降頻(一般為標(biāo)準(zhǔn)頻率的一半)。硬盤溫度,一般情況在30~60℃。
機(jī)房側(cè)末端空調(diào)設(shè)備出現(xiàn)單個(gè)設(shè)備故障一般不會(huì)對(duì)機(jī)房溫度產(chǎn)生大的波動(dòng),只有出現(xiàn)多臺(tái)或全部機(jī)房空調(diào)出現(xiàn)停機(jī)的情況,才會(huì)使機(jī)房溫度在短期內(nèi)失控。這樣的情況主要是由于三種原因?qū)е碌模皇窃O(shè)備同時(shí)停電;二是水冷末端空調(diào)冷源停止;三是水冷系統(tǒng)管路或閥門出現(xiàn)爆裂。
中央空調(diào)設(shè)備作為集中供冷的冷源設(shè)備在單機(jī)出現(xiàn)故障時(shí),如果有備機(jī)的情況下,不會(huì)造成影響,但一旦出現(xiàn)全部停機(jī)的話,就會(huì)使整個(gè)數(shù)據(jù)中心失去冷源,造成重大影響。
2.2動(dòng)環(huán)系統(tǒng)風(fēng)險(xiǎn)
動(dòng)環(huán)系統(tǒng)風(fēng)險(xiǎn)是對(duì)整個(gè)數(shù)據(jù)中心供電或冷源造成系統(tǒng)安全的風(fēng)險(xiǎn),一旦發(fā)生,將對(duì)整個(gè)數(shù)據(jù)中心的服務(wù)器運(yùn)行帶來(lái)災(zāi)難性的損失。
市電停電或外線故障時(shí)最重要的系統(tǒng)故障,其次就是市網(wǎng)斷水。當(dāng)發(fā)生這樣的情況時(shí),是真正考驗(yàn)數(shù)據(jù)中心動(dòng)環(huán)系統(tǒng)安全性的時(shí)候。
2.2.1市電停電風(fēng)險(xiǎn)
當(dāng)數(shù)據(jù)中心外部電源失去時(shí),不僅是供電設(shè)備不能工作,同時(shí)所有的冷源設(shè)備也同樣停止工作,服務(wù)器設(shè)備在短時(shí)能夠通過(guò)蓄電池放電延長(zhǎng)供電時(shí)間,等待備用柴油機(jī)啟動(dòng)后,切換入系統(tǒng)供電。某系統(tǒng)采用中央空調(diào)單冷源設(shè)備提供冷凍水,市網(wǎng)斷電后機(jī)房溫升情況見(jiàn)表1。

表1 機(jī)房負(fù)載與溫度對(duì)應(yīng)關(guān)系
通過(guò)上表得到結(jié)論,1)溫度上升的速度和機(jī)房的負(fù)載呈正向關(guān)系,即機(jī)房負(fù)載越大,溫度上升的速度也越快。其中5-1機(jī)房在10min溫度就達(dá)到38℃;2)來(lái)電后空調(diào)自啟動(dòng)在1min左右,冷卻水泵變頻器在35s啟動(dòng),溫度恢復(fù)原始溫度的時(shí)間要遠(yuǎn)大于溫度上升時(shí)間。同樣是5-1機(jī)房恢復(fù)用了50min時(shí)間。
首先冷源機(jī)房中央空調(diào)來(lái)電自啟和應(yīng)急啟動(dòng)。
來(lái)電自啟:當(dāng)發(fā)生進(jìn)線斷電造成運(yùn)行冷水機(jī)組停機(jī)后。BA系統(tǒng)會(huì)先進(jìn)行判斷在控制范圍內(nèi)的冷水機(jī)組、水泵、冷水塔狀態(tài),然后給出開(kāi)啟程序,共約1min。BA系統(tǒng)自動(dòng)打開(kāi)系統(tǒng)中的閥門、啟動(dòng)循環(huán)水泵和冷水塔共約2~4min。BA系統(tǒng)監(jiān)測(cè)冷水機(jī)組是否滿足開(kāi)機(jī)條件(機(jī)組冷卻和冷凍水循環(huán)建立、潤(rùn)滑油溫度達(dá)到機(jī)組設(shè)置點(diǎn)范圍),條件達(dá)到后開(kāi)始啟動(dòng)程序。機(jī)組開(kāi)始控制系統(tǒng)自檢、潤(rùn)滑油泵啟動(dòng)、油壓差建立、預(yù)潤(rùn)滑、導(dǎo)葉檢測(cè)等,該過(guò)程大概需要5~10min左右。BA系統(tǒng)開(kāi)機(jī)過(guò)程約8~15min。應(yīng)急啟動(dòng):停止BA系統(tǒng)控制啟動(dòng),采用人工啟動(dòng),手動(dòng)打開(kāi)系統(tǒng)中的閥門,約2min。手動(dòng)開(kāi)啟循環(huán)水泵和淋水塔風(fēng)機(jī),約2min。手動(dòng)啟動(dòng)冷水機(jī)組,判斷冷水機(jī)組是否滿足開(kāi)機(jī)條件(機(jī)組冷卻和冷凍水循環(huán)建立、潤(rùn)滑油溫度達(dá)到機(jī)組設(shè)置點(diǎn)范圍),條件達(dá)到后開(kāi)始啟動(dòng)機(jī)組。機(jī)組開(kāi)始控制系統(tǒng)自檢、潤(rùn)滑油泵啟動(dòng)、油壓差建立、預(yù)潤(rùn)滑、導(dǎo)葉檢測(cè)等,該過(guò)程大概需要5~10min左右。人工開(kāi)機(jī)過(guò)程約9~14min。
由上面的中央空調(diào)來(lái)電自啟動(dòng)流程和應(yīng)急啟動(dòng)實(shí)際流程和時(shí)間測(cè)試:無(wú)論是BA系統(tǒng)自動(dòng)開(kāi)機(jī)還是人工干預(yù)啟動(dòng),整個(gè)過(guò)程過(guò)程約在8~15min之間,而且是機(jī)組一切正常情況下,特別是冬季加熱器不能出現(xiàn)故障(有任何一個(gè)環(huán)節(jié)有問(wèn)題,開(kāi)機(jī)時(shí)間大大增強(qiáng),且需人工干預(yù))。
然而冷凍水能夠達(dá)到制冷效果的供回水溫度,即7℃的冷凍水出水溫度究竟需要多少時(shí)間。通過(guò)實(shí)際故障統(tǒng)計(jì)。在停電20min后,冷凍水溫度是呈上升趨勢(shì),數(shù)據(jù)顯示15.5~23℃共用了5min,在開(kāi)機(jī)后從23℃下降到7℃用了將近60min,因此整個(gè)系統(tǒng)恢復(fù)需要75min。因此得到的結(jié)論是如果數(shù)據(jù)中心采用的是單冷源的中央空調(diào)系統(tǒng),在出現(xiàn)系統(tǒng)性停電風(fēng)險(xiǎn)時(shí),是不可用的。(如果要設(shè)置蓄冷罐,那一般20min的儲(chǔ)備也不能達(dá)到實(shí)際要求)數(shù)據(jù)中心的冷源系統(tǒng)應(yīng)該是雙冷源的設(shè)置。
2.2.2市網(wǎng)停水
市網(wǎng)停水的系統(tǒng)故障主要影響的是水系統(tǒng)的空調(diào),包括中央空調(diào)系統(tǒng)和專用空調(diào)冷卻水系統(tǒng)。長(zhǎng)時(shí)間的停水,會(huì)使中央空調(diào)系統(tǒng)和專用空調(diào)系統(tǒng)無(wú)法補(bǔ)水而停止工作。
3.1電源系統(tǒng)和設(shè)備配置不存在單節(jié)點(diǎn)
單節(jié)點(diǎn)定義為某一個(gè)電源供電節(jié)點(diǎn)是唯一的通路,這個(gè)節(jié)點(diǎn)發(fā)生中斷,那在其后面的設(shè)備產(chǎn)生停電。這里的節(jié)點(diǎn)即指設(shè)備本身,也包括設(shè)備供電出線的路由。嚴(yán)格意義上的雙路由供電從市電進(jìn)線側(cè)一直到機(jī)房?jī)?nèi)服務(wù)器機(jī)架側(cè),全程都應(yīng)該是物理上的雙回路。
3.2空調(diào)系統(tǒng)要雙備份
大型數(shù)據(jù)中心的空調(diào)系統(tǒng)如采用集中供冷模式,一定要采用雙備份。
1)中央空調(diào)系統(tǒng)和專用空調(diào)系統(tǒng)加末端的雙冷源的精密空調(diào),這樣的系統(tǒng),正常運(yùn)行時(shí)以中央空調(diào)為主,精密空調(diào)以冷凍水供冷,專用空調(diào)系統(tǒng)作為備份,一旦中央空調(diào)設(shè)備或管路出現(xiàn)由于故障出現(xiàn)問(wèn)題,冷凍水停止。專用空調(diào)系統(tǒng)運(yùn)行,精密精密空調(diào)壓縮機(jī)制冷,保證機(jī)房供冷。同時(shí)當(dāng)機(jī)房冷量不夠時(shí),精密空調(diào)還可采用冷凍水和壓縮機(jī)同時(shí)制冷的策略,以保障機(jī)房的冷源需求。空調(diào)系統(tǒng)由于管路和閥門眾多,發(fā)生泄漏可能性很大,因此單系統(tǒng)風(fēng)險(xiǎn)很大。前一節(jié)也分析過(guò)在市電停電時(shí),中央空調(diào)由于啟動(dòng)時(shí)間過(guò)長(zhǎng),不能滿足機(jī)房應(yīng)急時(shí)的供冷,但專用空調(diào)系統(tǒng)在市電恢復(fù)后,能夠在2s只能完成系統(tǒng)建立,并提供冷卻水供機(jī)房精密空調(diào)制冷,所以能夠應(yīng)對(duì)市電停電的系統(tǒng)性風(fēng)險(xiǎn),但此種模式的缺點(diǎn)在于冷源都倚靠水,如果碰到市網(wǎng)斷水的故障還是存在風(fēng)險(xiǎn)。解決的方法可以通過(guò)設(shè)置應(yīng)急補(bǔ)水系統(tǒng),達(dá)到延長(zhǎng)搶修時(shí)間的目的。應(yīng)急補(bǔ)水系統(tǒng)的容量可以根據(jù)冷卻水蒸發(fā)量進(jìn)行計(jì)算,通常設(shè)置應(yīng)滿足淋水塔補(bǔ)水量的8h以上。
2)采用中央空調(diào)系統(tǒng)和分冷系統(tǒng)加機(jī)房精密空調(diào)模式。正常時(shí)中央空調(diào)系統(tǒng)運(yùn)行,一旦出現(xiàn)市電斷電的系統(tǒng)性風(fēng)險(xiǎn)時(shí),精密空調(diào)會(huì)自動(dòng)切換到分冷系統(tǒng),也是壓縮機(jī)運(yùn)行狀態(tài)。這樣的系統(tǒng)和第一種模式比較的優(yōu)勢(shì),在于冷源不全部倚靠水系統(tǒng),能夠有效應(yīng)對(duì)市電停電和市網(wǎng)斷水這二種情況的系統(tǒng)性風(fēng)險(xiǎn)。
3.3空調(diào)設(shè)備供電分擔(dān)配置原則
空調(diào)設(shè)備作為大型數(shù)據(jù)中心的重要保障設(shè)備,在設(shè)備供電必須分擔(dān)設(shè)置。以抵御由于單路供電系統(tǒng)或設(shè)備出現(xiàn)的故障。例如一個(gè)機(jī)房側(cè)精密空調(diào)設(shè)備組,需引入不同市電的配電,分別交叉供電,保障在某一路市電停電或上級(jí)開(kāi)關(guān)跳閘故障時(shí),機(jī)房精密空調(diào)至少還有一半在運(yùn)行,延緩機(jī)房的溫升,贏得搶修的時(shí)間。同樣在中央空調(diào)和專用空調(diào)的系統(tǒng)和設(shè)備的供電,能夠進(jìn)行合理的供電分配以分散風(fēng)險(xiǎn)。
3.4中壓柴油機(jī)市電全自動(dòng)系統(tǒng)
數(shù)據(jù)中心最大的風(fēng)險(xiǎn)是市電停電造成數(shù)據(jù)中心所有的電源設(shè)備和空調(diào)設(shè)備停止運(yùn)行。如上節(jié)中敘述的,數(shù)據(jù)中心后備不間斷電源可以支撐服務(wù)器設(shè)備供電在15~30min,但是機(jī)房空調(diào)的溫升可以在10min之內(nèi)就失去控制,達(dá)到38℃,這時(shí)服務(wù)器可能已處在宕機(jī)的狀態(tài)了,因此空調(diào)電源恢復(fù)響應(yīng)的時(shí)間需要更短。一個(gè)大型的數(shù)據(jù)中心其高壓設(shè)備和后備柴油機(jī)眾多,且分布在不同物理地點(diǎn),如果靠人工操作柴油機(jī)啟動(dòng),然后在切換入高壓設(shè)備,再通過(guò)高壓設(shè)備操作完成供電,先不考慮切換復(fù)雜,人員技能和熟練度要達(dá)到非常高的水平,就是在不同物理點(diǎn)來(lái)回操作和確認(rèn),時(shí)間上也絕對(duì)達(dá)不到要求。故建立中壓柴油機(jī)市電全自動(dòng)系統(tǒng)是防御市電停電風(fēng)險(xiǎn)的最佳策略。就如何實(shí)現(xiàn)此系統(tǒng),在下文中將對(duì)已成功運(yùn)用的實(shí)踐案例與運(yùn)維人員分享。
圖1是某數(shù)據(jù)中心的高壓系統(tǒng)和柴油發(fā)電機(jī)系統(tǒng),35kV接線方式為線路—變壓器組接線。每臺(tái)變壓器進(jìn)線一回,進(jìn)線電源采用35kV電纜引自新建開(kāi)關(guān)站。每組線路裝設(shè)35kV斷路器,35kV計(jì)量用PT、CT及母線PT、氧化鋅避雷器各一組。10kV接線采用單母線分段接線,共兩段母線,設(shè)分段斷路器。油機(jī)房有9臺(tái)10kV容量2000kW柴油發(fā)電機(jī)并留有1臺(tái)擴(kuò)建機(jī)位,所有發(fā)電機(jī)并接到同一段并機(jī)母線,然后通過(guò)兩路發(fā)電機(jī)出線分別送往35kV變電站的兩段10kV母線。
該系統(tǒng)引入了中壓電源切換控制系統(tǒng)(MV ATS)自動(dòng)控制。正常運(yùn)行時(shí),兩臺(tái)主變分列運(yùn)行,當(dāng)一臺(tái)主變斷電時(shí),其10kV側(cè)進(jìn)線斷路器跳開(kāi),母線分段斷路器自動(dòng)合閘,由另一臺(tái)主變同時(shí)向兩段母線供電。當(dāng)兩回主變均失電時(shí),中壓電源切換控制系統(tǒng)自動(dòng)發(fā)信號(hào)啟動(dòng)應(yīng)急油機(jī)電源,油機(jī)電源可用后,中壓電源切換控制系統(tǒng)(MV ATS)自動(dòng)控制10kV系統(tǒng)切換到由10kV油機(jī)電源向負(fù)荷供電。
柴油發(fā)電系統(tǒng)的工作方式為:接收到中壓電源切換控制系統(tǒng)發(fā)來(lái)的啟動(dòng)信號(hào)后,油機(jī)控制系統(tǒng)立刻控制開(kāi)通風(fēng)窗,然后啟動(dòng)全部機(jī)組,最先達(dá)到規(guī)定的電壓和頻率水平的油機(jī)(或者是預(yù)先選定的一臺(tái)油機(jī)達(dá)到規(guī)定的電壓和頻率水平后)合閘到并機(jī)母線,作為基準(zhǔn),其他機(jī)組經(jīng)過(guò)同期檢查,逐個(gè)并列到并機(jī)母線。全部油機(jī)并機(jī)完成后,油機(jī)控制系統(tǒng)將油機(jī)出線開(kāi)關(guān)1和油機(jī)出線開(kāi)關(guān)2合閘,油機(jī)電源分別送至變電站的兩段10kV母線油機(jī)進(jìn)線柜的下樁頭。變電站的負(fù)載投入后,油機(jī)的功率管理系統(tǒng)根據(jù)實(shí)際輸出功率,將超出需求的油機(jī)退出運(yùn)行(留有相應(yīng)余量),如果在運(yùn)行過(guò)程中負(fù)載增加,再啟動(dòng)相應(yīng)數(shù)量的油機(jī)經(jīng)并機(jī)投入運(yùn)行,保證所需的供電容量。來(lái)自中壓電源切換控制系統(tǒng)的啟動(dòng)信號(hào)撤銷后,油機(jī)控制系統(tǒng)控制所有油機(jī)經(jīng)冷卻停機(jī)。
系統(tǒng)操作實(shí)際時(shí)間
(1)兩路市電停電,MA ATS和MB ATS分別檢測(cè)I段母線電壓與頻率和II段母線電壓與頻率,經(jīng)過(guò)設(shè)定的延時(shí)時(shí)間(市電穩(wěn)定延時(shí)5s)后異常條件仍然滿足,判定兩路市電均異常。
(2)油機(jī)控制系統(tǒng)根據(jù)預(yù)設(shè)程序啟動(dòng)油機(jī)并完成并機(jī)后,合油機(jī)出線開(kāi)關(guān)1和2(油機(jī)啟動(dòng)并機(jī)合出線開(kāi)關(guān)時(shí)間由油機(jī)系統(tǒng)決定90s)。
(3)MA ATS檢測(cè)油機(jī)進(jìn)線1電源正常后(油機(jī)電源穩(wěn)定延時(shí)5s),按照設(shè)定程序做如下動(dòng)作:
跳母聯(lián)開(kāi)關(guān)(1s)
跳本段全部出線開(kāi)關(guān)(1s)
合本段油機(jī)進(jìn)線開(kāi)關(guān)(5s)
依次合本段優(yōu)先級(jí)為2、3、4的出線開(kāi)關(guān),間隔2s (3s×9)
(4)MB ATS檢測(cè)油機(jī)進(jìn)線2電源正常后(油機(jī)電源穩(wěn)定延時(shí)5s),按照設(shè)定程序做如下動(dòng)作:
跳母聯(lián)開(kāi)關(guān)(1s)
跳本段全部出線開(kāi)關(guān)(1s)
合本段油機(jī)進(jìn)線開(kāi)關(guān)(5s)
依次合本段優(yōu)先級(jí)為2、3、4的出線開(kāi)關(guān),間隔2s (3s×9)
步驟(3)、(4)同時(shí)并列運(yùn)行,從二路市電停電到供電由柴油機(jī)帶載完成總用時(shí)134s。
通過(guò)上述對(duì)數(shù)據(jù)動(dòng)環(huán)設(shè)備和系統(tǒng)的故障及其造成的影響范圍,基本可以得出這樣的結(jié)論:1)設(shè)備故障出現(xiàn)的概率較大,但對(duì)整個(gè)數(shù)據(jù)中心的影響相對(duì)較小,其影響面主要看該設(shè)備在動(dòng)環(huán)系統(tǒng)中的層級(jí)和容量配置情況,2)系統(tǒng)性故障出現(xiàn)概率較小,但對(duì)整個(gè)數(shù)據(jù)中心的影響是致命的,如果數(shù)據(jù)機(jī)房在初期建設(shè)沒(méi)有考慮,系統(tǒng)配置和技術(shù)未達(dá)到能力要求,只要出現(xiàn)此情況,意味著整個(gè)數(shù)據(jù)中心可能全部停止運(yùn)行。3)系統(tǒng)性故障出現(xiàn)時(shí),系統(tǒng)響應(yīng)的時(shí)間是最關(guān)鍵的。應(yīng)當(dāng)采用技術(shù)手段加以控制。
本文總結(jié)大型數(shù)據(jù)中心動(dòng)環(huán)系統(tǒng)風(fēng)險(xiǎn)應(yīng)對(duì)策略:電源系統(tǒng)和設(shè)備配置不存在單節(jié)點(diǎn);空調(diào)系統(tǒng)要雙備份;空調(diào)設(shè)備供電分擔(dān)配置原則;中壓柴油機(jī)市電全自動(dòng)系統(tǒng)。如果數(shù)據(jù)中心建設(shè)和運(yùn)維符合這四項(xiàng)應(yīng)對(duì)策略,那就能抵御各種動(dòng)環(huán)風(fēng)險(xiǎn),數(shù)據(jù)中心的動(dòng)環(huán)運(yùn)行始終處于安全的狀態(tài)下,使客戶可以放心的將設(shè)備運(yùn)行在該機(jī)房?jī)?nèi)。
參考文獻(xiàn):
[1]GB50174-2008,電子信息系統(tǒng)機(jī)房設(shè)計(jì)規(guī)范[S].
[2]GB 50052-2009,供配電系統(tǒng)設(shè)計(jì)規(guī)范[S].
[3]DL 476-1992(2005),電力系統(tǒng)實(shí)時(shí)數(shù)據(jù)通信應(yīng)用層協(xié)議[S].
[4]YDT 1821-2008,通信中心機(jī)房環(huán)境條件要求[S].
[5]GB 50243-2002,通風(fēng)與空調(diào)工程質(zhì)量驗(yàn)收規(guī)范[S].
修回日期:2016-03-16
DOI:10.3969/J.ISSN.2095-3429.2016.02.013
中圖分類號(hào):TP308
文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):2095-3429(2016)02-0057-05
作者簡(jiǎn)介:王侃毅(1972-),男,浙江鎮(zhèn)海人,MBA碩士,工程師,網(wǎng)絡(luò)維護(hù)中心副總經(jīng)理。
收稿日期:2016-02-16
Risk Analysis and Countermeasures Strategies of Data Center Power Distribution and Environment Surveillance System
WANG Kan-yi
(Network Maintenance Center of China Mobile,Shanghai 200233,China)
Abstract:This paper summarizes the composition and characteristics of power and environmental system through the data center.With the actual construction and operation&maintenance practices,the paper examines the risk of the power and envirommental systems.And it puts forward relevant countermeasures to create safe data center and provid the perfect solution.
Key words:data center; power and environmental system; risk; countermeasures strategy