周濤
【摘要】數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房的功率總量隨負(fù)載的變化而瞬息萬(wàn)變。這種變化的幅度已經(jīng)在增長(zhǎng),并且隨著電源管理技術(shù)在服務(wù)器和通信設(shè)備中的部署會(huì)繼續(xù)急劇增長(zhǎng)。本文對(duì)動(dòng)態(tài)功率的變化進(jìn)行了分析,并提出了有針對(duì)性的解決思路。
【關(guān)鍵詞】數(shù)據(jù)中心;功率變化;負(fù)載
1.前言
數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房消耗的總電源功率是已安裝的IT設(shè)備所消耗功率的總和。在以前,這類(lèi)設(shè)備的功耗隨計(jì)算負(fù)載或工作模式的不同,只會(huì)發(fā)生極小的變化。為延長(zhǎng)筆記本電腦的電池供電時(shí)間,需要對(duì)處理器的電源消耗進(jìn)行管理。電源管理技術(shù)的應(yīng)用使筆記本電腦處理器在負(fù)載較小的情況下可節(jié)電高達(dá) 90%。隨著此項(xiàng)技術(shù)的逐漸成熟,人們已開(kāi)始將其移植到服務(wù)器的設(shè)計(jì)中。其結(jié)果是當(dāng)新開(kāi)發(fā)的服務(wù)器的工作負(fù)載隨時(shí)間發(fā)生變化時(shí),其功耗可能會(huì)隨之發(fā)生顯著變化。
當(dāng)功率隨時(shí)間發(fā)生變化時(shí),隨之而來(lái)的是數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房設(shè)計(jì)和管理方面的各種新問(wèn)題。在幾年以前,這種問(wèn)題是可以忽略的。現(xiàn)在,問(wèn)題已到達(dá)不容忽略的程度,并且問(wèn)題的嚴(yán)重性還在不斷加劇。這種功耗波動(dòng)會(huì)導(dǎo)致在數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房環(huán)境中發(fā)生意外的不良后果,包括斷路器跳閘、過(guò)熱和冗余電源系統(tǒng)中的冗余功能喪失。這種情況給數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房的設(shè)計(jì)和操作人員帶來(lái)了新的挑戰(zhàn)。
2.動(dòng)態(tài)功率變化
在新的IT技術(shù)出現(xiàn)前,通常來(lái)說(shuō)服務(wù)器所消耗的功率都接近于恒定。造成服務(wù)器功率變化的主要因素是磁盤(pán)驅(qū)動(dòng)器的旋轉(zhuǎn)以及溫控風(fēng)扇的速度變化。處理器和內(nèi)存子系統(tǒng)上的計(jì)算負(fù)載所導(dǎo)致的功率變化很小,在總功耗中可以忽略不計(jì)。
要大幅度降低功耗,需要BIOS、芯片組、處理器和操作系統(tǒng)之間協(xié)調(diào)配合。不同的供應(yīng)商和不同種類(lèi)的處理器采用不同的方法來(lái)實(shí)現(xiàn)低功率狀態(tài)。但是,最常見(jiàn)的方法包括減少或停止時(shí)鐘和減少或停止對(duì)處理器、芯片組和內(nèi)存的各個(gè)部件供電。
最近,處理器供應(yīng)商開(kāi)始引入可在CPU執(zhí)行任務(wù)時(shí)節(jié)省電力的方法。這些方法包括改變處理器的時(shí)鐘頻率和電壓大小,以便更好地匹配處理器在非空閑狀態(tài)下的工作負(fù)載。
需要注意的是,任何在一定條件下減小處理器功耗的方法,所減小的都是系統(tǒng)平均功耗。最大功耗不會(huì)改變,并且每一代新CPU都有功耗升高的趨勢(shì)。另外,當(dāng)處理器功耗在服務(wù)器總功耗中所占比例較大時(shí),由計(jì)算負(fù)載造成的服務(wù)器總功耗的變化也會(huì)相應(yīng)變大。因此,擁有多處理器的服務(wù)器和磁盤(pán)驅(qū)動(dòng)器很少的服務(wù)器,其動(dòng)態(tài)功率變化百分比最高。
3.動(dòng)態(tài)功率變化帶來(lái)的問(wèn)題
3.1 分支電路過(guò)載
在多數(shù)時(shí)間下,大部分服務(wù)器都在小計(jì)算負(fù)載下運(yùn)行。對(duì)于具有電源管理功能的服務(wù)器而言,這意味著服務(wù)器將消耗少于潛在功耗的功率。但是,大多數(shù)數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房的安裝或維護(hù)人員并沒(méi)有意識(shí)到其通常觀察到的服務(wù)器功耗可能遠(yuǎn)小于高計(jì)算負(fù)載下的潛在功耗。這種情況可能會(huì)導(dǎo)致數(shù)據(jù)中心或網(wǎng)絡(luò)機(jī)房的操作人員或IT工作人員無(wú)意地將過(guò)多的服務(wù)器連接到分支電路中。
當(dāng)分支電路中服務(wù)器的最大功耗總和超過(guò)分支電路的額定值時(shí),就有可能發(fā)生過(guò)載。在這種情況下,這些服務(wù)器將會(huì)正常運(yùn)行,直到條件發(fā)生變化,即足夠多的服務(wù)器同時(shí)在大負(fù)載下運(yùn)行。導(dǎo)致此類(lèi)過(guò)載的計(jì)算條件很少發(fā)生,因此系統(tǒng)可能會(huì)連續(xù)數(shù)周甚至數(shù)月無(wú)故障地正常運(yùn)轉(zhuǎn)。
在由于上述情況而導(dǎo)致的過(guò)載條件發(fā)生期間,分支電路將在高于電路額定值的電流下工作。在數(shù)據(jù)中心或網(wǎng)絡(luò)機(jī)房環(huán)境中,此情況造成的最嚴(yán)重后果是分支電路斷路器可能跳閘并中斷對(duì)計(jì)算設(shè)備的供電。此外,由于這種供電中斷是發(fā)生在計(jì)算負(fù)載很高的時(shí)間段,因此計(jì)算設(shè)備有可能正在處理大量事務(wù),這意味著故障很有可能發(fā)生在最不希望發(fā)生的時(shí)間點(diǎn)上。
3.2 過(guò)熱
在數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房中,計(jì)算設(shè)備所消耗的所有電能都會(huì)變成熱量散發(fā)出來(lái)。當(dāng)計(jì)算設(shè)備的功耗因計(jì)算負(fù)載而變化時(shí),其熱量輸出也會(huì)變化。如果數(shù)據(jù)中心某一處設(shè)備的功耗突然增加,就會(huì)在數(shù)據(jù)中心出現(xiàn)局部熱點(diǎn)。數(shù)據(jù)中心制冷系統(tǒng)的制冷能力可能已根據(jù)典型功率耗散情況進(jìn)行了分配,因此局部區(qū)域的功率突增可能導(dǎo)致局部溫度的上升,而這種溫度上升在設(shè)計(jì)制冷系統(tǒng)時(shí)并未考慮。這可能導(dǎo)致設(shè)備在過(guò)熱時(shí)關(guān)機(jī),工作異常或者使設(shè)備的保修失效。
3.3 冗余失效
很多服務(wù)器都具有雙冗余電源輸入,而具有最高可用性的數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房正是利用這一特性為服務(wù)器提供雙路供電。當(dāng)其中一條供電線路上的任何一點(diǎn)徹底無(wú)法供電時(shí),這些系統(tǒng)仍然可獲得電能并繼續(xù)運(yùn)行。在正常運(yùn)行條件下,計(jì)算機(jī)設(shè)計(jì)為讓兩條供電線路平均分擔(dān)負(fù)載。當(dāng)其中一條供電線路發(fā)生故障時(shí),服務(wù)器的全部負(fù)載就會(huì)轉(zhuǎn)移到剩下的另一條供電線路上。這會(huì)導(dǎo)致供電線路上的負(fù)載翻倍。因此,對(duì)于為雙路供電系統(tǒng)中的設(shè)備供電的AC電源分支電路而言,其負(fù)載必須小于額定載流容量的50%。這樣,它才有足夠的剩余能力在必要時(shí)承擔(dān)全部負(fù)載。
當(dāng)負(fù)載呈現(xiàn)出動(dòng)態(tài)變化的功耗時(shí),確保分支電路的負(fù)載小于其額定值的50% 變得更加困難。系統(tǒng)在安裝時(shí)已經(jīng)過(guò)測(cè)試并且分支電路確實(shí)是在其額定值的50% 之下運(yùn)行。但是,當(dāng)未來(lái)某個(gè)時(shí)刻出現(xiàn)高計(jì)算負(fù)載時(shí),系統(tǒng)就有可能開(kāi)始在大于額定值的50%的條件下運(yùn)行。 如果雙路供電系統(tǒng)的分支電路出現(xiàn)負(fù)載超過(guò)自身能力的50%的情況,那么系統(tǒng)就喪失了冗余功能。如果一條供電線路發(fā)生故障,第二條供電線路會(huì)立即過(guò)載并可能發(fā)生上一節(jié)所述的斷路器跳閘情況。同樣,由于這種供電中斷是發(fā)生在計(jì)算負(fù)載很高的時(shí)間段,因此計(jì)算設(shè)備有可能正在處理大量事務(wù),這意味著冗余功能喪失很有可能發(fā)生在最不希望發(fā)生的時(shí)間點(diǎn)上。
4.管理動(dòng)態(tài)功率變化
4.1 為每臺(tái)服務(wù)器提供專(zhuān)用分支電路
如果每臺(tái)服務(wù)器都有獨(dú)立的分支電路,分支電路過(guò)載就不會(huì)發(fā)生。這是因?yàn)樵O(shè)計(jì)方案假定每一臺(tái)服務(wù)器都通過(guò)專(zhuān)用分支電路供電運(yùn)行。此方法解決了分支電路過(guò)載問(wèn)題和冗余功能喪失問(wèn)題。
4.2 充分考慮安全容限標(biāo)準(zhǔn)
多數(shù)數(shù)據(jù)中心和網(wǎng)絡(luò)機(jī)房操作人員都有負(fù)載容限標(biāo)準(zhǔn),通常以占全部負(fù)載分支電路額定值的百分?jǐn)?shù)表示。要確認(rèn)與標(biāo)準(zhǔn)的兼容性,應(yīng)對(duì)實(shí)際分支電路進(jìn)行測(cè)量并確保其符合標(biāo)準(zhǔn)。注意,當(dāng)系統(tǒng)具有動(dòng)態(tài)變化的功耗時(shí),由于在測(cè)量時(shí)很難知道計(jì)算負(fù)載的情況,使用此方法會(huì)面臨嚴(yán)峻的問(wèn)題。最好的方法是在測(cè)量時(shí)將大計(jì)算負(fù)載加在有保護(hù)的設(shè)備上,以確保在最壞的情況下也能符合標(biāo)準(zhǔn)。
4.3 實(shí)時(shí)監(jiān)控負(fù)載運(yùn)行情況
考慮到負(fù)載運(yùn)行情況的重要性,需要建立安全容限并通過(guò)自動(dòng)監(jiān)控系統(tǒng)對(duì)所有分支電路進(jìn)行實(shí)時(shí)連續(xù)監(jiān)控。當(dāng)分支電路負(fù)載開(kāi)始進(jìn)入安全容限區(qū)域時(shí),發(fā)出警告。例如,如果使用60%的分支電路負(fù)載標(biāo)準(zhǔn),則當(dāng)負(fù)載超過(guò)60%時(shí)就會(huì)發(fā)出警告。所建立的安全容限應(yīng)該確保操作人員能夠提前獲得有關(guān)問(wèn)題區(qū)域的警告,并且在電流過(guò)載情況發(fā)生前有足夠的時(shí)間來(lái)采取糾正措施。此方法可與前面所述的其他方法配合使用。它的最大優(yōu)點(diǎn)在于其適用于用戶可能在數(shù)據(jù)中心管理員不知情的情況下安裝、移動(dòng)設(shè)備或?qū)⒃O(shè)備插入其他插座的情況。這種情況在數(shù)據(jù)中心時(shí)的實(shí)際運(yùn)行中時(shí)有發(fā)生。此方法還可對(duì)即將發(fā)生的冗余功能失效發(fā)出警告。它是數(shù)據(jù)中心管理員管理多變環(huán)境中的動(dòng)態(tài)功率變化的最有力方法.
5.結(jié)論
隨著時(shí)間的推移,功耗隨負(fù)載變化而顯著變化的IT負(fù)載在網(wǎng)絡(luò)機(jī)房或數(shù)據(jù)中心所占的百分比正在不斷增加。這種情況給數(shù)據(jù)中心基礎(chǔ)設(shè)施操作人員帶了許多不曾預(yù)料到的問(wèn)題。因此,需要對(duì)以前用于減小過(guò)載風(fēng)險(xiǎn)的措施加以改進(jìn)以便適應(yīng)新的情況。對(duì)于要在其中安裝大量服務(wù)器的新設(shè)施和現(xiàn)有設(shè)施而言,正確的規(guī)劃和監(jiān)控分支電路功率是確保其可靠運(yùn)行的關(guān)鍵所在。認(rèn)識(shí)了功率變化對(duì)系統(tǒng)安全的影響,掌握了一定的處理方法,這樣就可以大大提高數(shù)據(jù)中心系統(tǒng)的穩(wěn)定性。
參考文獻(xiàn)
[1]劉巖著.我國(guó)數(shù)據(jù)中心能耗及能效水平研究[J].中國(guó)能源,2010(10).
[2]周伏秋著.數(shù)據(jù)中心節(jié)能和優(yōu)化布局研究[J].電力需求側(cè)管理,2011(03).
[3]孫夏爽著.多數(shù)據(jù)中心負(fù)載均衡調(diào)度的研究[D].電子科技大學(xué)碩士論文,2014.