■周瀅埡 童流川 王愛喜 高清爽 賴宇陽 等
適應(yīng)新能源發(fā)電比例不斷提高,以及用戶側(cè)電力需求響應(yīng)逐步常態(tài)化的趨勢,本文針對通過數(shù)據(jù)中心算力—電力協(xié)同進(jìn)行需求響應(yīng)做了初步可行性研究,提出通過判斷計(jì)算任務(wù)在服務(wù)器上的算力—電力特征,在不影響業(yè)務(wù)運(yùn)行的情況下,降低電力部件的實(shí)時(shí)冗余性、調(diào)整業(yè)務(wù)負(fù)載的并行規(guī)模和時(shí)間分布。
本項(xiàng)研究對業(yè)務(wù)—算力—電力三者協(xié)同提供電力靈活性的多種策略進(jìn)行了實(shí)際測試,在服務(wù)器集群運(yùn)行不同IT任務(wù)類型時(shí),通過切換空載服務(wù)器功耗狀態(tài)、利用服務(wù)器子部件資源消耗不均衡性、平移和伸縮實(shí)時(shí)性不敏感任務(wù),改變負(fù)荷大小和時(shí)間分布,可達(dá)到節(jié)能降耗、對電網(wǎng)負(fù)荷削峰填谷等目的,可適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器。
研究表明,三種策略均可根據(jù)外部指令實(shí)現(xiàn)秒級對服務(wù)器功率的快速控制,為數(shù)據(jù)中心參與需求側(cè)分鐘級、秒級響應(yīng),或參與電力現(xiàn)貨市場和電力輔助服務(wù)市場,提供了可行性依據(jù)和技術(shù)支持,顯示數(shù)據(jù)中心的電力靈活性響應(yīng)具備巨大的潛力以及廣闊的應(yīng)用前景。未來,推動(dòng)其由研究走向數(shù)據(jù)中心算力—電力需求響應(yīng)的成熟應(yīng)用,既需要對更多部件、更復(fù)雜的部署情況進(jìn)行深入實(shí)驗(yàn),又需要形成自動(dòng)化系統(tǒng),聯(lián)動(dòng)業(yè)務(wù)—算力—電力三者的對應(yīng)信息,同時(shí)更需要產(chǎn)業(yè)伙伴廣泛協(xié)同,采用一套標(biāo)準(zhǔn)的測試方法標(biāo)定業(yè)務(wù)負(fù)載在機(jī)型上的電力特性數(shù)據(jù),開源共享,從而充分挖掘和發(fā)揮出數(shù)據(jù)中心算力側(cè)的電力靈活性,助力構(gòu)建新型電力系統(tǒng)。

圖1 探索數(shù)據(jù)中心服務(wù)器負(fù)荷靈活性的主要策略
通過系統(tǒng)化分析發(fā)現(xiàn),數(shù)據(jù)中心通過算力調(diào)節(jié)進(jìn)行需求響應(yīng),來提供電力輔助服務(wù)的實(shí)現(xiàn)策略有四種,分別是利用空載服務(wù)器功耗切換、利用服務(wù)器硬件資源消耗不均衡性、平移和伸縮實(shí)時(shí)性不敏感任務(wù)以及跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)。
1.利用空載服務(wù)器在不同功耗狀態(tài)之間切換。
從時(shí)間分布上看,數(shù)據(jù)中心中會(huì)有一部分服務(wù)器處于并未執(zhí)行任何工作而空載備用的狀態(tài)。因此,通過業(yè)務(wù)規(guī)模的精細(xì)預(yù)測,對服務(wù)器執(zhí)行不同方式的功率降低和休眠策略,可實(shí)現(xiàn)不同級別的響應(yīng)速度和響應(yīng)深度。該策略可以長期運(yùn)用,作為數(shù)據(jù)中心節(jié)能的重要途徑,只是存在精細(xì)管理的成本與節(jié)能收益之間的平衡問題;也可作為響應(yīng)策略,以電力輔助服務(wù)的優(yōu)勢價(jià)格,刺激數(shù)據(jù)中心精細(xì)預(yù)測和切換空載服務(wù)器功耗狀態(tài)。
2.利用計(jì)算任務(wù)在服務(wù)器硬件資源消耗上的不均衡性。
任何一個(gè)業(yè)務(wù)負(fù)載在服務(wù)器上的運(yùn)行,會(huì)存在要么服務(wù)器能力有冗余,要么其CPU、網(wǎng)絡(luò)、內(nèi)存、硬盤等某子部件的某一性能使用密集,成為“短板”,而導(dǎo)致其余部件的能力產(chǎn)生冗余,即“長板”。降低冗余的子部件性能,可以在不影響業(yè)務(wù)負(fù)載運(yùn)行效率的情況下,降低電力負(fù)荷。該策略需要研究一系列的特性數(shù)據(jù),包括業(yè)務(wù)負(fù)載對于各子部件的壓力特性數(shù)據(jù)、總體業(yè)務(wù)性能與子部件性能的關(guān)聯(lián)以及子部件性能變化時(shí)的能耗特性數(shù)據(jù),同時(shí)在執(zhí)行響應(yīng)時(shí),還需要實(shí)時(shí)監(jiān)測業(yè)務(wù)負(fù)載對于各子部件的實(shí)時(shí)壓力數(shù)據(jù),以便根據(jù)之前的特性數(shù)據(jù)集,及時(shí)做出電力負(fù)荷調(diào)整的位置和幅度策略。
3.利用平移和伸縮實(shí)時(shí)性不敏感的計(jì)算任務(wù)。
近年來,隨著智慧城市、智能制造、自動(dòng)駕駛、元宇宙等應(yīng)用的不斷增長,高性能計(jì)算(HPC)的需求也隨之不斷提升。影視渲染、效果圖渲染等批量計(jì)算任務(wù),基因測序、風(fēng)機(jī)工況模擬等科學(xué)計(jì)算任務(wù)以及AI訓(xùn)練等可并行的計(jì)算任務(wù),往往需要消耗大量的服務(wù)器資源和運(yùn)算較長時(shí)間,已經(jīng)成為IT行業(yè)節(jié)能減排研究的重要課題。這類任務(wù)往往具有計(jì)算成本敏感、實(shí)時(shí)性不敏感、計(jì)算規(guī)模可變動(dòng)的特性。對此,一方面可以通過實(shí)時(shí)傳遞價(jià)格信號(hào),激勵(lì)用戶選擇電力價(jià)格較低的時(shí)間段進(jìn)行整體運(yùn)算;另一方面,也可以通過斷點(diǎn)續(xù)算、可續(xù)渲染技術(shù),在計(jì)算任務(wù)執(zhí)行的過程中暫停乃至對并行規(guī)模進(jìn)行改變,來平移和升降電力負(fù)荷。
4.利用網(wǎng)絡(luò)跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)。
通過將業(yè)務(wù)冷遷移或者熱遷移到不同地理位置的數(shù)據(jù)中心,而改變多個(gè)數(shù)據(jù)中心的電力負(fù)荷在空間上的分布,該策略需要較龐大的業(yè)務(wù)群及分布式計(jì)算存儲(chǔ)業(yè)務(wù)架構(gòu)予以支撐。
前三個(gè)策略的實(shí)現(xiàn)需要業(yè)務(wù)—算力—電力三者的精準(zhǔn)關(guān)聯(lián)關(guān)系和協(xié)同,但能夠適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器,也是本研究的重點(diǎn)。
利用空載服務(wù)器在不同功耗狀態(tài)之間切換的策略測試。
空載消耗:
對于單臺(tái)實(shí)驗(yàn)服務(wù)器,在未運(yùn)行任何計(jì)算任務(wù)的空載狀態(tài)下,消耗電力功率215瓦,其中CPU消耗53%,內(nèi)存消耗21%。

圖2 實(shí)驗(yàn)中單臺(tái)服務(wù)器空載時(shí)的功耗及分布
測試流程:
對空載狀態(tài)服務(wù)器進(jìn)行功耗狀態(tài)切換。
在單機(jī)環(huán)境,測試了三類切換空載服務(wù)器功耗狀態(tài)的方式:
將Linux 功耗狀態(tài)設(shè)置為Freeze,并通過HMI 喚醒;
通過Intel?DCM 的PowerCap將CPU功率上限調(diào)節(jié)至最低,并通過解除設(shè)定來恢復(fù)功率;
輸入系統(tǒng)命令Shutdown,進(jìn)行軟關(guān)機(jī),再通過電源按鍵啟動(dòng)。

圖3 測試策略流程圖
測試結(jié)論:
測試數(shù)據(jù)顯示,通過切換服務(wù)器空載狀態(tài),三種模式皆可獲得功率降低。其中,F(xiàn)reeze、PowerCap 皆可秒級響應(yīng),功率降比分別為4%、27%;關(guān)機(jī)帶來的功率降低最大,達(dá)100%,但切換開關(guān)機(jī)需要2.5 分鐘,額外消耗電量0.0083千瓦時(shí)。

圖4 Freeze、PowerCap 和關(guān)機(jī)三種方式下的功耗和響應(yīng)特征曲線

表1 測試結(jié)果表
此外,本研究還進(jìn)行了利用計(jì)算任務(wù)在服務(wù)器子部件消耗不均衡性的策略測試和利用平移和伸縮實(shí)時(shí)性不敏感的計(jì)算任務(wù)策略測試。
本項(xiàng)目提供了一個(gè)在數(shù)據(jù)中心利用算力—電力協(xié)同進(jìn)行需求響應(yīng),從而提供電力輔助服務(wù)的初步可行性研究,在測試的設(shè)計(jì)上不盡周全,在分析的過程中也仍有許多未知和值得深入探討的問題,歡迎各領(lǐng)域的學(xué)者、專家、產(chǎn)業(yè)伙伴給予指教與建議。在形成一個(gè)數(shù)據(jù)中心算力—電力需求響應(yīng)的成熟方案之前,無疑需要在更多的機(jī)型上對更加多元化的計(jì)算任務(wù)進(jìn)行特性數(shù)據(jù)測試。除此之外,下一步的實(shí)驗(yàn)也需要將以下幾方面納入研究:
從CPU 功率調(diào)控到內(nèi)存功率調(diào)控:本項(xiàng)目中所使用的服務(wù)器內(nèi)存配置較小,也未涉及運(yùn)行非內(nèi)存密集型的任務(wù)時(shí)限制內(nèi)存功率的測試。而對于一些大內(nèi)存機(jī)型,其功率可占到總服務(wù)器功率的40%以上,對于內(nèi)存功率調(diào)控的研究就顯得極其必要;
從服務(wù)器到數(shù)據(jù)中心整體:本項(xiàng)目中的測試和監(jiān)測對象只有服務(wù)器,尚未納入交換機(jī)和制冷設(shè)備的關(guān)聯(lián)影響,其中包括:
響應(yīng)特性:當(dāng)大量的服務(wù)器進(jìn)行電力響應(yīng)并持續(xù)一段時(shí)間后,很可能帶來相關(guān)聯(lián)的交換機(jī)和制冷設(shè)備的功率變化,從而形成系統(tǒng)型響應(yīng)特征曲線。
策略組合:對于整個(gè)數(shù)據(jù)中心,可根據(jù)各個(gè)服務(wù)器的狀態(tài)和執(zhí)行的任務(wù)特性,采用不同策略的組合,從而獲得整個(gè)機(jī)架、機(jī)柜、數(shù)據(jù)中心層級的負(fù)荷調(diào)節(jié)。
從物理機(jī)到虛擬化:本項(xiàng)目中的業(yè)務(wù)負(fù)載直接運(yùn)行在物理機(jī)上,從而能夠獲得更直觀的算力—電力的關(guān)聯(lián)關(guān)系,而在實(shí)際業(yè)務(wù)環(huán)境中有相當(dāng)多的數(shù)據(jù)中心和服務(wù)器進(jìn)行了虛擬化和混部,這使得業(yè)務(wù)負(fù)載—算力—電力之間又多添加了虛擬化層和混部運(yùn)行,增加了精細(xì)管理的復(fù)雜度,但同時(shí)虛擬化及其資源調(diào)度也為算力分布調(diào)整能力帶來了更大空間。
性能指標(biāo)的定義:本項(xiàng)目中的業(yè)務(wù)負(fù)載性能特性比較單一,而在實(shí)際運(yùn)行業(yè)務(wù)中,有可能除了計(jì)算速度(消耗時(shí)間)之外,還包含穩(wěn)定性、網(wǎng)絡(luò)延遲等其他性能,需要與每一個(gè)業(yè)務(wù)負(fù)載的開發(fā)者和運(yùn)營者進(jìn)行具體探討。
由實(shí)驗(yàn)研究到應(yīng)用解決方案:本項(xiàng)目對數(shù)據(jù)中心算力—電力協(xié)同進(jìn)行電力靈活性響應(yīng)的策略應(yīng)用進(jìn)行了初步可行性研究,已經(jīng)展現(xiàn)出其巨大的潛力及廣闊的應(yīng)用前景。但是上述研究對每一種策略應(yīng)用只選取了一兩個(gè)工作負(fù)載且只在一種機(jī)型上進(jìn)行了可行性驗(yàn)證,測試了特性數(shù)據(jù)。而要針對實(shí)際運(yùn)行的數(shù)據(jù)中心進(jìn)行電力現(xiàn)貨交易,打造需求響應(yīng)能力,并提供精準(zhǔn)的電力輔助服務(wù),無疑需要有一套自動(dòng)化系統(tǒng),集合業(yè)務(wù)—算力—電力三者的對應(yīng)信息,具備監(jiān)控、預(yù)測、響應(yīng)策略規(guī)劃組合和調(diào)節(jié)控制的四項(xiàng)能力,方能對服務(wù)器集群和其各子部件進(jìn)行敏銳監(jiān)測和靈活調(diào)控,進(jìn)而實(shí)現(xiàn)協(xié)同響應(yīng)。
開放式協(xié)作與特性數(shù)據(jù)庫:要對一個(gè)數(shù)據(jù)中心進(jìn)行電力靈活性的預(yù)測和策略,需要不同負(fù)載在不同服務(wù)器以及其子部件(包括CPU、硬盤、內(nèi)存等)的電力響應(yīng)特性數(shù)據(jù)作為基礎(chǔ)。然而逐個(gè)對其進(jìn)行測試帶來的巨大工作量,對于任何一方都難以承擔(dān)。這就需要業(yè)務(wù)(程序)開發(fā)方、硬件生產(chǎn)商、業(yè)務(wù)運(yùn)行方甚至硬件調(diào)度方(例如云或超算中心的運(yùn)營商)開放式協(xié)作,制定和采用一套標(biāo)準(zhǔn)的測試方法、數(shù)據(jù)格式和數(shù)據(jù)共享網(wǎng)絡(luò)來共同推進(jìn),進(jìn)而加速實(shí)現(xiàn)智能管控計(jì)算負(fù)載,充分挖掘和發(fā)揮出數(shù)據(jù)中心的電力靈活性潛力,助力構(gòu)建新型電力系統(tǒng)。■
備注:本項(xiàng)目有賴于橫跨計(jì)算機(jī)硬件、計(jì)算機(jī)軟件、數(shù)據(jù)中心運(yùn)營、電力等各個(gè)方向的同仁共同合作。特此感謝以下單位和人員(排名不分先后)。騰訊科技有限公司:許浩、蘇鑫、梁家啟、馬國勇、邵明、趙傳寓、朱健保、淮賽男。英特爾(中國)有限公司:崔煜、朱晟偉、解強(qiáng)、史毅磊、華雯、古今、高陽。樹優(yōu)科技有限公司:葉芳、方立橋、孫軍勇、魏凱鋒

資料圖