路 煜,張 路,侯小鳳,鄭文立,李 超
(上海交通大學電子信息與電氣工程學院,上海 200240)
在如今科技快速發展的新時代,國家戰略強調要加快數據中心等“新型基礎設施”建設進度,這使得數據中心的重要性更上一層樓。在數據中心成本中,電力建設成本是主要組成部分,其比例可達30%~50%[1]。如何節省這部分費用是數據中心運營的關鍵問題。研究表明,數據中心后備電源具有很大的使用潛力,將電池應用于削峰填谷可極大地提升數據中心電能利用率。為節約數據中心電力建設成本,該方案已經被許多大型數據中心所采用[2 - 4]。有調查顯示[5],在數據中心儲能設備相關論文中,用儲能設備削峰填谷的研究已達到70%以上。在現在的數據中心中,分布式備電系統的應用使數據中心的運行更加穩定和高效,該方案改變了整個機房集中供電的模式,將后備電池與每個機柜或者每臺服務器對應,更細粒度地提升了使用電池削峰填谷的效率,同時也減小了故障發生時的影響面積,提升了安全系數,成為了未來發展的主流趨勢。
后備電池的成本是數據中心電力成本的重要組成部分。過去,數據中心中備電成本的節約主要集中在如何利用電池和如何在空間上合理地布置電池。顯然,降低更換電池的頻率也是節約電池成本的一個重要研究方向。但是,我們發現,大多數有關研究都忽略了電池在傳統意義上的老化后是否還具有使用潛力,也忽略了電池自身的老化問題和該問題可能導致的風險[1,4 - 8]。為了彌補這個空白,本文針對如何預測現有的“老化電池”是否還能繼續使用,如何評價老化電池的使用價值,以及如何使用才能發揮其最大使用價值等問題進行了研究。
本文建立了一個收益預測模型,比較延長電池壽命的收益與這些老化電池帶來的性能下降和潛在風險的額外成本。為了平衡數據中心的安全性和成本,本文根據收益預測模型提出了老化感知的電池管理方式。該管理方式不僅可以保持電池的安全性和穩定性,而且還可以降低數據中心的總成本,在電池的使用期內實現二者的平衡。采用本文中的評價框架對比了現有的削峰方式,并提出了更具收益的控制方式,可以節約數據中心電池成本的24%。
本文的主要貢獻如下所示:
(1)本文提出了一種數據中心預測電池可用性的模型和方法——收益衡量法,該方法通過合理控制電池使用方式來達到電池使用與系統收益的平衡。
(2)本文建立了一種老化感知的電池管理系統ABMS(Aging-aware Battery Management System),可以在每個老化階段合理控制電池的使用。
(3)本文通過實驗說明了收益衡量模型和ABMS電池管理系統的有效性。
如今,分布式電池系統已經被廣泛應用。Facebook采用的是將電池配置給單獨機柜的方式[2]。Google采用的是將電池配置給每臺服務器的方式[3]。圖1展示了集中式備電系統的結構圖,圖2表示了采取2種分布式供電系統的數據中心電力結構(其中機柜1為機柜級,機柜2為服務器級)。盡管在分布式備電系統中使用電池削峰的技術已經得到廣泛研究[6,7,9],但在此基礎上對于如何合理地發揮電池最大使用價值的研究還有所欠缺。

Figure 1 Centralized power hierarchy topology圖1 集中式備電系統結構圖

Figure 2 Distributed power hierarchy topology圖2 分布式備電系統結構圖
在數據中心的應用場景中,如果后備電池僅用來保證備電安全性,事實上存在很大程度的浪費現象。調查表明,美國企業的年平均停電次數在7次以下的概率為87%[8]。由于柴油發電機的存在,后備電源的主要功能為供給切換電源時的幾分鐘供電空缺,這意味著后備電源的年平均工作時間僅有幾十分鐘或更低。而磷酸鐵鋰電池的生命周期可達1 000次循環以上,因此使用電池進行削峰可以發揮出電池的使用潛力,獲得更大收益,本文研究也是針對磷酸鐵鋰電池的。有的研究是通過電池的不充分配置來實現節約成本[8],是一種空間上的最大化資源利用。有的工作是針對如何設置最佳的用于削峰的電池容量來獲取最大收益[10]。Narayanan等人[11]則通過優化電池控制方式,研究了削峰收益與電池老化損失之間的平衡。還有一部分研究是針對使用新能源的綠色數據中心中電池配置優化以及對應的服務器性能提升[12,13]。
目前數據中心功耗管理的研究主要集中在使用電池進行削峰填谷[14,15],以及探索電池在峰值管理中擴展性的應用[16,17]。除此之外,還有虛擬機調度[18,19]和動態電壓頻率調節DVFS(Dynamic Voltage and Frequency Scaling)等方法[20]。虛擬機調度是通過調度平衡任務對服務器各項資源的不平衡需求。DVFS是通過在面臨需求峰值時主動降頻來減輕服務器壓力。但是,主動降頻的方式會導致服務器性能下降和處理能力降低。已有的數據中心削峰研究中所提到的削峰策略主要是以電池削峰和DVFS這 2種方法相結合,采用不同的調度策略。例如,Kontorinis等人[7]提出的控制策略針對低的峰值采用DVFS進行削峰,而對于較高的峰值采用電池削峰的方式。當電池的能力不足以支持削峰需求時,增大DVFS使用的頻率和比例會導致服務器性能變差,即本文提出的性能損失。對于這部分性能損失,目前還沒有數據中心的相關研究對此進行評估。所以,本文提出了一個新的量化評估方法,用損失時間進行衡量。
電池用于削峰時,其主要行為是頻繁地充放電,這會加快電池老化速度。鋰電池老化的主要表現為可用容量的下降。但是,目前數據中心鋰電池還缺乏一個通用更換標準,一般在剩余80%可用容量時視作其老化[21]。但有研究表明,80%剩余容量的老化電池,其放電性質依然較為穩定,可以滿足一定的供能需求[22,23]。Narayanan等人[11]研究了減少市電輸入、增加電池使用與電池老化之間的關系,其重點在于實現電池老化與成本節約的平衡,但缺少對成本與電池老化影響的歸一量化分析。Aksanli 等人[24]提出了一種通過控制邏輯實現有效延長數據中心備電電池使用壽命的電池管理方式。此外,還有些研究中也探討了電池壽命的管理機制[25,26]。但是,現有的研究都無法說明電池最大的使用潛力,針對該研究空白,本文重點研究如何評估“老化電池”的可用性,實現對其的合理利用,探尋其在數據中心使用背景下真正的壽命終點,最大化地發揮數據中心后備電池的使用價值,降低備電成本。
目前數據中心業內先進的分布式電池,通常都自帶電池管理系統,可以獲得各項參數值。本文所研究的電池管理系統,是在電池自帶管理系統的基礎之上,集成本文提出的控制邏輯,實現成本收益更高的電池控制與調度。
在數據中心削峰中使用電池需要對電池的物理性質進行分析,本文根據Aksanli等人[24]的研究,采用如下電池模型:
計算放電量:
Creleased=Δt·Idischarge
(1)
計算放電深度DOD:
(2)
其中,Cap即當前老化狀態下的可用容量:
(3)
其中,CR是額定容量;H為額定放電時間(一般為5 h);k體現了普克特定律,針對磷酸鐵鋰電池,k的值為1.05。可用容量Cap同時也受電池的健康水平SoH影響,隨著電池老化,可用容量不斷減小。
在每一次完整的充放電循環后,用式(4)計算新的SoH:
(4)
其中,SoHdead是目前通用的電池老化界限,并且通過DODfinal對高深度放電行為進行懲罰。
雖然電池的老化是一個動態的過程,電池處于不斷老化之中,但是數據中心的使用需求對電池的性質并不敏感。同時,為了增加實際應用的可操作性,本文將電池的使用劃分為若干個時間區間,每個區間內電池的老化狀態視為穩定。其中對于時間段i,其長度為ti,起始和結束時間點分別為T1,i和T2,i。電池在使用的過程中,老化的速度不斷加快,長度ti也不斷減小。
電池的功能包括備電和削峰2個部分。合理地使用老化電池,取決于如何在每個時間段i內將可用容量Cap劃分為使用容量CapU與備電容量CapB,以最小化帶來的損失。而對于電池來說,每個階段i的長度ti和可用容量Capi都是可預測的,這代表可以在此基礎上預測下一個階段的使用收益和損失,從而決定是否繼續使用該電池。
3.2.1 使用收益
顯而易見,延長電池的使用時間會減少電池的使用成本。由于電池本身最基本的功能是備電,為了簡化電池基本的使用收益的復雜情況,將一般數據中心的電池使用情況設置為基準線。在一般情況下,電池在使用到80%剩余容量時會被更換,記其使用年限為tB(即為電池使用的基準時間)。由此可以得到某個階段i的收益(C0為單位時間電池的使用收益):
CB,i=ti·C0
(5)
設CBattery為電池成本,tb為電池使用的基準時間,則C0可以表示為:
(6)
3.2.2 性能損失
雖然延長電池的使用時間會節約大量更換電池的費用,但是也可能會因為電池老化而帶來供電不足的現象,這會導致DVFS等手段的使用比例升高,從而導致服務器性能下降。為了衡量服務器性能下降帶來的損失,本文將性能下降轉化為運行時間的損失,不同規模和類型的數據中心損失運行時間也會導致不同的成本損失。
設新電池用于削峰時,使用電池削峰的比例為β,即使用DVFS削峰的比例為(1-β)。β的大小取決于用于削峰的電池容量,即CapU的大小。β與CapU存在正比例關系:
β=k′·CapU
(7)
J是單位時間吞吐量(/h),是本文用來衡量服務器性能的指標;r是時間損失率,是衡量性能損失的指標,r和J有如下關系:
(8)
其中,Jfresh是完全使用新電池削峰條件下的每小時吞吐量,Jold是相同負載下使用老化電池之后導致性能降低后的每小時吞吐量。Δt是進行比較的時間段的長度,考慮到服務器負載具有周期性,通常周期為一天或者一周,處于周期中的不同位置時相對吞吐量也會有差異,所以Δt的取值最好為周期的整數倍。因此,在某個階段i內,因性能下降造成的時間損失tp,i為:
tp,i=ti·r
(9)
而r與β之間存在以下關系:
r=g′(β)
(10)
即:
tp,i=ti·g(CapU,i)
(11)
3.2.3 風險評估
在電池的使用中,備電可靠性取決于備電容量。這里保留CapB的電量留作備電容量,假設使用的電池滿電量Cap0所能供給的時間為t0,可能發生的停電事故宕機時間為x,那么發生停電事故時電池可供電時長tB為:
(12)
對于低于該時長的停電事故,實際可以完全解決。而對于高于該時長的停電事故,損失的時間為tloss=x-tB。斷電時間的模型可以考慮為正態分布模型,假設斷電時間服從正態分布N(μ,σ2),其概率密度函數為h(x),那么由此可以得到一次斷電損失的期望為:


(13)
所以,可以得到階段i內的風險損失時間tr,i為:
tr,i=mEtloss(CapB,i)-mtB
(14)
其中m為停電發生次數的期望。
3.2.4 模型優化
將可用容量Cap如何劃分為使用容量CapU與備電容量CapB會影響帶來的損失,當劃分的使用容量較大時會導致性能損失tp,i較小而風險損失tr,i較大;反之,tp,i較大時tr,i會較小。
某個階段i內的損失總和CL,i來自于tp,i和tr,i2部分,可以表示為:
CL,i=α·(tp,i+tr,i)
(15)
即:
CL,i=α·(ti·g(CapU,i)+
mEtloss(CapB,i)-mtr,0)
(16)
其中,α為系數,它反映的是經濟損失與時間損失之間的關系。α的值可以通過擴大問題規模獲取,如數據中心停止運行1天所造成的損失為L1,則有α=L1/24,其值因數據中心的具體情況而異。
由此可以預測下一階段的Cap和ti,然后將損失函數轉化為CapB,i的一元函數:
CL,i=α·(ti·g(Cap-CapB,i)+
mEtloss(CapB,i)-mtr,0)
(17)
求解該一元函數,可以得到使得損失最小的容量分配比例以及最小的損失。
3.2.5 凈收益評估
經過上文分析得到了ti時間段內的收益CB,i與損失CL,i,由此可以得到ti時間段內的凈收入Yi:
Yi=CB,i-CL,i
(18)
當凈收益大于0時,表明使用者在該時間段內繼續使用電池可以為數據中心帶來收益;而當凈收益小于0時,則表明繼續使用會造成損失。數據中心根據凈收益決定電池在某個時間段內的可用性。完整的使用過程由若干個時間段組成,總凈收益為:
(19)
其中n∈Z,滿足Yn>0,Yn+1≤0。電池使用到T2,n時間時,可以獲得最大的凈收益Ytotal。
3.2.6 模型結構總覽
圖3所示為本文提出的收益模型結構圖,通過模型分別計算某個時間段內的使用收益、性能損失和風險損失得到凈收益,從而判斷電池可用性。

Figure 3 Topology of benefit model圖3 收益模型結構圖
根據上文提到的優化,本文可以實現在老化的不同階段得到對應的最優電池容量配置方案,以此來管理電池的使用。在某個老化階段,可以通過得到的配置方案,確定電池在削峰中可以使用的容量,并通過得到的最大容量限制電池充放電的行為。
在現有的數據中心電池管理系統中,電池的老化是一個非常模糊的界限,這導致電池在使用中無法發揮其最大潛力。其次,電池在不同的老化階段的性質與能力有所不同,而現有的電池管理系統對于不同老化狀態的電池使用方法相同,這顯然并不合理。本文提出的老化感知的電池管理系統ABMS,不僅可以明確地檢測電池收益的最大界限,而且針對不同狀態的電池采取更科學合理的使用方法,從而最大化使用收益。
本文提出的老化感知的電池管理系統所得到的收益,是通過合理使用電池而節約的數據中心電池成本。通過使用該管理系統,可以最大化地節約備電系統費用。電池的老化是一個非常緩慢的過程,發生較為明顯的變化可能要經歷幾個月的時間,因此只需要建立檢查點對電池進行老化檢測,測量其內部參數,以確定其老化階段。每個檢查點之間只需相隔數月,這對于數據中心而言只是一筆微小的開銷。檢查點間的時間間隔是可變的,因為電池老化程度越嚴重,其老化速度越快,時間間隔應逐漸縮短。
本文提出的ABMS可以分為以下幾個步驟。
(1)詳細檢查電池以確認老化階段和有效容量并判斷電池是否可以繼續使用。由于電池老化是一個非常緩慢的過程,因此該步驟不需要高頻率執行。ABMS設置了檢查點以檢查電池狀態。電池老化時,2個檢查點之間的時間間隔會越來越短。數據中心中設置檢查點的成本很低。檢查點還具有校正充電和放電的作用。
(2)根據有效容量和本文模型,找到最合理的容量配置。
(3)使用得到的容量配置限制電池操作。由可用容量確定電池工作的電荷狀態SoC(State of Charge)的范圍,并使用該范圍限制電池操作。ABMS使用電流積分方法來估計SoC,使用電池自帶的管理系統進行輔助修正,并在檢查點處消除誤差。
圖4描述了應用ABMS的數據中心備電管理結構。

Figure 4 Datacenter power hierarchy with ABMS圖4 應用ABMS的數據中心備電管理結構圖
圖5描述了ABMS流程圖。

Figure 5 Flow chart of ABMS圖5 ABMS流程圖
本文根據第3節的模型分析方法和第4節的控制方法搭建了仿真平臺,實現了ABMS系統的控制邏輯。
在同樣的參數條件下測試了2組有代表性的模擬放電狀態(穩定放電和峰值放電)。其中穩定放電為周期性輕度放電,峰值放電則代表了備電電池在應對峰值突發削峰場景中的表現,即峰值高但持續時間短。圖6和圖7分別給出了2種放電狀態下模擬系統從開始到檢測到電池不可用時的整個放電過程中的SoC和SoH變化曲線,其中橫軸為循環周期數,縱軸為當前SoC或SoH占初始水平的百分比,實線為電池在使用中SoC的變化情況,虛線為SoH的變化情況,SoC不會過低的原因是控制系統中預留了用于備電的部分。此外,本實驗還使用實際測量得到的功耗需求數據在仿真平臺上進行了測試,在同一條件下進行模擬,其結果如圖8所示。

Figure 6 SoC&SoH in stable discharging圖6 穩定放電下電池SoH和SoC變化曲線

Figure 7 SoC&SoH in violent discharging圖7 峰值放電下電池SoH和SoC變化曲線
經過實驗發現,在平穩放電這種低需求的條件下,電池能夠使用的時間較長。設定條件下的電池可以使用接近 800次循環,而此時的電池容量已經不足60%。而在高需求高損耗的脈沖放電條件下,電池剩余容量在高于80%時已達到最大收益,用于削峰的電池容量不足以支撐削峰需求,導致DVFS頻率上升,繼續使用會導致嚴重的性能損失,應當停止使用。而在圖8中的實際負載下,電池的使用壽命界限為67%。相比于簡單地在其80%剩余容量時更換電池,優化后的管理方法可以節約電池成本約24%。可見,本文提出的模型對于不同場景中的應用情況,可以得到不同的電池使用壽命。用于削峰的電池并沒有明確的最大壽命,而是隨著不同的使用情況變化。

Figure 8 SoC&SoH under real load圖8 實際負載下電池SoH和SoC變化曲線
圖9展示了在實際負載下,本文的ABMS系統對于備電容量和削峰容量的均衡控制。在每個檢查點,電池管理系統會檢查電池的狀態同時預估下個階段的使用收益,如果收益為正則按模型計算分配容量,否則終止使用。值得注意的是,由于電池的性能隨著老化越來越不穩定,容量的衰減也越來越快,因此檢查點之間的間隔會越來越短,這也是為了保證系統的準確性和有效性。該特性在圖9中也有體現。

Figure 9 ABMS dynamic management of battery backup capacity and peak-shaving capacity under real load圖9 實際負載下ABMS系統對于 電池備電容量和削峰容量的動態管理
圖10比較了上述3種模式采用ABMS控制系統和自然控制模式的收益對比。從圖10可以分析得到,本文提出的ABMS系統對于平穩的削峰需求優化效果更好,相對而言對于高容量的削峰需求優化效果則不明顯。實際場景中,2種情況都存在,所以收益介于二者之間。

Figure 10 Benefits comparison between ABMS and natural control mode in three modes圖10 3種削峰模式下采用ABMS控制系統 和自然控制模式的收益對比
本文提出了一個數據中心削峰電池使用成本模型,通過模型進行收益和損失分析預測電池在未來一段時間的使用價值,從而得到電池的最優使用終點。對于性能下降的量化問題,本文提出了一種將性能下降轉化為運行時間損失再轉化為成本損失的量化方式。實驗表明,根據不同的負載情況,該模型可以給出不同收益的最大有效壽命。
ABMS是數據中心中一種全新的電源管理方式,通過設立檢查點的方式了解電池狀態以及根據成本模型重新評估來衡量電池的可用性,并根據模型合理地劃分電池的有效容量,從而最大化電池的使用壽命,節約數據中心的建設和運營成本。在仿真實驗的條件下,該系統可節約電池成本約24%,是一種有效的備電成本節約方式。