999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的數據中心能耗優化調度策略研究

2024-12-18 00:00:00楊鷗羿
無線互聯科技 2024年23期

摘要:隨著云計算的飛速發展,數據中心能耗問題日益突出,亟須探索更加智能高效的節能優化新方法。文章分析了數據中心的能耗問題,闡述了強化學習技術在數據中心能耗調度中的應用潛力,構建了一個涵蓋服務器、制冷等關鍵設施的數據中心系統模型并基于該模型搭建了一個精細化的數據中心能耗評估框架,將調度問題形式化為一個馬爾可夫決策過程,設計了一種融合圖神經網絡與長短期記憶網絡的深度強化學習算法,最后搭建了仿真平臺驗證所提出策略的有效性。

關鍵詞:數據中心;能耗優化;強化學習;調度策略

中圖分類號:TP39""文獻標志碼:A

0"引言

高額的電力成本不僅增加了數據中心運營開支,也帶來了巨大的碳排放,引發了環境可持續發展的隱憂。因此,如何在保障數據中心服務質量的同時最小化其能源消耗,已成為學術界和工業界共同關注的研究課題。近年來,強化學習以其從環境反饋中自主學習最優控制策略的能力,在眾多序貫決策問題上取得了豐富進展。本文針對數據中心能耗優化這一挑戰,基于一種多技術融合驅動的深度強化學習調度架構,提出了創新的強化學習驅動的閉環自優化調度方法,為算法評測提供了穩定的實驗環境,亦期望所構建的端到端閉環自優化系統框架,能夠對傳統的基于模型預測或反饋控制的能效管理方法形成有益補充[1]。

1"數據中心能耗問題分析

數據中心的能耗問題主要體現在以下幾個方面:(1)核心設備服務器能耗在數據中心總能耗中的占比高達50%以上,受限于服務器芯片制造工藝和材料性能,其能效提升的空間已十分有限;(2)制冷系統能耗占數據中心總能耗的比例可達30%~50%。傳統的制冷方式(風冷、水冷)能效比(PUE)普遍較低,導致大量能源被浪費;(3)數據中心workload呈現顯著的動態性和突發性,其負載水平常在20%~80%大幅波動,低負載下的能效比會急劇下降。

2"強化學習及其在本研究中的基本應用思路

2.1"強化學習的基本原理

強化學習是機器學習的新分支,其核心思想是:智能體感知環境狀態(State)并根據當前策略(Policy)采取一個動作(Action),環境對該動作做出反饋,返回一個即時獎勵(Reward)和新的狀態。智能體根據獎勵信號不斷調整策略,最終學習到一個最優策略,使累積獎勵最大化。馬爾可夫決策過程(Markov Decision Process,MDP)為強化學習提供了理論基礎,MDP由狀態空間、動作空間、狀態轉移概率和獎勵函數構成,滿足馬爾可夫性質,即下一狀態僅取決于當前狀態和動作[2]

2.2"基本應用思路

如圖1所示,本文的研究思路可歸納為以下幾個關鍵環節。

(1)數據中心能耗問題分析:深入剖析數據中心能耗問題的成因、特點及技術挑戰,為后續研究奠定問題基礎。

(2)系統建模與能效指標定義:針對數據中心的IT、制冷、供電等子系統,構建細粒度的系統模型,提出全面的能效評估指標體系。

(3)馬爾可夫決策過程(MDP)描述:以MDP為理論框架,將數據中心能耗調度問題進行形式化描述,設計緊湊的狀態空間、動作空間和獎勵函數。

(4)深度強化學習(DRL)算法設計:面向MDP模型,創新性地設計融合圖神經網絡(GNN)、長短時記憶網絡(LSTM)、近端策略優化(PPO)和Actor-Critic架構等前沿技術的DRL優化算法。其中,GNN負責提取系統狀態的結構化特征,LSTM負責建模狀態的時序依賴關系,PPO和Actor-Critic則保證了策略訓練的高效穩定。

(5)仿真實驗與性能評估:搭建逼真的數據中心仿真平臺,使用真實世界的負載軌跡數據,全面評估DRL調度算法的性能,驗證其在降低能耗、保障服務質量等方面的優越性。

宏觀層面來看,數據中心能耗問題分析是整個研究的邏輯起點,它為系統建模、MDP描述等后續環節提供問題背景和優化目標。而仿真實驗與性能評估則是研究的邏輯終點,通過定量分析論證本文所提方法的可行性和有效性。由此,在目標驅動和閉環反饋的研究范式下,本文形成了一套完整的、具有普適性的數據中心能耗優化問題求解方法。

3"數據中心能耗優化調度模型構建

3.1"系統模型的構建

為了對數據中心能耗優化調度問題進行建模和求解,首先構建一個數據中心系統模型。該模型涵蓋了數據中心的各個關鍵組件,包括物理服務器(Physical Machine,PM)、虛擬機(Virtual Machine,VM)、制冷設備(Computer Room Air Conditioning,CRAC)等。采用一個三元組(S=lt;P,V,Cgt;)來表示數據中心系統,其中P=p1,…,pM,表示共有M臺物理服務器;V=v1,…,vN,表示共有N臺虛擬機;C=c1,…,cK,表示共有K臺CRAC。

對于物理服務器,主要關注其多維資源容量(如CPU、內存等)和功耗特性,用分段線性函數來擬合服務器功耗Pm與CPU利用率um之間的非線性關系:

Pm(um)=P0m+P10m-P0m10%um,0≤umlt;10%

P90m+P100m-P90m10%(um-90%),90%≤um≤100%

對于虛擬機,借鑒通用做法,假設虛擬機請求到達服從泊松過程,持續時間服從指數分布。

對于制冷設備,假設制冷量與能耗成正比:Qk=ηkPk。其中Qk表示制冷設備ck的制冷量,Pk表示其能耗,ηk表示其能效比(COP)。COP與CRAC的工況和環境溫度相關,可從設備手冊或實測數據獲取。在此基礎上,數據中心能耗優化調度問題可形式化為一個混合整數規劃模型[3],目標是在滿足各類約束條件(如資源容量約束、服務質量約束、溫度約束等)的前提下,最小化數據中心總能耗:

min"∑Mm=1Pm(um)+∑Kk=1Pk

3.2"能耗模型的構建

在系統模型的基礎上,進一步構建數據中心能耗模型,用于準確評估不同調度策略下的能耗表現。結合前文的功耗擬合函數,物理服務器Pm的能耗表示為:

Pm=ymPm(um)=ymPidlem+∑Ll=1PBlm-PBl-1mBl-Bl-1(um-Bl-1

其中,ym表示服務器的開關機狀態(ym=1表示開機,ym=0表示關機);L表示功耗擬合函數的分段數;Bl表示第l段的利用率斷點。

根據前述熱平衡原理,設定制冷設備的耗電量與其抽取的熱量成正比(Pk=Qk/ηk)。其中,制冷設備的制冷量Qk可通過機房的總熱負荷Qtotal和該設備所占的制冷份額αk計算得到,即Qk=αkQtotal。機房的總熱負荷包括IT設備的發熱量和其他雜熱Qother,可表示為:

Qtotal=∑Mm=1Pm+Qother

將上式代入,即可得到制冷設備ck的能耗計算公式:

Pk=αkηk(∑Mm=1Pm+Qother

綜合IT設備能耗和制冷能耗,數據中心的總能耗PDC可表示為:

PDC=∑Mm=1Pm+∑Kk=1Pk=1+∑Kk=1αkηk∑Mm=1Pm+∑Kk=1αkηkQother

實際優化時可通過調整服務器的開關機狀態、CPU頻率、虛擬機放置等決策變量來降低IT設備能耗,通過優化制冷設備的送風溫度、送風量等參數來提高其能效比。

3.3"馬爾可夫決策過程的轉化

上述系統模型和能耗模型可轉化為一個馬爾可夫決策過程。

(1)狀態空間S包含了數據中心的各類狀態信息,例如物理服務器的開關機狀態、資源利用率、功耗,虛擬機的放置情況、資源需求,制冷設備的工況參數,機房的溫度分布等。一個狀態s∈S可表示為:

s=(y,u,x,d,q,T)

其中,y=(y1,…,yM)表示物理服務器的開關機向量;u=(u1,…,uM)表示物理服務器的利用率向量;x=(x11,…,xMN)表示虛擬機的放置矩陣;d=(d1,…,dN)表示虛擬機的資源需求矩陣;q=(q1,…,qK)表示制冷設備的工況參數;T=(T1,…,TI)表示各溫度區域的溫度值。

(2)動作空間A包含了數據中心可采取的各種調度動作,例如開關物理服務器、調整服務器的CPU頻率、遷移虛擬機、調整制冷設備的送風溫度和風量等。一個動作a∈A可表示為:

a=(Δy,Δf,Δx,Δq)

其中,Δy=(Δy1,…,ΔyM)表示對物理服務器的開關機操作;Δf=(Δf1,…,ΔfM)表示對服務器CPU頻率的調整;Δx=(Δx11,…,ΔxMN)表示對虛擬機放置的調整;Δq=(Δq1,…,ΔqK)表示對制冷設備工況的調整。

(3)狀態轉移概率P(s′|s,a)刻畫了在當前狀態s下采取動作a后轉移到下一狀態s′的概率。模型中,狀態轉移涉及多個隨機過程,包括虛擬機的到達和離去、服務器的故障和維護等,需要根據實際數據對概率分布進行估計或擬合。獎勵函數R(s,a,s′)定義了MDP優化的目標,即在狀態s下采取動作a并轉移到狀態s′后獲得的即時獎勵:

R(s,a,s′)=-PDC(s,a,s′),if滿足所有約束條件

-∞,otherwise

其中,PDC(s,a,s′)表示在狀態s下采取動作a并轉移到狀態s′后數據中心的總能耗。如果新狀態滿足所有約束條件(如物理資源容量約束、虛擬機性能約束、機房溫度約束等),則獎勵等于負的總能耗;否則,給予一個大的懲罰項(負無窮)。

4"基于深度強化學習的能耗優化調度算法

4.1"狀態空間、動作空間和獎勵函數的定義

在將數據中心能耗優化調度問題轉化為馬爾可夫決策過程后,進一步設計了基于深度強化學習的調度算法。

首先,對MDP的狀態空間、動作空間和獎勵函數進行明確定義,提出了一種層次化的狀態空間表示方法:提取服務器的開關機狀態ym、CPU利用率umcpu、內存利用率ummem、功耗Pm等特征;提取虛擬機的放置情況Xn、CPU需求dncpu、內存需求dnmem等特征;提取制冷設備的送風溫度Tsup、送風量Vsup、COP等特征;機房環境中提取各溫度區域的實時溫度Ti、濕度Hi等特征。將特征按照一定順序排列,即得到一個高維狀態向量s:

s=[y,ucpu,umem,P,X,dcpu,dmem,Tsup,Vsup,COP,Ti,Hi]

其中,y、P、Tsup等均為列向量,X為矩陣,s的維度等于各分量維度之和。

動作空間的設計需要充分考慮數據中心的可控變量和調度約束,采用一種混合連續-離散的動作空間表示,既包括連續的資源調控動作,也包括離散的開關機和遷移決策。動作向量a包含4個部分:服務器的開關機動作Δy、服務器的CPU頻率調整動作Δf、虛擬機的遷移動作ΔX以及制冷設備的送風溫度和風量調整動作ΔTsup和ΔVsup

a=[Δy,Δf,ΔX,ΔTsup,ΔVsup]

其中,Δy為二值向量,Δym=1表示打開服務器m,Δym=0表示關閉服務器m;Δf為連續向量,Δfmin∈[fmmin,fmmax]表示服務器m的CPU頻率調整幅度;ΔX為整數矩陣,Δxmn表示是否將虛擬機n遷移至服務器m;ΔTsup和ΔVsup為連續向量,分別表示制冷設備的送風溫度和風量調整幅度[4]。獎勵函數的設計采用了一種加權求和的獎勵函數形式,將各優化目標量化為對應的獎勵分量,再賦予適當的權重系數進行組合。獎勵函數r(s,a,s′)定義為:

r(s,a,s′)=∑Ni=1wiri(s,a,s′)

其中,N為優化目標數;wi為目標i的權重系數;ri(s,a,s′)為動作a在狀態s下導致狀態轉移至s′后獲得的第i項獎勵分量。

4.2"深度神經網絡的設計與訓練

基于上述MDP建模,設計了一種深度強化學習算法來求解數據中心能耗優化調度問題。算法采用了Actor-Critic架構,即同時學習值函數和策略函數。Actor網絡(策略網絡)πθ(a|s)以狀態s為輸入,輸出在該狀態下采取動作a的概率分布;Critic網絡(值函數網絡)Vφ(s)以狀態s為輸入,輸出該狀態下的期望累積獎勵值。

將數據中心環境建模為一個異構圖G=(V,E),其中節點集V包括服務器節點、虛擬機節點和制冷節點,邊集E包括服務器-虛擬機邊、服務器-服務器邊和服務器-制冷邊等。每個節點和邊都有一組特征向量,分別表示節點狀態和邊屬性。利用圖卷積神經網絡(GCN)來學習圖結構數據中的特征,得到節點的嵌入表示[5],捕捉節點之間的相互影響和關聯性,聚合不同類型節點的信息,得到隱藏狀態表示ht,輸入Actor網絡和Critic網絡,得到動作概率分布πθ(a|s)和狀態值函數Vφ(s):

πθ(a|s)=softmax(Wπht+bπ)

V(s)=WVht+bV

其中,Wπ、bπ、WV、bV分別為Actor網絡和Critic網絡的參數矩陣和偏置項。

在訓練階段,采用基于策略梯度和時序差分(Temporal Difference,TD)的方法來更新Actor網絡和Critic網絡的參數。對于一個狀態-動作-獎勵序列(st,at,rt,st+1)t=1T,Critic網絡的損失函數Lossφ(s)定義為:

LossV()=1T∑Tt=1[V(st)-yt]2

其中,yt=rt+γV(st+1),為TD目標值。Critic網絡的目標是最小化預測值函數與實際回報之間的均方誤差。

Actor網絡的目標是最大化期望回報,其梯度為:

θJ(θ)=Eπθ[θlogπθ(a|s)Qπθ(s,a)]

其中,Q為在策略πθ下狀態-動作對(s,a)的期望回報,可以用Critic網絡的輸出VΦ(s)來近似。

上述神經網絡模型和訓練算在PyTorch框架下進行,使用近端策略優化(PPO)算法穩定Actor網絡的訓練過程。

4.3"在線實時優化調度策略的實現

為將訓練好的強化學習模型應用到實際的數據中心在線調度中,本文設計了一套完整的實時優化調度系統,主要包括如下所述。

4.3.1"數據采集與預處理模塊

負責實時采集數據中心各設備的運行數據(如服務器的CPU利用率、制冷設備的送風溫度等),并對其進行清洗、歸一化等預處理操作,將其轉化為強化學習模型可接受的狀態特征。使用Zabbix、Ganglia等開源監控軟件采集數據,使用Kafka、Flume等消息隊列和流處理工具預處理和緩存數據。

4.3.2"強化學習決策模塊

加載預訓練的Actor網絡和Critic網絡,根據當前狀態特征生成調度決策。為了適應數據中心環境的非平穩性和不確定性,在決策過程中引入了滾動更新機制,即維護一個固定長度的歷史決策序列,并根據最新的狀態-動作-獎勵樣本來更新強化學習模型的參數。

4.3.3"調度執行模塊

將強化學習模型給出的決策指令轉化為具體的調度動作,并通過相應的接口或協議(如IPMI、SSH等)下發到各設備。調度執行模塊與設備之間通過消息總線(如RabbitMQ)進行通信,以實現調度指令的異步下發和執行狀態的實時反饋。

5"實驗結果與分析

5.1"平臺搭建

為評估所提出的調度策略,本文研究搭建了一個數據中心能耗優化調度仿真平臺,使用真實的數據中心負載軌跡作為輸入。將原始軌跡數據進行了清洗和預處理,提取了任務的資源需求和性能約束等關鍵特征,根據任務的提交時間戳,在仿真平臺中動態生成相應的任務請求事件[6]

5.2"對比實驗

本文選取了3個典型的數據中心配置:小規模(500臺服務器)、中規模(5000臺服務器)和大規模(50000臺服務器),分別代表不同層次的數據中心。在每個數據中心配置下,分別使用了Google Cluster Trace和Alibaba Cluster Trace作為工作負載輸入,測試了以下6種調度策略。

(1)Round-Robin(RR):將任務按照先來先服務的原則,輪流分配到不同的服務器。

(2)Least-Loaded(LL):總是將任務分配到當前負載最輕的服務器。

(3)Genetic Algorithm(GA):使用遺傳算法搜索最優的任務放置方案,適應度函數為總能耗。

(4)MILP:使用混合整數線性規劃求解器,對任務放置和服務器開關機進行聯合優化。

(5)TAA:本文提出的基于深度強化學習的任務分配智能體。

(6)TAA+DVFS:在TAA的基礎上,增加動態電壓頻率調節(DVFS)的優化維度。

5.3"實驗結果與分析

在單數據中心環境下,不同調度策略的能耗優化效果對比如表1所示??梢钥闯?,研究的TAA和TAA+DVFS調度策略在單數據中心環境下取得了最優的能耗優化效果,與最簡單的RR策略相比,最高可節省20.69%的能耗。這得益于強化學習模型從數據中自主學習并挖掘出了負載模式、設備特性等隱含的規律性知識,并通過端到端的訓練將其內化于最終的調度決策。相比之下,傳統的啟發式調度算法(如RR和LL)缺乏對系統全局狀態和長期收益的考慮,優化效果有限;基于數學規劃的MILP算法盡管可以求得理論最優解,但在實際復雜環境中求解效率較低,且難以建模多樣化的約束條件。

6"結語

數據中心能耗優化是一個復雜的系統工程,涉及IT、熱力學、控制論等多個學科領域,需要軟硬件設施與管理策略的協同創新。本文在已有研究的基礎上,將前沿的強化學習技術引入數據中心能耗調度領域,提出了一種數據驅動、自適應的智能調度新范式。強化學習在數據中心能耗優化調度中的應用尚處于起步階段,未來仍需在算法泛化、模型輕量化、部署工程化等方面開展深入探索。

參考文獻

[1]徐基雅.基于空間位置的高性能計算集群能耗感知調度技術研究[D]. 濟南:齊魯工業大學,2024.

[2]吳金戈.基于深度強化學習的云資源調度方法研究[D]. 貴陽:貴州大學,2023.

[3]李丹陽,吳良基,劉慧,等.基于深度強化學習的數據中心熱感知能耗優化方法[J].計算機科學,2024(增刊1):738-745.

[4]王東清,李道童,彭繼陽,等.面向數據中心的服務器能耗模型綜述[J].計算機測量與控制,2023(11):7-15.

[5]沈林江,曹暢,崔超,等.基于策略約束強化學習的算網多目標優化研究[J].電信科學,2023(8):136-148.

[6]劉陳偉,孫鑒,雷冰冰,等.基于改進粒子群算法的云數據中心能耗優化任務調度策略[J].計算機科學,2023(7):246-253.

(編輯"沈"強)

Research on data center energy consumption optimization scheduling strategy based on reinforcement learning

YANG "Ouyi

(University of Ottawa, Ottawa K1N 6N5,Canada)

Abstract: The rapid growth of cloud computing has exacerbated data center energy consumption issues,necessitating intelligent and efficient optimization methods.This paper analyzes the problem,explores the potential of reinforcement learning in energy scheduling, constructs a comprehensive data center model, formalizes the scheduling problem as a Markov decision process,and proposes a deep reinforcement learning algorithm combining graph neural networks and long short-term memory networks.Simulations verify the effectiveness of the proposed strategy.

Key words: data center; energy optimization; reinforcement learning; scheduling

主站蜘蛛池模板: 99热亚洲精品6码| 欧美日韩中文国产va另类| 在线观看国产黄色| 亚洲国产欧美目韩成人综合| 久久免费视频播放| 无遮挡国产高潮视频免费观看 | 日韩在线播放欧美字幕| 国产成人乱码一区二区三区在线| 欧美啪啪网| 最新国产网站| 全免费a级毛片免费看不卡| 国产精品私拍在线爆乳| 在线无码九区| 精品亚洲欧美中文字幕在线看 | 99在线视频网站| 国产精品欧美亚洲韩国日本不卡| 麻豆精品在线| 国产精品成人一区二区| 国产一级毛片网站| 精品无码一区二区在线观看| 亚洲人成亚洲精品| 四虎国产永久在线观看| 日韩精品少妇无码受不了| 国产剧情一区二区| 欧美精品xx| 亚洲香蕉在线| 亚洲第一色视频| 国产高清色视频免费看的网址| 亚洲一区二区三区国产精品 | 国产毛片不卡| 亚洲人成人伊人成综合网无码| 在线播放真实国产乱子伦| 亚洲欧美日韩成人高清在线一区| 天堂va亚洲va欧美va国产 | 亚洲伦理一区二区| 色偷偷av男人的天堂不卡| 国产a网站| 国产精品对白刺激| 成人免费午间影院在线观看| 狂欢视频在线观看不卡| 日本高清视频在线www色| 中文字幕欧美成人免费| 精品国产香蕉在线播出| 午夜精品福利影院| 九九久久99精品| 在线色综合| 日韩黄色在线| 992tv国产人成在线观看| 成年人免费国产视频| 最新精品久久精品| 国产精品毛片在线直播完整版| 玖玖精品视频在线观看| 暴力调教一区二区三区| 国产一区二区三区免费观看| 男女男免费视频网站国产| 久久婷婷六月| 九九线精品视频在线观看| 高清亚洲欧美在线看| 91在线播放免费不卡无毒| 欧美精品成人一区二区在线观看| 免费不卡视频| 狠狠综合久久久久综| 亚洲伊人天堂| 91精品伊人久久大香线蕉| 国产激爽大片高清在线观看| 一级毛片无毒不卡直接观看 | WWW丫丫国产成人精品| 91小视频在线| 国产九九精品视频| 伊人查蕉在线观看国产精品| 青草视频免费在线观看| 国产精品永久不卡免费视频| 亚洲国产欧美国产综合久久| 亚洲天堂区| 毛片一级在线| 日韩福利在线观看| 国产一级毛片网站| 亚洲天堂首页| 欧美三级视频网站| 中文字幕佐山爱一区二区免费| 欧美国产综合视频| 国产精品夜夜嗨视频免费视频|