













文章編號:1008-1542(2024)06-0597-12
摘" 要:
為解決當前室內環境受多種時變參數影響不確定性較大,且現有控制設備無法根據室內環境對工作功率進行自適應調節造成的能源浪費問題,采用在深度確定性策略梯度(deep deterministic policy gradient,DDPG)中融入優先經驗重放(prioritized experience replay,PER)的方法,合理優化控制設備功率,對室內空氣質量(indoor air quality,IAQ)和熱舒適度進行控制。結果表明:DDPG-PER算法能夠在冬夏兩季不同室外空氣質量條件下,結合多時變參數,將室內環境控制在要求范圍之內;與定風量控制系統相比,能源成本降低了13.30%,用戶全年可節約2 000元左右電費。研究結果對中國“碳中和”策略和綠色低碳建筑行業的發展具有一定的參考價值。
關鍵詞:
環境質量監測與評價;強化學習;深度確定性策略梯度;優先經驗重放;節能控制
中圖分類號:TP393;X510.2
文獻標識碼:A
DOI:10.7535/hbkd.2024yx06004
收稿日期:2024-02-26;修回日期:2024-05-08;責任編輯:張士瑩
基金項目:
國家自然科學基金(52065064,62303394);新疆維吾爾自治區自然科學基金(2022D01C694)
第一作者簡介:
趙建豪(1999—),男,河北邯鄲人,碩士研究生,主要從事建筑節能、數據融合方面的研究。
通信作者:宋華,正高級工程師。E-mail:922482@xju.edu.cn
趙建豪,宋華,南新元,等.
時變多參數不確定性下室內環境的節能控制
[J].河北科技大學學報,2024,45(6):597-608.
ZHAO Jianhao, SONG Hua, NAN Xinyuan,et al.
Energy efficient control of indoor environments under time-varying multi-parameter uncertainty
[J].Journal of Hebei University of Science and Technology,2024,45(6):597-608.
Energy efficient control of indoor environments under
time-varying multi-parameter uncertainty
ZHAO Jianhao1,2, SONG Hua3, NAN Xinyuan2, CAI Xin2
(1.No.1 Department of Polyolefin of Dushanzi Petrochemical Company, Karamay,Xinjiang 833699, China;
2.School of Electrical Engineering, Xinjiang University, Urumqi, Xinjiang 830017,China;
3.Xinjiang Architectural Design and Research Institute, Urumqi, Xinjiang 830002,China)
Abstract:
To solve the problem that the current indoor environment is affected by a variety of time-varying parameters with large uncertainty and the existing control equipment cannot adaptively adjust the operating power according to the indoor environment, which has caused a great waste of energy, the method of integrating the prioritized experience replay (PER) into the deep deterministic policy gradient (DDPG) is adopted. Prioritized experience replay (PER) in DDPG is used to rationally and optimally control the power of the equipment for indoor air quality (IAQ) and thermal comfort. Experiments show that the proposed DDPG-PER algorithm can control the indoor environment within the required range by combining multiple time-varying parameters under different outdoor air quality conditions in winter and summer seasons. Moreover, compared with the fixed-air-volume control system, it reduces the energy cost by 13.30%, and saves about 2 000 RMB of electricity cost in a whole year, which is valuable for China’s \"carbon-neutral\" strategy and the development of green and low-carbon buildings.
Keywords:
environmental quality monitoring and assessment; reinforcement learn; DDPG; PER;energy saving control
目前,人們對室內環境控制研究主要集中在熱舒適度方面[1-3],對室內空氣質量控制問題關注較少。傳統商業建筑多采用開/關控制
[4]或規則控制[5],易導致溫度超調,能源浪費嚴重。研究表明,這些被浪費的能源中有18%可以通過合理控制設備功率而避免[6]。可見,設計節能高效的控制策略對人們的身心健康和低碳建筑領域的更好發展至關重要。研究人員利用PID (proportion integration differentiation)[7]、MPC(model predictive control)[8]、模糊控制[9]以及流體力學進行了研究[10-12],減少建筑能耗[13-15]。然而,傳統的PID無法結合未來信息參數進行提前控制;MPC存在模型建立復雜以及精確度不高的問題;流體力學是從氣流方向進行室內空氣質量的控制研究,無法降低建筑能耗。
無模型強化學習可以通過不斷試錯,從環境中學習經驗來確定合適的動作,避免模型精確度帶來的不準確問題[16-18]。為此,本文利用深度強化學習算法,考慮多時變參數,將室內環境管理問題表述為馬爾可夫決
策問題,并將DDPG(deep deterministic policy gradient)與PER(prioritized experience replay)機制相結合提出一種新的深度強化學習控制策略,實現控制設備自主做出控制決策的目標。最后,在包含眾多不確定性因素的隨機室外天氣條件下驗證該方法的適用性,并采用相關方法與所提方法進行比較,證明所提方法可以在對室內環境進行控制、保證人們身心健康的同時,降低建筑能耗。控制框圖如圖1所示。
1" 室內環境模型的建立
1.1" CO2和溫度交換模型的構建
1.1.1" CO2交換模型的構建
室內CO2主要受到日常人體活動以及室內外空氣流動的影響。本文將CO2交換模型定義如下:
dCintdt=
0.98Fvent(Coutt-Cint)+GtVroom ,(1)
Gt=15.448NotMETt 。(2)
式中:Fvent為通風系統在t時刻的通風量;0.98為去除房屋漏氣率的室內外交換通風率;Gt為t時刻由于人為因素產生的室內CO2濃度;Cint、Coutt為t時刻室內外CO2濃度;Not為t時刻房屋中存在的人員數量;METt為t時刻人體代謝率;Vroom為房間體積。t+1時刻的CO2濃度可表示為
Cint+1=Cint+[0.98×Fvent
(Coutt-Cint)Δt+GtΔt]/Vroom" 。(3)
在本文中,控制時間間隔為1 h,即Δt=1。
1.1.2" 溫度交換模型的構建
由于本文只研究控制策略對室內溫度控制的影響,所以不考慮房屋建筑材料等由于材料不同帶來的溫度影響,著重考慮室內溫度受到室外太陽輻射率、空氣流動帶來的熱交換、電器散熱和人體散熱以及加熱/制冷設備多種因素的影響,室內熱交換模型定義如下[19]:
ρCpVroomdTintdt=
∑NJj=11.1
Awall,j(Toutt-Tint)
Qwallt
+
∑NPp=12.8
Awin,p(Toutt-Tint)
Qwint+
∑NPp=10.45Awin,p
Isol,pt
Qsolt+
411.6Pvent(Toutt-Tint)
Qvent+3.4PHCt
QHCt+
0.043 8PercbtNot+0.025Aroomεappl
Qint,(4)
t+1時刻的溫度可以表示為
Tint+1=Tint+[(Qwallt+Qwint+Qsolt+Qvent±QHCt+Qint)Δt]/(ρCpVroom) 。(5)
式中:Qwallt為墻體傳熱之和;Qwint為室外熱量通過窗戶傳熱之和;Qsolt為太陽輻射通過窗戶傳熱之和;Qvent為通風系統引入/丟失的熱量;QHCt為加熱/制冷帶來/丟失的熱量;Qint為人體和電器散熱;ρ為空氣密度;Cp為比熱容;Vroom為房間體積;Awall,j為第j面墻的面積;
Awin,p為第p扇窗戶的面積;Isol,pt為t時刻第p扇窗戶所在位置的太陽幅射系數;
1.1、2.8分別為墻面換熱系數和窗口換熱系數;0.45為窗口的遮陽系數;411.6為空氣密度、比熱容、熱回收率的乘積;3.4為加熱/冷卻系統的能源效率比;0.043 8為人體平均發熱量;Percbt為房間入住率;Aroom為地板面積;εappl為電器的散熱比,取值為0.2。通風功率和通風體積的轉換公式為
Fvent=Fvenmax·PventPvenmax" 。(6)
式中:Fvenmax為最大通風體積;Pvent、Pvenmax分別為t時刻通風功率和最大通風功率。
2" 馬爾可夫決策過程構造
室內空氣質量的控制是典型的馬爾可夫決策過程,可分為狀態空間、動作空間以及獎勵。將室內空氣質量控制問題轉化為馬爾可夫決策過程,環境指標作為馬爾可夫決策問題的狀態變量,通風功率作為動作變量。智能體根據當前狀態空間選取合適的動作與環境進行交互,并進入下一個狀態空間,智能體根據動作后的狀態空間收到一個獎勵,用于對當前動作進行評價。當前時刻的狀態和動作決定了下一時刻的狀態,如此往復循環,形成一個馬爾可夫決策鏈。
2.1" 狀態空間
狀態空間為一組已知的物理狀態變量。在室內空氣質量控制中,智能體觀察的物理量分別為室內外溫度、溫度設定值、室內外CO2濃度、CO2濃度最大值、太陽輻射系數、電價、室內人員數量,所以狀態空間變量表示為
st=[Tint,Toutt,Tset,Cint,
Coutt,Climit,Isolt,Pricet,Not] 。(7)
2.2" 動作空間
動作空間函數為機械設備所能做出動作的空間,智能體根據狀態選擇控制動作對室內空氣質量進行控制。在室內空氣質量控制系統中,溫度控制由加熱/制冷控制,CO2由通風量控制,動作空間可表示為
a=[PHCt,Fvent] 。(8)
式中:PHCt為t時刻系統的加熱/制冷功率,-3~3 kW;Fvent為t時刻系統的通風體積,最大通風量為500 m3/h。
2.3" 獎勵函數
獎勵的設置對于智能體的訓練起到關鍵作用,智能體會根據獎勵值來判定動作是否合適,進而根據動作獎勵對網絡權重進行調整。獎勵函數設置如下:
rt(st,at)=-ω1·Pricet·Pvenmax·
(Fvent)2
(Fvenmax)2+
PHCt·Δt+ω2·σ1·
β1+ω3·σ2·β2 。 (9)
β1=
0," if Cint≤Climit,
Cint-Climit," if Cintgt;Climit。(10)
β2=
0," if Tset-ΔTthrlt;Tintlt;Tset+ΔTthr,
max(0,|Tset-Tint|-ΔTthr)," otherwise 。(11)
式(9)等號右側項中:第1項為機械設備進行室內空氣質量控制本身所消耗的電能,
Pvenmax為最大加熱/制冷功率,Fvenmax為最大通風體積;第2項為室內CO2濃度超標映射到能源上的電價,每1×10-6的電價為
σ1,β1為超出的CO2濃度值,取值如式(10)所示;第3項為室內溫度超標映射到能源上的電價,每攝氏度的電價為
σ2,β2的取值如式(11)所示,Tset為溫度設定值,根據室內空氣質量國家標準,人體的舒適溫度區間為21~25 ℃,所以設置溫度閾值ΔTthr為2 ℃;ω1、ω2、ω3為各部分權重,可根據用戶需求調整。
3" 深度強化學習算法選擇
強化學習已被廣泛運用在交通、路徑優化、資源調度等方面[20-21],但其在高維狀態和動作空間難以創建Q表,所以只適用于低維狀態和動作空間環境中。而深度強化學習利用神經網絡多輸入、多輸出的優點,有效解決了強化學習中難以創建Q表的問題。深度強化學習是典型的交互式學習方法,通過不斷試錯,與環境進行交互學習,確定更好的動作選擇空間,可分為環境、智能體、狀態、動作、獎勵5部分。其中,根據動作是離散或連續,可分為連續動作策略控制算法和離散動作控制算法。由于本文中控制設備的動作空間為連續性動作,如果使用離散策略對連續動作空間進行離散化,會出現維度災難、算法運行速度較慢的問題,不利于硬件系統的長期使用。所以,本文選用DDPG連續性動作控制算法,其使用決策性解決了對連續性動作的控制問題,結合傳統演員評論家網絡(Actor-Critic)、策略梯度網絡(
policy gradient,PG)和深度Q學習(deep Q-network,DQN)網絡架構,打破了傳統樣本之間相關性造成的Actor-Critic局部學習的問題,而且采用單步更新,避免了傳統策略梯度網絡回合制更新的問題。其次,本文在DDPG中融入PER策略,把有價值的樣本儲存起來,然后頻繁地重放有價值的樣本,加快學習,解決傳統隨機抽樣帶來的發散問題[22]。
3.1" 深度確定性策略梯度算法
DDPG采用Actor-Critic框架,通過策略網絡映射控制策略,價值網絡逼近Q值函數,消除維數詛咒問題。通過訓練找到合適的策略網絡參數控制室內空氣質量并最小化電力消耗,解決連續控制問題。DDPG算法具體可分為4個神經網絡,分別為在線策略網絡、目標策略網絡、在線價值網絡、目標價值網絡。在線策略網絡由參數θ參數化,在線價值網絡由參數ε參數化,如式(12)所示。
μθ(st,at)=μ[at:st,θ],
Q(st,at:ε)=rt+1。(12)
式中:μθ(st,at)=μ[at:st,θ],表示在線策略網絡根據狀態st和網絡參數θ,輸出控制動作at;Q(st,at:ε)表示在線價值網絡根據動作at和狀態st獲得的Q值。為了使學習到的智能體具有一定的適應性,添加高斯噪聲κt的隨機變量應用于每個選定的動作μ(st),添加高斯噪聲后的動作at如式(13)所示。
at=μ(st)+κt 。 (13)
DDPG算法的目標函數為
J(ε)=minε Eμ[L(ε)],
J(θ)=maxθ Eμ[Q(st,at:ε)],
L(ε)=E[12(yt-Q(st,μθ(st):ε))2],
yt=rt+γQ(st+1,μθ′(st+1):ε′) 。
(14)
式中:L(ε)表示損失函數;yt是ε′的目標Q值;rt是t時刻的瞬時獎勵;γ為折扣因子;Q(st,μθ(st):ε)是在線Q網絡的Q值;Q(st+1,μθ′(st+1):ε′)是目標Q網絡的下一個時間Q值。通過梯度下降法最小化損失函數L(ε)來更新網絡參數ε。對于在線Q網絡,通過梯度上升方法更新參數θ以最大化Q值,如式(15)和式(16)所示,其中K是批處理尺寸的大小。
ΔεJ(ε)=ΔεE12((rt+γQ(
st+1,μθ′(st+1):ε′))-
Q(st,μθ(st):ε))2=
1K∑i
[(rt+γQ(st+1,μθ′(st+1):ε′)-
Q(s,μθ(s):ε))·ΔεQ(st,μθ(st):ε)] 。(15)
ΔθJ(θ)=1K∑t
[ΔaQ(st,μ(st):ε)·Δθμ(st)] 。(16)
3.2" 優先經驗重放策略
重放緩沖區和批處理的使用消除了數據的相關性。通常,經驗是從重放緩沖區中統一采樣的,如果每個經驗都被平等對待,更多的時間將花在采樣上,并且學習潛力無法得到充分挖掘。而在PER算法中,絕對TD誤差|σ|被用作采樣權重的度量,絕對TD誤差越大,經驗就越有可能被采樣,這被稱為重要性抽樣(important sample,IS)。具體來說,對經驗j進行采樣的概率Pj定義如下:
σj=rj+γQ(sj+1,μθ′(sj+1):ε′)-Q(sj,μθ(sj):ε),
Dj=1rank(j)gt;0,
Pj=Dλj∑iDλi。
(17)
式中:rank(j)是按TD誤差|σi|排序時經驗j的排名。TD誤差的重要性可以通過參數λ進行調整。當λ=0時,它是均勻隨機抽樣;當λ=1時,它是純貪婪采樣;當0lt;λlt;1時,相當于削弱高TD誤差經驗的影響并提高低TD誤差經驗的影響。為了使網絡的更新無偏,在每個網絡更新中添加了IS權重Wj。Wj可以減少梯度變化的大小,極大穩定訓練過程。
Wj=1N·1Pjβ·
1maxi Wi,
Wj·ΔεL(ε)=Wj·δj·ΔεQ(st,μθ(sj):ε),
β=β0+ttmax(1-β0)。
(18)
式中:N是重放緩沖區的大小;β是調整因子系數,β0是β的初始值,通過調整β,模型偏向于早期小批量的高利用率,后期無偏,隨著訓練的進行,β從小于1的值逐漸接近1;t是訓練步驟的當前次數;tmax是訓練步驟的總數。基于DDPG-PER的自主室內環境控制框架如圖2所示。
使用歷史數據作為環境狀態離線訓練DDPG-PER算法。輸入為室內溫度、室外溫度、室內CO2濃度、室外CO2濃度、太陽輻射系數、電價、居住者數量。在離線訓練完成之后,DDPG-PER的參數將是固定的,然后通過加載模型用于加熱/冷卻系統和通風系統的最優控制。基于DDPG-PER的室內環境控制策略的訓練偽代碼如算法1所示。
算法1:基于室內環境控制策略的DDPG-PER訓練步驟
參數初始化:初始時刻CO2濃度、溫度、人數、電價等多參數初始化
DDPG初始化:隨機初始策略網絡(在線策略網絡θ、目標策略網絡θ′)和價值網絡(在線價值網絡ε、目標價值網絡ε′)權重
PER初始化:最小批處理尺寸,超參數
1.for episode=1 to M do
2.接收初始環境狀態st
3.for t=1 to tmax do
4.根據接收到的t時刻環境狀態參數st,選擇動作at
5.執行動作at并作用于環境,進入下一個狀態st+1
6.使用式(9)觀測獎勵
7.儲存(st,at,rt,st+1),并設置pt=maxilt;t
pi
8.for i=1 to N do
9.使用式(17)進行經驗池優先權重采樣
10.計算重要性采樣權重
11.計算絕對TD誤差|δi|
12.根據|δi|更新經驗樣本i的權重
13.結束
14.估計目標yi
15.更新權重,使用式(15)最小化損失函數
16.每隔一定步長復制權重到目標網絡(θ→θ′)
17.結束
18.結束
4" 仿真分析
4.1" 算法驗證
為證明所提出算法的優越性,選用原始DDPG、連續動作控制策略算法(soft actor-critic,SAC)及其改進形式SAC-PER作為對比算法。為進一步證明本算法優越,選用離散強化學習算法(double DQN,DDQN)的改進形式DDQN-PER進行對比,訓練集為2023-01-15至2023-02-15的室外CO2濃度、溫度以及太陽
輻射系數和電價數據,DDPG-PER超參數取值見表1。各算法獎勵及平均獎勵曲線見圖3。
從圖3可以看出,各算法都能很快在100代左右達到收斂狀態,但融入PER策略后的DDPG網絡相對于改進前的網絡獎勵值有較大幅度的提升。這是因為PER合理利用了高經驗樣本而降低了低經驗樣本的使用率,從而改善了智能體的訓練結果,改進后的DDPG智能體能夠在室內空氣質量控制環境中比其他算法網絡發揮更大的作用。
4.2" 冬季場景驗證
為最大限度地還原室內環境中的不確定性,使用隨機數產生函數對MET、Not等進行賦值,其中MET范圍為1~2,Not為0~10,初始時刻室內溫度在[16 ℃,30 ℃]隨機產生,室內CO2濃度在[600×10-6,1 000×10-6]隨機產生,電價數據根據中國分時電價策略設定,工作參數如表2所示。
設置冬季室外CO2濃度較高、室外CO2濃度較低2種場景,對所提算法進行室內空氣質量控制仿真驗證,室外溫度和太陽輻射系數由開放數據集獲取,見參考文獻[23]和[24]。冬季室外24 h測試集如圖4所示,DDPG-PER在冬季室外空氣質量較優和較差2種場景下的24 h室內控制情況如圖5所示。
GB/T 18883—2022《室內空氣質量標準》規定,室內CO2的正常濃度為
1 000×10-6以下,冬季室內溫度標準為16~24 ℃,夏季室內溫度標準為22~28 ℃,各種污染性氣體濃度限值如表3所示。
為了確保人體狀態始終處于健康的范圍內,本文設定CO2濃度的限值為800×10-6,冬夏兩季溫度的限值為20 ℃和25 ℃,以確保控制策略不會在限定目標溫度(冬季16~24 ℃,夏季22~28 ℃)和限定氣體濃度(1 000×10-6)上下波動。從圖5 a)可以看出,在室外空氣質量較優的情況下,智能體通常會將控制設備的通風體積調至最大,以引入室外優質空氣,從而控制室內空氣質量;而從圖5 c)可以看出,當室外空氣質量較差時,智能體將通風體積控制在較小的范圍內,以避免將室外劣質空氣引入室內。在18:00~22:00的時間段內,CO2濃度逐漸升高并接近規定值,因此智能體增大通風體積以過濾和改善空氣質量。隨著CO2濃度的降低,智能體相應減小通風體積以節約能源成本。值得注意的是,雖然智能體在室外空氣質量較差的情況下將室內CO2濃度控制在800×10-6上下波動,但也沒有超出國家規定的1 000×10-6,這間接證明了將CO2濃度限制值設定在規定值以下的必要性。此外,從圖5 b)和圖5 d)可以看出,所提算法在將CO2濃度控制在規定范圍內的同時,還能將室內溫度保持在20 ℃左右,實現了空氣質量和熱舒適度的雙重控制。綜上所述,無論室外空氣質量的好壞,所訓練的智能體都能結合多個參數,有效地將室內CO2濃度控制在規定限制值以下,同時盡可能地降低建筑能源消耗。
4.3" 夏季場景驗證
為驗證所提算法在不同季節均具有良好的控制性能,進行夏季場景補充控制實驗。選取2023-06-01至2023-06-30夏季室外空氣質量數據,作為算法智能體的訓練數據集。利用所訓練的模型對隨機選取夏季某2天室外空氣質量較差和較優的情況進行室內空氣質量控制仿真,評估算法在夏季不同室外環境下的控制效果。同冬季一樣,為保證溫度和氣體濃度不在目標邊界值上下波動,將CO2濃度設置為800×10-6,溫度設置為25 ℃,夏季室外空氣質量較差或較優的測試集如圖6所示。夏季2種不同場景下,24 h控制結果如圖7所示。
通過觀察圖7 a)和圖7 c)可知,初始時室內溫度并不等同于設定溫度25 ℃。智能體通過調節設備功率成功將溫度穩定在接近25 ℃的水平。在圖7 b)中,初始時CO2濃度低于規定限值800×10-6,因此智能體沒有啟動通風系統,以減少建筑能耗,并保持這種狀態直至4:00。然而,隨著時間的推移,CO2濃度從5:00~11:00逐漸上升,并超過了規定的800×10-6限值。智能體隨之逐漸增加通風量以降低CO2濃度。需要注意的是,由于室外空氣質量不佳,智能體并未將通風系統推向最大功率運行,而是僅引入適量的新鮮空氣并對其進行過濾處理,以降低室內CO2濃度。隨著CO2濃度降至規定限值,智能體在15:00開始減少通風量以降低建筑能耗。在圖7 d)中,由于室外空氣質量良好,智能體持續以高功率運行,引入新鮮空氣以保持CO2濃度在規定限值以下,并維持在較低水平。
冬夏兩季較差室外空氣質量下,24 h的通風體積和加熱/制冷功率及電價示意圖如圖8所示。在本研究中,對電價進行了4個階段的分類,包括低谷、平價、中高峰和高峰。同時,將智能體的工作功率劃分為3個階段,即小功率(通風體積100 m3以下,加熱/制冷功率0~1 kW)、適當功率(通風體積100~300 m3,加熱/制冷功率1~2 kW)和大功率(通風體積300 m3以上,加熱/制冷功率2~3 kW)。
夜間及早晨時刻,室內人體活動較為有限,結合圖5 c)的CO2濃度和圖8 a)的智能體通風體積來看,CO2濃度維持在健康穩定的水平,智能體的通風系統處于幾乎靜止狀態。然而隨著時間的推移,CO2濃度逐漸上升,迫使智能體逐漸增加其通風系統的功率。具體而言,11:00~13:00期間,CO2濃度急速上升,此時電價亦處于中高峰期。因此,智能體采用了適當功率以保持室內空氣質量。14:00~18:00期間,電價處于平價階段,CO2濃度也在逐漸降低。在這個時間段內,智能體選擇降低通風功率,以降低建筑能耗。18:00~23:00期間,電價進入中高峰和高峰階段,CO2濃度保持相對穩定,智能體開始逐步降低通風功率,以最小化能源消耗。對圖8 b)進行分析可以看到,當電價處于低谷時,智能體傾向于以最大加熱/制冷功率運行,以在最小化能耗成本的前提下維持較高的舒適度。夜間,由于氣溫下降,導致出現用電高峰,智能體相應地采用了中等加熱功率,以維持熱舒適度并盡量減少能源開銷。
DDPG-PER自適應控制策略相對恒定功率控制策略的能耗對比如表4所示。
結合表4、圖5和圖7可以看出,智能體不僅能夠在多參數不確定性下達到同時控制室內空氣質量和溫度的要求,而且相比常規風量控制系統,每天的能耗降低了13.30%,大約6元。由此可知,用戶全年可節約成本2 000元左右。因此,所提出的基于強化學習的室內環境節能控制方法,能夠在保障居民身心健康的同時,降低能耗,促進綠色可持續建筑行業的發展。
5" 結" 語
針對智能家居室內空氣質量和熱舒適度控制存在多因素不確定性的問題,提出了一種新的基于數據驅動的深度強化學習方法,將DDPG與PER相結合,解決室內空氣質量和熱舒適度的控制問題,并最大限度地減少居住者的能源成本。與傳統的依賴于高精度模型和系統不確定性預測的MPC方法不同,該方法通過對室外與室內的溫度和CO2濃度、太陽輻射系數、居住者數量以及分時電價進行實時觀測,進而做出自適應決策,不需要任何不確定性的預測信息。與另外3種算法相比,DDPG-PER算法顯示出較大的優越性。基于測試的研究結果,可得出以下結論。
1) DDPG-PER算法對室外天氣條件、電價、家庭人數和室內溫度均具有良好的適應性。
2)所提出的方法不僅可以平衡室內空氣質量、室內熱舒適度和居住者能源成本的需求,還可以在最小波動范圍內保持室內的空氣質量和溫度。
3)與定風量控制系統相比,所提出的方法平均日能耗降低了13.30%,大約6元,全年平均可節約成本2 000元左右。
本研究中只對影響人們工作效率的CO2進行了建模控制,并沒有對PM2.5和甲醛等進行建模控制。未來將對更多污染性氣體進行建模控制。鑒于本研究沒有進行落地實驗,后續工作還將進行現場落地實驗,力求有效降低建筑能耗和碳排放量,促進“雙碳”策略的更好發展。
參考文獻/References:
[1]" ONO E,MIHARA K,LAM K P,et al.The effects of a mismatch between thermal comfort modeling and HVAC controls from an occupancy perspective[J].Building and Environment,2022.DOI: 10.1016/j.buildenv.2022.109255.
[2]" LIU Xiangfei,REN Mifeng,YANG Zhile,et al.A multi-step predictive deep reinforcement learning algorithm for HVAC control systems in smart buildings[J].Energy,2022.DOI: 10.1016/j.energy.2022.124857.
[3]" LI Xiuming,ZHAO Tianyi,ZHANG Jili,et al.Predication control for indoor temperature time-delay using Elman neural network in variable air volume system[J].Energy and Buildings,2017,154:545-552.
[4]" ZHAO Liang,ZHOU Huan,CHEN Rui,et al.Efficient monitoring and adaptive control of indoor air quality based on IoT technology and fuzzy inference[J].Wireless Communications and Mobile Computing,2022.DOI: doi/10.1155/2022/4127079.
[5]" LEE S,HWANGBO S,KIM J T,et al.Gain scheduling based ventilation control with varying periodic indoor air quality (IAQ) dynamics for healthy IAQ and energy savings[J].Energy and Buildings,2017,153:275-286.
[6]" QABBAL L,YOUNSI Z,NAJI H.An indoor air quality and thermal comfort appraisal in a retrofitted university building via low-cost smart sensor[J].Indoor and Built Environment,2022,31(3):586-606.
[7]" MORADI H,SETAYESH H,ALASTY A.PID-fuzzy control of air handling units in the presence of uncertainty[J].International Journal of Thermal Sciences,2016,109:123-135.
[8]" RYZHOV A,OUERDANE H,GRYAZINA E,et al.Model predictive control of indoor microclimate:Existing building stock comfort improvement[J].Energy Conversion and Management,2019,179:219-228.
[9]" HUNG F H,TSANG K F,WU C K,et al.An adaptive indoor air quality control scheme for minimizing volatile organic compounds density[J].IEEE Access,2020,8:22357-22365.
[10]LI Kangji,XUE Wenping,LIU Guohai,et al.Exploring the environment/energy pareto optimal front of an office room using computati-onal fluid dynamics-based interactive optimization method[J].Energies,2017. DOI: 10.3390/en10020231.
[11]LI Lu,FU Yunfei,FUNG J C H,et al.Development of a back-propagation neural network combined with an adaptive multi-objective particle swarm optimizer algorithm for predicting and optimizing indoor CO2 and PM2.5 concentrations[J].Journal of Building Engineering,2022.DOI: 10.1016/j.jobe.2022.104600.
[12]LI Lu,ZHANG Yumiao,FUNG J C H,et al.A coupled computational fluid dynamics and back-propagation neural network-based particle swarm optimizer algorithm for predicting and optimizing indoor air quality[J].Building and Environment,2022.DOI: 10.1016/j.buildenv.2021.108533.
[13]KIM Y,SHIN D,HONG K J,et al.Efficient energy saving scenarios for indoor PM2.5 management in an apartment of South Korea[J].Toxics,2022.DOI: 10.3390/toxics10100609.
[14]LOY-BENITEZ J,LI Qian,IFAEI P,et al.A dynamic gain-scheduled ventilation control system for a subway station based on outdoor air quality conditions[J].Building and Environment,2018,144:159-170.
[15]TARIQ S,LOY-BENITEZ J,NAM K J,et al.Energy-efficient time-delay compensated ventilation control system for sustainable subway air quality management under various outdoor conditions[J].Building and Environment,2020.DOI: 10.1016/j.buildenv.2020.106775.
[16]CHEN Yujiao,NORFORD L K,SAMUELSON H W,et al.Optimal control of HVAC and window systems for natural ventilation through reinforcement learning[J].Energy and Buildings,2018,169:195-205.
[17]SUN Yunqi,ZHANG Yong,GUO Da,et al.Intelligent distributed temperature and humidity control mechanism for uniformity and precision in the indoor environment[J].IEEE Internet of Things Journal,2022,9(19):19101-19115.
[18]GAO Guanyu,LI Jie,WEN Yonggang.DeepComfort:Energy-efficient thermal comfort control in buildings via reinforcement learning[J].IEEE Internet of Things Journal,2020,7(9):8472-8484.
[19]YANG Ting,ZHAO Liyuan,LI Wei,et al.Towards healthy and cost-effective indoor environment management in smart homes: A deep reinforcement learning approach[J].Applied Energy,2021.DOI: 10.1016/j.apenergy.2021.117335.
[20]郝崇清,任博恒,趙慶鵬,等.基于改進的DDPG算法的蛇形機器人路徑規劃方法[J].河北科技大學學報,2023,44(2):165-176.
HAO Chongqing,REN Boheng,ZHAO Qingpeng,et al.Path planning method of snake-like robot based on improved DDPG algorithm[J].Journal of Hebei University of Science and Technology,2023,44(2):165-176.
[21]郭少雄,宋志群,李勇.基于深度強化學習的空中無人機基站資源分配與公平性研究[J].河北科技大學學報,2024,45(1):44-51.
GUO Shaoxiong,SONG Zhiqun,LI Yong.Deep reinforcement learning-based resource allocation and fairness of aerial UAV base stations[J].Journal of Hebei University of Science and Technology,2024,45(1):44-51.
[22]ZHANG Bin,ZOU Yuan,ZHANG Xudong,et al.Online updating energy management strategy based on deep reinforcement learning with accelerated training for hybrid electric tracked vehicles[J].IEEE Transactions on Transportation Electrification,2022,8(3):3289-3306.
[23]空氣質量在線檢測分析平臺[DB/OL].(2013-12-22)[2024-02-13].http://www.aqistudy.cn/.
[24]Open Power System Data[DB/OL].(2014-06-22)[2024-02-13].https://open-power-system-data.org/.