999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DDPG模型的建筑能耗控制方法

2023-03-15 09:53:48陳建平傅啟明
計算機應用與軟件 2023年2期
關鍵詞:動作優化建筑

周 鑫 陳建平 傅啟明

(蘇州科技大學電子與信息工程學院 江蘇 蘇州 215009) (江蘇省建筑智慧節能重點實驗室 江蘇 蘇州 215009)

0 引 言

為了應對日益增加的建筑能耗問題,單純依靠政策宣傳節能等粗放的手段難以有效地解決節能問題。新一代的人工智能技術,已成為智能電網背景下建筑節能的又一大研究趨勢。但目前的人工智能方法在建筑節能領域尚處在初級階段,探索如何使用新技術實現建筑節能,是一個亟待解決的問題。

深度強化學習(Deep Reinforcement Learning,DRL)[1]是人工智能方法中的一種,因其在多個領域的應用價值,使其成為主要的研究方向。深度強化學習是由具有決策能力強化學習(Reinforcement Learning,RL)[2]與具有特征提取能力的深度學習(Deep Learning,DL)[3]結合而成,具有很強的通用性[4]。在之后的研究中,深度強化學習在各個領域被廣泛運用,如游戲[5]、機器人控制[6-7]等。

Mnih等[8-9]將神經網絡與RL算法結合,提出了深度Q網絡模型(Deep Q-Network,DQN),用于處理視覺感知的控制任務。之后,DQN算法出現了多種改進版本[10],包括對算法的改進[11]、神經網絡模型的改進[12]、學習機制的改進[13-14],以及新的RL算法的改進[15]。然而,這些算法適用于離散動作空間的RL任務,在連續動作空間中,基于確定性策略梯度(Deterministic Policy Gradient,DPG)[16]的算法可以獲得更好的效果。因此,Deep Mind團隊提出了深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[17],結合深度神經網絡來處理大規模狀態空間的問題,并在該算法的基礎上提出了多智能體的DDPG算法[18],取得了顯著效果。陳建平等[19]提出一種增強型深度確定性策略梯度算法,加快了算法的收斂速度。何明等[20]提出了基于多智能體DDPG算法的經驗優先抽取機制,提高了算法的訓練速度。鄒長杰等[21]提出了基于多智能體DDPG模型的分組學習策略,提高了多智能體的學習效率。

綜上,針對現有建筑節能方法比較粗放的問題,基于深度強化學習的理論,提出更加智能化的控制策略,用于解決建筑節能問題。本文提出一種基于DDPG算法的建筑能耗策略優化方法,利用強化學習構建成本最小化與電力負荷峰值降低的關系模型,解決連續動作空間下的策略優化問題。通過對開源的建筑能耗使用數據進行實驗驗證,該方法能夠有效降低電力負荷與使用成本,最終實現建筑節能。

1 相關理論

1.1 馬爾可夫決策過程

滿足馬爾可夫性質的強化學習任務被稱為馬爾可夫決策過程(Markov Decision Process,MDP)或MDP,因此,利用馬爾可夫決策過程對強化學習進行建模,可以有效完成序貫決策任務。通常,MDP可以用一個四元組{S,A,T,R}表示,其中:S是所有環境狀態的集合;A是agent可執行動作的集合;T是狀態轉移函數;R是獎賞函數。對一個MDP問題,在任意時刻t,其狀態為St∈S,選擇并執行動作at∈A,獲得立即獎賞r(st,at)∈R,通??梢院唽憺閞t,且轉移到下一狀態st+1∈S,狀態轉移T(st,at,st+1)的概率為Pr(st,at,st+1)。

強化學習中,策略π是指在狀態s下采取動作a的概率,表示為π(s,a)。判斷某一策略π的優劣程度,基本上是通過計算估計動作值函數的值進行判斷。其中,估計動作值函數根據未來累積獎賞進行計算評估,定義如下:

Qπ(s,a)=Eπ{Rt|st=s,at=a}=

(1)

式中:γ是折扣率,決定著未來獎賞的當前價值。如果選擇的策略是最優策略,則用最優動作值函數Q*進行表示,定義如式(2)所示。

(2)

1.2 DDPG方法

DDPG算法融合了DPG算法與DQN算法的優點,利用神經網絡來模擬策略函數和Q值函數,通過訓練,能夠提高非線性模擬函數的準確性和高效性。此外,利用DPG算法中行動者評論家方法(Action-Critic,AC)的優勢,結合DQN算法中的經驗池和雙網絡結構,以及目標網絡參數的“軟更新”方式,提高神經網絡的學習效率,在連續狀態空間問題中取得了較好的實驗效果。其中,DPG算法利用近似函數μ(s|θμ)表示動作選擇,其梯度定義如下:

(3)

在隨機策略中,狀態和動作的值會影響策略梯度的計算,而在確定策略中,只有狀態值才會影響策略梯度。相較而言,DPG算法在達到收斂條件時所需要的樣本較少。DDPG算法利用式(3)更新策略網絡參數,并通過式(4)對網絡參數進行更新。但是,如果直接使用式(4)進行更新會導致收斂不穩定,因為在更新Q(s,a|θQ)的過程中,其目標值也在同步計算,即式(5)中的yt。

L(θQ)=Est~ρπ,at~π,rt~E[(Q(st,at|θQ)-yt)2]

(4)

yt=r(st,at)+rQ(st+1,μ(st+1)|θQ)

(5)

針對這個問題,DDPG采用“軟更新”的方式,即創建新的AC網絡(Q′(s,a|θQ′),μ′(s|θμ′))用于目標參數的更新。目標策略網絡和目標值網絡中參數的更新規則為θμ′←αθμ+(1-α)θμ′,θQ′←αθQ+(1-α)θQ′,α<<1,該方法可以降低目標值的更新速度,從而提高算法的收斂穩定性。此外,DDPG算法引入經驗回放機制打破樣本之間的相關性,以提高算法的學習效率。不僅如此,DDPG算法還通過引入隨機噪聲N來完成策略探索,使動作的選擇具有一定的隨機性,從而在一定程度上提高探索環境的效率,具體如式(6)所示。

(6)

1.3 Softmax策略選擇方法

判斷agent是否選擇最優動作之后,需要對策略選擇方法加以改進,或者選擇合適的動作選擇策略。UCB策略、ε-greedy方法、與Softmax都是強化學習中比較重要的動作選擇策略。前兩種策略缺陷都在于不能夠有效地優化動作的選擇概率。因此,一個比較有效的方法就是將選擇動作的概率更改為估計值的一個分級函數,即將最高的選擇概率分配給貪心動作,但是,除此之外的其他動作則根據其值的估計進行比較并分配權重,這稱為軟最大化動作選擇規則。

動作選擇概率的一般表達式可以寫為它在某次操作選擇動作aj的概率:

(7)

式中:τ指代的是溫度系數,當τ→0時,軟最大化動作選擇方法就變得與貪心方法一樣。

2 基于DDPG模型的能耗控制算法

2.1 問題建模

(8)

ai,d,t={1,0} ?a∈A,?i∈N,?d∈N,?t∈N

式中:如果電氣設備在特定時間打開,則ai,d,t=1,否則為0。此外,本節提出的方法中,ai,d,t等同于對動作的估計。

(9)

因此,式(8)的約束條件將同時對兩個問題都有效。但是,基于不同類型的電氣設備之間的差異,約束條件的整個范圍會變大,如下所述。

電氣設備的約束條件:假設三種類型的消耗曲線。首先,考慮時間縮放負載。對此,本節的分析僅限于空調負荷(dAC),作為每棟建筑物中較大的一組電氣設備的代表,可以在優化范圍內將開關次數約束為有限時間,例如燈、電視等電氣設備。先前的研究表明,短期時間內減少空調的使用對最終用戶舒適度的影響可忽略不計。其次,本章包括時移負載,也稱為可延遲負載,即能夠實現用電時間的轉移,它必須在給定的時間間隔內消耗最少的電量。其中,本節將洗碗機(dDW)建模為不間斷負載,該模型需要多個連續的時間步長。最后,電動汽車(dEV)被建模為可移動負載。就本節而言,根據隨時間變化的設備約束ad,t的定義,提出以下假設:

(10)

條件1:在本節中,P+被認為是不可忽視的部分。

在本節中,使用DRL方法作為建筑能耗控制的優化方法,以便在不同復雜程度上執行最佳建筑能耗控制策略。DRL可以通過自動提取模式,例如能源消耗的數據,來學習比標準RL更好的行為策略。簡而言之,可以從總體框架的角度將DNN方法表示為在給定輸入分布上具有良好泛化能力的黑匣子模型,如式(10)所示。

(11)

2.2 獎賞函數構造

針對本節所解決的多目標優化問題,在一天結束時計算一個準確的獎賞函數,而不是在一天的每個時間步長都計算獎賞函數。因此,推導出了一個簡單的包含三個獎賞組成的多任務聯合獎賞:

(12)

2) 對式(9)中定義的總能耗進行如下設置:

(13)

此外,根據式(8),當有更多的能源產生時,通過時間轉移能源消耗量:

(14)

空調的控制由假設2以及式(15)給出:

(15)

3) 總成本C的計算如下:

(16)

故本節用獎賞函數的1)和2)求解式(9),用獎賞函數的1)和3)求解式(8)。

2.3 基于DDPG模型的策略選擇算法

之前有將基于值函數差異的探索與Softmax動作選擇結合在一起,利用學習過程中產生的值差異來衡量agent對環境的不確定性,以適應在線探索參數。事實證明,這種方法可以極大地優化多臂賭博機問題的求解。但是,這種探索策略的缺點是必須記錄每種狀態的探索參數,在遇到大規模連續狀態或動作空間時效率低下。因此,本節提出一種基于Softmax方法的策略選擇方法,即S-DDPG,該方法根據agent與環境之間的交互過程中的動作值和平均動作值動態地調整探索參數。

策略選擇方法的核心思想是根據agent達到目標狀態的成功數量和成功率來鼓勵探索。一方面,當agent獲得越來越高的獎賞時,策略應該更多地被利用。另一方面,當agent由于環境變化而停止獲得獎賞時,應該再次鼓勵探索。因此,策略搜索算法如式(17)所示。

(17)

式中:ε的取值來源于ε-greedy方法。

該方法的總體框架如圖1所示,基于DDPG模型的策略選擇算法如算法1所示。

圖1 策略搜索方法框架

算法1基于DDPG模型的策略選擇方法

輸入:狀態信息數據。

輸出:動作的概率。

1) 初始化Actor、Critic網絡模型的超參數(α,γ,ζ);網絡權重θ

2) forepisode=1 toMdo:初隨機狀態s

3) fort=1,T:actor根據策略方法選擇動作;執行動作,返回獎賞隨機狀態r以及下一狀態s′;并將狀態轉移信息存入經驗池;從經驗池中隨機選擇數據進行訓練

4) 通過損失函數更新Critic網絡;使用樣本的策略梯度更新Actor網絡

5) end for

6) end for

3 實驗及結果分析

3.1 網絡模型

為了在離散和連續動作空間下令DQN、DPG和DDPG,以及S-DDPG進行公平的比較,模型所使用的深度神經網絡的架構相似,并且具有以下特征:每個強化學習狀態由一個時間窗口的兩個連續時間步長給出。因此,在峰值降低問題的情況下,輸入層具有11個神經元,即時間步長t,以及在t-1到t時刻的基本負荷、光伏發電、空調狀態、電動汽車和洗碗機的狀態。需要注意的是,除了固定的基本負荷和發電量外,其他狀態分量不是由智能電表測量的初始值直接給出,而是通過學習過程中獲得的值動態調整。對于成本最小化的問題,輸入層有一個額外的神經元,用于對分時電價進行編碼。此外,該網絡具有三層隱藏的神經元層,各層都包含100個神經元,其中以整流線性單元(ReLU)作為神經網絡的激活函數。

由于離散動作空間和連續動作空間的任務模型不同,即DQN模型和S-DDPG等模型的輸出層不同。對于DQN模型,設置輸出層為8個神經元,每個神經元代表一個組合動作的Q值。每個組合動作都是多個設備的可能組合,即空調(a1)、電動汽車(a2)、洗碗機(a3)的啟動或者關閉。相比之下,S-DDPG輸出層只有三個神經元,每個神經元代表一個設備動作。更準確地說,它輸出的是在特定輸入狀態執行與設備相關聯的動作的概率。這是S-DDPG方法相對于DQN方法的一個明顯優勢,因為S-DDPG與設備的數量成線性比例。

超參數設置:在所有執行的實驗中,學習率均設置為α=0.01,折扣因子設置為γ=0.99,η=0.01。本節訓練了5 000個情節的模型,其中每一個情節由隨機20天內的數據組成。網絡結構的權重參數每兩個情節更新一次。

3.2 數據描述

本節結合改進算法驗證了所提出的模型,并在大型真實數據庫中分析了該模型性能。首先,描述數據庫。然后,針對各種建筑物的降低負荷峰值問題和最小化成本問題,給出兩個問題的實驗對比結果。

(1) 建筑能耗模型。數據集中包含用戶每天使用能源的數據,將用電記錄進行清洗分割,得到兩千多萬條數據,并將這些能耗數據用于構建特定的設備模型。圖2和圖3列出了每15分鐘一次記錄的兩種不同類型建筑(B1和B2)的能源數據模型。在不同的建筑能源數據模型中,光伏發電的不確定性以及用戶消耗能源的行為特征非常明顯。在本文的實驗中,使用了2010年1月至2016年12月之間的數據。

圖2 B1型建筑的能源數據模型

(2) 價格數據。本文使用建筑能耗數據當地的電網公司為用戶提供的分時電價。夏天的電價由高峰、中峰、低谷時段的電價組成,冬季的電價由高峰低谷電價組成。此外,在建筑上進行自發電的客戶將收到由電網公司支付的光伏發電費用。

3.3 實驗分析

表1和圖4、圖5顯示了兩種類型建筑物(Bi)在一年內以15 min的頻率采樣,顯示有關單個建筑物級別的降低負荷峰值的對比結果。表1中,第一列表示峰值,第二列是優化方法,第三列是某一類型的建筑,第三、第四列中Mean與S.d分別代表平均值和標準差。對于原始數據,計算日均負荷峰值的平均值和標準差。在將四種深度強化學習算法應用于建筑能耗優化控制之后,負荷峰值均有一定程度的降低。其中:DPG方法比DQN方法的效果好;S-DDPG算法的優化效果比DQN、DPG、DDPG等方法更好,優化之后負荷峰值明顯降低。這是因為,DQN方法主要解決的是離散動作空間下的動作選擇問題,在應對連續大規模狀態空間的問題時,無法及時采取最優策略,只能進行離散化的動作選擇,最終導致優化效果較差,而DDPG方法與S-DDPG方法能夠在該狀況下取得較好的實驗結果。

表1 建筑物日均負荷峰值

圖4 B1型建筑降低負荷峰值后的能耗

圖5 B2型建筑降低負荷峰值后的能耗

在圖4和圖5中,橫坐標表示時間步長(每15 min一次),縱坐標表示建筑能源的負荷。與圖2、圖3的建筑能源模式相比,使用S-DDPG算法優化后的曲線值在60至100個時間步長內已經能夠表明下降的趨勢,實現了負荷峰值降低的效果。此外,該建筑物中其他的電氣設備也都在一定程度上降低了負荷峰值。

表2總結了兩種不同類型的建筑物日均最小化成本問題的實驗對比結果。相較于DQN、DPG、DDPG方法,S-DDPG對建筑能耗使用方法的優化控制,在降低負荷峰值和最小化能源使用成本方面取得了更好的效果。在前面的研究中,假設用戶自發電賣出的電價和買入電網公司的電價相等,在首先考慮降低建筑電力能源的使用成本時,則可以將成本最小化問題轉化為降低負荷峰值的問題,從而間接地降低負荷峰值。

表2 建筑物日均最小化成本

因此,對比圖2、圖4和圖6,以及圖3、圖5和圖7可以看出,不同類型的建筑物最小化能源使用成本的解決方案與其負荷峰值降低問題,以及原有的建筑能耗模型相關。此外,對B1和B2兩種類型的建筑進行能耗優化控制,B2類型的建筑能耗在S-DDPG算法的優化控制下,具有更好的表現效果。

圖6 B1型建筑最小化成本后的能耗

圖7 B2型建筑最小化成本后的能耗

為了測試在大規模數據下的運行情況,本文使用S-DDPG和DDPG算法分別分析10座和20座建筑物的相應結果。表3表明,本文方法可以分別用于峰值降低和成本最小化問題。不僅如此,當居民在考慮降低電力使用成本時,也能夠隱含地解決負荷峰值問題。在建筑物數量級別相同的前提下,S-DDPG比DDPG算法具有更好的性能??傮w而言,在20座建筑物的降低成本問題中,S-DDPG算法將負荷峰值降低了25.1%,成本降低了26.9%,而DDPG算法將負荷峰值降低了10.1%,成本降低了15.6%。為可視化S-DDPG算法的性能,圖8展示了20座建筑物中每座建筑物的未優化和優化的年度電力能源成本??梢杂^察到每個建筑物中居民的電力能源消費行為彼此并不相同,在某些優化效果較好的情況下,將S-DDPG算法應用于建筑能耗優化控制,可以將居民的年度電力能源成本降低一半。然而,在一些優化效果較差的情況下,該算法僅僅能夠降低幾百分點的建筑電力能耗的成本。

表3 多個建筑物年均成本的優化結果

圖8 多個建筑物年均成本優化前后的對比

本節通過對實驗情節的多次迭代來評估S-DDPG算法的收斂性能。圖9顯示了S-DDPG方法在降低負荷峰值方面的學習能力以及降低建筑物的負荷所對應的獎賞值。其中,實驗的每個情節表示隨機選擇的20天的平均值。在實驗剛開始時,可以觀察到獎賞數值增加很快,而在大約100個情節之后,獎賞值增加變得緩慢。在大約100個情節之后,使用S-DDPG方法的平均峰值和優化的平均峰值會趨于收斂。

圖9 S-DDPG方法降低的負荷峰值與獎賞值

4 結 語

本文提出一種基于深度強化學習算法的建筑能耗控制優化方法,該方法通過對建筑能耗負荷建模,在假定發電和消耗的電價相等的基礎上,將峰值降低問題和成本最小化問題結合分析,構建三個獎賞函數組合而成的聯合獎賞模型,用于建筑能耗控制方法模型。通過對某數據庫記載的建筑能耗數據進行處理,并將DDPG和S-DDPG方法,以及基礎的DQN算法與DPG算法應用于建筑能耗控制方法實驗中,實驗結果表明,在四種不同的方法進行對比之后,S-DDPG方法具有更好的建筑能耗優化效果。此外,在下一步的研究計劃中,將考慮更加復雜與實際的情況下建筑能耗的優化方法,并希望有更多的學者參與建筑節能的研究。

猜你喜歡
動作優化建筑
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
《北方建筑》征稿簡則
北方建筑(2021年6期)2021-12-31 03:03:54
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
關于建筑的非專業遐思
文苑(2020年10期)2020-11-07 03:15:36
建筑的“芯”
現代裝飾(2020年6期)2020-06-22 08:43:12
動作描寫要具體
畫動作
動作描寫不可少
主站蜘蛛池模板: 午夜精品久久久久久久无码软件| 亚洲嫩模喷白浆| 国产喷水视频| 男人的天堂久久精品激情| 狠狠做深爱婷婷久久一区| 日本精品中文字幕在线不卡| 91欧美在线| 思思99热精品在线| 啪啪啪亚洲无码| 亚洲侵犯无码网址在线观看| 无码aaa视频| 黄色免费在线网址| 午夜欧美在线| 亚洲午夜国产片在线观看| 亚洲一级毛片| 亚洲色图欧美一区| 91系列在线观看| 特级做a爰片毛片免费69| 亚洲中文精品人人永久免费| 天天摸夜夜操| 欧美亚洲日韩中文| 国产国产人成免费视频77777| 国产99精品视频| 97青青青国产在线播放| 亚洲精品无码专区在线观看 | 色婷婷久久| 久久婷婷国产综合尤物精品| 青青草91视频| 欧美午夜久久| 亚洲AV人人澡人人双人| 免费99精品国产自在现线| 国产亚洲精品无码专| 一本综合久久| 成人福利视频网| 四虎国产精品永久一区| 免费毛片a| 国产喷水视频| 久久综合九九亚洲一区| 亚洲三级a| 欧美一区二区自偷自拍视频| 国产精品女人呻吟在线观看| 亚洲成aⅴ人片在线影院八| 99热这里只有精品2| 啪啪啪亚洲无码| 福利在线一区| 国产精品视频系列专区| 四虎永久在线| 国产成人超碰无码| 国产精品免费福利久久播放| 一级毛片免费播放视频| 国产主播在线一区| 无码aaa视频| 亚洲日本中文字幕乱码中文| 日韩精品视频久久| 亚洲国产精品无码久久一线| 国产在线自乱拍播放| 国产h视频免费观看| 亚洲中文精品人人永久免费| 欧美成人免费一区在线播放| 国产白浆视频| 72种姿势欧美久久久久大黄蕉| 欧美在线视频a| 欧美爱爱网| 乱人伦中文视频在线观看免费| 国产波多野结衣中文在线播放| 中文字幕无码电影| 国产精品视频a| 亚洲欧美日本国产专区一区| 国产精品分类视频分类一区| 欧美一级色视频| 啊嗯不日本网站| 国产精品对白刺激| 国产自无码视频在线观看| 国产日本欧美在线观看| jizz国产在线| 国产自视频| 国产精品内射视频| 国产精品福利一区二区久久| 四虎影院国产| 国产午夜无码片在线观看网站| 欧美成人区| 日韩美一区二区|