999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于離線深度強化學習的工業控制優化方法

2021-12-30 03:07:10華電忻州廣宇煤電有限公司高亞磊郝政忠李繼平
電力設備管理 2021年12期
關鍵詞:動作價值優化

華電忻州廣宇煤電有限公司 高亞磊 郝政忠 李繼平

1 工業控制自動化現狀與發展趨勢

我國工業控制自動化的發展道路,大多是在引進成套設備的同時進行消化吸收,然后進行二次開發和應用,目前工業控制自動化技術正在向智能化、網絡化和集成化方向發展。智能化主要歸結于人工智能技術的發展與應用,如運用神經網絡、遺傳算法、進化計算、混沌控制等智能技術,使儀器儀表實現高速、高效、多功能、高機動靈活等性能;再如運用模糊規則的模糊推理技術,對事物的各種模糊關系進行各種類型的模糊決策;又如充分利用人工神經網絡技術強有力的自學習、自適應、自組織能力,聯想、記憶功能以及對非線性復雜關系的輸入、輸出間的黑箱映射特性等。而人工神經網絡中的深度強化學習最適合用于工業控制自動化,實現智能化。

深度強化學習是深度學習與強化學習相結合的產物,集成了深度學習在視覺等感知問題上強大的理解能力,以及強化學習的決策能力,實現了端到端學習。深度強化學習的出現使得強化學習技術真正走向實用,得以解決現實場景中的復雜問題。過去幾年間,深度強化學習算法在不同領域大顯神通:在視頻游戲[1]、棋類游戲上打敗人類頂尖高手[2];控制復雜的機械進行操作[3];調配網絡資源[4];為數據中心大幅節能[5];甚至對機器學習算法自動調參[6]。控制領域是強化學習思想的發源地之一,也是強化學習技術應用最成熟的領域。一個常見的例子是使用人工智能來調優機器和設備,在這之前這些工作需專家級操作人員才能完成。如DeepMind 的強化學習技術幫助Google 顯著降低了其數據中心的能耗(HVAC)[5]。

2 傳統工業控制優化的弊端

依賴現場試驗。傳統優化方法主要通過在現場試驗中收集不同工況、控制策略下的運行情況數據,結合機理、經驗公式進行優化。在大部分情況下,為了收集機理、經驗公式要求的相應數據需額外加裝傳感器測點,或多或少牽扯到技術改造。項目投入大、試驗數據收集費時費力,成本高,設備改造對實際的生產運行影響也較大。基于深度強化學習的方法只需使用運行一段時間內的歷史數據,依賴于已有數據,不涉及加裝及硬件改造,成本低,對正常運行影響小。

基于物理方程和機理模型。傳統控制優化方法主要基于物理方程及機理進行建模,包含大量經驗、假設性的參數。傳統控制優化方法過于依賴設備原有的設計參數,然而設備在運行一段時間后,其真實運行參數必然會相較出廠設計參數有一定的偏差,造成對系統描述的失準。此外傳統方法建模過程過于理想化,缺乏對設備真實數據的利用和考慮。基于深度強化學習的方法充分使用真實運行的歷史數據,在建模過程中較少依賴機組設計參數,不加入額外假設或經驗性參數,從數據本事直接學習系統真實的變化特征,對于系統刻畫描述的能力更強。

工況適應性差。傳統控制優化方法建立的模型一旦完成、基本是固化的,不具備自學習能力及適應后續工況變化的可調節性。然而設備的工況每天都會因為損耗、材料特性的改變產生微小的工況變化,長期積累下來必然會導致原有固化模型的失準,如需重新適應新的工況特性、則需重新建模。基于深度強化學習的方法因為純數據驅動,模型本身具備可學習性及很強的適應能力。在工況發生變化后,只需收集最新的歷史運行數據、在原有模型參數的基礎上進行再訓練和調整,即可適應最新的工況特性。

拆解成子系統用簡化模型優化。大部分控制優化問題本身復雜性高,傳統方法解決優化問題主要將整個系統拆解成多個簡化的子系統、子模塊,然后對每個子系統的少量控制變量做局部優化以達到優化目的。然而此種建模方法過度簡化,缺乏對系統整體建模的考慮,忽視了各子系統之間復雜的交互影響。此外每個子系統達到最優、無法保證系統的全局最優,甚至單一子系統本身的優化可能對其他子系統產生不良的影響。基于深度強化學習的方法對系統進行整體性建模,不做子系統拆解,最大程度上考慮各子系統之間復雜的依賴、影響關系。通過對整個系統的優化目標進行尋優,保證控制量推薦結果的全局最優。

3 離線深度強化學習算法框架

實際應用環境中往往需要滿足一定的安全限制條件,本文引入安全價值模型來評估當前策略的安全風險,在優化策略的同時滿足安全需求。本算法由數據驅動、以最大化長期價值為目標,同時受限于安全約束,定義為受限的高維動態優化問題。本方法完全基于真實離線數據集,通過安全約束和受限的策略探索方法學習出安全有效的策略。

首先構建基準策略分布網絡,使用真實數據訓練、得到歷史策略的分布,作為強化學習算法的基準。然后分別構建獎勵價值網絡和安全風險網絡用于評估策略的長期價值和安全風險。模型訓練使用真實數據,首先從基準策略中采樣得到基準動作,然在基準動作基礎上用擾動網絡進行探索,通過價值網絡評估探索策略的價值和風險,最后通過最大化長期價值和最小化風險為目標進行訓練迭代,得到最優策略。本方法的最優策略是在歷史策略的安全范圍內進行有效探索得到,分布更接近歷史策略分布,最大化價值的同時保證滿足安全約束條件,可以滿足工業控制領域的需求。

首先從真實數據中采樣一定數量的樣本訓練基準策略模型。基準策略模型只用真實數據訓練,不是最優的策略但可以反映真實數據的分布,然后用擾動網絡進行探索、得到最優策略。基準策略模型優選方案是使用變分編碼器VAE(Variational Auto-encoder)。VAE 由兩部分的網絡構成,一部分稱為encoder,從一個高維的輸入映射到一個低維的隱變量上;另外一部分稱為decoder,從低維的隱變量再映射回高維的輸入。分為模型訓練階段和采樣階段,訓練階段模型輸入為當前狀態s 和執行的動作a,輸出為動作a,encode 和decoder 兩個部分協同訓練;采樣階段只使用decoder 部分批量采樣一定數量的樣本。

接著,從樣本池中采樣一定數量的樣本,在每個樣本的狀態下,從基準策略分布中采樣得到基準動作,在基礎動作基礎上通過擾動策略網絡進行探索。按照一定的比例,將擾動添加到基準動作上、產生探索動作。然后用獎勵價值網絡評估探索動作的長期價值,用安全價值網絡評估探索動作的安全風險。以最大化長期價值和最小化安全風險為目標,通過策略梯度的方法來訓練擾動網絡。目標如下:

其中,Gw是生成模型(本文中為VAE 模型),結合價值網絡Qr可作為策略使用,從Gw采樣得到n個動作,再用Qr篩選出價值最高的動作。為了增加探索,用擾動網絡εφ(s,a,φ)生成在范圍[-φ,φ]內針對動作的調整,擾動網絡提供了安全區域內的有效探索。Qr,Qc分別為獎勵價值網絡和安全價值網絡,l 為安全約束。

最后,從樣本池采樣一定數量的樣本訓練學習策略模型、獎勵價值模型和安全價值模型。訓練方法采用經典的“演員-評論家”(actor-critic)方法,通過在單步轉移數據(s,a,r,s)上最小化貝爾曼誤差(Bellman errors)來學習一個動作值函數,然后通過最大化動作值函數來進行策略更新。獎勵價值函數的目標為: ,其中D 為經驗池,Qr為所要學習的獎勵價值網絡,Q 表示目標價值網絡,按照目標函數進行交替迭代訓練。同理可得安全價值函數的目標。

本算法已實際應用于華電忻州廣宇煤電有限公司50MW 超臨界參數燃煤汽輪發電機組的鍋爐燃燒優化系統中。自2020年12月全部開發調試完畢,進入上機實測階段。在2021年1月份進行了多批次、多負荷段、多工況場景的上機實測。測試中離線強化學習算法運行穩定、性能可靠,優化價值凸顯。優化系統可及時提供提高鍋爐效率的調整方向,能夠使機組在調整后鍋爐效率得到提升。按提供的控制指導策略進行機組運行控制時,能夠實現通過人工智能算法快速提供優化指導方案,提高操作人員工作效率,降低勞動強度。算法的優化效果獲得了專家的一致認可。

猜你喜歡
動作價值優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
動作描寫要具體
畫動作
動作描寫不可少
一粒米的價值
“給”的價值
非同一般的吃飯動作
主站蜘蛛池模板: 国产在线一区视频| 在线播放91| 欧美日韩一区二区在线播放| 国产成人高清在线精品| 成色7777精品在线| 囯产av无码片毛片一级| 一区二区理伦视频| 99这里精品| 国产精品亚洲а∨天堂免下载| 91成人精品视频| av尤物免费在线观看| 国产呦精品一区二区三区下载| 国产成人亚洲综合A∨在线播放| 亚洲欧美日韩色图| 亚洲精品动漫| 99re免费视频| 久久福利片| 亚洲AV无码精品无码久久蜜桃| 99青青青精品视频在线| 国产在线观看91精品| 亚洲第一视频网站| 亚洲日韩精品无码专区| 在线欧美日韩国产| 91高清在线视频| 亚洲另类国产欧美一区二区| 国产精品网址你懂的| 天天综合亚洲| 色亚洲激情综合精品无码视频| 日本高清在线看免费观看| 亚洲三级色| 久草热视频在线| 亚洲天堂久久久| 色窝窝免费一区二区三区| 国产精品一区二区久久精品无码| 久久永久免费人妻精品| 国产熟睡乱子伦视频网站| 国内精品小视频在线| 高清乱码精品福利在线视频| 国产日韩欧美精品区性色| 激情综合网激情综合| 999福利激情视频| 久久精品人人做人人综合试看| 中国美女**毛片录像在线| 无码人中文字幕| 在线无码av一区二区三区| 日本亚洲成高清一区二区三区| 欧美成人日韩| 国产不卡网| 日韩精品无码免费专网站| 久久精品国产精品国产一区| 亚洲aⅴ天堂| 日韩 欧美 小说 综合网 另类| 亚洲精选无码久久久| 中文字幕不卡免费高清视频| 亚洲天堂网在线播放| 精品福利国产| 国产午夜一级毛片| 成人国产精品网站在线看| 2021国产精品自拍| 77777亚洲午夜久久多人| 午夜激情福利视频| 久久精品日日躁夜夜躁欧美| 久久久久人妻一区精品色奶水| 国产高颜值露脸在线观看| 久久久久国产精品熟女影院| 久久午夜影院| 少妇被粗大的猛烈进出免费视频| 真实国产乱子伦视频| 欧美三级日韩三级| 2020亚洲精品无码| yy6080理论大片一级久久| 最新日本中文字幕| 免费在线成人网| 伊人天堂网| 色噜噜狠狠狠综合曰曰曰| 国产aaaaa一级毛片| 99免费视频观看| 亚洲国产午夜精华无码福利| 精品福利视频导航| 国产一级精品毛片基地| 九九视频免费在线观看| 国产剧情国内精品原创|