999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的電力系統應急物資倉儲控制算法

2021-12-08 00:53:36俞虹,程文美,代洲,王鈞澤,徐一蝶
粘接 2021年11期
關鍵詞:電力系統人工智能

俞虹,程文美,代洲,王鈞澤,徐一蝶

摘 要:在人工智能飛速發展的啟發下,智能庫存控制和調度系統被認為是電力系統穩定性的一個有效的解決方案。提出了一種“端到端”強化學習方法,用于聯合優化庫存控制和應急電源交付策略,以平衡維護成本和電力系統穩定性。所提出算法為“端到端”算法,算法不預測需求,直接做出庫存控制和調度決策;所提出的算法為“在線”算法,即庫存控制和調度決策僅依賴于對過去事件的觀察;所提出的算法也是“無模型”算法,即算法不依賴于任何假定的不確定事件隨機模型。通過利用真實數據進行數值模擬,表明所提出的“端到端”強化算法平均比有代表性的基準算法在性能上高出138.5%。

關鍵詞:倉儲系統;調度系統;電力系統;強化學習;人工智能

中圖分類號:TM711 文獻標識碼:A ? ? 文章編號:1001-5922(2021)11-0173-06

Reinforcement Learning Based Storage Control Algorithm for Emergency Materials in Power System

Yu Hong1, Cheng Wenmei2, Dai Zhou2, Wang Junze2, Xu Yidie3

(1. Guiyang Power Supply Bureau of Guizhou Power Grid Co., Ltd., Guiyang 550001, China;

2. Southern Power Grid Materials Co., Ltd., Guangzhou 510620, China; 3. Guiyang Xiuwen Power Supply Bureau of Guizhou Power Grid Co., Ltd., Guiyang 550200, China)

Abstract:Inspired by the rapid development of artificial intelligence, the intelligent inventory control and scheduling system is considered as an effective solution for the stability of the power system. This paper proposes an "end-to-end" reinforcement learning approach to jointly optimize inventory control and emergency power delivery strategies to balance maintenance costs and power system stability. The proposed algorithm is an "end-to-end" algorithm, which does not predict demand and directly makes inventory control and scheduling decisions. The proposed algorithm is the "online" algorithm, where inventory control and scheduling decisions rely only on observations of past events. The proposed algorithm is also a "model-free" algorithm, where the algorithm does not rely on any putative stochastic model of uncertain events. By using numerical simulations using real data, it is showed that the proposed "end-to-end" reinforcement algorithm achieves on average 138.5% higher performance than the representative benchmark algorithm.representative benchmark algorithm.

Key words:storage system; dispatching system; power system; intensive learning; artificial intelligence

0 引言

在當今龐大的電力系統下,穩定性是系統最基本的要求之一。電力的系統性穩定受到應急物資供應鏈應急響應,也就是應急物資的響應時間的影響[1-2]。不同位置的不同應急物資存在需求互補、相互扶持的特性,局部的需求可能波動較大,但是大范圍內的需求波動相對較小,因而統籌倉儲和共享補給的可調度性更強,能夠更好保持電力系統的穩定性。 區域聯合的電力系統倉儲控制與調度系統有助于實現對大區域電力系統倉儲系統的監視和控制,有助于電力系統調度部門從整體上調整調度的計劃,從而保證電能質量[3],減少備用容量[4],降低運行的成本,減輕自然災害、器件老化對電力系統造成的影響[5],從而保證電網經濟運行。電力系統倉儲系統的控制方法可以分為兩類。

(1)統計優化法[6-8]。根據統計規律,建模各種緊急需求的分布,通過中心化的數學建模,計算出統計上平均最優的倉儲分布。但該方法對于區域內所有的需求分布需要有完備的統計,同時每次發生狀態轉移,緊急事件,都需要重新計算最優分布,計算資源消耗大,響應較慢,具有一定的局限性。

(2)數據預測法[9-10]。基于每個區域內的數據分析和挖掘的思想,利用人工智能與機器學習方法,將每個區域的不同需求構建時間序列模型(sequence-to-sequence model),從而進行時間序列的預測;然后在預測的基礎上,中心化的對于倉儲系統和調度進行布局與優化。

數據預測法的先決條件是將自然時間轉換成數據,即特征提取和特征選取。傳統的特征選取通常基于特征排序法,根據計算出的各個特征的重要性與相關性,并取前k個特征作為需求預測的輸入。這種方法最大的缺點在于選取k個重要性與相關性最大的特征并不能很好的代表系統的全局信息,從而就不能為預測系統提供最豐富的信息。 同時,由于預測的結果并非最終的結果,根據預測結果我們將進行二次計算,得出調度與控制方案,多步驟的框架會使得錯誤累計,導致最終結果的偏差。 此外,由于區域與區域之間,存在需求的相關性以及互補性,僅僅考慮單一區域的歷史數據,往往很難準確預測未來需求[11],也無法利用區域之間的互補性[12]。

為了解決錯誤累加以及實現不同區域之間的聯動,本文提出了一種基于馬科夫決策過程和強化學習的電力系統倉儲系統控制與調度算法,并基于貴州省貴陽市附近的15個區(縣)2016年1月1日至2019年12月31日的應急物資需求數據,進行算法驗證。實驗表明,本文提出的算法不僅能提高電力系統的收益,同時具有很快的收斂率,能夠及時適應環境變化。

本文的主要貢獻有3點:①提出利用馬科夫隨機過程和強化學習求解電力系統應急物資的聯合倉儲控制和調度問題;②提出的算法為“端到端”算法,算法不預測需求,直接做出庫存控制和調度決策;所提出的算法是“在線”算法,即庫存控制和調度決策僅依賴于對過去事件的觀察;所提出的算法也是“無模型”算法,不依賴于任何假定的不確定事件隨機模型;③利用貴州省貴陽市的真實數據,很好的驗證了提出算法的收益率和收斂性,證明了本文提出算法的可用性與實踐價值。

1 應急物資倉儲系統建模

1.1 問題說明與建模

基于需求特性的庫存控制模型主要包括確定性和隨機性兩個方面的需求。其中,確定性需求通常包括常數需求和時變需求等,如日常物資、應急物資等,生產單一物品,需求量為常數且連續均勻;不允許缺貨(缺貨成本為無窮大);生產需要一定時間,全部生產完畢一次交付等等。隨機性需求涵蓋的更多,通常有線性分布、正態分布、泊松分布和指數分布以及任意分布等,達到網上商城零倉儲、應急物資少倉儲和重大災害協同倉儲的目標[13-14]。

因此本文提出了如圖1所示的應急物資倉儲系統。在時間范圍t∈T內, 倉儲系統包含地區倉庫(i =1, …, n)、緊急需求物資(j =1, …, m),以及每個地區對于不同急需物資的需求(Ot = Q∈Rn×m)。其中,Qi,j表示當前時刻地區中物資的需求量。一般而言,地區倉儲倉庫存在容量上限ui; 購買物品會花費金額cj,占據容量lj,當本地倉儲無法滿足需求,可以調度和無法調度時,會分別損失收益pj和。

在每個時刻t,根據當前的物資需求,倉儲系統都需要決定該時刻內的調度方案以及是否購買新物資進行倉儲。該決策將會影響每個倉庫的倉儲情況,進而影響未來的調度和購買決策。因此,最優化調度決策可視為一個馬可夫決策過程 (Markov Decision Process, MDP)。本文首先定義了倉儲MDP問題中的狀態(State)、決策(Action)和獎勵函數(Reward Function)。

(1)狀態:當前時刻的狀態可以描述為每個倉庫所儲存的物資St = Z∈Rn×m。其中,Zi, j表示當前時刻倉庫i中物資? j 的數量。

(2)決策:根據當前狀態St∈Rn×m和需求Q∈Rn×m,倉儲系統決定該時刻的調度方案X和采購方案B。其中,Xi,j和Bi,j分別表示當前時刻倉庫 i 中物資 j 的出庫數量和購買數量。

(3)狀態轉移方程:當倉儲系統決定調度和采購方案之后,在下一時刻,倉儲狀態隨機發生狀態轉移。數學上,表示為:

由于倉儲物資無法為負數,同時倉儲空間總是有限的,因此有效決策(X, B)必須滿足以下不等式:

(4)獎勵函數:倉儲系統主要目標為滿足地區內和地區間的緊急物資需求問題,因此獎勵函數為當前時刻的損失收益減去購買物資花費:

其中,符號(x)-為:

因此,在時刻t,倉儲系統將試圖求解以下MDP問題,來獲得最優的調度策略和采購存儲方案:

其中γ∈[0, 1)為衰減因子(Discount Factor)。

1.2 馬科夫隨機過程分析與建模

如果物資需求Ot的分布確定,以上問題可以用基于蒙特卡洛抽樣方法(Monte Carlo Sampling Techniques Methods)的抽樣平均近似方法(Sample Average Approximation) 等經典方法解決。然而在實際生產生活中,需求Ot的分布在實際問題中通常難以確定,我們將上述貝爾曼公示 (Bellman Equation) 轉換成數據驅動在線更新的形式(為時刻t的學習率):

然后,我們可以采用基于強化學習的算法,求解上述問題。特別地,為了在探索與開發之間取得平衡,我們采取ε貪婪策略,即充電站在1-ε的概率下采取當前最佳動作將V(St)最大化;在ε的概率下,隨機選擇動作。如式(7)所示:

1.3 算法實現

具體地,為了解決上述問題,本文提出了倉儲系統智能決策強化學習算法,如圖2所示。

其中w和Vw(S)分別為強化學習的參數和當前參數下強化學習擬合的狀態方程。不失一般性,文章將αt設為式(8)以此來保證所提出的算法的收斂性[15]。

本文在下一實驗中驗證了該算法的收斂性。

2 實驗結果

本文將所提出的倉儲系統智能決策強化學習算法運用到實際數據中,并對所提出的算法進行效果驗證。不失一般性的,在所有的實驗中我們設定γ=0.95和默認倉庫儲存上限為10;所有展示的數值均為100次實驗的平均值;所有的實驗均實現于搭載Intel Xeon E5-2630 CPU,NVidia GTX 1080 GPU和64GB內存的主機上,具有較強的普適性和實用價值。

2.1 數據說明

為了驗證所提出算法的實用性,本文收集了貴州省貴陽市管轄或者周邊的15個地區:白云、城北、花溪、惠水、金陽、開陽、龍里、南明、清鎮、雙龍、烏當、息烽、小河、修文、云巖的應急物資需求,貴陽市周圍的區縣區域分布如圖3所示,數據時間段為2016年1月至2019年12月。

2.2 收斂性

本文首先對算法的收斂性進行了驗證,以展示所提出的倉儲系統智能決策強化學習算法的平均收益隨迭代周期(epoch)的變化。如圖4所示,在前25個迭代周期中,平均收益快速的增長并收斂到了一個穩定值;同時,在第26至200個迭代周期中,平均收益穩定在固定的區間并隨著環境的變化稍小震蕩。這表明了所提出的倉儲系統智能決策強化學習算法能快速的學習物資需求和倉儲系統之間的關系,實現倉儲消耗和需求滿足之間的平衡。

2.3 收益對比

目前貪婪算法(Greedy Policy)是業界常見的仿真基準(Benchmark)[16]。在貪婪算法中,倉儲系統的采購和調度決策都基于假設未來短時間內無新的緊急需求。因此,采購和調度的決策變成了確定性最優化(Deterministic Optimization)問題求解。本文對比了所提出的倉儲系統智能決策強化學習算法和貪婪策略在不同倉儲容量下的收益情況,如圖5所示,其中平均收益為30 d內的平均值。

由圖5可知,不管是貪婪策略還是本文提出的倉儲系統智能決策強化學習算法,平均收益均會隨著倉儲容量的增加而增加。同時,倉儲系統智能決策強化學習算法對比貪婪策略的增益也會隨著倉儲容量的增加而增加,這表明所提出的算法是可縮放的。

此外,本文還展示對比所提出的倉儲系統智能決策強化學習算法在不同倉儲容量下和不同衰減因子下的收益情況。圖6中所展示的數據是100次隨機初始狀態下的平均收益。對于所有不同的衰減系數, 所有收益均隨著倉儲容量的增加而增加。同時,越大的衰減系數會導致越高的平均收益,這是因為當衰減系數越大時,算法的全局視野更寬,能夠更好的平衡當前的收益和未來的收益。

2.4 可伸縮性

本文進一步展示了所提出的倉儲系統智能決策強化學習算法運算時間隨著倉庫倉儲容量變化而發生的變化。

表1中所展示的數據是100次隨機初始狀態下的平均單次決策運算時間。對于不同的衰減系數,所有運算時間都隨著倉儲容量的增加而增加,但是增加的速度卻越來越慢,這是因為隨著倉儲容量的增加,系統的決策空間幾何的增長了,但是本算法的運算只有在局部發生了增加,這證明了本文所提出的算法是具有可伸縮性的,可以適用于不同場景大小下的電力系統倉儲調度。同時,計算時間隨著衰減系數的減少而輕微的減少,這是因為隨著目標更著眼于當前,算法能更快的收斂,減少探索的過程,提高運算的效率。

因此如表1所示,本文提出的算法是節省計算資源、具有可伸縮性的高效算法,可以適應海量的電力系統倉儲調度需求。

3 結語

本文提出了無模型假設數據驅動的倉儲系統智能決策強化學習算法來解決電力系統緊急物資倉儲控制與調度問題。所提出的算法平衡了采購物資的費用和緊急需求滿足之間的平衡,最大化了電力系統倉儲系統的收益。由于不需要對緊急物資的需求分布進行假設和建模,本文提出的算法是無模型假設的一般性算法,可以遷移至不同城市不同大小的倉儲系統。 特別地,本文將倉儲系統調度問題建模為馬科夫隨機過程(MDP)問題,并通過提出基于強化學習算法(Q-learning based method)進行求解。通過基于實際電力系統數據下的多重實驗,驗證了所提出的強化學習算法不僅具有良好的收益表現,相比基本的貪婪算法有超過138.5%的收益,而且收斂率快,可以隨時應對需求的變化。

參考文獻

[1]GOUVEIA J,MOREIRA C L,LOPES J A P. Grid-forming inverters sizing in islanded power systems a stability perspective[C]. International Conference on Smart Energy Systems and Technologies(SEST),2019:1-6.

[2]BI Jingtian,SUN Huadong ,XU Shiyun,et al. Impact of multiple identical grid-connected DFIGs on the small-signal angular stability of power system[C]. Chinese Control Conference(CCC),2019.

[3]TESHAGER B G,MINXIAO H,PATROBERS S,et al. Direct power control strategy based variable speed pumped storage system for the reduction of the wind power fluctuation impact on the grid stability[C]. 2018 IEEE 12th International Conference on Compatibility, Power Electronics and Power Engineering (CPE-POWERENG 2018),2018:1-6.

[4]HUANG Y,WU H,WEI R,et al. Research on multi-objective power emergency supplies dispatch model considering material and time satisfaction[C]. China International Conference on Electricity Distribution (CICED),2018:901-905.

[5]H RUI,G ZHAOLI,X MINGKAI,et al. Research on fault emergency strategy for substation DC system[C]. International Conference on Advanced Mechatronic Systems(ICAMechS),2018:27-30.

[6]J ZHANG,F JIANG,Y ZHAO,et al. An improved hierarchical and decentralized control strategy for emergency power supply during disaster[C]. International Conference on Power System Technology(POWERCON),2018:3 485-3 490.

[7]CHEN DA-HENG HU GONG A. Schedule on the relief supplies with transportation models in emergency logistics[C]. 35th Chinese Control Conference(CCC),2016.

[8]H WU,? J LIU .A Multi-agent genetic algorithm based on natural coding for emergency resources scheduling problems[C]. IEEE Congress on Evolutionary Computation (CEC),2016:2706-2711.

[9]SHI Xiaofeng,WANG Minzhen,WU Zhiwei,et al. Optimization research on vehicle scheduling path for emergency repairs of power transmission lines[C]. Proceedings of 2019 International Conference on Intelligent Transportation,Big Data & Smart City(ICITBS 2019),2019.

[10]TANG Weiqin,LIU Tenghong,ZHANG Min,et al. Scheduling of commodities from multirescuing points to multi-demand points in large-scale emergencies[C]. Proceedings of 2010 IEEE International Conference on Emergency Management and Management Sciences(ICEMMS2010),2010.

[11]C CHUN-GUANG,C DONGWEN,W LI-JIE,et al. Study on multi-destination emergency scheduling model under dynamic continuous consumption[C]. International Conference on Logistics Systems and Intelligent Management(ICLSIM),2010.

[12]MIZUNO Y,TANAKA Y, KUROKAWA F, et al. A new approach of optimum energy scheduling of emergency generators using linear programing in a large hospital[C]. IEEE International Conference on Renewable Energy Research and Applications(ICRERA),2016.

[13]XIONG Yan,ZHENG Liqun,WANG Jie. Scheduling model for the satisfaction of emergency material on huband-spoke network [C]. The 27th Chinese Control and Decision Conference (2015 CCDC),2015.

[14]LIU Tongjuan, DUAN Yanlin. Application of cloud computing in the emergency scheduling architecture of the Internet of Things[C]. Proceedings of 2015 IEEE 6th International Conference on Software Engineering and Service Science(ICSESS 2015),2015.

[15]LUCIAN BUSONIU,ROBERT BABUSKA,Bart De Schutter,et al. Reinforcement learning and dynamic programming using function approximators[M]. CRC press,2010.

[16]S.WANG,S.BI,Y. J. Angela Zhang, “Reinforcement Learning for Real-time Pricing and Scheduling Control in EV Charging Stations,”in IEEE Transactions on Industrial Informatics, 2019.

猜你喜歡
電力系統人工智能
我校新增“人工智能”本科專業
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
試論電力繼電保護運行及可靠性問題
信息時代的電力系統信息化經驗談
探討電力系統中配網自動化技術
科技視界(2016年21期)2016-10-17 20:00:58
配網自動化技術的應用探討
科技視界(2016年21期)2016-10-17 19:54:47
電力系統繼電保護技術常見問題及對策
電力系統的繼電保護與安全自動控制
主站蜘蛛池模板: 啪啪免费视频一区二区| 欧美伦理一区| 九色在线视频导航91| 国产H片无码不卡在线视频| 国产丝袜无码一区二区视频| 亚洲视频免| 国产成人AV综合久久| 亚洲第一在线播放| 亚洲综合片| 在线免费亚洲无码视频| 国产91av在线| 亚洲第一av网站| 狠狠色婷婷丁香综合久久韩国| 国产一级毛片网站| 在线视频精品一区| 萌白酱国产一区二区| 国产一级无码不卡视频| v天堂中文在线| 免费一级无码在线网站| 黄色网站在线观看无码| 亚洲精品日产精品乱码不卡| 亚洲av无码人妻| 91亚洲精品第一| 91精品久久久久久无码人妻| 伊人久久综在合线亚洲91| 无码粉嫩虎白一线天在线观看| 欧美区在线播放| 亚洲精品视频免费| 99福利视频导航| 在线观看亚洲精品福利片| 亚洲无码不卡网| 欧美一区精品| 国产男人天堂| 三上悠亚一区二区| 国产三级a| 97久久超碰极品视觉盛宴| 99精品久久精品| 亚洲欧洲日本在线| 亚洲h视频在线| 国模在线视频一区二区三区| 波多野结衣一区二区三区AV| 婷婷午夜影院| 亚洲日韩日本中文在线| www.亚洲国产| 色网站免费在线观看| 国产色网站| 亚洲欧洲免费视频| 久久精品视频亚洲| 国产欧美日韩视频怡春院| 亚洲成人手机在线| 亚洲天天更新| 嫩草国产在线| 亚洲A∨无码精品午夜在线观看| 1769国产精品视频免费观看| 一级福利视频| 精品无码一区二区三区在线视频| 亚洲综合中文字幕国产精品欧美| 国产熟女一级毛片| 99爱在线| 日韩无码黄色| 国产精品亚洲天堂| 二级毛片免费观看全程| 日韩av资源在线| 视频在线观看一区二区| 国产三级韩国三级理| 亚洲欧美在线综合一区二区三区| 国产精品福利导航| 亚洲黄色视频在线观看一区| 国产福利免费视频| 亚洲嫩模喷白浆| 成人免费网站久久久| 97国产在线观看| 久久人体视频| 综合成人国产| 欧美成人综合视频| 91年精品国产福利线观看久久| 97成人在线观看| 成人国产精品网站在线看| 无码视频国产精品一区二区| 性喷潮久久久久久久久| 亚洲国产亚洲综合在线尤物| 一级毛片免费观看不卡视频|