李敬航 林澤宏 張鑫



摘要:隨著我國科技、經濟的快速發展,人們對電量的需求日益遞增。當前,智能化體系不斷完善,智能化的配網自動化系統將成為未來的主要研究方向。論文中主要解決自動配網系統中的配網參數設置問題。具體地,論文基于強化學習框架提出了一種配網參數優化的方法,該方法能夠在盡可能少的人為干預下實現配網自動化,從而高效的解決傳統配網問題。該智能體以最大化配網系統的供電質量為目標,利用配網系統正常供電的時長作為獎賞值,通過使用強化學習算法促使智能體不斷學習,最終智能體能夠為配網系統選擇出一系列高質量的配網參數,從而實現高效、可靠的配網系統。
Abstract: With the rapid development of technology and economy, people's demand for electricity is increasing day by day. This paper mainly solves the problem of setting the distribution parameters in the automatic distribution system. Specifically, this paper proposes a distribution network parameter optimization method based on reinforcement learning framework, which can automate the distribution network with as little human intervention as possible, thereby efficiently solving the traditional distribution network problem. The agent aims to maximize the power supply quality of the distribution system, and uses the reinforcement learning algorithm to promote the agent to learn continuously, and finally the agent can select a series of high-quality distribution network parameters, thus achieving an efficient and reliable distribution network system.
關鍵詞:智能化;配網自動化;強化學習
Key words: intelligent;automatic distribution network;reinforcement learning
中圖分類號:O224? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)21-0226-05
0? 引言
在國家電網中,配網自動化技術是衡量現代電力技術的重要指標,該技術通過結合計算機科學技術、電氣技術和網絡技術來設置電網參數、動態監測電網狀態以及實現電網的高可靠性。配網自動化有利于減少電網系統成本,同時也提高電網各個評價指標。配網自動化能夠根據電網的實際運行情況,及時的進行電網調配,并能夠有效的處理突發情況,保證電網的可靠性。
傳統的配網自動化仍面臨一些挑戰,主要包括:①在自動化配網系統運行過程中,仍需大量的人為干預;②在自動化配網系統運行過程中,需要進行配網參數設置,這需要電力人員需要大量的經驗積累;③對于不同的電力環境和地理環境,需要設計一個適合實際情況的電力拓撲網絡[1]。為了解決上述問題,通過結合人工智能使得配網自動化系統更高效、更安全、更實用是有意義的,是當前智能電網的趨勢,能夠對配網系統甚至電網系統起到了十分重要的作用。在人工智能時代的背景下,有效的結合智能算法是提高配網自動化系統的一個可行的方案。
在本文中,我們通過使用強化學習中策略梯度方法對自動化配網系統中的參數進行優化,從而提高整個配網自動化系統以及整個電網系統的性能。以下將從相關工作、方法提出、未來展望和總結四部分進行詳細描述。
1? 相關工作
1.1 配網自動化
先前已有配網自動化與機器學習的結合案例。針對配網系統的自動化檢修問題,基于機器學習檢修方法主要包含節點聚集環節、自適應連接環節和調試監測環節[2]。在進行自動檢測的過程中,首先需要確定檢測手段,并根據配網系統類型來確定聚類方式,然后對自動化配網設備進行自動連接及調試監測操作,從而根據實際情況實現自動化配網設備狀態的自適應調試。在此基礎上,我們需要完成這種新的調修方式的構造,首先需要匹配檢修語義,并及時完善已生成的條目文件,最終完成搭建。在此之前,我國也有很多技術方法來研究配網設備自動檢修方法,但是先前相關工作的主要關注點在于:基于配網設備通訊手段的檢測分析,合理選擇狀態檢修并形成最終匯總數據, 再利用重要性決策的方法理論,對匯總數據進行精準的風險控制與評價。該工作主要關注配網設備的檢修和處理過程,雖然上述工作能夠通過多次重要性指標加權的方式得到相對精準的調試和檢修結果,但多次重要性指標加權的操作需要對數據進行集中處理的操作,也容易導致最終決策結果產生誤差,從而容易誘發自動化配網設備在實際情況下得不到充分滿足的問題。
1.2 強化學習
強化學習(Reinforcement Learning,RL)[3]是在解決決策問題方面具有很大的潛力,其通過構建智能體來代替人類進行決策,從而完成決策自動化。其基本原理是:為了代替人類進行決策,需要構建智能體(Agent);智能體會根據當前環境的狀態進行決策,即輸出動作(action);通過將動作作用于環境中,從而得到環境的反饋,即獎賞值(reward);通過最大化累積獎賞值來達到目標,并經過不斷迭代從而學習到最優的策略(policy),該策略能夠根據環境狀態輸出最大化獎賞值的動作(action)。通常地,當一個實際問題能夠用強化學習方法解決時,我們往往可以將該過程模擬成一個馬爾可夫決策過程,由一個四元組(S (state),A(action),P,R(reward))組成,其中:
①S(state)表示一個有限的狀態集,其包括環境中可能出現的所有狀態。St表示t時刻環境所處的狀態;
②A(action)表示一個有限的動作集,其包括智能體根據環境狀態可能采取的所有動作。At表示在t時刻智能體根據當前環境狀態所采取的動作;
強化學習是一種策略學習方法,能夠學習到從環境狀態映射到動作的最優策略。強化學習與傳統的機器學習方法有所不同,強化學習主要通過利用環境的反饋值進行迭代學習,該反饋值是對智能體所產生的動作的一種評價。如果智能體針對當前環境的狀態做出的動作獲得較高的獎賞值,那么以此計算的損失函數則會重點關注該動作區域,主要體現在梯度下降時的參數更新;相反,如果智能體做出的動作效果不夠好,則降低對該動作區域的關注。通過上述的迭代學習方式,智能體不斷改進行動策略從而找到適合當前環境的最優策略。
1.3 深度強化學習
隨著深度學習的發展,深度學習中的神經網絡的應用也越來越廣泛。并且隨著神經網絡的種類越來越豐富,其對復雜任務的抽象能力也越來越強大。1.2節中所描述的強化學習雖然對決策問題具有很大潛力,但當問題的復雜度逐漸增加時,單純的強化學習往往不能達到預期的效果。近期,谷歌大腦團隊將具有抽象和表達能力的深度學習方法和具有決策能力的強化學習相結合,形成了深度強化學習方法[4],高效地突破了諸如自動駕駛、與人類進行圍棋比賽等高難度復雜問題,并且利用該方法在一些領域的效果超越人類。通過這種方式,將深度學習中的神經網絡與強化學習方法結合,這使得強化學習方法能夠具有更加深層次的抽象能力,從而提高策略能力。具體的,強化學習中的智能體由深度神經網絡構成,輸入為當前時刻環境的狀態,也就是當前時刻從環境中獲得的感知信息,輸出則為當前時刻智能體根據狀態做出的決策或者動作。在智能體與環境交互的每一個時刻,利用神經網絡構建的智能體能夠獲得復雜環境的潛在信息表征;接下來評估各種可能動作的價值函數,輸出當前最優動作;環境對該動作做出反饋,輸入到智能體。通過不斷迭代訓練,最終智能體能夠以較高的概率選擇獎賞值高的動作。該方法的優勢在于,其不需要過多的人工干預,因此具有很好的實用性,并且也能大大減少資源耗費。目前,深度強化學習在對抗游戲、推薦和自動駕駛等新型領域得到廣泛結合。
2? 基于深度強化學習的配網參數優化方法
在本章節中,我們將首先描述如何利用長短時記憶神經網絡構造Agent以自動優化配網參數;接著描述智能體的工作流程和如何使用策略梯度算法訓練智能體,并以最大化智能體選擇的配網參數組合所對應的配網環境的正常運行時長作為目標。
2.1 Agent內部網絡結構
由于配網系統中的參數較多,如果直接優化整個參數空間,則會極大的降低整個配網系統的效率。在本文中,我們將自動化配網系統參數優化問題可看作一個序列決策問題,也就是將整個參數優化問題拆分成多個小的優化問題,每一時刻只針對某個配網參數的取值做出決策,整個配網系統的參數需按時間步逐個輸出。為了考慮配網參數之間的相互關聯和相互影響,我們使用一個變長的字符串來表示整個配網參數組合,通過這樣的轉變使得我們能夠利用神經網絡構造的智能體來生成對應的字符串,通過對字符串進行解析能夠獲得配網系統的實際參數值。由于LSTM網絡對于解決時序問題具有很大的潛力,因此我們使用LSTM神經網絡作為智能體的核心結構,具體優化過程如圖1所示。Agent以概率P為算法模型選擇一組配網參數a1:T(T為算法模型中需要優化的配網參數的總數);然后運行Agent選擇的配網參數組合a1:T所對應的配網自動化系統,以該系統的正常運行時長作為獎賞值,利用策略梯度算法[5]來更新智能體的內部參數。通過這樣的不斷迭代,最終會得到一個較好的決策策略,主要體現在智能體會逐漸選擇獎賞值較高的自動化配網參數組合。接下來我們以6個配網參數的配網系統為例,描述如何構建agent的模型結構。
對于配網系統中的配網參數,都會直接影響自動化配網系統的性能。我們利用長短時記憶神經網絡(LSTM)[6]構造一個Agent來自動選擇配網參數組合。該Agent的網絡結構如圖2所示,智能體按時間步展開6次,智能體的結構共享,整體顯示一個流型結構。其內部結構包括一個輸入全連接層、LSTM網絡和一個輸出全連接層。通過一個輸入全連接層能夠將輸入統一維度且進行更深層次的特征提取。中間的LSTM網絡作為智能體的核心結構,在一定程度上能夠觀察各個配網參數的內部聯系。該核心結構由三層LSTM網絡組成,每一層包含30個神經元節點。最后通過一個輸出全連接層輸出對應的配網參數值。
由于我們將參數選擇看作一個序列決策過程,所以智能體在每一個時刻只輸出對應的配網參數值。當完成所有時間步后,也就是選擇完所有配網參數值后,Agent輸出停止。Agent在t=1時刻的輸入為全1向量(該向量的元素的值全為1),智能體在其他時刻輸出對應配網參數的預選值的選擇概率,該選擇概率的值域為[0,1];智能體輸出的動作的概率值越大,選中該動作預選值概率越高;否則相反。智能體通過不斷迭代,能夠根據輸出的概率值進行最優的選擇,即獲得該配網參數的實際取值。同時,為了讓所有的待優化的配網參數保持前后聯系,我們把當前時刻所選擇值的索引位置作為下一時刻的狀態,即下一時刻智能體的輸入數據。
具體地,如在t=1時刻,Agent輸出配網參數1的預選值的選擇概率后,通過在概率中進行采樣選擇出配網參數1;然后,我們將智能體所選擇的配網參數值的索引位置作為下一時刻智能體的輸入數據;以此類推,智能體將按時間步迭代n次(n表示待優化的配網參數個數)。當智能體按上述步驟選擇了所有配網參數后,就形成了一個自動化配網系統參數組合。重要的,我們以自動化配網系統的運行質量作為優化目標,所以將配網系統正常運行的時長作為智能體的在當前時刻的獎賞值,并以此計算損失函數。通過使用梯度下降來更新智能體的內部參數。經過多次迭代,Agent通過獎賞值修正自身權重,Agent能夠選擇出更優的配網參數組合,使得不斷提升配網系統的正常運行時長。值得注意的是,雖然Agent輸入的配網參數是串行關系,但是配網參數輸入順序不會影響到最終實驗結果。這是由于LSTM網絡結構內部能夠逐漸適應配網參數順序不一帶來的影響,并且強化學習算法也能夠在參數空間充分采樣,漸弱參數依賴性對最終結果的影響。
2.2 Agent工作流程
在本節中,我們將具體描述Agent智能體如何進行自動化配網系統的參數優化,主要分為以下4個步驟:
①通過輸入層將狀態輸入到智能體,并通過Agent智能體中的全連接層,對智能體的輸入進行低層次的抽象處理并統一其維度,其重要運算為:
其中,softmax函數中的exp(x)表示對x進行指數操作;N表示x中總共包含的元素值個數,即待優化的配網參數個數;Pt表示自動化配網系統參數在t時刻的候選值的概率值,其大小為[0,1];inputt+1表示智能體在t+1時刻的輸入信息;onehot(x)表示對x進行onehot編碼,該函數的輸出維度與x的維度相同,并且其輸出只包含0和1,1的位置為x中最大元素的位置,其余維度的值為0。
通過以上步驟,Agent智能體能夠按時間步來選擇出整個配網參數組合。接下來,我們將選擇強化學習方法,并使用該配網參數的正常運行時長作為獎賞值,以此來計算損失函數,最終通過梯度下降方法來更新智能體的內部參數。
2.3 Agent訓練流程
策略梯度方法是一種基于策略的強化學習方法,相比于基于值的強化學習方法,策略梯度能夠更加直接的獲得動作決策策略。該方法通過計算動作的概率與期望總獎賞的乘積對智能體內部參數的梯度來更新智能體的內部參數,通過不斷迭代,智能體能夠選擇出一個較好的配網參數組合。策略梯度在解決強化學習任務時具有高效率、適應性強的優勢。除此之外,它能夠避免了值估計的過程,直接優化策略已到達較高的期望獎賞值。在實際使用時,在更多的領域使用策略梯度方法,并且它的最終效果也更加明顯。因此,在本文中,我們采用策略梯度方法來計算損失函數,并以此來更新智能體的內部參數。
其中, T為自動化配網系統的待優化參數個數,也就是智能體所需展開的時間步數;Rk為自動化配網系統結合第k個樣本,所得到的正常運行時長;b(baseline)表示基線,這里我們使用獎賞值的指數滑動平均值作為基線值。
3? 未來展望
在本文中,我們提出了一種基于強化學習的配網參數優化的方法。在該方法中,我們以自動配網系統的正常運行時長作為獎勵值來更新agent的內部參數。在未來工作中,我們將繼續深入研究該領域,主要改進方向有以下幾點:①我們將組合自動化配網系統中的其他評估指標來作為獎勵值,并進行多目標優化,從而達到綜合性能更好的自動化配網系統;②在基礎架構中,我們發現配網參數的評估十分耗時,我們將通過添加預測模型來進行性能預測,從而提高優化方法的時間效率;③我們將從配網參數的優化逐漸擴展到電網拓撲結構的優化,從而實現電網的全面優化。
4? 總結
本文中,我們針對自動化配網系統中配網參數優化的問題,將強化學習框架擴展到自動化配網系統的參數優化問題,并提出了一種新的自動化參數優化方法。該方法使用LSTM網絡作為agent的核心網絡結構,并以順序選擇的方式逐次選擇出各個配網參數。在獲得整個配網參數后,我們使用自動化配網系統的正常運行時長作為獎勵值,并以此來更新agent的內部參數。經過不斷迭代,智能體能夠更加準確的選擇出性能更好的配網參數組合,從而提高自動化配網系統的整體可靠性,使得優化方法在優化結果和優化效率上都具有一定的競爭力。
參考文獻:
[1]盛德剛.基于配網自動化的電力系統研究[J].水利電力,2019,10.
[2]李互剛.基于機器學習的配網設備狀態自動檢修方法研究 [J].自動化與儀器儀表,2019,10.
[3]Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction [J]. The MIT Press.
[4]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning [J]. Nature, 2015, 518(7540): 529-533.
[5]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning [J]. Machine Learning, 1992, 8(3-4):229-256.
[6]Sepp Hochreiter and Jurgen Schmidhuber. Long Short-Term Memory [J]. Neural Computation, 1997, 9(8):1735-1780.
[7]Kingma D P and Ba J. Adam: A Method for Stochastic Optimization [J]. Computer Science, 2014.