基于深度強化學習的輸電網網架規劃方法

2021-07-09 09:31:58劉帥孔亮劉自發李玉文陳逸軒

電力建設 2021年7期

劉帥，孔亮，劉自發，李玉文，陳逸軒

(1. 國網山東省電力公司威海供電公司，山東省威海市 264200；2.華北電力大學電氣與電子工程學院，北京市 102206)

0 引言

輸電網規劃包括對輸電網網架結構和輸電線路容量進行規劃，目的是達到相應時期輸電能力要求，同時滿足可靠性指標和經濟性優化，是電力系統規劃的重要組成部分，也是保障電力系統健康發展的重要工作。在高比例可再生能源并網與智能電網快速發展的背景下，電力系統不確定性進一步增加[1]，不確定性問題給輸電網規劃帶來重大挑戰，傳統的規劃方法已經無法適用新形態下的輸電網規劃，需要更加完善的規劃方法來滿足電力系統發展的需求。

輸電網規劃的傳統確定性方法存在一定的弊端，如無法處理規劃中的不確定因素、靈活性差、與其他方法配合較差等。考慮到電力系統對靈活性和適應性的更高要求，就必須要研究新的輸電網規劃方法。電網柔性規劃將不確定因素引入規劃模型和過程中，以尋求靈活性更強、適應性更好的規劃方案。電網柔性規劃的研究成果包括基于多場景技術的電網規劃模型和基于不確定理論的電網規劃模型。

文獻[2]基于未來場景的不確定性，從場景的發生概率出發，提出了造價期望最優模型和各場景最優方案綜合偏離程度最小模型。文獻[3]以場景分析和概率計算的方式描述不確定性因素，快速準確地得到基于決策者偏好的輸電網柔性規劃方案。文獻[4]采用多場景概率法分析不確定性數據并劃分出多種場景，計算場景概率并得到輸電網擴展規劃模型。文獻[5]采用多場景方法處理未來電網規劃中的不確定性因素，以各場景下最優方案的最小期望投資悔值為目標函數并進行求解。

基于多場景技術的電網規劃模型研究了不確定規劃問題的普遍解決方案，即將不確定因素轉化為多個確定性場景，計算較為簡單。但該方法也存在一定弊端。其中，基于場景發生概率的規劃方法沒有考慮場景中各種因素的關聯性，增加了場景數和計算量；基于決策偏好的場景技術憑決策者的喜好處理規劃問題，主觀色彩較強，不利于實際應用；基于最小期望悔值的規劃方法以犧牲經濟性來提高規劃方案的適應性和魯棒性，電網規劃的結果可能產生大量的冗余線路。

為獲得更為安全、經濟的輸電網規劃方案，學者們將概率論、模糊集理論、可信性理論、區間理論等不確定理論引入輸電網規劃中，提出了考慮各類不確定因素的輸電網規劃模型。

文獻[6]提出了區間負荷下的輸電網規劃模型，并基于改進的分支定界法給出了區間至多切負荷量的快速評估方法。文獻[7]對灰信息進行確定化處理并求解若干個確定性信息下的規劃模型，得到灰數模型下的最優規劃方案。文獻[8]采用基于聯系數的輸電網規劃模型，根據聯系數四則運算得到考慮聯系數的直流潮流以獲得最優輸電網規劃方案。

綜上所述，雖然基于不確定理論的輸電網規劃方法已有大量成果，但仍存在一些問題：現有規劃方法大多是建立在某一斷面的基礎上，在多場景情況下存在靈活性、適應性不足的問題；規劃模型中較少考慮不確定因素的相互耦合關系。

深度強化學習屬于機器學習的一種，能夠自行與環境交互產生樣本，并用以對自身的網絡結構進行訓練。該方法目前在多個領域有所應用，一些學者也已經將深度強化學習應用于電力系統問題研究中。文獻[9]應用深度策略梯度模型進行建筑能量管理調度優化，該方法比常規方法能更有效地節省成本；文獻[10]應用深度強化學習優化微電網儲能調度。然而，目前深度學習在電力系統中的應用僅限于調度問題，并不包括電力系統規劃問題。

本文首先提出基于信息熵的典型場景提取方法(typical scenario set with entropy，TSSE)，引入場景信息熵的概念進行典型場景提取。得到多場景集合后，再將提取到的場景輸入規劃模型，得到基于多場景的輸電網靈活規劃模型。接著采用深度強化學習的方法，提出一種適用于輸電網規劃的改進指針網絡模型(revised pointer network，RPN)，并進一步使用深度強化學習中的Actor-Critic方法對網絡進行訓練。應用改進指針網絡與Actor-Critic結合的方法(revised pointer network with Actor-Critic, RPNAC)對電力系統規劃問題進行求解，以解決傳統輸電網規劃方法靈活性、適應性較差及運算效率較低的問題。

1 基于多場景的輸電網靈活規劃模型

首先提出基于信息熵的典型場景提取方法，引入場景信息熵的概念，提取生成包含風電、光伏、負荷的多種典型場景。得到多場景集合后，再將提取到的場景輸入規劃模型，最后得到基于多場景的輸電網靈活規劃模型。本文主要應用文獻[11]提出的輸電網柔性約束規劃模型，在此基礎上實現基于多場景的輸電網靈活規劃。

1.1 不確定性因素的定量分析

場景法主要用于對電力系統內的不確定性因素進行定量分析。通過將不確定性因素的概率分布轉化成帶權典型值組合，并對結果進行加權求和，即可得到不確定性因素的評價結果，進而生成典型場景。

因此，得到不確定性因素的概率分布是場景提取的首要前提。分布式電源具有高度隨機性與波動性，另外受用戶側需求的影響，負荷結構、功率不斷發生變化。因此，本文考慮的不確定性因素主要有風力發電、光伏發電以及負荷功率。

對于風力發電，采用雙參數Weibull概率分布模型進行模擬[12]；對于光伏發電，采用Beta分布進行模擬；對于負荷功率則采用正態分布進行模擬。

1.2 基于信息熵的多場景提取方法

信息熵的概念來源于熱力學，用以度量對象的不確定性[13]。熵的大小表征著信息含量的多少，熵值較大說明信息含量較大，熵值較小說明信息含量較小。信息熵理論已經在很多領域有所應用，包括迭代二叉樹三代(iterative dichotomiser 3, ID3)類決策樹。ID3類決策樹模型采用最大化信息熵變化量為評判依據，選取盡可能將樣本分為完全不同的兩類節點進行節點分割。

本文采取類似的思路進行典型場景提取，通過最大化場景信息熵變化量進行場景分類，再用遞歸方式將原始場景分為多個子類，對熵值較大的場景區段分配更多場景數目，對熵值較小的場景區段分配較少場景數目。取每個子類的平均值作為該類的典型場景，所有子類的場景集合即為所提取的典型場景集。該方法能在對電力系統運行場景有較好的表征能力的基礎上增加典型場景多樣性，提升規劃方案對不同場景的適應性。

首先，輸入待分場景功率分布密度函數作為初始根節點，并計算初始根節點信息熵，即：

(1)

式中：H(v0)為初始根節點信息熵；v0為初始根節點；x為功率；p(x)為x對應的概率密度；xmax為功率最大值。

接下來選取初始根節點的分割位置。對于某一分割位置，其分割后的信息熵為分割后形成的兩個新節點的信息熵之和：

H(v0,x0)=H(v′0)+H(v″0)

(2)

(3)

(4)

式中：x0為任一分割位置；H(v0,x0)為初始根節點分割后的信息熵；H(v′0)為分割后形成的左子節點；H(v″0)為分割后形成的右子節點；p′(x)為左子節點的概率密度函數；p″(x)為右子節點的概率密度函數。

節點分割的選取原則是信息熵減小量最大化，即：

ΔH=H(v0)-H(v0,x0)

(5)

式中：ΔH為節點分割后信息熵的減小量。能夠使得式(5)最大化的分割位置即為當前節點的最優分割位置。

節點分割之后，父節點所有可能的功率值也會被分成2份，因此在某一子節點中，便不會再出現另一子節點的功率值。每個節點保留的可能功率值的相應概率會增加，功率概率密度函數也會發生變化。

對初始節點分割完成并形成兩個子節點后，需要對產生的新子節點進行校驗，判斷節點信息熵是否小于臨界值εH。小于臨界值εH的子節點信息熵較小，稱為“葉節點”。信息熵較小代表節點內功率分布較為一致，在單一節點內進行功率采樣得到的功率值趨同，不會發生較大波動。因此，對于葉節點，可以取功率分布的期望作為該節點對應的典型場景。

未通過信息熵校驗的新節點則作為待分根節點，繼續進行節點分割，直至所有節點都成為葉節點則遞歸停止。接著計算所有葉節點對應的典型場景，作為提取的典型場景集合輸出。每個葉節點內部場景數量占總場景的比例作為該葉節點對應典型場景的權重。

另外，為了保持算法內容名稱上的前后一致，初始節點先作為葉節點輸入，隨后才被修改為根節點。

基于信息熵的場景提取步驟如圖1所示。

圖1 基于信息熵的典型場景提取方法Fig.1 Typical scenarios extraction method based on information entropy

結合前文敘述和圖1，基于信息熵的場景提取步驟可概括為：

步驟一：輸入包含風電、光伏、負荷功率的數據集信息作為初始葉節點，并根據式(1)計算初始葉節點信息熵。

步驟二：判斷所有節點是否均不可分割，若滿足，將所有葉節點作為典型場景輸出，并獲取該場景對應包含的小時數，計算概率；若不滿足，將不滿足的葉節點作為根節點，繼續以下步驟三。

步驟三：根據式(5)信息熵減小量最大化原則，及式(2)—(4)對根節點進行分割，確定分割位置。

步驟四：針對分割出的新葉節點，利用步驟二進行判斷，反復迭代，直至所有節點均滿足終止條件。

1.3 輸電網網架柔性規劃模型

電網柔性規劃方法是用于求解未來多個不確定性場景的綜合最優方案，通過提出適應未來環境變化的柔性規劃方案，以最小的代價彌補環境變化造成的經濟損失[14]。將提取到的場景輸入規劃模型，得到基于多場景的輸電網靈活規劃模型。

本文目標函數綜合考慮線路投資成本、發電機組運行成本、棄風懲罰成本，目標函數如下：

minF=∑Finvest+∑Foperation+∑Fcur

(6)

式中：∑Finvest、∑Foperation、∑Fcur分別為輸電網的線路投資成本、發電機組運行成本、棄風懲罰成本。

(7)

∑Foperation=

(8)

∑Fcur=

(9)

規劃模型具有以下幾個約束條件：

1)功率平衡約束：

(10)

2)線路潮流約束：

Pn-ij=Bn-ij(θn-i-θn-j)i,j∈L

(11)

式中：Bn-ij為場景n中線路ij的電納；θn-i、θn-j分別為場景n中節點i、j的電壓相角。

3)風機出力約束：

Pwind-min≤Pwind-n(t)≤Pwind-max

(12)

式中：Pwind-min、Pwind-max分別為風機出力的最小值、最大值；Pwind-n(t)為場景n中的風機出力值。

4)發電機運行約束：

(13)

2 基于改進指針網絡的規劃模型求解方法

遺傳算法在大規模最優化問題中，能取得最優值或者次優值。然而其本身存在諸多缺陷，如在處理規模較大的最優化問題時，算法容易陷入局部最優、收斂速度慢等。

為解決如遺傳算法等啟發式算法存在的問題，本文在原始指針網絡的基礎上進行改進，使其能夠適用于電力系統網架規劃問題。與原始指針網絡應用標簽樣本進行神經網絡訓練不同，本文使用強化學習中的Actor-Critic模型進行網絡訓練，從而實現無需標簽樣本的訓練。

2.1 基于改進指針網絡的規劃問題求解模型

指針網絡(pointer network)是一種神經網絡結構，能有效用于學習中低維度的組合優化問題，并能以高準確度預測出問題的解。其結構類似于sequence to sequence(seq2seq)[15]。指針網絡的原理是將輸入映射為一系列按概率指向輸入序列元素的指針，由一個編碼器(encoder)和一個解碼器(decoder)組成。編碼器的輸入為節點坐標組成的向量，解碼器的輸出則為節點坐標的某個排序。但是，該模型不能直接應用于網架規劃問題中，需要進行一定的改進。因此，本文提出一種適用于網架規劃問題的改進指針網絡模型，如圖2所示。

圖2 改進指針網絡模型結構Fig.2 Structure of revised pointer network

與原始模型使用節點坐標作為輸入不同，改進指針網絡模型(revised pointer network, RPN)以網絡的節點-支路關聯矩陣中對應的向量作為節點輸入，在圖2中以n1、n2表示。圖2中接受輸入的白框表示編碼器與解碼器中的循環神經網絡(recurrent neural network, RNN)。RNN每次以一個新節點和上一個節點的輸出作為輸入，并給出當前節點的輸出。當所有的輸入節點順序輸入結束后，編碼器的最終輸出即為指針網絡對于電力系統網絡結構信息的嵌入(embedding)。

對于解碼器，其中的RNN每次接受上一個節點的輸出，并把上一個節點給出的預測節點作為輸入。解碼器中首節點的輸入為編碼器給出的嵌入以及用待訓練參數表示的起始節點ng。因此，解碼器中每個節點對應的輸出便是編碼器輸入節點的概率分布，取概率最大的節點作為預測節點，在圖2中用指向編碼器的箭頭表示。此外，解碼器每次給出預測節點時，已在解碼器中出現過的節點不再出現，以此保證結果的有效性。圖2中的圓圈表示不可選節點。由所有解碼器給出的節點即為RPN給出的一個解。

由于網架規劃問題的解往往僅包含可建設線路中的某幾條，因此輸出向量的長度將遠小于輸入向量。針對此問題，RPN在輸入向量的尾部追加一個停止節點ns，當停止節點出現在輸出向量中時，便僅保留停止節點前的節點，而后續產生的節點無效。

值得注意的是，RPN并不能保證單次輸出即可得到最優解。因此，在利用訓練好的RPN網絡進行求解時，需要將輸入向量隨機排序，重復輸入到網絡中，獲得多個輸出，并在輸出集合中進行搜索，得分最高者即作為最優解輸出。

2.2 基于Actor-Critic的網絡訓練方法

神經網絡通常使用監督學習的方法進行訓練，但對于包括網架規劃在內的組合優化問題和復雜的現實場景，很難在線獲得大量訓練數據，且獲得足夠數量的高質量標簽數據代價高昂，導致求解結果出現局部最優解等問題。

因此，本文采用強化學習中的Actor-Critic方法訓練RPN。這類算法雖然利用值函數評估策略，但是又不純粹依賴值函數求解最優策略，而是利用值函數信息指導策略的搜索。通過自行與環境進行交互來獲得訓練樣本，無需事先給定大量訓練數據，因此適用于網架規劃問題。

RPN的損失函數定義為：

J(θ)=Eπ-pθL(π)

(14)

式中：θ為神經網絡參數；J(θ)為神經網絡損失函數；pθ為參數θ對應的RPN的決策策略概率分布；π為根據策略概率分布做出的決策；L(π)為當前決策的目標函數值，由式(6)給出。

根據Actor-Critic算法，損失函數的梯度定義為：

?θJ(θ)=Eπ-pθ[(L(π)-b)?θlogpθ(π)]

(15)

式中：b為梯度的基準線方程(baseline function)；pθ(π)為當前θ對應決策概率分布下決策π的概率。

通過蒙特卡洛采樣對式(14)進行逼近，可得損失函數的梯度：

(16)

式中：B為蒙特卡洛采樣的次數；k為B次采樣中的第k次采樣；πk為B次采樣中第k次采樣時根據策略概率分布做出的決策。

對于基準線方程，文獻[15]中在指針網絡之外為Actor-Critic單獨建立網絡進行計算，但這種方法具有較差的穩定性，在實際計算中可能會導致網絡訓練無法收斂。因此，本文采用指數移動平均作為基準線方程。指數移動平均相比簡單移動平均，更注重近期內的數據，且數據的權重會隨著時間按照指數規律下降[16]。基準線方程的形式為：

(17)

神經網絡參數更新選用隨機梯度下降方式進行計算。先計算出損失函數的梯度，然后按梯度的方向，通過對權值的不斷更新調整，使函數損失值達到最小，從而獲得最優解。該方法每次隨機選擇一個樣本來迭代更新一次，而不是針對所有樣本，因而該方法顯著提升了計算效率。

3 算例分析

本節首先針對系統中的3種不確定性因素(風力發電功率、光伏發電功率、負荷功率)進行典型場景提取并與原分布進行對比。然后在IEEE Garver-6系統上進行輸電網規劃，通過與粒子群優化算法(particle swarm optimization, PSO)算法的對比，證明RPNAC在輸電網規劃方面的科學性和優勢。

3.1 典型場景集表征效果驗證

為了驗證本文提出的基于信息熵的典型場景集構建方法(typical scenario set with entropy, TSSE)的有效性，選用拉丁超立方抽樣(Latin hypercube sampling, LHS)[17]、蒙特卡洛抽樣(Monte Carlo, MC)[18]、基于推土機距離的場景提取方法(generation algorithm of typical scenario set, GATSS)[19]進行對比，針對系統中3種不確定因素進行典型場景提取。為衡量對原始場景的表征程度，從原始場景中進行抽樣得到規模為106的場景集合Y，計算Y與各種方法提取的規模為102的典型場景集W之間的距離T，并進行對比。計算公式為：

(18)

式中：u、w為單個場景；d為絕對值距離；ui、wj分別為各單個場景u、w中的i和j節點。計算結果如表1所示。

表1 不同方法提取結果對原場景逼近能力比較Table 1 Comparison of different methods with respect to approximating the original scenarios

由表1中結果可得，MC、GATSS、TSEE三者提取的典型場景集對原始場景的逼近能力相近，均優于LHS。MC、GATSS、TSEE三者關于負荷功率提取的典型場景逼近效果優于風電與光伏功率。這是由于負荷功率采用高斯分布進行逼近，其概率分布偏度為0，具有較強的對稱性，且分布曲線整體較為平坦，而風電與光伏分別采用Weibull分布與Beta分布，具有較強的不對稱性。

在保證表征效果的基礎上，應使典型場景集有盡可能多樣化的典型場景，保證規劃方案在更多場景下滿足安全性校驗，從而提升規劃方案的魯棒性。本文選用方差來衡量典型場景集的多樣性，計算中忽略典型場景權重的影響，計算結果如表2所示。

表2 不同方法提取結果場景多樣性比較Table 2 Comparison of different methods with respect to scenario diversity

MC是對概率分布整體的隨機抽樣，因此其提取的典型場景集方差與概率分布方差相近。LHS在MC的基礎上對概率分布進行均勻分層抽樣，因此可以保證覆蓋至概率密度較小的區域，有較大的場景多樣性，但對原始分布的表征性能較差。GATSS類似于逆變換采樣，本質上是根據概率進行等間隔采樣，因此其場景多樣性與MC相近。TSEE提取結果方差與LHS提取結果相近，且相比于MC和GATSS，對場景的覆蓋能力更強。結果表明，在保證對原始場景分布逼近效果的基礎上，TSEE根據信息熵來分配采樣點，能夠在概率密度變化較大的區域增加采樣頻率，保證了提取結果的多樣性。

3.2 應用RPNAC進行輸電網規劃

為了驗證提出的RPNAC方法對于解決輸電網網架規劃問題的實用性，本文選用IEEE Garver-6系統進行計算分析驗證。

風電場中切入風速、切出風速、額定風速分別為4.0、20.0、11.1 m/s。圖3為IEEE Garver-6系統的網絡結構。圖3中，實線代表已有的輸電線路，虛線代表備選線路。系統包含11臺發電機、5個負荷、6條輸電線路。計算標幺值時，功率基準為100 MW，線路長度造價為50萬元/km。

圖3 IEEE Garver-6系統網絡結構Fig.3 Network structure of the Garver-6 system

為了驗證RPNAC在不同場景下都具有良好的求解能力和靈活性，結合3.1節中提取出的場景，分別采用RPNAC和PSO對3個典型場景的輸電網規劃問題進行求解，結果如表3所示。

表3 典型場景規劃結果對比Table 3 Comparison of planning results of typical scenarios

通過對比兩種方法對不同典型場景下的輸電系統規劃的結果可以看出，在絕大多數場景下，本文提出的RPNAC方法都具較為優秀的求解能力。

使用算法進行求解前，需要對模型進行訓練。在訓練數據集上進行大量訓練，便可以利用事先學習的成果進行下一步求解，避免從零開始。模型訓練階段，抽取10個與測試集不同的規劃問題作為訓練集進行訓練，以增強模型的泛化性能。訓練的每一步迭代需從10個問題中隨機選取一個問題進行訓練，以保證訓練樣本的獨立同分布假設，防止樣本之間的關聯性影響模型的效果。

通過與PSO的求解結果進行對比，可以驗證RPNAC在參數變化情況下對輸電網規劃問題的求解能力。通過抽樣方法可得到基于原問題的測試集。對原問題所有節點橫、縱坐標分別增加一個擾動ξ，ξ符合[-0.1,0.1]的均勻分布，保持容量等其他條件不變，通過對ξ進行抽樣，以此得到10個參數不同的規劃問題，它們組成測試集。接著采用本文提出的RPNAC和PSO對測試集中的10個問題進行求解，以便對二者進行比較。二者在測試集上的表現如表4所示。

表4 PSO與RPNAC測試集規劃結果Table 4 Comparison of PSO and RPNAC based on test set

對于IEEE Garver-6系統，大部分情況下，PSO與RPNAC得分均為1.0。因此，測試集結果說明，對于IEEE Garver-6系統規劃問題，在大部分情況下，PSO與RPNAC均可求得最優解。

根據表4可知，10次試驗中，僅有第2次試驗時，采用PSO與RPNAC進行規劃的結果不同。首先對除第2次試驗之外的其他試驗進行簡要說明。規劃結果表明，雖然第4—10次試驗中PSO與RPNAC求解結果相同，但所得結果的綜合評價均低于第1—3次試驗，不具有現實意義和實用價值，因此不再贅述。接著下面對對試驗2中RPNAC不能求得最優解的情況進行分析。

圖4為表4中的輸電網規劃問題的部分規劃結果。試驗2中，PSO得分高于RPNAC，故同時畫出了RPNAC與PSO的規劃結果，如圖4中(b)、(c)所示。而其他試驗中，RPNAC與PSO規劃結果相同且同為最優，故無需重復畫出，如圖4中(a)、(d)所示。

圖4 測試集問題規劃結果Fig.4 Some of the results of the planning problems

表5為RPNAC和PSO對Garver-6系統規劃結果對比。試驗2中，采用PSO與RPNAC進行規劃的結果不同，故分別展示了RPNAC與PSO的規劃結果。其他試驗中，RPNAC與PSO規劃結果相同，未重復展示。表6為試驗2結果評價指標數據。

表5 RPNAC和PSO對Garver-6系統規劃結果對比Table 5 Comparison of planning results of Garver-6 system between RPNAC and PSO

表6 試驗2結果評價指標數據Table 6 Data of evaluation indices of experiment 2

如圖4中(a)、(d)所示，對于一般情況，RPNAC可以輸出正確的最優規劃結果，即當節點位置變動情況較小時，RPNAC可以準確得到全局最優解。

如表5所示，試驗2中，由RPNAC產生的規劃結果比由PSO產生的規劃結果在節點2-6增加了一條線路，可在圖4中(b)、(c)更直觀看到，此方案安全性最好，但線路投資相對較多，欠缺經濟性，故該方案不予采用。此時通過PSO得出的規劃結果明顯優于RPNAC。但這種情況并沒有出現在訓練集中，RPNAC網絡并沒有針對該情況得到訓練。由此可知，當測試集中出現與訓練集差距較大的特殊情況時，RPNAC就無法輸出最優的規劃結果。這類問題可以通過增加訓練時長和增加訓練集規模來解決。

根據表6可知，在靈活性方面，試驗2中，相比PSO得出的規劃結果，RPNAC得出的結果具有較好的可擴展性。當規劃條件發生不可預見變化時，該系統能更快進行調整，并且更好應對供需兩側響應系統的不確定性變化，因此相比傳統的PSO，RPNAC提高了規劃模型的靈活性。

在計算速度方面，RPNAC顯著優于PSO。這是由于RPNAC在訓練完成后，對于任意一個問題，輸出預測結果只需要根據訓練好的網絡進行幾次前向傳播計算并搜索最優值即可得到結果，往往只需要不到1 s的時間。而當邊界條件發生變化時，PSO需要重新進行計算，無法利用歷史計算結果。

因此，對于規劃精度要求不高、對計算速度要求較高的問題，可以利用RPNAC進行計算。對于規劃精度要求較高的問題，可以利用增加訓練時長及訓練集規模的方法提升RPNAC的規劃精度。

4 結論

首先提出基于信息熵的典型場景提取方法，結合風電、光伏、負荷這3個不確定性因素的數學模擬結果，引入場景信息熵的概念進行典型場景提取。再將提取到的多場景輸入規劃模型，最后得到基于多場景的輸電網靈活規劃模型。

接著采用深度強化學習的方法，在原始指針網絡的基礎上進行改進，提出一種適用于輸電網規劃的改進指針網絡模型，并采用深度強化學習中的Actor-Critic方法對網絡進行訓練，然后應用RPNAC對輸電網規劃問題進行求解。

本文選用IEEE Garver-6系統進行分析驗證。算例證明，本文的場景提取方法可以在保證場景表征效果的基礎上增加場景的多樣性，從而增加規劃方案對場景的適應性。在此基礎上的規劃模型可以用RPNAC進行求解，該方法能夠在保證相當程度求解精度的基礎上，相比傳統方法極大地提升了運算效率，提高了規劃模型的靈活性、適應性。