王榮茂,劉 淼,李青春,張 曄
(遼寧電力交易中心有限公司,遼寧 沈陽 110006)
利用熱啟動Hotbooting技術融合Q-Learning算法(以下簡稱Q學習算法)構成Hotbooting-Q交易算法[1]。通過Hotbooting技術得到類似場景下Q學習算法的Q值表及V值表,其中,Q值及V值是Hotbooting-Q交易算法在強化學習中的定義值,其在較大程度上縮減該算法的學習步長,提升收斂性能的同時獲取優良學習效果[2-3]。
電能交易需求猛增,電網企業的業務壓力也隨之增強。近年來,國家高度重視抽水蓄能發電,作為發展新型能源的關鍵組成部分,其優勢在于可靠性高、技術發展成熟、生命周期久,抽水蓄能電站可提升電網運行的平穩性及協調能力,節能減排、低碳環保、促進可再生能源發展是我國對新興能源的基本要求,實現資源優化配置[4],關乎社會、經濟、文明發展,對電力儲能具有重要意義。電網電能在頻繁交易過程中可能存在風險,對風險的識別顯得格外重要,及時發現并規避風險,保證電能交易安全可靠運行,關乎民生經濟等各個方面的安全運行。陳濤等[5]提出抽水蓄能水電站職業健康風險評價方法,在模糊數學法基礎上進行風險評估,該方法成本較高不適宜全面推廣使用;李剛等[6]提出抽水蓄能電站水淹風險評價研究方法。
綜合以往研究方法,本文提出基于Hotbooting-Q算法的抽水蓄能電網電能交易風險識別方法,及時發現并規避風險。
抽水蓄能電網DWi和上級電網、其他抽水蓄能電網進行電能交易,對下一時期電能存儲值和其他抽水蓄能電網交易決策有直接影響,因此,利用馬爾科夫過程表示抽水蓄能電網電能交易博弈機制[7],在動態博弈過程中,其他抽水蓄能電網的電量程度和抽水蓄能電網本身負荷需求無法得知的情況下,采用深度Q學習算法進行計算,獲取滿足切身利益的電能交易策略[8]。
DWi瞬時效益函數為
(1)

DWi依據本身實際情況的交易策略對Q函數實施同步更新的過程表示為
(2)
(3)


(4)

(5)
至此,完成基于深度Q學習算法的抽水蓄能電網電能交易博弈模型構建。
處于初始化Q值表時,深度Q學習算法將全部元素設為0,歷次學習時從0開展大規模探尋并訓練,在較大程度上提升學習速度。將深度Q學習算法與Hotbooting技術二者融合,能夠大幅減少實踐操練時間并快速提升該算法的收斂性能[10]。
依據之前電能交易類似情景在類似情況下進行模擬實驗,并獲取實踐操練數據,在此基礎上,對Q值表、V值表開展初始化處理[11],該過程采用Hotbooting技術完成,利用處理后的Q值表及V值表取替初始化值表。該模型求解流程如下:


(3)合法交易值采用挑選整理數據的方式獲取。
(5)實時上報交易策略,同時更新電能值得到下一階段狀況。
(6)模仿交易環境需利用Hotbooting技術完成,得到結果Q值表及V值表。
(7)深層次Q學習算法交易控制中心調整交易策略,得到最優預期效益。
圖1為完整的模型求解流程。

圖1 求解流程
擬設一個抽水蓄能電網電能網絡拓撲及交易拓撲,用G=(N,E)表示電網電能網絡。N、E分別為網絡節點合集和網絡中無向邊合集;網絡拓撲中第c條邊用Ec表示。Gs=(Ns,Es,S)為電網電能網絡拓撲。其中,用下角標s表示交易拓撲,有交易經過的網絡節點合集和網絡中有交易經過的邊合集分別用Ns、Es表示,同時用Es(c,f)表示網絡中有交易經過連接節點c和f的邊;網絡的交易合集用S表示,經過網絡中Es(c,f)邊的交易合集用SE(c,f)表示。網絡中第c個交易重要度的數值用Isc表示。Ns={N1,N2,…N6}表示網絡節點合集,用Es={E1,E2,E3,E4,E5,E7}表示網絡負載交易的邊合集,其中,兩條邊E6,E8為不負載交易且不包含在Es內,用S={S1,S2,S3,S4,S5}表示全部交易的合集。
交易業務突發中止或出現交易缺陷情況時對電網平穩運轉產生的影響水平為交易重要度,該指標用于評估抽水蓄能電網電能交易對電網影響的重要程度[12-13]。
2.3.1 交易風險度
電網平穩運轉受到交易中止或者交易牢靠性減弱時的影響水平為交易風險度[14],采用最優交易策略的電網通信網絡通道段所負載的單一交易的風險程度表示為
R(Es(c,f)sc)=Isc(I-PEs(c,f))·A
(6)
式中,R(Es(c,f)sc)為第Es(c,f)邊負載的sc交易的風險值;Isc為網絡中第Es(c,f)邊上負載的第c筆交易重要度;PEs(c,f)為網絡中負載第c筆交易第Es(c,f)邊的牢靠度數值;A為牢靠性減弱時的影響水平調節系數。
網絡負載交易的某一通道段為通道段綜合交易風險度,即網絡中對應邊負載的各個交易風險度綜合值[15]。Es(c,f)邊負載的Sc交易的風險值總和為R(Es(c,f)),其公式為
(7)
式中,網絡中邊Es(c,f)負載的各類交易各類別數目和第c類交易數目分別為m和Nc。
2.3.2 交易風險均衡度
2.3.2.1 全網交易風險度總和
設全網交易風險度為R(Gs),鑒于交易具有雙向性,同一個網絡邊的交易風險值分別用REs(c,f)、REs(f,c)表示,R(Gs)可表示為
(8)
求解R(Gs)的第一步為求和Es(c,f)邊負載交易的風險度值,第二步為求和歸屬于交易網絡Gs全部邊交易風險度值。
2.3.2.2 全網平均交易風險度
依據全網交易風險度及網絡拓撲中邊的數目N,計算得到全網平均交易風險度。
2.3.2.3 網絡交易風險均衡度
電網電能交易風險均衡度模型為
(9)
采用全網交易風險度均衡度BR(Gs)衡量網絡整體交易分配均衡性,將基于深度Q學習算法的抽水蓄能電網電能交易博弈模型獲取的最優交易策略作為模型輸入,對抽水蓄能電網電能交易過程中可能存在的風險進行識別,掌控電網電能交易狀態。分別從交易風險分布均衡度和風險度兩方向進行分析,網絡中各項交易通道段負載的交易風險度平衡分散狀態依據交易風險均衡度指標進行衡量,當指標接近0時代表全網的交易安排風險處于平衡狀態,此時運行風險較小;當指標過大時則代表網絡中交易通道上負載的交易分散失衡,其中部分鏈重要交易過度聚集或過度輕載。
2.3.3 識別編碼
2.3.3.1 網絡節點交易連接矩陣編碼
考慮到節點間鄰接關系和交易連接關系,節點間交易狀態矩陣S(Gs)表示為
(10)
元素S(Gs)cf位于節點交易連接矩陣S(Gs)中,該元素等量互換為SEs(c,f),代表節點c和f當中的邊的交易連接狀況。當兩個節點發生交易連接時,S(Gs)cf=1;無交易連接時,S(Gs)cf=0(c≠f);其中節點本身無交易關聯關系用S(Gs)cf=0表示。
2.3.3.2 交易重要度矩陣編碼
電網通信網負載多類電網通信交易,設種類為M,M種電網通信交易重要度M×1階的矩陣形式為

(11)
2.3.3.3 網絡多邊交易重要度計算
邊Es(c,f)負載交易矩陣SEs(c,f)=[Sk1,Sk2,…,SkM],電網通信交易類別用下角標M表示,邊Es(c,f)負載第c類交易數目用Sk1表示。SEs(c,f)用于表示S(Gs)內部的某一元素。
IEs(c,f)用于表示網絡中邊負載的各項交易重要度之和,IEs(c,f)與各節點交易連接矩陣和交易重要度矩陣、邊交易矩陣之間的關聯關系等同于交易重要度矩陣C、S(Gs)內部的某一元素SEs(c,f)和節點交易連接矩陣S(Gs)中的S(Gs)cf元素三者乘積。
2.3.3.4 全網交易重要度計算
依據各節點的交易連接關系將全網交易的重要度分布矩陣表示為
(12)
式中,I(Gs)的矩陣階為n×n,網絡節點數目用于表示n,任意兩個節點間各類交易的重要度之和用于表示中I(Gs)的每個元素。
求解全網交易風險度
R(Gs)=I(Gs)P(Gs)
(13)
若不考量其他因素,單一考量風險及交易重要度的關系,用R(Gs)=I(Gs)表示R(Gs)的矩陣形式,利用網絡多邊交易重要度求取IEs(c,f)。
全網負載交易的各邊風險度之和為
(14)
采用全網平均交易風險度及網絡交易風險均衡度指標,對全網交易平均風險度即風險均衡度進行求解。
網絡中第c個節點Nc交易風險度為
(15)
至此,完成抽水蓄能電網電能交易風險識別方法設計。
采用MATLAB編程軟件搭建某區域的抽水蓄能電網,應用本文方法對該電網的電能交易風險進行識別,利用本文方法與文獻[5]抽水蓄能水電站職業健康風險評價方法、文獻[6]抽水蓄能電站水淹風險評價方法進行對比驗證,驗證本文方法的識別效果。
在該電網中,選取一個5節點、7邊的抽水蓄能區域電網,該區域網絡節點合集為Ns={N1,N2,N3,N4,N5},網絡負載交易邊合集為Es={E1,E2,E3,E4,E5,E6},網絡負載交易合集為S={S1,S2,S3,S4,S5}。采用本文方法獲取該區域電網交易的最優預期效益,并從交易重要度及交易風險度、交易風險均衡度、識別編碼方面進行分析,并搭建電網電能交易風險均衡度的識別模型,進行交易風險識別。
利用式(15)遍歷某市抽水蓄能電網電能交易過程中的各個節點,并識別得到該電網電能交易風險度結果如表1所示。

表1 各節點交易風險均衡度結果
由此可見,本文方法能夠有效識別出各電網電能交易節點風險度值。
為分析電能交易后,該電網的平均效益水平曲線,將學習布長設為6 000步,利用本文方法與文獻[5]方法、文獻[6]方法進行對比驗證,效益變化曲線如圖2所示。

圖2 效益變化曲線
根據圖2可知,在收斂性方面,本文方法和文獻[5]方法在初步時有一段較為鮮明的學習時間,且本文方法在500步左右完成收斂,比文獻[5]提前完成,這是因為本文方法運用Hotbooting技術,預先對相似場景下的數據進行大批量的仿真測試,極大程度上縮短了后續學習的摸索時間,加速掌控交易規律;文獻[6]方法并無學習過程且未能從交易數據中汲取經驗和規律,效益值也最低,由此可見,本文方法能夠提高交易效益,且整個算法的收斂性好。在收益情況方面,文獻[6]方法交易策略的收益值較差,最高不超過8.9;文獻[5]方法交易策略的收益值在14.5區間范圍內浮動,與文獻[6]方法相比提升約38.6%;本文方法的收益值平穩維持在18.5,較文獻[5]、[6]方法分別提升約51.9%、21.6%。
對電網電能交易運行風險分析進行仿真模擬,隨機選取該電網中的70條電網電能交易線路,依據電網電能交易狀態風險信息傳輸路徑,對不同數量交易線路的交易風險進行識別,將本文方法與文獻[5]、文獻[6]方法對比驗證,判定識別精度更高的方法。用圖3表示3種方法識別不同數量線路的風險識別失誤次數。

圖3 風險識別失誤次數
由圖3分析可知,文獻[5]方法在交易線路數量為30次以內時風險識別失誤在9次左右浮動,交易線路數量超過30次后其失誤次數呈直線上升狀態,風險識別失誤次數全程在8~18區間內,識別效果較不理想;文獻[6]方法風險識別失誤次數全程在12次以上,隨著交易線路數量逐步上升,交易風險識別監督逐漸降低;本文方法整體平穩運行,風險識別失誤次數全程始終保持在3次以內,由此可見本文方法識別精度極高且穩定,可放心投入運行使用。
通過搭建基于Hotbooting-Q算法的抽水蓄能電網電能交易模型并求解獲取最佳交易策略,將交易策略輸入風險識別模型求解風險度,以此判斷風險高低,在步長500步時完成收斂,其收益值平穩維持在18.5,高效且平穩;風險識別失誤次數全程始終保持在3次以內,交易風險精準度極高,可有效識別出交易風險。