史建勛,張沖標,吳 晗,宣紹琪,高麗青,沈 珺
(1.國網浙江嘉善縣供電有限公司,嘉興 314100;2.南京理工大學自動化學院,南京 210094)
隨著工業化進程的向前,國內外電力建設的發展日漸強盛,大規模風能、光能等新能源以分布式電源的形式并網,使得電網更加復雜化、先進化,同時,電網的安全穩定運行面臨著更嚴峻的考驗,以光伏PV(photovoltaic)發電為代表的新能源分布式發電DG(distributed generation)技術的有力推廣正在快速推進微電網發展成未來能源互聯網的重心[1]。微電網能對分布式電源有效控制和靈活管理[2],是現代智能電網的關鍵組成部分。
微電網有脫網工作和并網工作兩種模式[3]。微網在并網運行狀態時,頻率和電壓由主網決定,容易實現功率均分。當微網脫離主網獨立運行時,并聯運行的DG為了有效、合理分配功率,一般都采用下垂特性控制[4-6]。系統線阻不一致時,會引起傳統簡單下垂控制下DG輸出的無功功率有偏差。偏差過大時會產生微網內無功環流,甚至致使系統運行失穩。微網中受接入高比例光伏后的影響方面不僅涉及到并網節點處電壓波動,還涉及到輸送功率的波動,往往會使得負荷電壓也產生變化。用戶光伏通常分散接入微電網的各節點,其并網功率若不能完全被本地負荷利用將會導致反向潮流和電壓升高[7-8]。越高比率的戶用光伏接入微網中,系統內的反向潮流就越明顯,則節點電壓升高甚至越限,微電網系統損耗顯著增加[9]。因此,必須實現精確的無功功率均分,抑制無功環流,從而維持孤島交流微電網穩定運行。
通過調節微電網中各分布式電源無功功率平均分配來抑制系統無功環流和提高電壓質量是保障電網安穩運行的決定性舉措之一。深遠探究無功均分技術是促進孤島交流微電網發展不可或缺的使命,能帶來不可小覷的經濟效益和社會效益。為了克服傳統下垂控制下無功分配不均的弊端,文獻[10]對逆變器下垂系數進行自適應修正,傳送基準逆變器的輸出功率到別的逆變器進行輸出有功、無功功率的作差,進而改變各自對應的下垂系數,最終實現DG輸出功率平均分配。但是該方案必需DG 間連接信息進行調節下垂系數,并要求有一定的通信帶寬;文獻[11]介紹了一種考慮復阻抗影響的下垂控制方案,具有高效的動態性能,最終實現了高精度的功率均分,但是增加DG 輸出阻抗后會造成較大的電壓偏差;文獻[12]提出了一種基于本地信息精確辨識線阻實際值的線路觀測器,利用該辨識值補償線路電壓降,實現DG 輸出無功均分。但是該方法不能應用在網狀、多維度等復雜微電網結構中。
強化學習算法是一種人工智能算法,不依賴具體的數學模型、全局搜索能力強、應用簡單,適用于解決非線性、離散、大規模的問題,廣泛應用于電力系統優化等多領域。Q學習是目前應用最為廣泛的強化學習算法,具有所需參數少、可以采用離線實現方式、收斂到最優策略等優點。由此,為了改進無功分配不均并控制電壓在合理范圍內,本文提出一種高比例光伏微網無功均分控制中的Q學習方法,借助其漸進學習尋優特性,對孤島工作的微電網無功電壓控制過程進行優化,獲取系統最佳控制策略,實現對高比例光伏孤島微電網的無功均分,并保證算法具有一定的魯棒性。
如圖1 所示,含高比例光伏孤島運行的微網結構中包含了分布式光伏、負荷以及儲能單元。
圖1 的簡化形式等效為如圖2 所示的系統結構[13]。

圖1 微電網的結構Fig.1 Structure of microgrid
圖2 中的分布式電源逆變器的接入點連接LC濾波器,忽略線阻可近似視作感性的線路參數。第i個PV向公共母線輸送功率為

圖2 微電網的等效結構Fig.2 Equivalent structure of microgrid

式中:UPCC為在各PV并聯公共連接點PCC(point of common coupling)量測到的電壓幅值;Ui為PVi輸出的電壓幅值;δi為PVi輸出電壓的相角與PCC電壓相角的差;Xi為PVi到PCC等效的電抗。
PVi的下垂控制方程為

式中:U為參考電壓;fi為PVi輸出頻率;f為系統參考頻率;kp和kq為相應下垂系數。
根據圖2可得

式中,ΔUi近似視作PVi所在饋線的電壓降落,忽略線阻Ri可表示為


圖3 饋線阻抗不等時兩臺DG 無功分配Fig.3 Reactive power sharing of two DGs with unequal feeder reactance
強化學習的兩大主體是智能體與環境,智能體一直探索所有可能的動作,每次動作后給環境一定獎勵值作為動作的反饋,依據某種動作選擇策略在彼此的交互過程中漸趨得到最優控制方案。智能體動作選擇依據是最大化其累計期望獎勵值。基本模型如圖4所示。

圖4 強化學習基本模型Fig.4 Basic model of reinforcement learning
Q學習是由Watkins提出的一種與模型無關的強化學習算法,是一種基于值函數迭代的在線學習和動態最優技術。比強化學習中的Sarsa、Sarsa(λ)、深度Q學習DQN[13](deepQ-learning)等算法,Q學習算法具有所需參數少、架構簡單、預學習簡單等突出優勢。Q學習法作用于狀態-動作對對應的值函數Q(s,a),該值函數的含義是在狀態s時采用動作a后所得累計獎勵,表示為

式中:s為當前時刻狀態;s′為動作后的新狀態;a、a′為各自狀態中采取的動作;γ為折扣率,γ∈[0,1],當γ=0 時,系統只考慮立即獎勵;當γ=1 時,長期獎勵和立即獎勵地位一樣。可以通過在線學習獲得上述的Q值。
進入新狀態后,得到獎勵值反饋并更新Q值。其更新公式為

式中:Qi為第i次迭代的Q值;α為學習因子,0<α<1。α較大,算法的收斂速度快,而α值較小,則能保證算法有一定的搜索空間,提升了算法收斂穩定性。
在Q學習過程中,Q值不斷進行更新一直到穩定收斂為最大Q*(s,a)為止。對于每個系統狀態一般使用貪婪選擇策略進行最優動作a*,即有

光伏逆變器的無功控制是一種有效的電壓調節手段,相比控制光伏有功、分布式儲能有功以及分接頭設備等,該方案控制經濟性最優。
微網中各分布式光伏發出的無功功率視作環境狀態。無功偏差ΔQreac可以劃分為一系列的離散區間,如{ΔQ1,ΔQ2,…,ΔQm},其對應的狀態集S為{s1,s1,…,sm}。每個DG的狀態集表示為

式中:Qi,reac為PVi的無功輸出;Qavg為微電網穩定運行時平均無功;Qload為系統無功負荷;N為分布式電源總數。顯然,集合S設置元素越多,微網運行狀態就劃分的越細密越精度高;然而集合中元素數過多,會大大拉長學習周期,進而影響在線分析控制。
當交流微電網脫離主網,穩態工作狀況下的頻率是一個全局量,并聯運行的分布式光伏有功功率輸出依據下垂系數精確分配,即有功與等效阻抗無關。考慮到輸出電壓是局部變量,各PV 間的無功偏差則由PV 輸出電壓幅值差、線阻差以及微電網結構等因素決定。本文中無功電壓下垂控制動作集A含義是:使微網當下時刻的某狀態s過轉變到更佳狀態s′的動作策略的集合。故每個PV的動作集定義為

式中:ajj=kqQjj,jj∈{1,2,…,L};L為動作數目。
動作執行后的立即獎勵值會直接影響Q值,而Q值大小可以直接體現所選動作執行效果的好壞。對于考慮電壓不越限的無功均分問題,執行基于Q算法所選動作后,會產生兩種差異顯著的結果:一是系統仍存在未實現無功均分,說明Q學習還未完成,為此,將總無功偏差ΔQtotal對應的獎勵值ri設置為負值,即進行懲罰。二是系統實現無功均分,對此,將ΔQtotal對應的獎勵值置0。
使用ΔQtotal定義獎勵值,則有


傳統下垂控制下微電網無功不均分,就需要本地無功電壓控制器下垂算法進行改進。微網進入新的穩態后,系統內無功偏差將減小。為使Q值較快收斂,保證較快速地跟蹤微網實時狀態,本文將式(2)中α設為0.9。又考慮到系統狀態在迭代過程時前后兩次狀態交互影響小,令γ=0.1。無功均分流程如圖5所示。

圖5 基于Q 學習的無功均分控制過程Fig.5 Reactive power sharing control process based on Q-learning
智能體一直監測微網狀態,當無功功率不均分,智能體則根據當前策略選出最優動作作用于所轄微網進行控制,再根據Q值最大時對應的動作轉變到新狀態,并更新策略和下一步的動作。該Q學習過程如此反復,直到所轄區域內實現基于高比例光伏微網無功電壓下垂控制下的無功均分效果的最佳化為止。
以圖6 所示的微電網為例,驗證所提方案的有效性和正確性。微電網電壓等級為311 V。6 個光伏的有功、無功容量相同。在節點1、2、4、5處分別連接了戶用光伏發電,出力均為kW 級。其余各節點為負荷節點。圖6 中各光伏連接至母線的線路阻抗不完全相同,系統仿真參數見表1。其中,各PV逆變器的電壓-無功下垂系數都是1×10-6。

圖6 含高比例光伏的微電網Fig.6 Microgrid with high-proportion photovoltaic

表1 系統仿真參數Tab.1 Simulation parameters of system
在場景1 中,在0~0.3 s 時間t內6 個PV 工作在傳統下垂模式下正常運行,穩態時,PV1~PV6輸出的無功功率分別為2 238、3 394、4 068、2 211、3 918、3 918 var。顯然,無功不均分產生無功偏差,而有功功率自行均分。
6 個PV 的出力分配仿真結果如圖7 所示。在t=0.3 s,采用本文的無功均分控制策略,各PV無功偏差逐漸減小;在t=0.6 s 輸出無功基本相等都為3 350 var,實現無功均分。在Q學習策略下,每個PV選擇最大Q(s,a)值對應的最優電壓變化量進行動作,并反饋到其下垂控制單元里,從而使無功輸出一致,減小了系統內的環流,保證了微網運行的穩定性。

圖7 場景1 仿真結果Fig.7 Simulation results under scenario 1
系統中負荷1 和2正常工作,在t=3 s 時,給系統增加負荷Load3= 10 kW+j5 kvar,并采用本文的無功均分控制策略,仿真結果如圖8 所示。可知,在t=5 s時系統狀態又一次穩定,再次實現無功均分為4 192 var。在Q學習策略下,各PV將最大Q值對應最優電壓變化量反饋到其下垂控制單元里控制電壓幅值,再通過無功均分策略環節使無功輸出達到一致,減少系統環流,保證了系統運行的穩定性。而有功功率出力在3 s時受到擾動后很快自行均分,并不受擾動影響。

圖8 場景2 仿真結果Fig.8 Simulation results under scenario 2
場景2 驗證了所提方法能提高微網運行場景變化下的適應性。如果Q學習采集到的狀態值即無功偏差量越多,Q表能訓練得更完善,從而能更好更快地實現對微網的無功均分控制。
本文提出了一種高比例光伏微網無功均分控制中的Q學習方法,利用強化學習的在線學習優點和良好的收斂特性,以系統總無功偏差設計的獎勵函數作為電壓幅值和無功功率之間的反饋量,根據最大Q值對應的動作控制輸出電壓的變化,進而控制無功功率,最終實現無功均分。該策略減少了系統無功環流,提高了系統運行的穩定性,并具有一定的控制魯棒性。最后通過對含高比例光伏微網系統的仿真,驗證了方法的有效性。