高 巍,何志雨
(內蒙古電力(集團)有限責任公司呼和浩特供電分公司,內蒙古 呼和浩特 010010)
變電站繼電保護系統直接決定著電力系統是否能夠安全穩定運行。采用傳感器和監測裝置對電流、電壓等參數進行實時監測,如果檢測到電氣故障,可以采用先進的算法和邏輯對故障進行準確定位,并迅速采取保護措施切除或隔離故障。保護動作的實現關鍵在于設定的保護動作觸發條件是否合理,觸發條件的設定通常基于電力系統特定工況、電力設備特性和系統拓撲結構。只有在系統出現故障時才會觸發保護動作,確保電力設備在出現故障時能迅速得到保護,最大限度地減小故障對電力系統的不良影響[1]。但隨著變電站電力系統結構日益復雜和運行環境的不斷演變,新型電力設備和智能電網技術的應用帶來了更為復雜的故障模式。因此,需要繼電保護系統具備更強大的數據處理和實時監測能力,并采取先進保護技術和適應性強的模型與算法,以應對不斷變化的電力系統需求和安全威脅。
繼電保護裝置要滿足繼電保護系統對靈敏度、速動性、可靠性以及選擇性的要求。
靈敏度是指繼電保護系統在電力系統出現故障或異常情況時能夠快速、準確地做出響應。高靈敏度表示系統能夠更早地發現潛在問題,從而降低故障對電力系統的損害。速動性反映繼電保護系統在檢測到電力系統故障時啟動保護動作的速度,即保護動作觸發的時間延遲,是確保電力系統穩定性的重要因素。高速動性要求系統在極短的時間內做出響應并迅速隔離故障,以防止故障擴大[2]。可靠性是指系統在各種工況和環境下保持正常工作的能力,如在面對極端天氣、高負荷等復雜情況下系統能否穩定運行。高可靠性意味著系統能夠在各種條件下穩定工作,以確保電力系統的持續穩定運行。選擇性指系統在多重故障情況下正確選擇并觸發相應保護動作的能力。其要求系統能夠識別并定位同時發生的不同類型的故障,并采取適當的保護措施,不干擾正常運行部分。高選擇性要求系統能精準處理復雜故障,避免誤操作。
人工智能技術的引入標志著繼電保護系統邁向智能化時代,系統能夠學習歷史數據并適應電力系統的動態變化,從而精準地識別不同類型的故障。卷積神經網絡(Convolutional Neural Networks,CNN)和循環神經網絡(Recurrent Neural Network,RNN)等在繼電保護中具有出色表現。例如,采用CNN 可以有效處理電力系統中的時空信息,對電流、電壓波形等數據進行多層次的特征提取,以提高故障識別精度;RNN 的引入可以更好地處理電力系統中的時序信息。RNN 在檢測、定位周期性變化和突發性事件方面具有顯著優勢[3]。除機器學習算法外,還需要提高系統的自主學習和決策能力,使繼電保護系統在實際運行中逐步優化策略,更好地適應電力系統的復雜變化。
2.2.1 環境建模
一方面,需要定義電力系統狀態,確定電力系統的各種參數和設備狀態,包括電流、電壓、頻率等關鍵電氣參數以及設備的運行狀態等信息。另一方面,要綜合考慮環境動態性,即系統狀態的變化速度和頻率,建立接近電力系統真實運行狀況的環境模型。將節點電流、電壓、頻率等定義為狀態向量,即
式中:It為節點電流;Ut為節點電壓;Ft為電力系統的頻率;Pt為有功功率;Qt為無功功率。
利用狀態空間模型,得到狀態轉移方程,即
式中:A和B表示狀態轉移矩陣;αt表示節點狀態的演變,即系統在時刻t采取的動作;εt表示環境中的噪聲。
2.2.2 獎勵函數模型
獎勵函數的設計是強化學習模型的重要環節,直接影響著模型在訓練中學到的策略。繼電保護系統獎勵函數的設計應綜合考慮系統的性能指標,如靈敏度、速動性和可靠性,定義獎勵函數為R(st,αt,st+1),表示系統在時刻t采取動作αt后,從狀態st轉移到狀態st+1所獲取的獎勵。基于電力系統的性能指標,獎勵函數需要充分考慮到靈敏度、速動性等多個因素。引入權重參數對不同性能指標進行平衡,則獎勵函數為
式中:ωs、ωv、ωf分別為靈敏度、速動性和可靠性指標的權重;Rs、Rv、Rf分別為針對靈敏度、速動性和可靠性的子獎勵函數。靈敏度可以定義為目標信號與系統輸出信號的匹配程度,則獎勵函數對靈敏度的貢獻可以表示為
式中:α為調節參數;MSEs為靈敏度均方誤差。速動性可定義為系統在檢測到故障后的響應時間,則獎勵函數對速動性的貢獻可以表示為
式中:β為調節參數;tR為系統響應時間。可靠性定義為系統在檢測到故障后的響應時間,則獎勵函數中對可靠性的貢獻可以表示為
式中:γ為調節參數;PC為系統正確觸發保護動作的概率。
通過設計獎勵函數,模型在學習過程中能夠優化對整體性能有益的策略,并平衡不同性能指標之間的關系。
2.2.3 學習速率和折扣因子
學習速率主要用于平衡模型對獎勵的學習程度。較小的學習速率有助于模型更穩定地收斂,但可能會導致學習速度過慢;較大的學習速率會加速學習,但可導致模型不穩定。通過在訓練過程中動態調整學習速率,可以更好地適應系統動態性。學習速率的動態調整是通過Adam 自適應算法來實現的。該算法通過計算每個參數的梯度和梯度平方的移動平均值,以平衡模型的學習程度、穩定性和速度。因此,需要對參數進行初始化處理,包括學習速率θ、一階矩估計v、二階矩估計v以及時間步t等參數。更新參數,使t=t+1,可得到
式中:mt表示更新后的一階矩估計;vt表示更新后的二階矩估計;t表示修正后的一階矩估計;t表示修正后的二階矩估計;β1和β2表示衰減系數。更新
式中:ε表示為了數值穩定性而添加的小常數。
此外,需要調整折扣因子以平衡對未來獎勵的考慮,較大的折扣因子將更加重視未來的獎勵,而較小的折扣因子則更注重即時的獎勵。由于繼電保護系統系統具有動態特性,適度增大折扣因子可以幫助模型更合理地預測未來情況。同時,需要將電力系統的各種參數和設備狀態編碼為狀態,這些狀態編碼包含系統在不同時間點的信息。為進一步優化模型,可以將折扣因子設置為一個可變的參數,根據系統當前狀態、時間步、先前的學習經驗,動態地調整折扣因子的數值。
2.2.4 ε-greedy 參數調優
在繼電保護系統的強化學習中,算法參數調優是確保模型有效學習和優化性能的關鍵。ε-greedy策略是強化學習平衡探索和利用的一種方法,基于概率參數ε。該參數決定了在選擇動作時,模型進行隨機探索的概率[4]。在每個時間步t,模型會根據st選擇一個動作αt,并以概率ε選擇一個隨機動作,即從動作空間中隨機選取一個動作;以概率1-ε選擇最優動作,即從之前學到的策略中選擇具有最大估值的動作。這種概率分配可以確保在訓練過程中,系統有一定的概率嘗試新的動作并進行探索,同時以較大的概率選擇目前認為最優的動作。對應的Python代碼為

在繼電保護系統的強化學習中,Q_values 表示每個動作的估值。這些估值為神經網絡的輸出,而ε-greedy 函數根據給定的概率ε來決定選擇隨機動作或最優動作的概率。
某變電站電力系統引入了基于人工智能繼電保護系統,并采取了環境建模、獎勵函數模型和ε-greedy 參數調優等措施,以更高的準確性和靈活性來應對電力系統中的故障情況[5]。為驗證新系統的性能和優化效果,對傳統系統與優化后的系統進行了詳細的性能對比分析,性能對比結果如表1所示。

表1 傳統系統與優化后系統性能對比
由表1 可知,優化后的系統在故障檢測方面取得了顯著提升。故障檢測靈敏度從0.85 提高到0.95,這意味著在不漏檢的情況下,系統能夠更準確地識別故障;系統的速動性也得到了明顯改善,從150 ms降到了為80 ms,確保系統在故障發生時能夠迅速觸發保護動作;系統的可靠性從95%提升至99%,確保系統在各種運行情況下的穩定性;系統在選擇性方面也取得了顯著提升,從傳統系統的0.92提高到0.98,表明系統能夠更準確地隔離故障區域,從而降低誤動作的風險。
文章詳細論證了繼電保護系統工作原理、性能評估指標、性能優化方法以及具體應用。通過引入人工智能技術,對電力系統繼電保護系統性能進行了優化,有效提升了系統的故障檢測靈敏度、速動性、可靠性以及選擇性。實例證實,文章提出的變電站繼電保護系統決策能力優化策略在提高電力系統保護水平方面具有巨大潛力,同時為未來電力系統的智能化發展奠定了堅實基礎。