張哲, 李升, 王徐彬
(南京工程學院 電力工程學院,江蘇 南京 211167)
隨著電力系統的不斷發展,新能源并網規模在不斷擴大,電網機構變得更加復雜,電力系統的安全穩定運行面臨著更加嚴峻的挑戰[1],電力系統在發生故障后導致暫態失穩的可能性也在增加。因此,如何快速、準確地評估電力系統的穩定狀況就是一個亟需解決的問題。
對暫態穩定進行評估的方法主要有時域仿真法、能量函數法以及人工智能法。傳統的時域仿真法計算量比較大,無法滿足在線應用的需要;能量函數法計算速度較快,但是難以應用于大規模的復雜系統當中[2]。利用人工智能算法對電力系統的暫態穩定狀況進行評估兼具時域仿真法和機器學習的優勢,具備速度快、準確率高等優點,目前已在電力系統的實時評估中得到廣泛運用。
文獻[3]提出了安全域的概念,并使用多支持向量機綜合進行暫態穩定評估。文獻[4]用XGBoost算法進行暫態穩定評估,并引入了Logistic函數來提高評估模型的可靠程度。文獻[5]基于主動學習,能夠有效降低離線仿真的時間。文獻[6]采用半監督學習的方式,減少冗余信息,提高數據的利用率。此外,還有學者將深度學習算法[7]引入到暫態穩定評估當中,主要體現在特征提取方面。然而,現有的諸多方法在提升準確率、數據不平衡處理等問題依然存在困難。
在現有研究基礎上,本文提出了一種基于K-means和隨機森林組合算法(KM-RF)的暫態穩定評估方法。首先,在系統發生故障的各個階段選取能夠凸顯暫態特性的特征量組成原始輸入特征集;然后,使用Z-Score規一化和皮爾遜相關系數法對原始樣本集進行預處理,通過K-means算法來解決數據不平衡問題,采用隨機森林算法并進行暫態穩定預測;最后在新英格蘭10機39節點標準模型中驗證了本文所提方法的有效性。
假設某個隨進森林是由k棵CART決策樹[h(X,θk),k=1,2,3,…]構成,邊緣函數如式(1)所示。
(1)
式中:X為輸入向量,最多包含J種不同的類別;j為J種類別中的某一類;θk相互獨立且同分布的隨機向量;Y為正確的分類向量;I(.)為指示函數;ak為求取平均值的函數。
隨機森林的泛化誤差如式(2)所示
Pe=PX,Y[K(X,Y)<0]
(2)
式中:P(X,Y)為對給定輸入變量X的分類錯誤率函數;X,Y為概率定義空間。
當森林中決策樹數目較大時,隨機森林泛化誤差的上界如式(3)所示
(3)

先使用K-means聚類算法將同一個類標簽下的數據分解成Ki個簇,其中i是指原始數據集中的標簽數,然后再使用隨機森林算法利用已分解的數據集進行分類預測。
整個過程需要對4個參數進行調參:簇數Ki(K1,K2),決策樹個數(n_estimators),每棵決策樹所選擇的分類特征數(max_features)。
對于一個特定的數據集X,類別為Y,假設這Y個類中有m個子類標簽。定義一個特征向量V代表整個模型需要優化的參數,如式(4)所示。
(4)
式中:yi∈Y;ki為指第i個類被分解成k個子類。在這個模型中不僅要確定簇數,還要確定哪個類將會被分解。
針對故障開始時刻和切除時刻兩種狀態選取具有代表性的特征量[8-9]。故障開始時刻的特征量能夠反映瞬時功率平衡狀態被打破的程度以及對暫態穩定的影響;故障切除時刻的特征量能夠反映故障持續期間不平衡能量的集聚給系統帶來的沖擊。選取的特征量均為系統特征,而不是單機特征,能夠避免因系統規模擴大而帶來的特征量維數的急劇增加。然后,對原始特征集進行Z-score歸一化和相關性分析??梢詫⒉煌奶卣髁哭D化為同一個數量級,從而避免某些特征量由于數量級之間差距過大而無法發揮作用。刪除相關性過高的特征量以提升模型效率。
模型建模過程如圖1所示:①利用時域仿真法獲得原始特征集;②在數據預處理階段對特征集進行歸一化處理,并分析特征量的相關性;③使用K-means聚類算法對樣本集進行類分解,并進行參數調節;④在分解后的數據集的基礎上,調節隨機森林的參數;⑤模型評估并引入指標進行評價。

圖1 評估模型流程圖
以新英格蘭10機39節點系統進行算例分析,利用MATLAB中的工具箱PSAT進行仿真,采集故障數據。在80%、90%、100%、110%和120%標準負荷水平下,隨機設置4種不同的發電機出力,設置每條母線處發生一個三相短路故障,共計39處故障。故障切除時間為0.2 s,數據采樣周期為0.01 s,共生成780(39×5×4)組樣本,以系統中任意兩臺同步發電機相對功角之差是否大于360度來判斷系統的暫態穩定性,將所有的樣本集存儲在矩陣當中,矩陣的每一行分別代表一組樣本數據。
在通常情況下,模型的效果與精確度成正比。但是,精確度忽略了不平衡樣本帶來的影響,反映的僅僅是數據集的總體預測精度?;煜仃?confusionmatrix)能夠很好地評估出模型的效果,如表1所示。

表1 混淆矩陣
為了更精細地判斷評估模型的性能,引入誤報率(false positive rate, FPR)、命中率(true positive rate, TPR)、準確率(accuracy, ACC)以及KAPPA系數,計算方法如式(5)~式(8)所示,其中KAPPA系數值越高則代表模型整體性能越好。
(5)
(6)
(7)
(8)
式中:P0為準確率;Pe為一個函數。在二分類問題中,如果每類樣本真實個數為A1、A2,預測所得每類樣本的個數為B1、B2,總樣本數為N,Pe的計算方法如式(9)所示。
(9)
試驗結果如表2所示,當n_estimators=556,max_features=12,K1=1,K2=2時,效果最好。整體來看,ACC均值為0.91,KAPPA系數均值為0.82,TPR>0.91,FPR<0.17。

表2 KM-RF測試結果表
在相同的特征集數據、相同的數據處理方式情況下,分別使用KM-RF、DT、RF、SVM進行預測,結果如圖2所示。通過對比,可以發現KM-RF模型在各性能指標上也有明顯優勢,準確率、命中率以及KAPPA系數值最高,誤報率最低。

圖2 各算法結果比較圖
(1) 通過對發電機動態特性分析,所構建的特征集能夠較為全面地反映暫態穩定的特性,提升了評估結果的準確性。通過對特征集進行Z-score歸一化處理以及皮爾遜相關性分析,避免了部分特征量無法發揮作用的問題并對相關性較高的特征量進行了篩選,提高了模型的效率和準確性。
(2) 使用K-means進行類分解,很好地解決了數據不平衡的問題,提升了整體性能。隨機森林算法分類精度高,不容易過擬合且泛化能力較強,基于此的組合算法能夠較好地處理暫態穩定評估問題,通過與決策樹、隨機森林以及支持向量機的評估結果進行比較,在各個指標上都具備明顯優勢。