向星宇,劉敬之,曲全磊,夏得青,羅 政,黎朝暉
(1.湖南工業大學電氣與信息工程學院,湖南株洲 412007;2.國網青海省電力公司電力科學研究院,青海西寧 810001;3.湖南工業大學 軌道交通學院,湖南 株洲 412007)
隨著我國國民經濟和現代工業的高速發展,區域電網中的設備和負荷也日益趨向復雜化和多樣化,使得區域電網電能質量問題出現了新的特征,也給其治理帶來了新的挑戰[1]。電能質量指標預測作為盡早發現潛在電能質量問題的前提條件,對潛在電能質量問題的高效治理以及電網的穩定運行有著重要的意義。
目前,對于電能質量指標預測的研究主要有回歸模型、時間序列、灰色模型以及神經網絡等方法[2]。回歸模型注重于數據的擬合,對于非線性關系的準確性差[3]。時間序列對受未來因素影響大的指標進行預測時,準確性不佳[4-6]。灰色模型只適用于中短期、指數增長的預測[7-8]。神經網絡能夠很好地解決多特征、非線性的復雜關系擬合,但由于初始的權值與閾值是隨機的,算法容易陷入局部最優,且對于多特征輸入時運行速度慢,準確性不高[9-10]。
因此,針對影響電能穩態指標特征復雜以及BP神經網絡收斂速度慢、易形成局部極小等不足,提出了RF-PSO-BP 電能質量穩態指標預測方法。
隨機森林(RF)是一種功能強大、用途廣泛的監督機器學習算法,其由多個決策樹組成,每個決策樹的數據集都對應著不同的特征和樣本。決策樹算法根據給定的數據集歸納出分類規則[11],并采用自頂向下的遞歸劃分方式,以樹的形式展現出來。其中,信息熵作為決策樹方法中分支產生的衡量標準,其大小由信息決定,信息的定義如式(1)所示:
其中,xi表示第i個分類,p(xi)表示第i個分類的概率函數,l(xi)表示為信息。因此信息熵H(X)就可以表示為式(2):
通過信息熵可以精確地度量信息量的大小,算法會根據所有樣本信息熵的變化來選擇最佳分類,最后隨機森林將單個決策樹的輸出整合起來,生成最后的輸出結果。
RF 模型由于隨機進行樣本和特征選取,因此不容易出現過擬合的問題,在處理高維數據、特征遺失數據與不平衡數據時依然有很好的魯棒性。
BP 神經網絡是一種通過反向傳播誤差來訓練的多層前饋網絡算法[12]。網絡結構由三部分組成,其中輸入層與輸出層分別對應信息的輸入與輸出,隱含層作為中間層用于信息的分析處理。BP 神經網絡模型拓撲結構如圖1 所示。
根據Strauss和Corbin的觀點,扎根理論利用三個階段的編碼方式用以裂解原始資料、概念化,并重新產生新的形式,此三個階段編碼包括開放編碼、主軸編碼與選擇編碼。[21]三個階段編碼通常也被稱為三級編碼。為了更有效率地進行編碼分析,本研究借助了質性分析軟件NVivo11.0。

圖1 BP神經網絡拓撲結構
由于獨特的結構,BP 神經網絡具有任意復雜的模式分類能力和優良的多維函數映射能力[13],但隨著應用研究的深入,其局限性也暴露出來。如神經網絡的初始權值與閾值是隨機的,導致算法容易陷入局部極小;當網絡參數過多時,每次更新都需要操作過多權值,導致收斂速度變慢。因此,對于神經網絡初始參數的優化以及算法收斂速度的提升是BP神經網絡的重要研究內容。
粒子群優化(PSO)算法的基本概念源于對鳥群捕食行為的研究,它利用了種群的群體智慧進行協同搜索,從而在解空間內找到最優解[14]。其算法簡單易于實現、精度高,且對比遺傳算法收斂速度更快。粒子群算法流程圖如圖2 所示。

圖2 粒子群算法流程圖
速度與位置更新公式如下:
式中,xi和vi分別表示粒子的位置和速度;rand()為均勻分布的偽隨機數;pbesti和gbesti分別代表粒子的個體和全局最優位置[15];c1、c2分別為粒子個體、全局的學習因子,w為慣性因子。
由于PSO 擁有較強的全局探測和局部開采能力,因此將BP 神經網絡誤差作為目標函數,通過粒子不斷迭代更新尋找最優位置,進而最大程度優化BP 神經網絡的權值與閾值,從而提高神經網絡預測的準確性。
智能電表采集到的電能質量數據特征以及環境因素特征的量綱以及數量級存在著差別,如有功功率單位為kW,電壓諧波畸變率為百分數等。不同特征的量綱不同,導致神經網絡的擬合偏向于量綱較大的特征,從而導致預測效果不理想,因此需要對特征數據集進行標準化處理。標準化公式如式(5)所示。在BP 神經網絡輸出后,必須將輸出數據進行反標準化,才能得到其原本量綱上的預測值。反標準化公式如式(6)所示:
式中,X為標準化后的數據,Xi為某特征對應的原始數據,為數據樣本均值,σ(X)為標準差。
對于復雜多樣的特征數據,完全利用數據中的信息會導致預測準確性差,盲目減少特征同樣也會損失很多有用的信息,從而導致預測結果不理想。因此,在充分考慮預測指標的影響因素下進行重要特征提取,是提高算法預測準確性的關鍵。為了保留有效的特征數據,隨機森林算法將收集到的動態電能歷史數據與環境因素特征作為神經網絡輸入,將某一預測指標作為輸出,通過比較各輸入特征預測其指標的重要性,過濾掉低或負重要性的特征。
均方根誤差(RMSE)和平均絕對百分誤差(MAPE)是對于連續變量的兩個最普遍的度量標準,將其作為驗證預測準確性的方法,如式(7)、(8)所示。兩者值越小,則預測精度越高。
整體預測流程可分為四個步驟:
步驟1:對智能電表采集到的動態電能歷史數據以及監測點的溫濕度等數據進行預處理,將處理后多維特征作為隨機森林輸入,將某一預測指標作為輸出,通過重要性分析后確定初始輸入變量集合。
步驟2:將步驟1 提取出的特征數據作為BP 神經網絡的訓練集輸入樣本,通過輸入輸出特征個數與經驗公式來確定合適的隱含層節點數。經驗公式如式(9)所示:
式中,h為隱含層節點的數目,m和n分別是輸入層和輸出層節點的數目,a為1~10 之間的調節常數[16]。
步驟3:利用PSO 算法優化每一項預測指標相應的BP 神經網絡初始參數。計算BP 神經網絡的誤差,將其作為粒子更新過程的輸入,通過設定PSO 的迭代次數、權重以及學習因子等參數進行優化,將最優權值和閾值賦給網絡。
步驟4:以梯度下降為訓練算法,設定一系列訓練參數后,對網絡進行訓練并預測,最后通過預測結果的誤差評價算法的性能,并進行檢驗評估。
實例數據由湖南省某低電壓臺區監測點每15 min采集一次得到,9 月份共采集共計2 880 組樣本數據。樣本數據由動態電能數據與環境因素數據兩部分組成。其中動態電能數據包括各時間段的電壓、電流、有功功率、無功功率、視在功率、總功率因數、頻率、電壓畸變率、電流畸變率等;另收集了該地區的溫度、濕度、風速及氣壓等同時刻數據作為環境因素數據。由于電表采集到的數據集含有缺失項和不完整數據,為了得到更加準確的預測結果,數據集在使用前均進行缺失值補充、異常值修正等預處理操作[16]。以電壓偏差和三相電壓不平衡度作為預測指標,將標準化后得到的數據集按照6:2:2 進行數據劃分,其中占比為6 的數據集為訓練集作為神經網絡訓練樣本,占比為2 的數據集為驗證集用于超參數的調整與設定,另外占比為2 的數據集作為測試集,用于對預測方法的準確性進行驗證。
剔除無關特征與冗余特征后,選擇出能夠有效提升算法效果的特征,試驗基于Matlab 2020b 將數據集樣本的動態電能質量歷史數據以及環境因素共13 個輸入特征與待預測的某一電能質量指標進行重要性分析。以電壓偏差為例,其特征重要性分析圖如圖3 所示。

圖3 電壓偏差的特征重要性分析圖
圖3 中橫坐標分別對應上述各特征,縱坐標代表各特征所對應的重要性,數值越大,則重要性越高。由圖3 可知,特征13(氣壓)呈負重要性,特征10(頻率)的重要性為0,均予以剔除。余下特征經過多次試驗分析,當加入重要性排名第6 的特征時,預測算法性能降低,因此取排名前5 的特征作為神經網絡的特征輸入。
合適的參數設定可以在提高算法預測精度的同時縮短算法運行時間,從而提升算法預測性能。將3.1 提取出的特征作為神經網絡輸入,進行PSO 以及神經網絡的參數設定。為了得到更好的預測效果,經多次試驗分析,最終確定各超參數如下:設定PSO的學習因子c1、c2為1.494 45,慣性權重為0.8,限制速度范圍為(-1,1),迭代次數為1 000;設定BP 神經網絡的訓練次數為1 000,學習速率為0.01,目標誤差為0.000 001,訓練算法為TRAINLM。
為了更加直觀地體現所提方法在目標預測上的優越性,將該方法與傳統BP 神經網絡以及PSO-BP在Matlab 平臺上進行仿真試驗并得出預測結果。在保持數據條件相同的前提下,選取各預測指標的前100 個測試集樣本的預測值與實際值進行對比。三種預測方法對于電壓偏差ΔU、三相電壓不平衡度εu的預測結果如圖4-5 所示。

圖4 電壓偏差預測對比圖

圖5 電壓三相不平衡度預測對比圖
由圖4-5 可知,傳統BP 預測在部分樣本試驗中存在明顯偏差,在電壓偏差指標預測中于樣本數50到75 之間呈現了相反預測趨勢;PSO-BP 方法在少數樣本試驗中也存在明顯偏差;而所提方法的預測值整體上會更加趨近于實際值。為了更加客觀地對預測結果進行評估,試驗程序通過式(7)、(8)計算出各預測方法的εRMSE、εMAPE進行對比,并計算各算法平均運行時間,如表1-2 所示。

表1 預測指標誤差分析表
根據表1 預測結果可知,RF-PSO-BP 預測的準確度在兩個指標預測中均高于其他方法。但兩種預測指標的誤差在精度上有所差異,其原因是不同的預測指標所構建的輸入特征及神經網絡參數的設定不同。相對于傳統BP 神經網絡,所提方法的εRMSE降低了0.081 67,εMAPE降低了3.301%;相對于PSO-BP,所提方法的εRMSE降低了0.038 7,εMAPE降低了1.262%。由表2 可知,由于利用了優化算法對神經網絡初始參數進行尋優,PSO-BP 對比BP 運行時間增長。而所提方法利用RF 進行了特征選擇與降維,對比PSO-BP 運行速度提升了274%。

表2 算法運行時間對比表
文中針對于傳統BP 神經網絡的不足,提出一種基于RF-PSO-BP 的電能質量穩態指標預測方法,對監測點采集到的多維動態電能歷史數據以及環境因素數據利用RF 算法進行特征優選,使用粒子群算法優化神經網絡的初始參數,并在實例分析中以電能質量的重要指標(電壓偏差和電壓三相不平衡度)作為預測指標,對比傳統BP 以及PSO-BP 進行預測分析,得到各個指標的預測結果。通過對各方法預測結果進行分析評價,證明了所提預測方法有一定的優越性。該方法未來可與其他深度學習算法相結合,進一步提高預測的準確性,并運用在電能預警系統中。