鄒斌斌,李貞貞
(恒誠信國際工程咨詢有限公司,山東 濟寧 272000)
新能源發電功率的波動性和不確定性給電力系統的穩定運行帶來了新的挑戰[1]。其中,異常值檢測是確保電力系統安全、經濟運行的關鍵環節。傳統的異常值檢測方法多基于統計學原理,如3σ 原則、Box-Jenkins 模型等,這些方法在處理大規模、高維度的數據時,往往面臨著計算復雜度高、對異常值敏感等問題。近年來,機器學習與數據挖掘技術為異常值檢測提供了新的思路[2-3]。決策樹作為一種簡單且有效的分類與回歸方法,已被廣泛應用于各種異常檢測場景。然而,傳統的決策樹算法在處理新能源發電功率數據時,對于非線性、高維度以及連續變化數據時的應用性能較差。因此,文章提出了一種基于改進決策樹的新能源發電功率異常值檢測方法。
由于單一的檢測方法可能無法全面識別各類特征的異常值。因此,需要采用多種方法進行綜合分析和檢測,以提高異常值識別的準確性和可靠性[4]。利用聚類算法將數據劃分為不同的簇,針對每個簇的特點采用相應的異常值檢測方法。新能源發電機組的發電功率特性可以表示為
式中:ρ為空氣密度,是影響新能源發電效率的重要因素之一;CP為功率系數,決定了新能源轉換為電能的效率;v為風速,是新能源風力發電的直接動力來源,其大小和穩定性對發電效率有著顯著影響;R為新能源項目覆蓋半徑,是風力發電設備的覆蓋范圍和影響區域;η為發電效率,是衡量新能源發電系統性能的重要指標。
從式(1)可以看出,發電功率的特征會受不同環境和地理條件的影響。為更準確地模擬分析異常值的分布特征,使用甘肅酒泉風電基地作為模擬分析的實際數據來源[5]。數據采樣間隔為1 min,風速和機組的額定容量分別為6.5 m/s、800 kW。一般情況下,新能源發電機組的運行數據主要分布在直線和離散數據點上。通常,分布帶中的數據是由風速值和容量值共同構成的,反映了不同風速和容量條件下發電功率的特性。其周圍有2 種類型的數據,一種是發電功率離群孤立點數據,另一種是偏差簇數據。
因此,根據新能源發電機組的運行數據在不同條件下的分布特性,可以更精細地區分數據,結果如表1 所示。

表1 數據精細化區分
不同類型發電功率異常值具有不同的形成原因和分布特性,導致風速也各不相同。第一,正常數據,風速與發電功率之間的關系表現出明顯的集中趨勢,這些數據緊密地分布在正常的電特性范圍內。第二,棄風限電數據,這些數據點在風速軸的平行線上集結,風速值大于風速閾值,容量值小于正常容量值的一半,且基本保持恒定。第三,離群孤立點數據,該數據點與正常數據相距較遠,通常是由于發電功率異常或誤差導致的測量數據誤差過大,超出了正常的測量誤差范圍。離群孤立點數據在異常值分布中只占很小一部分,通過統計方法可以很容易地識別出來。第四,偏差簇數據,這類數據主要分布在風速的低尺度范圍內,具有高密度特性,主要是由于在數據傳輸、計算機信息處理及存儲過程中長期受電磁干擾所導致的,數據局部密度較高,大部分位置都接近正常數據的特征。
傳統的異常值檢測方法多基于統計學原理,但在處理高維度、非線性及連續變化的新能源發電功率數據時,往往存在局限性和不足。為解決這一問題,設計基于改進決策樹的新能源發電功率異常值檢測模型。該模型結合了特征工程、模型優化及后處理等多個環節,旨在提高異常值檢測的準確性和實時性。
在發電功率數據精細化區分的基礎上進行數據預處理,清洗和轉換原始新能源發電功率數據,同時選擇特征,提取與功率異常相關的特征。相關公式為
式中:Pmax和Pmin分別為功率的最大值和最小值。
采用集成學習的方法改進傳統決策樹,通過引入隨機森林技術,提高決策樹的泛化能力和對非線性數據的處理能力。計算每個特征的重要性,以便在構建決策樹時進行特征選擇和剪枝,公式為
式中:f(x)為特征的重要性得分;wi為樣本權重;yi為樣本標簽;n為樣本總數;G(xi,x)為高斯核函數,用于計算樣本xi和x之間的相似度。通過計算每個特征在決策樹中的信息增益或基尼指數等指標,可以確定哪些特征對于異常值檢測更為重要。
基于改進決策樹的新能源發電功率異常值檢測模型為
式中:Y為新能源發電功率異常值檢測結果;x1,x2,…,xn為輸入的特征值,包括功率波動率、功率變化率等特征;f(·)為一個非線性映射函數,通過改進決策樹模型實現特征的映射和分類。通過訓練和優化改進決策樹模型,可以得到最佳的映射函數和異常值檢測效果。
識別異常值就是在眾多樣本數據中辨識出與其他樣本行為或形式不同的少數樣本。文章設計的新能源發電功率異常值檢測流程如圖1 所示。

圖1 新能源發電功率異常值檢測流程
新能源發電功率異常值的檢測流程具體如下。第一,將收集到的新能源發電功率數據作為輸入,包括時間序列數據、氣象數據及設備狀態數據等,用于構建新能源發電功率異常值檢測模型。第二,并使用改進決策樹算法來構建新能源發電功率異常值檢測模型。改進決策樹算法能夠更好地處理高維度、非線性及連續變化的數據,提高異常值檢測的準確性和實時性。在構建模型的過程中,對輸入的新能源發電功率數據進行特征提取,提取與功率異常相關的特征,使用這些特征來訓練和優化改進決策樹模型。第三,在構建好新能源發電功率異常值檢測模型后,計算實際功率值與預測功率值之間的殘差。第四,分解殘差。將根據不同因素對殘差的影響程度進行分析。第五,在計算出殘差并進行分解后,利用隱馬爾可夫模型(Hidden Markov Model,HMM)算法檢測發電功率異常值。HMM 算法是一種常用的時間序列分析方法,可以用于檢測時間序列數據的異常值。利用HMM 算法分析殘差數據,通過計算狀態轉移概率參數,判斷是否存在異常值。第六,根據HMM 算法的輸出結果來判斷數據是否為異常值。如果輸出結果大于1,則表示該數據點為正常數據;如果輸出結果小于等于1,則表示該數據點為異常值。根據輸出的異常值,提供相關的分析報告和建議措施,以便及時采取相應的措施進行異常處置。
為驗證基于改進決策樹的新能源發電功率異常值檢測方法的檢測效果,設計所需的實驗平臺,將其與其他兩種傳統的新能源發電功率異常值檢測方法進行實驗對比,并分析實驗結果。
文中使用的數據來自2021 年中國風力發電行業專題調研與深度分析報告。
為模擬數據中的異常值,隨機選擇h%的風電數據并對其加入干擾,使其值變為原本的(1+h%)。其中,|h|>10,h服從高斯分布,均值μ=0,方差σ=30,加入的數據干擾表達式為
式中:yt*為加入干擾后的數據;yt為原始數據。
為減小實驗誤差,分別應用本文方法、基于3σ原則的異常檢測方法(傳統方法1)以及基于Box-Jenkins 模型的檢測方法(傳統方法2)對其發電功率異常值進行3 次檢測實驗,對比3 種方法的異常值檢測效果,檢測結果如表2 所示。

表2 3 種方法的實驗結果
由表2 可知,文章研究方法在發電功率異常值檢測方面精確率較高,而傳統方法檢測精確率均低于文章研究方法,證明該研究方法的檢測效果較好,具有實用性。
文章深入探討了基于改進決策樹的新能源發電功率異常值檢測方法,詳細介紹了所提的改進決策樹方法,以及如何將其應用于新能源發電功率數據的異常值檢測。實驗部分,將文章研究方法與傳統方法對比,充分證明了該方法在準確性方面具有顯著優勢。