戴 蕊
(國網江蘇省電力有限公司揚州供電分公司,江蘇 揚州 225009)
在電力行業中,電價分類數據挖掘是一個重要的研究方向。電價分類是指將電力市場中的電價按照一定的規則劃分為不同的類別或階段,以便對不同的電價行為進行分析和管理[1-3]。本文研究了數據挖掘方法在電價分類和閾值處理中的應用和有效性,并設計價格分類流程。本文提前24 h對未來電價進行分類,提出了一種新的數據模型來形成初始特征集,提出的模型允許遞歸分類實現,包含最新的價格信息,反過來又提高了分類性能,實現價格分類在需求側管理中的應用。
本文中的電價分類流程如圖1所示。該過程在輸入塊中選擇一組價格變化的潛在特征。本文的重點是提前24 h對未來電價進行分類,提出了一個輸入數據模型。該模型允許遞歸多步前分類,并考慮到最新的價格信息。雖然從大量數據初始集開始可以在理論上提高模型捕捉隱藏模式的能力,但在實踐中,計算負擔和潛在特征之間的冗余會降低模型的準確性。因此,本流程采用了特征選擇器模塊,通過該模塊,從初始特征中選擇一組精簡的特征值。

圖1 采用的電價分類流程
所選擇的特征值以合理的計算次數、最小的冗余合理地捕捉數據中的隱藏模式。選擇的特征值,即特征選擇器模塊的輸出被饋送到分類器模塊,在分類器模塊中訓練分類,以確定未來電力價格的“類別”。分類器在無估計確切電力價格的情況下確定未來值將在多大范圍內下跌。在實踐中,價格范圍由用戶根據其操作需求指定。
考慮到電力市場價格的高度自相關性,電力系統的各個變量,如負荷、備用裕度、網絡約束和發電機可用性,均可以提供有關電價的信息。然而,除了系統負載之外,其他變量的準確預測通常在實時價格之前不可用。因此,在大多數點預測文獻中,系統負荷是價格預測模型的唯一外生變量。然而,支持向量機(Support Vector Machine,SVM)模型中表明,在價格分類的情況下,需求不如在點價格預測中有用[4-5]。本文將初始特征(輸入)集限制為滯后價格。

(1)
(2)
因此,在K天的m小時之前的一整套歷史小時價格是:
P=PK,m∪PN
(3)
對于提前1 h的預測,所有元素在預測起點都可用。
因此,P包括用于預測未來價格的所有有用的價格信息,并且直接適用于提前1 h的分類問題。然而,在多步預測中,如日前預測,PK,m包括目標日內選定小時的價格,這些價格在預測起點是未知的,因此它無法適用于24 h前的價格分類。為了進一步解釋此點,假設m小時的價格取決于m-3小時的價格,此外,假設目標是預測明天所有小時的價格等級。因此,對于明天給定的一個小時,比如10:00,需要7:00的價格。在數值預測中,模型中使用7:00時的價格預測,并確定10:00時的價格預報。然而,在本申請中,關于7:00時價格的唯一可用信息是類別預測,而不是數值。

(4)
考慮3個價格類別,即低于500元/MW·h的價格,將被標記為e1,價格在500元/MW·h到700元/MW·h之間,標記為e2,價格在700元/MW·h以上的標記為e3。

將本文模型獲得的結果與基于神經網絡的點位價格預測模型獲得的效果進行了比較。本節的神經網絡模型是一個回歸模型,并生成數值價格預測。然而,目前較多使用的多層感知器(Multi-Layer Perceptron,MLP)模型是一個只生成價格類的分類器。為了進行精確的比較,在點預測方法中采用了與本文方法相同的特征選擇程序,采用前饋神經網絡(Feedforward Neural Network,FFNN)來獲得相同測試周期的積分價格預測。完全公平調度(Completely Fair Schedule,CFS)算法最初設計用于查找一組輸入特征和離散輸出(即類)之間的相關性。在本節中,為了精確地進行比較,本節向FFNN提供了每個特征選擇方法尋找對預測未來價格類別有用的特征。本節使用選定特征的數值,而非離散值,然后通過對預測數據取閾值來獲得相應的分類精度。神經網絡有包含10個神經元的隱藏層,其傳遞函數被選為雙曲正切S形傳遞函數,此外,應用萊文伯格反向傳播訓練方法來迅速地找到解。
表1顯示了基于神經網絡的點預測模型的混淆矩陣,將這些結果與傳統模型算法結果比較,可得本文所提模型比其單一點預測模型要準確得多。本文所提出的方法顯著地降低了預測的類的誤差,尤其對于較高的價格和較高經濟影響的價格飆升現象,作用明顯。

表1 基于神經網絡的點預測方法的混淆矩陣
將本文模型的精度與前人研究中提出的基于SVM的模型準確性進行了比較。SVM中的數值結果是2個區域市場的價格得出的,為了進行準確的比較,生成了與SVM中相同時間段的結果。對于這組模擬,在形成輸入數據集時使用了20個歷史日。表2給出了基于本文算法的2個市場的最佳結果。SVM的最準確結果也報告在表2中,以供參考。從該表中可以看出,對于2個地區市場,本文所提出的模型平均分別優于SVM的模型3.02個和2.73個百分點。按月計算,在12個月中的10~11個月內,本文所提出的模型在2個區域的價格方面優于SVM中的模型。本文還使用標準方差分析對表2的結果進行了假設檢驗,測試結果證實,使用本文所提方法獲得的月平均精度明顯高于SVM獲得的精度。

表2 2個測試區MPCE(%)比較
與SVM法相比,本文模型實現的精度提高可歸因于所提出的數據模型。SVM的模型利用了前幾天的可用信息,即它只考慮將PN作為輸入數據,然而,在本工作中,當天信息,即PK,m,也被添加到數據中。
當在(4)中對數據進行離散化以適應價格分類離散性質時,價格輸入已被證明在提高分類準確性方面有益。與SVM的模型相比,本文研究了所提模型執行不足的月份,在這幾個月里,都有幾天的每日價格極不穩定,高波動性使當前信息對所提模型的價值降低,從而導致更高的誤差。對于這2個市場,CFS特征選擇方法與貝葉斯(By)分類器相結合產生了最準確的結果,這與表2中報告的結果一致。
不同的電力市場價格的每日、每周和季節性波動會有所不同。然而,隱藏在不同價格時間序列中的內在一般模式被認為是相似的,主要是因為價格是由類似的電力需求模式驅動的。實驗數值結果表明,本文提出的算法提高了分類準確性。基于模式識別的分類流程的性能明顯優于基于函數逼近的方法,研究結果亦適用于需求管理的個案研究。電價分類數據挖掘在需求側管理中具有重要的應用價值。通過對電價行為進行分類、預測和關聯分析,人們可以更好地管理電力市場。