黃龍山
(福建榕能電業集團有限公司,福建 福州 350108)
當電網需要采購電力物資時,首先由計劃部門確定采購的數目以及價格,然后電網公司會利用這個價格安排融資,并最終進行公開競爭招標。由于招標過程的時間較長,會導致招標價格與申報價格相差很大。這些差異增加了不必要的高額貸款利息和設備采購成本。為了規避這種情況,需要對電網物資價格進行預測,并且使預測價格盡量與實際招標價格一致,這樣可以降低采購成本[1]。
當前背景常用預測方法有灰色理論、時間序列法以及貝葉斯理論等,在電力負荷預測、石油價格預測、鐵礦石、有色金屬價格預測以及農產品價格預測等多個領域中得到廣泛應用。現有的研究大多是建立在價格為平穩序列的假設下進行的,這一假設僅適用于價格形成機理簡單,影響因素單一的產品價格預測[2]。
但是電網物資價格受多種影響因素的共同作用,其價格形成機理十分復雜,因此電網物資價格表現為非平穩、非線性的時間序列[3]。傳統預測方法不能滿足電網物資的預測需求,經過對大量相關文獻的分析,最終決定采用支持向量機方法來預測電網關鍵物資價格,并與BP 神經網絡模型預測效果進行對比。
使用皮爾遜系數評估特征與價格之間的相關性,并篩選出相關性較高的特征。將原材料價格和關鍵特征結合形成訓練數據集。將訓練數據集分為兩個部分,分別為測試集和訓練集,然后基于支持向量機算法和BP 神經網絡算法分別對其進行預測。使用測試集來檢查預測結果的準確性。最終通過預測效果評價指標來評估預測效果,評價指標選用均方誤差(MSE)和校正相對系數(R2)[4]。
支持向量機(SVM)[5-7]本質上是一種新穎的機器學習方法,它是基于統計學習理論和優化理論發展而來。常用于模式識別、分類和回歸分析等領域。其重要之處在于維理論以及結構風險最小化原則,可用于解決線性和非線性分類問題。支持向量機的主要思想是找到最佳的超平面,將不同類型的數據點劃分到不同的區域。總之,通過尋找模型復雜度和學習能力之間的最佳平衡點,支持向量機可以取得很好的效果。使用有限的樣本信息來獲得最好的推廣能力。為了解決那些在低維空間中無法通過線性方式分開的數據樣本,采用一個叫做非線性映射的方法,將這些樣本映射到高維空間中。支持向量機具備簡單的結構、較強的全局優化和泛化能力,能有效地解決高維和非線性問題。基本上,支持向量機就是通過間隔來確定置信風險的,同時通過參數來在經驗風險和置信風險之間進行權衡。這樣,它能夠得出少數支持向量決定的最佳分類超平面,并且還具有稀疏性。支持向量機的模型類型為凸二次規劃模型,不易陷入局部最優解的問題,具有非常強大的非線性處理能力。

在高維特征空間中,可以建立一個線性回歸函數:f(x)=ωΦ(x)+b。
其中,Φ(x)為非線性映射函數,定義ε線性不敏感損失函數。
在回歸函數中,f(x)代表函數返回的預測值,而y為表示對應的實際值。

式中:C為懲罰因子,C越大表示對訓練誤差大于ε的樣本懲罰越大,ε規定了回歸函數的誤差要求,ε越小表示回歸函數的誤差。
這里引入Laragange 函數,并將上式轉換為對偶形式,轉換如公式(2)所示。
可以通過設置最優解為α=[α1,α2,…αl],則有公式(3)和公式(4)。
可以通過MATLAB 軟件來對數據進行進一步分析和處理,結果會返回兩個參數,第一個參數就是所得的預測值,第二個參數包括均方誤差以及R2[8],可以通過這2 個系數來確定預測值的精度,其計算如公式(5)所示。
電力系統的關鍵物資比較多,選用某電力公司變壓器物資的價格進行預測,并將預測價格與實際招標價格進行比較,檢驗該文所提的支持向量機模型價格預測結果的可靠性。
在該文中采集的數據包括缺失值、奇異值、字符型數據等,因此需要對這些數據進行預處理。對缺失值、奇異值而言,預處理方法是去掉奇異值變為缺失值,奇異值包括招標價格和申報價格的奇異值,如招標價格為 0、申報價格是實際價格的5 倍或更大等均為奇異值,然后使用中位數對缺失值進行填充,可以有效避免極端值對預測的影響。對字符型數據進行拆分、編碼等,轉化為數值型數據。
影響變壓器價格的因素有很多,例如安裝方式、絕緣方式、中標單價以及額定容量等。部分因素對價格的影響并不是很大,為了避免關注過多的因素從而導致計算難度增大且可能產生不必要的干擾,該文決定僅考慮對價格影響程度較大的因素。
皮爾遜相關系數的作用是衡量兩個影響因素之間的相關程度,其相關程度由兩個影響因素的協方差和標準差的商表示。若通過計算得到兩個影響因素的相關系數越接近于0,則說明這兩個影響因素的相關程度就越低,反之,若得到的數越接近于1,則說明這兩個影響因素的關聯程度越大。皮爾遜相關系數的表達式如公式(6)所示。
式中:X,Y是2 個數據組,其中X(x1,x2,x3……),Y(y1,y2,y3……);cov(X,Y)表示X,Y兩組數據的協方差,用以表征X,Y兩組數據彼此之間相互影響的程度,協方差絕對值越大,表示兩者對彼此的影響越大,反之,越小。E表示均值,E(X)表示X組數據的均值,E(Y)表示Y組數據的均值。σX表示X組數據的樣本標準差,σY表示Y組數據的樣本標準差。
該文通過大量試驗得出,當某一影響因素的皮爾遜相關系數達到0.35 時,該影響因素對預測價格的影響程度達到要求,因此根據相關經驗,該研究設置3 個過濾常數,依次為0.35、0.37 和0.38,當某一影響因素與待預測價格之間的皮爾遜相關系數低于0.35 時,則將次影響因素過濾掉。然后對皮爾遜相關系數大于0.35 的影響因素繼續重復上述操作,兩兩進行皮爾遜線性相關性的評估。
采用Pearson 相關系數法和行業專家的實際經驗對影響變壓器的多個因素進行分析,篩選出額定容量、鐵芯材質、絕緣方式、安裝方式和采購單價5 個主要因素來作為最終的影響因素。該文使用獨熱編碼方法,將字符型數據轉化為數值型數據。將表1 的樣本數據轉化為表2 的數值型數據,數據來自某電力公司,表1 和表2并未顯示所有數據,僅列出了部分數據,以展示樣本數據的轉化。

表1 原始數據

表2 轉換后的數據
由于變壓器的3年數據并沒有非常大,因此,為了保證預測的準確性,對所有數據進行訓練,支持向量機采用默認的RBF 核函數,利用交叉驗證方法確定最佳的懲罰因子c和RBF 核函數方差g參數,然后用這些參數來訓練模型。其訓練情況如圖1所示。

圖1 訓練集情況
通過均方誤差核決定系數的數值來看,整體的訓練結果還是較為良好。為了得到變壓器最終價格的預測情況,且為了不失一般性,采用了四組支持向量機模型預測,每組通過隨機選擇10 個數據進行預測。具體情況如圖2所示。

圖2 支持向量機預測情況
數據預處理的方式同支持向量機模型數據預處理方式,數據每組為7 維,第一維到第六維為變壓器價格的影響因數,第七維是變壓器的中標單價。由于數據量并不多且工作量不大,可以采用對整體數據進行訓練,也可避免數據的分布不均衡對預測產生較大的影響。
對BP 神經網絡的預測[9-10],采取與支持向量機相同的預測方式。為了得到變壓器最終價格的預測情況,且為了不失一般性,采用了四組BP 神經網絡模型預測,每組通過隨機選擇10 個數據進行預測。具體情況如圖3所示。

圖3 BP 神經網絡預測情況
通過表3 的直觀對比,支持向量機價格預測模型的均方誤差均值為0.0064634,小于BP 神經網絡價格預測模型的0.01130202,支持向量機預測模型的校正系數均值為0.9462825,大于BP 神經網絡預測模型的0.9124275,很明顯,在變壓器的價格預測中,還是支持向量機的預測精度要更精確一些,但在整體上誤差并不是很大。此外在計算過程中發現支持向量機模型的速度比BP 神經網絡預測模型更快。

表3 預測誤差對比情況
正確預測電網物資的價格對電網企業來說非常重要,因為預測價格的高低會直接影響到物資成本和損失。該文選取電網關鍵物資變壓器作為預測對象,通過數據預處理來篩選出有用數據,并利用歷史數據中的皮爾遜系數確定了影響電網物資價格的關鍵特征,篩選出額定容量、鐵芯材質、絕緣方式、安裝方式和采購單價5 個主要因素。分別采用BP 神經網絡與SVM 兩種模型,利用預測評價指標均方誤差和校正相對系數來評估預測結果,對同一目標的不同預測模型的結果進行比較,提高變壓器價格預測時結果的準確性,減少誤差。得到了支持向量機預測模型、BP神經網絡預測模型的均方誤差分別為0.65%、1.13%,校正相對系數分別為0.9462825 與0.9124275,結果表明支持向量機模型的預測精度更好,可獲得較為理想的結果。此外,在預測過程中支持向量機模型的預測速度比BP 神經網絡模型快。該研究結果可為電網企業的物資價格預測提供參考。