王 曙 潘庭龍
(江南大學(xué)物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心 無錫 214122)
電價是電力市場中的重要組成部分,從電價可以看出整個市場的運(yùn)轉(zhuǎn)效率的高低,以及市場的競爭和成熟的程度。伴隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、傳感器等技術(shù)的飛速發(fā)展,電力市場在運(yùn)行過程中累積了海量的電價數(shù)據(jù)。在大數(shù)據(jù)時代,擁有了這些數(shù)據(jù)的意義是非凡的,我們可以運(yùn)用數(shù)據(jù)挖掘的手段去對電力市場中的電價進(jìn)行預(yù)測,可以為電力市場、運(yùn)行商、客戶等提供指導(dǎo)[1~4]。然而,歷史電價數(shù)據(jù)的準(zhǔn)確性和完整性是使用這些方法的前提。基于數(shù)據(jù)挖掘技術(shù)的電價預(yù)測是在電力市場中已有的歷史電價數(shù)據(jù)基礎(chǔ)上進(jìn)行的,采集電價數(shù)據(jù)的過程中可能會因?yàn)楣╇姴环€(wěn)定、設(shè)備損壞、人為等因素而不可避免的在一些時間點(diǎn)上存在一些缺失值。如果歷史數(shù)據(jù)中的缺失值過多,會給預(yù)測帶來很大的難度、影響到預(yù)測的精度,甚至使整個數(shù)據(jù)失去價值。因此,本章對電價缺失數(shù)據(jù)進(jìn)行合適的預(yù)處理就顯得十分重要。
在統(tǒng)計學(xué)的定義中,數(shù)據(jù)缺失的類別包括三種:完全隨機(jī)缺失、隨機(jī)缺失以及非隨機(jī)缺失。這些是討論一切數(shù)據(jù)缺失問題的基礎(chǔ)概念。判斷究竟屬于哪種缺失類別的主要依據(jù)是看缺失的數(shù)據(jù)特征和標(biāo)簽列是否有聯(lián)系。完全隨機(jī)缺失顧名思義是完全沒有關(guān)系的,這種情況是非常少見的。隨機(jī)缺失是比較常見的缺失類型,其缺失數(shù)據(jù)特征和標(biāo)簽列是相互有依存關(guān)系的。非隨機(jī)缺失的缺失數(shù)據(jù)特征只和本身以及一些不可抗的因素有關(guān)聯(lián),這種缺失也是不容輕視的[5~6]。
對于缺失的數(shù)據(jù),比較常見的填補(bǔ)算法有刪除法、均值填補(bǔ)法、回歸填補(bǔ)法、熱平臺填補(bǔ)法、最近鄰填補(bǔ)法等等。這幾種算法的局限性很大,在數(shù)據(jù)缺失比例較高或數(shù)據(jù)波動幅度較大的狀況下,填補(bǔ)的效果較差。因而本文提出了一種基于馬爾可夫鏈蒙特卡洛(MCMC)填補(bǔ)方法對于缺失電價數(shù)據(jù)進(jìn)行填補(bǔ),并和其他兩種常見的填補(bǔ)算法FCS填補(bǔ)法和MICE填補(bǔ)法在不同的評價指標(biāo)下進(jìn)行了對比[7~9],實(shí)驗(yàn)證明了該方法具有一定的優(yōu)勢。
全條件定義法(FCS)[10]是由范布倫等人在1999年提出來的,這種方法對單個變量的條件分布構(gòu)建一系列的回歸模型,接著在不考慮被填補(bǔ)變量和已觀測變量的聯(lián)合分布時對缺失值逐一進(jìn)行填補(bǔ)。
設(shè)無缺失的數(shù)據(jù)Z是從包含了P個數(shù)據(jù)變量的多變量分布P(Z|θ)進(jìn)行隨機(jī)選擇的觀測值,θ所表示的是包含了未知參數(shù)的向量,Z的分布狀況完全取決于它。所以,一旦我們知道了θ,便可以從P(Z|θ)中進(jìn)行數(shù)據(jù)抽取,然后去對缺失值進(jìn)行填補(bǔ)。具體的做法是采用吉布斯采樣去進(jìn)行迭代抽樣。下面開始t次的迭代過程,第t次結(jié)束得到:

其中Z(t)j=(Z o bsj,Z*(t)j),把它作為第t次迭代式的第j個填補(bǔ)值[11]。
MCMC方法[12~15]將馬爾科夫(Markov)過程引入到Monte Carlo模擬中,實(shí)現(xiàn)抽樣分布隨模擬的進(jìn)行而改變的動態(tài)模擬,彌補(bǔ)了傳統(tǒng)的蒙特卡洛積分只能靜態(tài)模擬的缺陷。它能夠在非常復(fù)雜的數(shù)據(jù)情況下對感興趣的參數(shù)進(jìn)行評估和預(yù)測。這個過程的目標(biāo)是找到一種可能的數(shù)據(jù)分布也就是貝葉斯后驗(yàn)分布,然后可以去評估目標(biāo)參數(shù)。具體使用的貝葉斯公式如下所示:

Y是來自正態(tài)分布的多變量數(shù)據(jù),其中Y o bs和Y mis分別表示已經(jīng)觀測到的和丟失的部分。利用已有的觀測數(shù)據(jù)Y obs,計算出參數(shù)θ。假定是第t次迭代,需要從p(Y mis|Y obs,θ(t))中提取出,然后從p(θ|Y obs,)提取出θ(t+1)。前面一步稱之為填補(bǔ)步(I-Step),后面一步稱之為后驗(yàn)步(P-Step)。結(jié)果序列形成了一條馬爾可夫鏈,…,,其結(jié)果必須匯聚到p(Y mis|Y obs,θ)分布中去,然后當(dāng)數(shù)據(jù)有缺失的時候,使用多重插補(bǔ)法估計參數(shù)。
重復(fù)I-Step和P-Step就可以形成了一條馬爾可夫鏈,他們的責(zé)任就是生成一系列值的分布,從中可以獲得所模擬的缺失值的隨機(jī)樣本。當(dāng)數(shù)據(jù)有缺失的時候使用多重插補(bǔ)方法去估計參數(shù)。馬爾可夫鏈的長度需要足夠長以使得元素分布穩(wěn)定到稱為靜態(tài)分布的共同分布上。簡單概括上述過程的流程圖如圖1所示。

圖1 MCMC填補(bǔ)法的流程圖
對電價的大小有影響的因素包括電力負(fù)荷、溫度、濕度、風(fēng)速、風(fēng)向、降水量、氣壓等。這些因素和電價數(shù)據(jù)之間也存在著一些聯(lián)系,因此電價數(shù)據(jù)的缺失類別是隨機(jī)缺失。如圖2展現(xiàn)了美國PJW電力市場2000年5月1號從18點(diǎn)到22點(diǎn)共5個小時的電價數(shù)據(jù),其中由于采樣的時間間隔是5分鐘,所以這個時間范圍內(nèi)共有100個節(jié)點(diǎn)。可以看出這個時間段的電價數(shù)據(jù)大體呈顯正態(tài)分布的趨勢。

圖2 美國PJW電力市場電價變化圖
由于實(shí)驗(yàn)所用的填補(bǔ)方法均為多重填補(bǔ)方法,為了衡量不同填補(bǔ)次數(shù)下的填補(bǔ)效率(Relative Efficiency,RE)的高低,這里定義一個指標(biāo):
式子中的γ表示的是由于數(shù)據(jù)不完整所造成的相對增量,m表示填補(bǔ)次數(shù)。
為了評價填補(bǔ)算法填補(bǔ)效果的好壞,我們需要定義幾個指標(biāo)來做判斷。本文采用的兩個評價指標(biāo)是均方誤差MSE和平均絕對誤差MAE。MSE的公式為,MAE的公式為其中代表填補(bǔ)算法對缺失位置的填補(bǔ)值,yi表示原始值。MSE對于填補(bǔ)過程中的較大值有更大的懲罰作用,而MAE指標(biāo)則更加注重較小值,因此兩者相結(jié)合能夠很好地評價填補(bǔ)效果。
本實(shí)驗(yàn)選取的數(shù)據(jù)是來自美國PJW電力市場的電價數(shù)據(jù)。選擇的時間段是從2000年3月6日到2000年4月30日,其包含了每天24小時的數(shù)據(jù)。本實(shí)驗(yàn)所使用的是期間每一天的18點(diǎn)到22點(diǎn)時間段,采樣的頻率是5分鐘。實(shí)驗(yàn)中電價的數(shù)據(jù)特征包括:獨(dú)立區(qū)域負(fù)荷、總區(qū)域負(fù)荷、溫度、濕度、風(fēng)速、風(fēng)向、降水量、氣壓,一共8個數(shù)據(jù)特征。本章內(nèi)容討論的是隨機(jī)缺失的電價缺失數(shù)據(jù)的填補(bǔ),為了對幾種缺失值填補(bǔ)方法做出更加有說服力的評價,使用python的隨機(jī)函數(shù)在原始電價數(shù)據(jù)中隨機(jī)選擇缺失值,將這些位置的值用numpy包中的表示空值的np.nan來替代,并且設(shè)置缺失比例分別是10%、20%、30%、40%、50%,然后得到相應(yīng)的有缺失的數(shù)據(jù)集。再對有缺失的數(shù)據(jù)集分別采用FCS法、MICE填補(bǔ)法、MCMC方法,且對3種方法的填補(bǔ)次數(shù)分別設(shè)置為3次、5次、10次和15次,用來觀測不同的填補(bǔ)次數(shù)對結(jié)果的改變?nèi)绾巍?/p>
本章的仿真選取的是MCMC方法,它是一種多重填補(bǔ)方法,用它來對PJW電力市場的電價數(shù)據(jù)進(jìn)行缺失填補(bǔ),并剖析出填補(bǔ)次數(shù)對填補(bǔ)精度的影響。為了很清晰地看出填補(bǔ)次數(shù)對預(yù)測精度的影響,我們必須要在相同的缺失比例下去實(shí)驗(yàn),這里我們以缺失值10%為例,對缺失的電價數(shù)據(jù)分別進(jìn)行3次、5次、10次和15次的填補(bǔ),電價的數(shù)據(jù)8個數(shù)據(jù)特征的填補(bǔ)效率和填補(bǔ)次數(shù)的對應(yīng)關(guān)系如表1所示。
由表1可見,MCMC方法在隨機(jī)缺失的電價數(shù)據(jù)上的填補(bǔ)效率是和填補(bǔ)次數(shù)成一個正相關(guān)的關(guān)系。從理論上分析來看,因?yàn)樘钛a(bǔ)次數(shù)的增加造成了數(shù)據(jù)的自由度有所提升。填補(bǔ)次數(shù)為3次、5次、10次、15次時,8組電價數(shù)據(jù)特征的平均填補(bǔ)效率對應(yīng)分別是0.9853、0.9899、0.993、0.9978。而填補(bǔ)次數(shù)的增加相應(yīng)的會造成計算時間的增加,這里我們?nèi)√钛a(bǔ)次數(shù)為10次較為合適,后面的討論也都建立在10次填補(bǔ)的基礎(chǔ)之上。表2展現(xiàn)了本章的3種缺失填補(bǔ)方法在不同缺失比例下的填補(bǔ)效率。可以看出MCMC方法在不同缺失比例下的填補(bǔ)效率都比其他兩種方法要高,因而MCMC方法在填補(bǔ)效率上是有一定優(yōu)勢的。

表1 MCMC方法在不同填補(bǔ)次數(shù)下的填補(bǔ)效率

表2 不同缺失比例下3種方法的填補(bǔ)效率
為了評價填補(bǔ)算法填補(bǔ)值的好壞,我們需要使用上一節(jié)定義的指標(biāo)MSE和MAE來對三種填補(bǔ)算法在不同缺失比例下的填補(bǔ)效果。其結(jié)果如表3、4所示。

表3 不同缺失比例下3種方法的MSE

表4 不同缺失比例下3種方法的MAE
經(jīng)過對比實(shí)驗(yàn),MCMC填補(bǔ)法、FCS填補(bǔ)法、MICE填補(bǔ)法三種算法在不同的數(shù)據(jù)缺失比列下,總體上來說其MSE、MAE都是隨著缺失值的比例的增加而有所增加。當(dāng)缺失比例在10%,20%左右缺失比例并不是很高的情況下,三種填補(bǔ)方法的效果都差不多,但當(dāng)缺失比例到30%及以上的時候,MCMC填補(bǔ)算法的填補(bǔ)精度要明顯高于其他兩種方法,也證明了MCMC方法在短期電價數(shù)據(jù)的缺失值填補(bǔ)中有一定的優(yōu)勢。
電價數(shù)據(jù)在獲取的過程中不可避免地會出現(xiàn)有缺失的狀況,這對建立電價預(yù)測模型帶來了很大的阻礙。鑒于此,本文提出了一種基于馬爾可夫鏈蒙特卡洛的缺失值填補(bǔ)方法,通過實(shí)驗(yàn)證明了它的填補(bǔ)效率和填補(bǔ)精度相比于其他常見的填補(bǔ)方法具有一定的優(yōu)勢。雖然填補(bǔ)算法能夠依賴統(tǒng)計學(xué)的知識對缺失值盡可能準(zhǔn)確的去填補(bǔ),但誤差是不可避免的。因而,我們在應(yīng)該對于數(shù)據(jù)采集過程加強(qiáng)監(jiān)控,盡量使得建模的數(shù)據(jù)是一手的。