谷海彤 陳邵華 吳曉強 蔡妙妝 崔卓 曾小林
摘 要:針對電能量數據缺失值處理技術,提出一種引入時間序列的基于貝葉斯常均值模型的數據增廣算法(DA多重插補法).應用期望最大算法(EM插補算法)計算缺失值的插補值,將得到的插補值作為插補的初始值,然后根據電能量數據隨時間變化的特點,構建基于常均值模型的多重插補模型,利用貝葉斯方法預測每個缺失值的多次插補值,綜合分析觀測誤差方差和狀態誤差方差得到最終插補值,從而得到多個完整數據集合.在不同缺失率的條件下,通過與EM插補結果,以及與基于貝葉斯線性回歸的DA多重插補結果相比較,得出改進的插補方法比所預測的誤差更低,波動更小,插補結果更穩定的結論,有效提高電能量缺失數據的插補精度.
關鍵詞:貝葉斯常均值模型;DA多重插補法;電能量數據缺失
中圖分類號:TM71 文獻標志碼:A
0 引言
電網數據處理應用中,電能量數據質量的校驗及處理是電網大數據處理業務的一個重要環節,其中,電能量數據的缺失,會導致有用信息的丟失,給電網企業后續的各種數據處理及應用帶來嚴重影響;因此,為保證電網數據的完整性、有效性,提升電能量數據質量,需要對缺失數據進行插補以解決數據缺失問題.
傳統的電能量缺失數據插補方法主要是利用均值、眾數等統計量進行替代,但電能量數據波動大或缺失嚴重時,這些處理方法的誤差不可控且效果欠佳.針對這類問題,已有專家學者進行了相應研究,以期找到更符合電能量數據規律的插補方法.文獻[1]中介紹了一種基于遺傳優化算法的電網缺失數據填補方法,該方法考慮電能量數據的歷史信息,借助遺傳算法優化多重插補的參數,尋找最優的插補值.但該方法將電能量數據視為平穩序列,未考慮其時間波動特性,從而導致插補效果不理想,因為用電高峰和用電低谷時電能量數據顯然是非平穩的.
在電能量缺失數據處理中,將時間序列引入多重插補是行之有效的方法.本論文將EM(Expectation Maximization)插補[2]及DA(Data Augmentation)多重插補相結合,提出一種基于貝葉斯常均值模型的DA多重插補方法.該方法根據電能量數據隨時間變化的特點,構建基于常均值模型的DA多重插補模型,通過貝葉斯方法預測缺失數據的多個插補值,以尋找更符合電能量數據時間波動性質的插補值,提高電能量數據的完整性及有效性.
1 方法介紹
1.1 EM插補計算初始值
記一個完全數據集Y=(y1,y2,…,yT)為T個時期的電能量數據,其中Yobs為觀測數據集,Ymis為缺失數據集,即Y=(Yobs,Ymis).
EM插補運用缺失數據和模型參數之間的迭代關系[3]:假定模型參數,并在此基礎上獲得缺失數據的估計值,利用該估計值修正模型參數,由此不斷迭代,直到模型參數值收斂.EM插補算法每一次迭代都由以下兩步來完成:
E步:E步是在給定觀測Yobs與當前參數估計值的基礎上,得到完全數據對數似然函數lnp(Yobs,Ymis│?茲)關于缺失數據Ymis的期望:
g(?茲│?茲i,Yobs)=E[lnp(Yobs,Ymis│?茲)│Yobs,?茲i]=lnp(Ymis,Yobs│?茲)f(Ymis│?茲i,Yobs)dYmis(1)
其中?茲i為已知的當前參數的估計值,Yobs與?茲i為常數,?茲為待優化的參數,f(Ymis│?茲i,Yobs)是缺失數據Ymis的邊緣密度函數,并依附于觀測數據和當前參數?茲i,D為Ymis的取值空間.
Ymis為一隨機變量,并假設它服從分布:
f(Ymis│?茲i,Yobs)=f(Ymis,Yobs│?茲i)/f(Yobs│?茲i), (2)
f(Yobs│?茲i)與?茲無關,則對數似然函數的期望為:
g(?茲│?茲i,Yobs)=lnp(Ymis,Yobs│?茲)f(Ymis,Yobs│?茲i)dYmis(3)
M步:M步是最大化期望值g(?茲│?茲i,Yobs),即找到一個?茲(i+1),滿足:
?茲(i+1)=argg(?茲│?茲i,Yobs)
其中?專代表參數空間.
1.2 構造基于常均值模型的DA插補模型
常均值模型[4]為時間序列模型,其應用范圍廣且算法簡潔,對于完全數據集Y構造的常均值模型為:
觀測方程:Yt=?滋t+vt,vt~Np(0,Vt),t=1,2,…,T (4)
狀態方程:?滋t=?滋t-1+wt,wt~Np(0,Wt) (5)
初始信息:?滋0│D0~Np(m0,c0) (6)
在式(4)中,Yt為t時刻的觀測值向量, ?滋t為t時刻的期望向量,vt為t時刻的觀測誤差,是一個協方差矩陣為Vt的零均值正態分布.動態正態模型與傳統的靜態正態模型的不同之處在于,期望向量被看做是隨時間變化而變化的隨機變量.在式(5)中,?滋t相對于?滋t-1有一個狀態誤差,其分布為正態、零均值、協方差矩陣Wt.觀測和狀態誤差序列vt和wt相互獨立,且在不同的時刻每一序列內部之間相互獨立.當Wt=0時,狀態方程轉化為恒等式,動態正態模型轉化為靜態正態模型.
1.3 進行貝葉斯預測獲得插補值
記t時刻的信息集Dt=Y′,Dt-1,t時刻缺失時Y′需用插補值代替Yt中的缺失值,不缺失時為觀測值,參數為?茲t=?滋t,Vt,參數空間為?專t.
基于常均值模型進行貝葉斯預測的基本思想是[5]:首先根據(t-1)時刻的后驗分布p(?茲t-1│Dt-1),求先驗分布p(?茲t│Dt-1),若t時刻有數據缺失,則求預測分布p(Ymis,t│Dt-1),數據缺失變量的預測值作為插補值,然后求后驗分布p(?茲t│Dt).以上過程隨時間推移不斷進行遞推修正,具體如圖1所示.
插補后的數據依舊滿足常均值模型,在觀測誤差方差Vt和Wt狀態誤差方差已知的基礎上,遞推修正的過程如下:
Step1 (t-1)時刻的后驗如下:
?滋t-1│Vt-1,Dt-1~Np(mt-1,ct-1);(7)
Step2 t時刻先驗分布如下:
p(?茲t│Dt-1)=p(?茲t│?茲t-1,Dt-1)dF(?茲t-1│Dt-1)=p(?茲t│?茲t-1)p(?茲t-1│Dt-1)d?茲t-1,(8)
?滋t│Vt,Dt-1~Np(mt-1,Ct-1+Wt);(9)
Step3 t時刻缺失時預測分布如下:
p(Ymis,t│Dt-1)=p(Ymis,t│?茲t)dF(?茲t│Dt-1), (10)
Ymis,t│Dt-1~Np(mt-1,p,Ct-1+Wt+Vt),(11)
p(Y't│Dt-1)p(?茲t│Dt)=p(Y't│?茲t,Dt-1)p(?茲t│Dt-1);(12)
Step4 t時刻后驗分布如下:
p(?茲t│Dt)∝p(Y't│?茲t,Dt-1)p(?茲t│Dt-1)=p(Y't│?茲t)p(?茲t│Dt-1),(13)
?滋t│Dt~Np(mt,Ct);(14)
其中:mt=mt-1+At(Y't-mt-1),Ct=Ct-1+Wt-At A'(Ct-1+Wt+Vt),At=(Ct-1+Wt)(Ct-1+Wt+Vt)-1. mt=(1-At)mt-1+AtY't,表明水平的后驗估計mt是先驗估計mt-1和觀測值Y't的加權平均[6],當先驗分布比似然分布更集中時,At更接近0;當似然分布比先驗分布更集中式,At更接近1.
當t時刻數據缺失時,從預測分布和后驗分布抽取樣本,抽取過程包括如下重復兩個步驟:
I步:從p(Ymis,t│Dt-1, ?滋)中抽取Y;
P步:從p(?滋t│Dt-1,Y)中抽取?滋.
結合EM插補得出的初始值形成一條MCMC鏈,該鏈收斂一個穩定分布,從收斂的分布中隨機抽取樣本,替代t時刻缺失數據.對全部時刻的觀測數據做貝葉斯預測,計算預測誤差,改變觀測誤差方差Vt和狀態誤差方差Wt,重復預測,尋找預測誤差最小的Vt和Wt,此時插補的數據為最終插補數據.
上述方法為本論文提出的基于貝葉斯常均值模型的DA多重插補法,根據電能量缺失數據提供一個實例進行詳細說明.
2 在電能量缺失數據中的應用與分析
現有一個電能量缺失數據集Y0,為某用戶2016-01-01至2016-01-31日共31天744條記錄的A相電流數據,電流數據具有周期性.該數據集在時間為2016-01-01 1:00,2016-01-01 11:00及2016-01-02 14:00時A相電流缺失,為驗證算法在不同缺失情況下的插補效果,在此缺失基礎上,隨機構造缺失率為10%,15%,20%,25%,30%的電能量數據集,用于計算插補誤差并對比不同缺失條件下算法的穩健性.用缺失率為20%的該電能量數據集Y為例,說明算法的具體實施過程,缺失數據集Y的部分數據如表1所示.
將該電能量數據集中的觀測數據集表示為Yobs,缺失數據集表示為Ymis,即Y=(Yobs,Ymis).
2.1 EM插補作初始值
利用數據集Y使用EM插補計算電能量數據缺失值的插補值.作為DA多重插補的初始參數值.根據前文所述的EM插補算法,得到插補后完整數據集Yem,部分結果如表2所示.計算該數據集的期望?滋0=0.87,作為常均值模型的初始信息.
其中,根據電能量數據的相關特性,該用戶A相電流的額定電流為5 A,因此設置當前參數?茲 i=5,Ymis的取值空間D∈[0,5].
2.2 貝葉斯常均值模型的計算
構建基于時間序列的多重插補模型,觀測數據服從常均值模型,把缺失時間對缺失值大小的影響表現出來.根據2.1所得的完全數據集Yem,及其期望?滋0,作為常均值模型的初始信息,構造出完全數據集Y的常均值模型,利用該模型作為后續DA多重插補的插補模型.
對于完全數據集Y構造的常均值模型為:
觀測方程:Yt=?滋t+vt,vt~Np(0,0.05),t=1,2,…,744(15)
狀態方程:?滋t=?滋t-1+wt,wt~Np(0,0.005)(16)
初始信息:?滋0│D0~Np(m0,C0)(17)
其中,根據電網數據的特性,額定電流為5 A的A相電流數據,其觀測值在額定電流的±0.05范圍內波動屬于正常值,由此設置觀測誤差vt~Np(0,0.05),t=1,2,…,744,狀態誤差wt~Np(0,0.005).
2.3 DA多重插補結果
根據2.2建立的貝葉斯常均值模型,從分布vt~Np(0,0.05)及wt~Np(0,0.005)隨機抽取觀測誤差vt及狀態誤差wt;再利用貝葉斯方法預測每個缺失值的多次插補值,本次實例重復預測10次,得到10個完整數據集合Ypre_i,i=1,2,3,…,10;找到使預測誤差最小的觀測誤差方差Vt和狀態誤差方差Wt,此時插補的數據為最終插補值.
經過10次預測后,預測出的缺失數據部分結果及部分原始數據如表3所示.
由表3中10次插補的預測值Ypre_i,i=1,2,3,…,10,結合前文所述該電能量數據集Y0,計算該電能量數據集的絕對預測誤差E,并綜合絕對預測誤差計算平均絕對誤差EMAE,以查看預測效果,具體計算公式如下:
E=,i=1,2,3,…,744(18)
EMAE= (19)
其中,Y0為電能量數據的原始值,Ypre_i為電能量缺失數據的預測值.根據上述公式得出部分計算結果如表4所示.
根據表4,在缺失率為20%的條件下,從該DA多重插補法得到的10次插補結果中,綜合得到第2次預測的觀測誤差方差、狀態誤差方差,使得預測值的平均絕對誤差最小為0.12,因此選取第2次的插補數據為該電能量缺失數據最終確定的插補數據.并且由表中對比可知,基于貝葉斯常均值模型的DA多重插補算法的絕對預測誤差、絕對平均誤差均明顯低于EM插補算法,插補效果更優.
2.4 不同缺失率下EM插補與DA多重插補對比
上述過程詳細描述了基于常均值模型的DA多重插補法在缺失率為20%的電能量數據集中的應用,同理,將該過程同樣應用于缺失率為10%,15%,25%,30%的電能量數據集,并對比EM插補與該方法在不同缺失率情況下的效果,結果對比如圖2所示.
從圖2可知,基于常均值模型的DA多重插補法的絕對平均誤差更低,不同缺失率之間的誤差波動更小,效果更穩定.由此證明該方法在不同缺失率下,較EM插補法在電網缺失數據的應用中效果更優越.
2.5 基于不同模型的DA多重插補對比
為了進一步衡量與比較經過改善后,基于貝葉斯常均值模型DA多重插補對電網缺失數據的插補效果.利用基于貝葉斯線性回歸的DA多重插補對同一批缺失率為20%的數據,同樣利用EM插補算法計算初始值進行插補,計算絕對預測誤差和平均預測誤差.兩種DA多重插補的結果比較如圖3所示.
從圖3可以看出,基于貝葉斯常均值模型的DA多重插補均值更低,方差更小,預測結果更穩定,進一步證明該方法在電網數據中應用的優越性.
因此,將該方法應用于實際電網缺失數據中以查看效果,取某用戶2016-01-18至2016-01-24即周一至周日共7天168條A相電流記錄,其中該記錄缺失率為21%,運用該方法得到插補結果如圖4所示.
從圖4中可看出.該用戶的A相電流具有周期性,工作日的電流隨時間的波動較大休息日波動較穩定.基于常均值模型的DA多重插補結果曲線與原數據曲線較吻合,且很好地描繪了原數據的周期性,體現了該方法充分考慮電能量數據時間波動性的優點,及應用于電網缺失數據中的優越性.
3 結論
電能量缺失數據處理對保證電網數據質量及各種數據處理的準確性有著積極的意義.本研究利用貝葉斯常均值模型作為DA多重插補模型,考慮電能量數據隨時間變化的性質,通過貝葉斯預測得到缺失數據的多個插補值,并綜合歷史數據及當前信息的變化規律,尋找最優的插補數據.通過對某供電局電能量數據的實驗及對比驗證,得到了在不同缺失率條件下,基于貝葉斯常均值模型的DA多重插補方法較EM插補法的效果更穩定,并且相比于基于線性回歸模型的多重插補方法,基于貝葉斯常均值模型的DA多重方法的效果更優的結論.該方法應用于電網數據中,充分考慮電能量數據的時間波動特性,不僅準確描述了電能量數據的短期變化,而且對長期變化的表征也更加科學,有效提高電網數據質量.
參考文獻
[1] 王一蓉,王瑞杰,陳文剛,等.基于遺傳優化的調控系統缺失數據填補算法[J].電力系統保護與控制,2016,44(21):182-186.
[2] GUO X,LI Q Y,XU W L,et al.Acceleration of the EM algorithm using the vector aitken method and its steffensen form[J].Acta Mathematicatae Applicatae Sinica English,2017,33(1):175-182.
[3] 龐新生.缺失數據多重插補處理方法的算法實現[J].統計與決策,2012(11):88-90.
[4] 張聰慧,楊明.貝葉斯動態模型在煤礦事故預測中的應用研究[J].中國安全生產科學技術,2014,10(S1):254-258.
[5] 盧艷紅.貝葉斯常均值模型狀態誤差方差Wt的改進及在能源預測中的應用[D].上海:華東理工大學,2013.
[6] 林開榮,徐新苗.貝葉斯統計在多片板簧可靠性設計中的應用[J].廣西工學院學報,2004,15(4):34-36.
Application of DA multiple interpolation in electric energy data missing
GU Hai-tong, CHEN Shao-hua,WU Xiao-qiang, CAI Miao-zhuang, CUI Zhuo, ZENG Xiao-lin*
(Guangzhou Power Supply Co., Ltd., Guangzhou 510620, China)
Abstract:In this paper, a DA multiple interpolation method introducing time series based on Bayesian mean value model is proposed to handle with missing data in electric energy data. Firstly, the EM interpolation algorithm is used to calculate the interpolation value of missing value, and the obtained interpolation value is taken as the initial value of the interpolation. Secondly, according to the characteristics of electric energy date changing over time, a multiple imputation model on the base of mean value model is constructed. Then, the multiple interpolation values of each missing value will be predicted by Bayesian method. The final error is obtained by comprehensive analysis of the observed error variance and the state error variance, and a number of complete data sets are finally obtained. In the condition of different data loss rate, compared with other results of EM interpolation and the DA interpolation based on Bayesian linear regression, it is obviously concluded that the improved interpolation method applied in this paper takes full account of the time fluctuation characteristics of electric energy data and is more objective as well as practical, besides, its interpolation result is more scientific and reasonable.
Key words: Bayesian mean value model; DA multiple interpolation method; lack of electrical energy data
(學科編輯:張玉鳳)