潘焜 王鐵錚 張璇 李酈原
[摘 要]“煤改電”電力物資采購數量在倉儲過程中是一個重要問題。存儲定額數量可以轉化為消耗數量的預測問題。對“煤改電”電力物資數量的較為準確的預測可以有效地增加倉儲規劃的效率。而“煤改電”電力物資數量具有較大的不確定性,隨著項目的推進,子項目的數量減少,總的電力物資所需的數量也會相應減少。因此,本文將影響電力物資采購數量因素分為兩部分,一是項目數量,二是每個子項目中的物資采購的數量,對于項目數量采用基于指數加權平均移動的預測方法,對于采購數量采用高斯概率模型進行預測。
[關鍵詞]概率模型;“煤改電”;電力物資
[中圖分類號]R311 [文獻標識碼]A
“煤改電”電力物資采購與電力公司中的應急物資采購不同,“煤改電”工程中所使用的電力物資的規律性比較復雜。一般而言,一個“煤改電”工程會根據區域、時間、工程階段等因素被分解成多個子項目。隨著工程進度的不斷推進,有待完成的子項目數量會逐漸減少。因此,子項目的數量是“煤改電”電力物資采購數量的主要因素之一。為了能夠較為準確地預測子項目的數量,本文采用了指數加權平均移動的方式進行預測。對于每一個子項目需要使用的電力物資的數量,本文采用了高斯概率模型進行預測。預測“煤改電”電力物資的數量的意義在于能夠制訂更加可靠的采購計劃,從而減少倉儲成本和采購成本。
1 高斯概率模型
高斯概率模型是基于高斯分布的預測模型,高斯分布又稱正態分布。正態分布是一種常見而普遍的分布,由于中心極限定理的存在,當相關的影響因素很多的時候,所有影響因素的和近似符合正態分布,并且無論因素的本身的分布。
假設隨機變量X1,X2…Xn獨立同分布,均值E(Xi)=μ,方差D(Xi)=σ2,那么所有的隨機變量和滿足公式(1)
那么Yn近似符合標準正態分布。
由于真實情況下,n無法趨于正無窮,因此數據分布可能并不符合正態分布,所以在預測數據之前,需要對數據分布進行檢驗。偏度-峰度檢驗是概率論中用來檢測分布是否是正態分布的常用方法。其根據樣本數據的矩來分析數據的分布和正態分布的相似程度。
假設用X表示隨機變量,樣本的來源為獨立同分布,v1和v2分別為的3階矩和4階矩的估計量,G1和G2分別為樣本的偏度和峰度分布。若樣本服從正態分布,則v1服從G1,v2服從G2。
公式(3)和公式(4)表示了G1和G2所服從的分布情況,其中n為數據的樣本數量。
當樣本服從正態分布時,|u1|和|u2|都應該小于zα/4,其中α為顯著程度,一般取5%,對應的值z1-α/4=2.2414。α顯著程度的意思是,假設成立時,最多α的概率認為它是假的,即事實為真時被誤認為假的概率為α。當α為0.05的時候,意味著結論有0.95的可信度,z1-α/4為1-α/4對應的分位點,當結果大于z1-α/4意味著很可能出現了小概率事件。
當認為樣本是符合高斯分布時,就可以使用高斯模型進行分析。高斯模型一般指混合高斯模型,有多個輸入的隨機變量。
公式(5)是混合高斯模型的分布形式,其中k表示混合高斯模型中包含的正態分布的數量;wi表示第i個分布對于總分布的貢獻的權重,所有w的總和為1.0;N表示正態分布;μk表示每一個被包含的正態分布的均值;Σk表示協方差矩陣。
結合實際情況,在電力物資預測中,只有一個參數,即月份,因此混合高斯模型退化成了單變量的高斯模型。
2 指數加權平均移動預測模型
由于電力物資采購的數量會隨著時間的推移而不斷變化。一般而言,隨著時間的推進,工程中子項目的數量變少,這種情況導致了電力物資采購的總的數量會不斷變少,但其實每次采購的數量變化不大。因此若要預測電力物資采購的總數量,除了通過高斯模型預測每次采購的數量外,還需要預測子項目的數量。
考慮到實際應用中,以月為單位時,能夠較好地保留采購次數的季節和節假日等特征,因此本文采用了以月為劃分的方式,即選取約為30天的時間間隔作為分析子項目的時間區間,一年一共分為12個區間。由于子項目的數量除了隨機性的波動外,還有時間上遞減的趨勢性的變化,無法通過高斯模型來預測子項目的數量。
指數加權平均移動,又稱指數平均移動(EMA),是平滑有著趨勢性的不斷波動的數據的一種方式。
公式(6)所描述的為指數加權平均移動的一種定義(也有將ema初始值定義為0的情況),其中,xi為標量輸入,下標i表示第i個輸入;emai為輸出值,下標i表示第i個輸出;decay表示移動的幅度,在0與1之間,decay的值越大,對于過去數據的權重也就越大。
由于EMA只能做平滑,而EMA本身難以直接應用到預測,因此需要對其進行改進。本文采用了線性模型對子項目數量進行預測,并且通過EMA對線性系數進行平滑。
具體而言,假設輸入的樣本數量為m,且m大于2,那么按照以下算法進行預測:
(1)令計數變量i=2;
(2)根據第一和第二個樣本,與y=kx+b直線公式,求得斜率為k0,并將ema0=k0。
(3)求得第i個樣本和第i+1個樣本之間的直線方程,然后將斜率ki-1當作EMA算法的輸入,求得emai-1,緩存截距bi-1。
(4)令i=i+1,若i等于m,則退出算法,輸出最后的ema結果和緩存的截距;否則回到步驟3。
上述算法平滑了直線的斜率k,使得對于后續子項目數量的預測更加平穩,減少受波動的影響。
3 實驗結果
本文使用的數據為近三年(2015-2018),某省電力公司在“煤改電”項目中,電力物資采購的數據,數據格式見表 1。
其中,由于保密的原因,已經對敏感數據做了處理。假設一共有相同物料k類,每類含有的數據nk條,對應的數量為pi,下標i為在1和nk之間的索引,則:
公式(7)中Ek為每類中的數量均值,Dk為每類中數量的方差,zp為歸一化后的新數量。
隨機選取其中的部分數據進行可視化。
其中,橫坐標是月份,縱坐標是歸一化后的數量??梢钥闯?,每月的數量分布有著明顯的不同。
經過偏度-峰度測試,在顯著程度為0.0762的情況下,符合正態分布。通過將前2年的數據作為訓練集,使用高斯模型,對第3年的數據進行預測,并對實際的值進行比較。
表 2中,均值等于預測均值乘以預測子項目數量,標準差等于預測標準差,可以看出,根據3-sigma準則,所有的實際值都包括在了2-sigma區間內,除了2月、11月和12月外,其他所有的月份都被包括在了1-sigma區間內。而這3個月份的均值都較小。因此,在實際進行預測時,對于均值較小的月份,可以選擇2-sigma區間,對于均值較大的月份,可以選擇1-sigma區間。
4 總結
本文針對“煤改電”電力物資采購數量進行研究,將影響采購數量的因素分為某月份中可能的子項目的數量和每個子項目中采購物資數量。對于子項目的數量,本文采用了EMA平滑斜率的方式進行預測,減少了波動對預測造成的影響。對于子項目中的采購數量,本文使用了高斯概率模型進行預測。因此,每個月份的總的預測結果等于每月預測均值乘以每月預測的子項目數量,每月預測的標準差表示預測的數量波動的大小。最后,通過實際的數據,給出了實驗的結果。
[參考文獻]
[1] 盛驟,謝式千,潘承毅著.概率論與數理統計第4版[M].高等教育出版社,2010.
[2] 劉杰,肖紅,王波,等.基于逆高斯幾率模型的心率預測算法[J].電子學報,2008(01).