張艷, 左雅, 李香平, 呂盼, 荊世博
(1.國網新疆電力有限公司,新疆,烏魯木齊 830001;2.國網新疆電力有限公司 經濟技術研究院,新疆,烏魯木齊 830001)
能源短缺與環境問題促使了煤改電項目的實施,自從2003年北京地區實施煤改電工程以來,截止到2015年已經有38.45萬戶用戶完成采暖改造,2016年463個村莊完成了“煤改清潔能源”的計劃。2017年實現了7區平原村“無煤化”。煤改電項目的實施使人們的生活環境得到了大幅度的改善,但從傳統的以煤炭取暖到以電力取暖使煤改電的用電費用成為了人們擔心的焦點。為了更好推進煤改電項目的實施,政府給予煤改電用戶一定量的電量補貼[1]。雖然政府給予煤改電用戶補貼,但在煤改電補貼金額的多少上依然缺少參考依據[2-5]。
采暖季煤改電用戶用電量受多重因素影響,用戶的家庭情況、用戶的住房采暖面積、采暖季室外溫度和室外濕度、采暖設備的型號類型、采暖設備的數量和用戶的行為習慣等都是需要考慮的因素。本文運用逐步線性回歸模型和定性定量的數據分析,根據煤改電用戶的原始數據,通過專家判斷和煤改電用戶調查研究結果,綜合考慮煤改電用戶用電量的各方面因素,準確分析出采暖季煤改電用戶用電量的影響因素,為政府提供有價值的參考依據。
根據某市“煤改電”智能服務平臺,可以得到大量的煤改電用戶信息。煤改電用戶的用電量作為模型訓練數據集中的每個樣本的輸出項,煤改電用戶補貼電量的影響因素可以從機器學習中的監督學習去分析。又因為煤改電用戶的用電量屬于連續型變量,所以屬于監督學習中的回歸[6]問題。某市“煤改電”智能服務平臺5分鐘采集一次數據,采用逐步線性回歸的模型對煤改電的用電量進行分析,因為逐步線性回歸可以幫助人們理解現有的模型并對該模型做出準確的改進。在構建逐步線性回歸模型的時候,可以運行該模型算法找出重要的特征,也可以及時停止對不重要特征的收集,減少數據分析時的內存消耗,提高效率。
逐步線性回歸是在線性回歸[7-8](Linear Regression)基礎上,加入逐步設置。線性回歸是利用線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。回歸模型用于連續型變量的預測分析,通常當只有一個解析變量的時候,線性回歸稱為簡單線性回歸。當有多個解析變量的時候稱為多元線性回歸。
在SPSS預測工具中,線性回歸分為逐步線性回歸、進入線性回歸、刪除線性回歸、向前線性回歸和向后線性回歸,最常用的是進入和逐步2種線性回歸方式[9-10]。進入線性回歸方式將所有變量引入模型中,做強制線性回歸。逐步線性回歸是將變量逐個引入模型,每引入一個解釋變量后都要進行F檢驗,并對已經選入的解釋變量逐個進行t檢驗,當后面解釋的變量對原來解釋的變量不起作用時,將其刪除。通過這個反復的過程,選出模型中最優的變量,通過逐步線性回歸的方式對用戶補貼電量的影響因素進行線性回歸分析。
用戶的家庭情況、用戶的住房采暖面積、采暖季室外溫度和室外濕度、采暖設備的型號類型、采暖設備的數量、用戶的行為習慣是研究煤改電用戶的用電量影響因素需要考慮的7個因素。通過研究煤改電相關的參考文獻和分析某市“煤改電”智能服務平臺采集的數據,將7個因素進行分組,這樣可以降低無關因素的影響。首先對煤改電用戶數據進行數據收集和數據清洗,然后通過對煤改電用電量的影響因素的綜合考慮,采用逐步線性回歸和定性定量2種分析手段進行分析。
根據上述分析,建立如下指標變量作為基礎的分析框架。Y為因變量,表示煤改電用戶用電量,Xi(i=1,2)為自變量。
(1)X1表示室外的日平均溫度。
(2)X2表示室外的日平均濕度。
采用逐步多元線性回歸的分析方法,煤改電用戶的用電量和采暖季室外溫度、室外濕度因素之間存在的函數關系:Y=f(X1,X2)+隨機干擾項。
建立模型如式(1)。
Y=β0+β1X1+β2X2+ε
(1)
式中,β0為常數項,βi是Xi(i=1,2)對應的偏回歸系數,ε為誤差值。
在不同類別分析模型中,可以通過多種測評方式來評價預測值和真實值之間的差距,本文采用R-Squared作為評價指標。
R-Squared評價指標如式(2)—式(4)。
(2)
(3)
(4)
f(x)代表回歸模型x的預測值,SSres代表回歸值與真實值之間的平方差異(回歸差異),SStot代表測試數據真實值的方差(內部差異),R2叫做決定系數,用來衡量方程擬合度,一般來說R2越大擬合度越好。
R-Squared既考量了回歸值與真實值的差異,同時也兼顧了問題真實值的變動。它用來衡量模型回歸結果的波動可被真實值驗證的百分比,也暗示了模型在數值回歸方面的能力。
Step1:采取某市某用戶于2018年1月2日—1月25日共24天用電量作為數據源進行數據分析,用戶信息數據如表1所示。

表1 用戶信息數據
Step2:將整理好的數據的Excel導入SPSS中,對數據做線性回歸逐步處理。
Step3:將回歸分析結果導出,結果如表2所示。

表2 模型匯總
表2模型匯總表中,R2大于0.8說明方程對樣本點的擬合效果很好,R2在0.5—0.8之間擬合度可以接受。本次擬合的R2為0.596,在0.5—0.8之間,擬合度可以接受。
為明確樣本數據是否完全適合于線性回歸模型,本文采用方差分析來進行檢驗,結果如表3所示。
表3中,F檢驗代表的是對進行線性回歸的所有自變量的回歸系數的一個總體檢驗,主要通過比較兩組數據的方差S2。如果sig<0.05,說明至少有一個自變量能夠有效預測因變量。本次sig為0.000,小于0.05,說明用電量至少與室外平均溫度或室外平均濕度任何一個有關。

表3 ANOVA
使用SPSS預測工具進行常量、平均溫度各組樣本的多元相關回歸分析后,得出回歸方程系數相關性分析表,結果如表4所示。

表4 系數
表4中,首先對各個符號進行說明,字符B也就是beta,代表回歸系數。非標準化系數主要擬合方程,標準化系數主要用來分析因子的重要性。t值就是對回歸系數的t檢驗的結果,絕對值越大,sig就越小。從經濟學的角度,sig<0.05時一般被認為是系數檢驗顯著[13]。本次線性回歸的sig為0,小于0.05,說明平均室外溫度的系數檢驗顯著。
根據表4系數,擬合方程可以表示為式(5),
Y=-2.102X1+45.224
(5)
在SPSS多元線性逐步回歸中,回歸系數不顯著的變量將被排除,結果如表5所示。

表5 已排除的變量
表5中,平均濕度是已排除變量,說明該變量對回歸模型沒有顯著影響,在構建多元線性回歸方程式時不將其考慮進去。逐步線性回歸的思想是將多個變量逐個引入模型,以確保每次引入新的變量之前回歸方程中只包含主動變量。這是一個反復的過程,直到既沒有顯著的解釋變量選入回歸方程,也沒有不顯著的解釋變量從回歸方程中剔除為止,以保證最后所得到的解釋變量集為最優。
Step1:根據某市“煤改電”智能服務平臺采集的數據,在定量的前提下,選取2018年1月份不同采暖設備的30個樣本,不同設備用電量如表6所示。

表6 不用設備的用電量
Step2:生成設備類型因素折線圖,如圖1所示。

圖1 設備類型因素
空氣源熱泵取暖所消耗的用戶用電量高于蓄熱式電暖器和地源熱泵設備的取暖所消耗的電量,蓄熱式電暖器取暖和地源熱泵設備取暖所消耗的用電量都相對較低。
Step1:首先對數據做簡單整理,采用控制變量的方法采集數據,選取樣本的規則是選取相同用戶有兩處住宅的20天用電量數據,選取每戶樣本的每處住宅人數相同,將其數據整理成如表7所示。

表7 采暖面積對用電量的影響
Step2:生成采暖面積因素折線圖,如圖2所示。

圖2 采暖面積因素
在排除用戶的行為習慣等影響因素的條件下,采用孫某臣和張某江兩戶的用電量數據,他們都擁有兩處住宅且住宅面積都不相同。孫某臣兩處住宅在3月14日的用電量存在交叉點,張某江兩處住宅的用電量除3月14日外存在多處交叉點。由此可以看出,在其他因素相同的條件下,用戶的采暖面積對用戶的用電量沒有影響。
(1)采暖季室外濕度對煤改電用戶的電量影響很小可以忽略不計,采暖季的室外溫度對煤改電用戶的電量影響很大,根據公式Y=-2.102X1+45.224可以看出采暖季用戶的用電量與室外溫度成負相關,隨著室外溫度的降低,煤改電用戶的用電量越大。
(2)煤改電用戶用電量受采暖設備的類型影響較大,其中空氣源熱泵日用電量是蓄熱式電暖器和地源熱泵2種設備的日用電量的2倍,耗能較多。煤改電用戶用電量受用戶采暖面積影響較小。
(3)采暖的設備類型對用戶的用電量影響很大。一方面政府可以根據分發到不同用戶的不同設備類型給與不同的補貼費用;另一方面從節能減排的角度,政府可以大力推廣蓄熱式電暖器和地源熱泵等一些節能的取暖設備。