于 丹, 王麗娜, 曹 勇, 崔治國, 王 晨, 唐艷南
(1.北京建筑大學環境與能源工程學院,北京 100044;2.中國建筑科學研究院有限公司,北京 100013)
建筑及其相關行業的發展嚴重影響全球的經濟、能源、民生與環境等各個方面。根據國際能源署的統計,建筑業約消耗了全球能源的32%[1]。根據最新的統計,中國建筑能源消費總量為8.57億t標準煤,約占全國能源消費總量的20%,其中公共建筑能耗2.92億t標準煤,占建筑能耗總量的34%[2]。從建筑的全生命周期角度進行能耗分析,發現運行與維護階段的能耗可以占到建筑總生命周期能源消耗的80%~90%[1]。目前中國公共建筑中,暖通空調系統是最主要的耗能設備,其運行能耗可以占到建筑能耗的50%~60%[3]。因此,建筑行業以及空調系統的節能具有十分重要的意義。
建筑能耗分析是建筑能源需求側管理的重要實現步驟之一。準確的建筑能耗預測為建筑能源供應與調度、多能源耦合供能系統提供了依據;精確的能耗預測是空調系統節能控制的關鍵步驟之一,是實現預測控制、優化控制的基礎[4-5]。
當前的研究中,對空調系統的能耗預測主要是在實際運行數據的基礎上,采用機器學習算法的方法。目前中外關于建筑能耗預測的算法種類繁多,其中比較典型的有廣義線性回歸分析算法、神經網絡算法、支持向量機算法等。如文獻[6-7]通過分析建筑能耗的主要影響因素、不同因子的敏感性,利用多元線性回歸方法分別建立了辦公建筑、商場建筑的空調能耗預測模型。研究結果表明,多元線性回歸模型具有良好的數據擬合能力。該類方法在進行負荷預測時,需要進行影響性分析或敏感性分析,以找出對模型影響較大的因素。文獻[8-10]利用人工神經網絡對非線性問題具有良好逼近能力的特性,建立了建筑能耗的人工神經網絡模型。人工神經網絡模型具有預測精度高、模型訓練時間長的特點。文獻[11-13]利用支持向量類算法進行建筑能耗的預測建模,相對于人工神經網絡算法,支持向量類算法具有訓練時間短的優點,由于其對缺失數據敏感,在工程應用方面有其不足。
然而,眾多的機器學習算法大多都假設數據之間相互獨立,即數據分布服從正態分布[14]。事實上,由于數據之間本身具有相關性,數據的分布往往并不服從正態分布,如果未對數據進行任何處理,直接作為能耗預測的輸入條件,則能耗預測的結果會存在一定的誤差。相關方面在當前的研究中鮮有提及。
從數據的分布特性出發,對不服從正態分布特性的原始數據進行適當的數據變換處理,作為提升能耗預測效果的重要技術手段。對實際的空調系統能耗進行預測,發現數據的分布特性對能耗預測影響巨大,合適的數據變換能大幅提升機器學習算法能耗預測的效果(準確度)。
在數學理論中,常常傾向于將某一可能發生的事件稱為隨機事件,將事件可能出現的各種情況量值化,稱之為該事件對應的隨機變量,同時以數據分布的概率密度圖直觀表達數據的分布特性[15]。
正態分布是一種重要的數據分布,對于隨機變量x,若其數據分布為正態分布(稱x服從參數為(μ,σ)的正態分布),則其概率密度如式(1)所示,概率密度圖如圖1所示,從圖形上看,其圍繞x=μ成中心對稱[15]。
(1)
式(1)中:f(x)為概率密度;μ為正態分布的均值;σ為正態分布的標準差。

圖1 正態分布概率密度圖Fig.1 Probability density diagram of normal distribution
在自然界中,若某一隨機變量為獨立隨機變量(即受外界其他因素影響較小),則其數據分布近似于正態分布。
然而,由于自然界各種因素之間相互影響,因而在實際中,某一單一隨機變量的取值往往會偏離正態分布。
在數學上,常常用兩個數學統計量來衡量數據分布偏離正態分布的程度。
定義隨機變量數據分布的標準三階中心矩為偏度,即

(2)
式(2)中:skew(x)為偏度;μ為數據分布的均值;σ為數據分布的標準差。
偏度是描述數據分布偏斜方向和程度的統計量,是統計數據分布非對稱程度的數字特征。對于正態分布而言,偏度為0。若偏度為小于0,則數據均值左側的離散度比右側強,其概率密度圖如圖2(a)所示;若偏度大于0,則數據均值左側的離散度比右側弱,其概率密度圖如圖2(b)所示。

圖2 偏度分布概率密度圖Fig.2 Probability density diagram of skewness distribution
定義隨機變量數據分布的標準四階中心矩為峰度,即

(3)
式(3)中:kurt(x)為峰度;μ為數據分布的均值;σ為數據分布的標準差。
峰度是描述數據樣本分布形態陡緩程度的統計量。該統計量與正態分布相比較,峰度為0表示該總體數據分布與正態分布的陡緩程度相同;峰度大于0表示該總體數據分布與正態分布相比較為陡峭;峰度小于0表示該總體數據分布與正態分布相比較為平坦。峰度的絕對值數值越大表示其分布形態的陡緩程度與正態分布的差異程度越大。不同峰度的數據分布概率密度圖如圖3所示。

圖3 不同峰度分布概率密度圖Fig.3 Probability density diagram of different kurtosis distribution
數據分布的偏度和峰度衡量了數據分布與正態分布的差異性,可以為為充分描述實際數據的分布特性規律提供量化的指標。
為了衡量數據的分布特性對空調系統能耗預測的影響特性,選取了實際項目的運行數據,進行空調系統能耗預測。
項目位于吉林省長春市,建筑類型為超低能耗辦公建筑。建筑面積約5 000 m2,其中絕大部分區域作為展廳用途,辦公區域面積約950 m2。辦公區域空調冷源采用變頻多聯式空調機組,設計冷負荷指標為25 W/m2。
該項目建立了完善的建筑能耗分項計量系統,實現了空調、照明、動力等各類用電的監測與計量。數據采集與傳輸頻率為15 min一次。同時,建筑能耗分項計量系統監測了室外環境參數,主要有室外溫度、室外相對濕度、太陽輻射度等。
選取空調系統連續的約4 000行數據,如表1所示。

表1 某實際項目的空調系統運行數據
實際的空調系統運行中由于各種原因,如停電、通信故障、傳感器故障等原因,存在著數據缺失、數據異常等問題,在進行能耗預測工作之前,先進行數據預處理。本文的數據預處理采用課題組在數據預處理方面的既有工作成果和相關方法[16]。
通過數據預處理得到相對干凈的數據集合。對空調系統運行能耗數據作出概率密度分布圖,如圖4所示。

圖4 空調系統能耗數據分布圖Fig.4 Distribution chart of energy consumption data of air conditioning system
計算原始空調系統能耗數據的偏度和峰度,結果如表2所示。

表2 原始空調系統能耗數據的分布
從圖4的分布圖和表2的結果可以看出,原始數據的偏度和峰度都遠遠大于零,即數據遠遠偏離正態分布。
原始數據遠遠偏離正態分布,為了能使得數據應用于機器學習算法能耗預測算法,需要對原始數據進行合適的數據變換。
根據數學理論和經驗,選擇對數變換,對原始數據進行數據變換。數據變換式為
datanew=log(dataraw+1)
(4)
式(4)中:dataraw為原始數據;datanew為對數變換后的數據。
用對數變換對空調系統能耗數據進行變換,變換后的數據分布如圖5所示,計算數據的偏度和峰度如表3所示。
從圖5的分布圖和表 3 的結果可以看出,原始數據的偏度和峰度都大大降低,相對于原始數據,對數變換后的空調系統能耗數據分布更接近于正態分布。

圖5 空調系統能耗數據分布圖Fig.5 Distribution chart of energy consumption data of air conditioning system

統計量偏度峰度數值0.440.29
3.1.1 原理
在機器學習中,常常把模型和數據表示為以下一組未知對應關系:
Model:features→labels
(5)
式(5)中:Model為機器學習算法;features和labels組成了一一對應的數據集合;features稱為特征,即輸入變量,labels稱為標簽,即輸出變量。
在本文的空調系統能耗預測中,特征即為室外溫度、室外相對濕度、太陽輻射度,標簽為空調系統能耗。
在實際的機器學習過程中,通常將數據集隨機分為2個部分,即訓練集和驗證集。通過在數據集上訓練出能耗預測模型,然后將訓練后的模型用于驗證集,根據模型在驗證集上的效果判別模型的優劣。在實際的能耗預測中,將數據隨機分為2部分,訓練集和驗證集的比例約為4∶1。
3.1.2 預測模型
目前關于建筑能耗預測的典型算法有廣義線性回歸分析算法、神經網絡算法、支持向量機算法等。
為了驗證數據變換對能耗預測的影響程度,選擇4種典型算法進行能耗預測工作。4種典型算法分別為廣義線性回歸算法中的嶺回歸(ridge regression)算法、支持向量回歸(support vector regression, SVR)算法、人工神經網絡(artificial neural network,ANN)算法、隨機森林(random forest)算法[11]。相關算法的關鍵參數如表4所示(多次模型訓練尋優的結果)。

表4 能耗預測算法核心參數配置
3.1.3 誤差分析
為了衡量機器學習算法能耗預測模型的效果,引入常見的2個模型評價指標作為判別模型優劣的依據,分別為均方根誤差(root mean square error, RMSE)和R2統計量,分別如式(6)和式(7)所示。均方根誤差RMSE越小,R2統計量越接近于1,說明模型預測效果越好。

(6)
式(6)中:m為數據樣本的數量;ypred為算法預測值;ytrue為真實值。

(7)
式(7)中:SSres為模型預測值與真實值的殘差平方和;SStot為模型預測值與真實值的離差平方和。
根據以上的模型和誤差分析,進行了以下兩方面的能耗預測工作。
(1)對原始數據直接應用機器學習算法進行能耗預測。
(2)對經過數據變換后的空調系統數據應用機器學習算法進行能耗預測。
兩次的能耗預測結果的均方根誤差和R2統計量如表5和表6所示。

表5 機器學習算法能耗預測模型均方根誤差結果

表6 機器學習算法能耗預測模型R2統計量結果
繪制出兩次能耗預測的均方根誤差和R2統計量變化圖,如圖6和圖7所示。

圖6 兩次能耗預測模型的均方根誤差Fig.6 RMSE of the twice energy consumption prediction model

圖7 兩次能耗預測模型的R2統計量Fig.7 R2 of the twice energy consumption prediction model
分析表5和表6、圖6和圖7,可以看出,經過數據變換后,4種常見的機器學習算法在進行空調系統能耗預測時,均方根誤差都得到了不同程度的降低,R2統計量都得到不同程度的提高。
通過多次的數據訓練與能耗預測,得到相同的結論。因此,對原始的非正態分布數據進行合適的數據變換可以有效提高空調系統能耗預測模型的效果。
現實生活中的數據分布并不呈現正態分布的特性,但是數據的正態分布特性(或接近于正態分布特性)是眾多機器學習算法的重要前提假設之一。
基于空調系統的實際運行數據,分析了其運行能耗數據分布的非正態性,并給出了相應的數據變換,變換后的數據相對于原始數據更接近于正態分布。
采用常見的4種能耗預測機器學習算法,即廣義線性回歸算法、支持向量回歸算法、人工神經網絡算法、隨機森林算法,分別基于原始運行數據和經過數據變換后的空調系統數據進行空調系統能耗預測。預測結果對比發現,經過數據變換,4種機器學習算法的預測效果都得到了不同程度的提高。即數據的分布特性對空調系統的能耗預測有著重要的影響,在進行能耗預測之前進行合適的數據變換可以有效提高能耗預測的效果。
另一方面,采用的都是常見的能耗預測算法,最好的隨機森林算法預測模型的均方根誤差和R2統計量分別為0.15和0.78,模型的預測效果有待于進一步提高。同時,空調系統能耗預測除了與本文中提到的室外溫度、室外相對濕度、太陽輻射度相關,還與一些其他因素緊密相連,如室內溫度、人員用能習慣等。如何優化模型、如何選擇合適的建模參數,進一步提高能耗預測效果是本課題組的另一項重要工作。