馬忠嬌 張吉禮
大連理工大學建設工程學部
2018 年,我國建筑能耗占社會總能耗的36%,其中建造能耗占比為14%,建筑運行能耗占比為22%[1]。目前,我國已在33 個省市建立了國家機關辦公建筑和大型公共建筑能耗監測系統,累計對11000 余棟建筑完成了能耗在線監測[2],形成了建筑能耗海量數據。然而,由于感知層信道的干擾和平臺能耗監測技術的不成熟,數據丟失、瞬時異常值和平臺固有偏差等問題數據質量問題普遍存在于我國大部分建筑能耗監測平臺,嚴重影響了設備用能特征的深入研究以及后續建筑節能相關措施的實施。因此,提升數據質量至關重要,是數據深入分析的前提。近年來,許多學者及研究機構對建筑能耗監測平臺的異常數據檢測及修復方法進行了研究[3-9],為本文的研究提供了很好的借鑒。本文提出了一種將本征正交分解,線性隨機估計和分形關聯維數相結合的POD-LSE-FCD 方法用于檢測異常能耗數據,并將該方法應用于大連某高校節能監測管理平臺實際監測數據的異常值檢測。
本征正交分解 POD(Proper Orthogonal Decomposition)是一種源于矢量數據統計分析的方法,利用降維的思想,在損失少量信息的前提下,把多個指標轉化為幾個綜合指標的多元統計方法[10-11]。
若將POD 法應用于能耗數據,則原始能耗數據可表示為矩陣E(x,t)={c(xi,tj)},其中xi(i=1,2,…,m)為空間坐標,tj(j=1,2,…,n)為時間坐標。理論上,若要精確重構能耗數據矩陣需要一個無限項加和的表達式,而實際上有限數量的POD 模態即可體現數據的變化,故使用下式重構原始數據矩陣:


POD 模態的描述方法不是唯一的,直接法需要求解每個變量在整個場上的任意兩點相關系數。

式中:COV(E(x,τ))為m×m 維度的協方差矩陣,根據線性代數與拉格朗日函數,COV(E(x,τ))協方差矩陣是一個半正定矩陣;EX{E(x,τ)}為各空間坐標能耗數據在矩陣表示時間段內的期望值,則:

由式(4)可見,λ1,λ2,λ3,…,λm(λ1≥λ2≥λ3≥…≥λm)為協方差矩陣COV(E(x,τ))的m 個特征根,,分別為各特征根對應的標準正交特征向量。此時,已經應用POD 法完成了原始數據矩陣的本征正交分解,并同時給出了原始數據重構后矩陣的均方誤差。應用上述方法可用本征正交分解的時間系數來估計原始能耗數據矩陣,再利用基函數重構整個能耗數據矩陣。根據線性隨機估計(Linear stochastic estimation,LSE)方法原理,能耗數據的估計矩陣En*(x,τ)表示為:

式(5)中估計的時間系數αk*(t)由式(6)計算:

Aisk 是是第k 個POD 模態在第i 個測點的線性隨機估計系數矩陣,由下式計算:

式(7)中E(xi,τ)是原本征正交分解中使用的第i個測點的原測量事件,αk(τ)是根據式(2)計算的第k 個POD 模態的實際時間系數,ms是用于估計整個時間系數的指定空間數據點的數量。
分形關聯維數 FCD(Fractal Correlation Dimension)是在相空間重構過程中求解嵌入維數的一種重要方法。G-P(Grassberger-Procaccia)算法是從一組隨機分布的點估計分形標準的分形關聯維數的一種主要算法。通過對時間序列的相空間重構,構造的奇怪吸引子在一定程度上反映系統的演化規律。通過分析相空間重構吸引子的結構來評價動力系統的混沌特性,即為G-P 算法的基本思想[12-13]。當應用G-P 方法與POD 耦合時,時間系數αk(tj)應描述如下:

式(8)中n 為表示第k 個POD 模態的一組時間系數序列的長度,時間序列可簡化表示如下:

時間序列x(τj)表示在時間τj=τ0+j△τ 處x 值,假設時間序列{x(τj)}的統計量不隨時間變化。除非測量值獨立同分布,否則連續測量值之間將存在相關性。利用Takens 時延嵌入定理,設m 為嵌入維數且每個相空間有m 個數據點,τs=△τ 為時滯參數,則空間數據的相位可以表示為m 維空間中的一系列點,第j 個時間序列x(τj,m,τs)為:

根據上述方法,n 個數據點的時間序列被分成nm組,nm=n-(m-1)τs,nm為分形數組中點的數量或坐標向量的數量,m 維超球半徑用歐氏距離表示:

超球體的中心可以定義為半徑,且對于每一個i值均可應用球面三角形法從相空間距離中求出一個半徑,改變重構的超球體的中心將得到一系列的小球體。如果將r 定義為長度刻度,小球數與總球數之比定義為關聯積分函數f(r):

為了避免距離的雙重計算導致計算量增大,可將式(12)轉換為式(15):

由于r 足夠小且觀測值數量nm足夠大,分形關聯維數重構相空間吸引子為:

綜上,C(r)與距離小于r 的分形集的點對數成正比,若所考察的點系是分形集,則DC為雙坐標對數圖log2C(r)-log2r 在線性區的斜率,斜率DC即為系統的分形維數。
統計學中基于直接殘差的方法通常以實測數據和估計數據之間殘差來判斷是否有異常值產生。針對能耗數據的非線性特點,本文提出了一種以直接POD和POD-LSE 時間系數的FCD 偏差代替直接殘差的方法,即基于POD-LSE-FCD 的異常數據檢測方法,該方法的流程圖見圖1。

圖1 POD-LSE-FCD 法邏輯流程圖
研究結果表明,LSE 時間系數能夠準確反映能耗監測平臺的性能特征。如果直接POD 和POD-LSE 時間系數的FCD 偏差存在較大的差異,則表明直接計算整個域數據的時間系數可能不是正確的系數。因此,可以根據上述原理檢測異常的能耗數據。直接POD 和POD-LSE 時間系數的FCD 標準差由式(17)計算:

本文應用Matlab 自編程序實現了POD-LSE-FCD算法,以大連某高校校園節能監測與管理平臺的創新園大樓的照明與插座分項實際監測用電量數據為例,驗證了基于POD-LSE-FCD 的異常數據檢測方法的有效性。該建筑群分為中央主樓、西側學生實驗樓、東側創新實驗基地,該建筑共有10 個照明與插座用電監測點,應用這10 個支路的數據進行研究,應用2017 年3月1 日-2018 年2 月28 日的逐日數據構成10×365 維能耗數據矩陣。
全域是指所有測點,選定域指的是從所有測點中選取的測點。為了應用本征正交分解降維需驗證全域時間系數和選定域時間系數的一致性,本文應用實測能耗數據進行了多次模擬計算與驗證,POD-LSE 的詳細流程圖如圖2 所示。

圖2 POD-LSE 法邏輯流程圖
如圖2 所示,第一部分的全域時間系數和選定域時間系數由式(4)的最大特征值計算確定,第二部分的時間系數根據選定域數據和參考時間系數的線性隨機估計由式(6)和式(7)確定。參考時間系數是由選定的無數據異常的能耗數據樣本段計算確定的(2017 年3 月1 日-2017 年6 月1 日),在計算樣本段以外的時間區域內,若存在異常能耗數據,則該異常數據點的POD 時間系數的趨勢將顯示出明顯的誤差。
根據式(3),本文計算了不同時間跨度協方差矩陣,結果顯示不同時間跨度協方差矩陣的特征值的能量分布高度一致。協方差矩陣第i 個特征值的能量占比表示為Eip,由式(18)計算。圖3 為由10×10 協方差矩陣計算出的10 個特征值的能量分布,這表明最大特征值即第1 個特征值捕獲了超過81.04%的能量。


圖3 特征值能量分布圖
根據圖3,單一的時間跨度并不代表所有情況,需要驗證不同時間跨度異常數據檢測結果的區別。本文計算了所有測點和選定測點在相同時間端內的時間系數向量,兩個時間系數向量具有相同的維度。圖4(a)、圖4(b)和圖4(c)分別為時間跨度Span=14,Span=28 和Span=56 時直接POD 和POD-LSE 時間系數計算結果對比圖。

圖4 不同時間跨度的時間系數分布圖
由圖4 可見,隨著時間跨度Span 的增加,全域POD 時間系數和選定域POD 時間系數曲線趨于一致,而線性隨機估計的POD-LSE 時間系數與全域POD 時間系數和選定域POD 時間系數雖然處于不同的坐標系,其動態變化趨勢卻保持一致性。
圖5 顯示了當時間跨度Span=28 時,部分時間的時間系數與能耗數據。由圖5 可以看出,盡管時間系數與能耗數據處于不同的坐標軸且量綱不一致,兩組數據的動態變化趨勢卻顯示了明顯的一致性,異常數據的檢測正是基于正常情況下時間系數與能耗數據變化趨勢一致這一特性。

圖5 時間系數與能耗數據趨勢對比圖
通過比較直接POD 和POD-LSE 時間系數的FCD,對實時能耗數據異常值檢測方法進行了評價。若將時間跨度設為28,只需要確定1 個參數——步長。若步長設定為Step=7,則每次使用7 個新數據和21個歷史數據來計算FCD。同時,在正常情況下選擇的參考時間系數的維度與步長相同,應用該算法可檢測出異常的能耗數據。直接POD 和POD-LSE 時間系數的FCD 標準差由式(17)計算,圖6,圖7 和圖8 分別為不同步長Step=14,Step=7 和Step=4 的異常數據檢測測結果。

圖6 異常數據實時檢測結果(Step=14)

圖7 異常數據實時檢測結果(Step=7)

圖8 異常數據實時檢測結果(Step=4)
如圖6 所示,當Step=14 時,檢測結果顯示在Step No.=12 時,即第12 步時,直接POD 和POD-LSE 時間系數的FCD 標準差SD=8.04%,明顯高于其余計算步驟的標準差,該數據點出現的時間為[Start time:End timetime]=[171:198];如圖7 所示,當Step=7 時,檢測結果顯示在Step No.=11 和Step Noo.=24 時,即第11步和第24 步時,直接POD 和POD-LSE 時間系數的FCD 標準差分別為SD=-12.41%和SD=15.76%,明顯高于其余計算步驟的標準差,這兩個數據點出現的時間分別為[Start time:End timetime]=[78:105]和[Start time:End timetime]=[169:196];如圖8 所示,當Step=4 時,檢測結果顯示在Step No.=19 和Step No.=42 時,即第19步和第42 步時,直接POD 和POD-LSE 時間系數的FCD 標準差分別為SD=-13.58%和SD=11.66%,明顯高于其余計算步驟的標準差,這兩個數據點出現的時間分別為[Start time:End timetime]=[77:104] 和[Start time:End time-time]=[169:196]。
由圖6,圖7 和圖8 還可以看出,當時間跨度Span=28 時,不同步長檢測異常值結果略有不同。當Step=14 時,只檢測出1 個異常數據點,而當Step=7 和Step=4 時,檢測出2 個異常數據點且2 個數據點的位置一致。檢測出異常值的步驟,其直接POD 和POD-LSE 時間系數的FCD 標準差SD 均大于8%,明顯高于其余計算步驟的標準差。綜上,當檢測時間跨度Span=28 時,步長Step=7 時最為合適,與Step=14相比較更能準確地檢測出異常值的位置,與Step=4 相比減少了計算量。
本文提出了POD-LSE-FCD 能耗數據異常值檢測方法,該方法將本征正交分解,線性隨機估計和分型關聯維數相結合。將該方法應用于大連市某高校能耗監測數據,通過比較直接POD 和POD-LSE 時間系數的FCD,對實時能耗數據異常值檢測方法進行了評價。分別模擬計算了當時間跨度Span=28 時,不同步長Step=14,Step=7 和Step=4 的異常數據檢測測結果,得出以下結論:
1)當時間跨度Span=28 時,不同步長檢測異常值結果略有不同:當Step=14 時,只檢測出1 個異常數據點。當Step=7 和Step=4 時,檢測出2 個異常數據點,且兩個數據點的位置一致。
2)檢測出異常值的步驟,直接POD 和POD-LSE時間系數的FCD 標準差均大于8%,明顯高于其余計算步驟的標準差。
3)當檢測時間跨度Span=28 時,步長Step=7 時最為合適,與Step=14 相比較更能準確地檢測出異常值的位置,與Step=4 相比減少了計算量。
綜上,POD-LSE-FCD 法可以準確并快速的檢測出能耗異常數據,適宜應用于iBES 建筑能耗監測平臺異常數據診斷。