馬忠嬌 張吉禮
大連理工大學(xué)建設(shè)工程學(xué)部
2018 年,我國建筑能耗占社會總能耗的36%,其中建造能耗占比為14%,建筑運行能耗占比為22%[1]。目前,我國已在33 個省市建立了國家機關(guān)辦公建筑和大型公共建筑能耗監(jiān)測系統(tǒng),累計對11000 余棟建筑完成了能耗在線監(jiān)測[2],形成了建筑能耗海量數(shù)據(jù)。然而,由于感知層信道的干擾和平臺能耗監(jiān)測技術(shù)的不成熟,數(shù)據(jù)丟失、瞬時異常值和平臺固有偏差等問題數(shù)據(jù)質(zhì)量問題普遍存在于我國大部分建筑能耗監(jiān)測平臺,嚴(yán)重影響了設(shè)備用能特征的深入研究以及后續(xù)建筑節(jié)能相關(guān)措施的實施。因此,提升數(shù)據(jù)質(zhì)量至關(guān)重要,是數(shù)據(jù)深入分析的前提。近年來,許多學(xué)者及研究機構(gòu)對建筑能耗監(jiān)測平臺的異常數(shù)據(jù)檢測及修復(fù)方法進行了研究[3-9],為本文的研究提供了很好的借鑒。本文提出了一種將本征正交分解,線性隨機估計和分形關(guān)聯(lián)維數(shù)相結(jié)合的POD-LSE-FCD 方法用于檢測異常能耗數(shù)據(jù),并將該方法應(yīng)用于大連某高校節(jié)能監(jiān)測管理平臺實際監(jiān)測數(shù)據(jù)的異常值檢測。
本征正交分解 POD(Proper Orthogonal Decomposition)是一種源于矢量數(shù)據(jù)統(tǒng)計分析的方法,利用降維的思想,在損失少量信息的前提下,把多個指標(biāo)轉(zhuǎn)化為幾個綜合指標(biāo)的多元統(tǒng)計方法[10-11]。
若將POD 法應(yīng)用于能耗數(shù)據(jù),則原始能耗數(shù)據(jù)可表示為矩陣E(x,t)={c(xi,tj)},其中xi(i=1,2,…,m)為空間坐標(biāo),tj(j=1,2,…,n)為時間坐標(biāo)。理論上,若要精確重構(gòu)能耗數(shù)據(jù)矩陣需要一個無限項加和的表達式,而實際上有限數(shù)量的POD 模態(tài)即可體現(xiàn)數(shù)據(jù)的變化,故使用下式重構(gòu)原始數(shù)據(jù)矩陣:


POD 模態(tài)的描述方法不是唯一的,直接法需要求解每個變量在整個場上的任意兩點相關(guān)系數(shù)。

式中:COV(E(x,τ))為m×m 維度的協(xié)方差矩陣,根據(jù)線性代數(shù)與拉格朗日函數(shù),COV(E(x,τ))協(xié)方差矩陣是一個半正定矩陣;EX{E(x,τ)}為各空間坐標(biāo)能耗數(shù)據(jù)在矩陣表示時間段內(nèi)的期望值,則:

由式(4)可見,λ1,λ2,λ3,…,λm(λ1≥λ2≥λ3≥…≥λm)為協(xié)方差矩陣COV(E(x,τ))的m 個特征根,,分別為各特征根對應(yīng)的標(biāo)準(zhǔn)正交特征向量。此時,已經(jīng)應(yīng)用POD 法完成了原始數(shù)據(jù)矩陣的本征正交分解,并同時給出了原始數(shù)據(jù)重構(gòu)后矩陣的均方誤差。應(yīng)用上述方法可用本征正交分解的時間系數(shù)來估計原始能耗數(shù)據(jù)矩陣,再利用基函數(shù)重構(gòu)整個能耗數(shù)據(jù)矩陣。根據(jù)線性隨機估計(Linear stochastic estimation,LSE)方法原理,能耗數(shù)據(jù)的估計矩陣En*(x,τ)表示為:

式(5)中估計的時間系數(shù)αk*(t)由式(6)計算:

Aisk 是是第k 個POD 模態(tài)在第i 個測點的線性隨機估計系數(shù)矩陣,由下式計算:

式(7)中E(xi,τ)是原本征正交分解中使用的第i個測點的原測量事件,αk(τ)是根據(jù)式(2)計算的第k 個POD 模態(tài)的實際時間系數(shù),ms是用于估計整個時間系數(shù)的指定空間數(shù)據(jù)點的數(shù)量。
分形關(guān)聯(lián)維數(shù) FCD(Fractal Correlation Dimension)是在相空間重構(gòu)過程中求解嵌入維數(shù)的一種重要方法。G-P(Grassberger-Procaccia)算法是從一組隨機分布的點估計分形標(biāo)準(zhǔn)的分形關(guān)聯(lián)維數(shù)的一種主要算法。通過對時間序列的相空間重構(gòu),構(gòu)造的奇怪吸引子在一定程度上反映系統(tǒng)的演化規(guī)律。通過分析相空間重構(gòu)吸引子的結(jié)構(gòu)來評價動力系統(tǒng)的混沌特性,即為G-P 算法的基本思想[12-13]。當(dāng)應(yīng)用G-P 方法與POD 耦合時,時間系數(shù)αk(tj)應(yīng)描述如下:

式(8)中n 為表示第k 個POD 模態(tài)的一組時間系數(shù)序列的長度,時間序列可簡化表示如下:

時間序列x(τj)表示在時間τj=τ0+j△τ 處x 值,假設(shè)時間序列{x(τj)}的統(tǒng)計量不隨時間變化。除非測量值獨立同分布,否則連續(xù)測量值之間將存在相關(guān)性。利用Takens 時延嵌入定理,設(shè)m 為嵌入維數(shù)且每個相空間有m 個數(shù)據(jù)點,τs=△τ 為時滯參數(shù),則空間數(shù)據(jù)的相位可以表示為m 維空間中的一系列點,第j 個時間序列x(τj,m,τs)為:

根據(jù)上述方法,n 個數(shù)據(jù)點的時間序列被分成nm組,nm=n-(m-1)τs,nm為分形數(shù)組中點的數(shù)量或坐標(biāo)向量的數(shù)量,m 維超球半徑用歐氏距離表示:

超球體的中心可以定義為半徑,且對于每一個i值均可應(yīng)用球面三角形法從相空間距離中求出一個半徑,改變重構(gòu)的超球體的中心將得到一系列的小球體。如果將r 定義為長度刻度,小球數(shù)與總球數(shù)之比定義為關(guān)聯(lián)積分函數(shù)f(r):

為了避免距離的雙重計算導(dǎo)致計算量增大,可將式(12)轉(zhuǎn)換為式(15):

由于r 足夠小且觀測值數(shù)量nm足夠大,分形關(guān)聯(lián)維數(shù)重構(gòu)相空間吸引子為:

綜上,C(r)與距離小于r 的分形集的點對數(shù)成正比,若所考察的點系是分形集,則DC為雙坐標(biāo)對數(shù)圖log2C(r)-log2r 在線性區(qū)的斜率,斜率DC即為系統(tǒng)的分形維數(shù)。
統(tǒng)計學(xué)中基于直接殘差的方法通常以實測數(shù)據(jù)和估計數(shù)據(jù)之間殘差來判斷是否有異常值產(chǎn)生。針對能耗數(shù)據(jù)的非線性特點,本文提出了一種以直接POD和POD-LSE 時間系數(shù)的FCD 偏差代替直接殘差的方法,即基于POD-LSE-FCD 的異常數(shù)據(jù)檢測方法,該方法的流程圖見圖1。

圖1 POD-LSE-FCD 法邏輯流程圖
研究結(jié)果表明,LSE 時間系數(shù)能夠準(zhǔn)確反映能耗監(jiān)測平臺的性能特征。如果直接POD 和POD-LSE 時間系數(shù)的FCD 偏差存在較大的差異,則表明直接計算整個域數(shù)據(jù)的時間系數(shù)可能不是正確的系數(shù)。因此,可以根據(jù)上述原理檢測異常的能耗數(shù)據(jù)。直接POD 和POD-LSE 時間系數(shù)的FCD 標(biāo)準(zhǔn)差由式(17)計算:

本文應(yīng)用Matlab 自編程序?qū)崿F(xiàn)了POD-LSE-FCD算法,以大連某高校校園節(jié)能監(jiān)測與管理平臺的創(chuàng)新園大樓的照明與插座分項實際監(jiān)測用電量數(shù)據(jù)為例,驗證了基于POD-LSE-FCD 的異常數(shù)據(jù)檢測方法的有效性。該建筑群分為中央主樓、西側(cè)學(xué)生實驗樓、東側(cè)創(chuàng)新實驗基地,該建筑共有10 個照明與插座用電監(jiān)測點,應(yīng)用這10 個支路的數(shù)據(jù)進行研究,應(yīng)用2017 年3月1 日-2018 年2 月28 日的逐日數(shù)據(jù)構(gòu)成10×365 維能耗數(shù)據(jù)矩陣。
全域是指所有測點,選定域指的是從所有測點中選取的測點。為了應(yīng)用本征正交分解降維需驗證全域時間系數(shù)和選定域時間系數(shù)的一致性,本文應(yīng)用實測能耗數(shù)據(jù)進行了多次模擬計算與驗證,POD-LSE 的詳細流程圖如圖2 所示。

圖2 POD-LSE 法邏輯流程圖
如圖2 所示,第一部分的全域時間系數(shù)和選定域時間系數(shù)由式(4)的最大特征值計算確定,第二部分的時間系數(shù)根據(jù)選定域數(shù)據(jù)和參考時間系數(shù)的線性隨機估計由式(6)和式(7)確定。參考時間系數(shù)是由選定的無數(shù)據(jù)異常的能耗數(shù)據(jù)樣本段計算確定的(2017 年3 月1 日-2017 年6 月1 日),在計算樣本段以外的時間區(qū)域內(nèi),若存在異常能耗數(shù)據(jù),則該異常數(shù)據(jù)點的POD 時間系數(shù)的趨勢將顯示出明顯的誤差。
根據(jù)式(3),本文計算了不同時間跨度協(xié)方差矩陣,結(jié)果顯示不同時間跨度協(xié)方差矩陣的特征值的能量分布高度一致。協(xié)方差矩陣第i 個特征值的能量占比表示為Eip,由式(18)計算。圖3 為由10×10 協(xié)方差矩陣計算出的10 個特征值的能量分布,這表明最大特征值即第1 個特征值捕獲了超過81.04%的能量。


圖3 特征值能量分布圖
根據(jù)圖3,單一的時間跨度并不代表所有情況,需要驗證不同時間跨度異常數(shù)據(jù)檢測結(jié)果的區(qū)別。本文計算了所有測點和選定測點在相同時間端內(nèi)的時間系數(shù)向量,兩個時間系數(shù)向量具有相同的維度。圖4(a)、圖4(b)和圖4(c)分別為時間跨度Span=14,Span=28 和Span=56 時直接POD 和POD-LSE 時間系數(shù)計算結(jié)果對比圖。

圖4 不同時間跨度的時間系數(shù)分布圖
由圖4 可見,隨著時間跨度Span 的增加,全域POD 時間系數(shù)和選定域POD 時間系數(shù)曲線趨于一致,而線性隨機估計的POD-LSE 時間系數(shù)與全域POD 時間系數(shù)和選定域POD 時間系數(shù)雖然處于不同的坐標(biāo)系,其動態(tài)變化趨勢卻保持一致性。
圖5 顯示了當(dāng)時間跨度Span=28 時,部分時間的時間系數(shù)與能耗數(shù)據(jù)。由圖5 可以看出,盡管時間系數(shù)與能耗數(shù)據(jù)處于不同的坐標(biāo)軸且量綱不一致,兩組數(shù)據(jù)的動態(tài)變化趨勢卻顯示了明顯的一致性,異常數(shù)據(jù)的檢測正是基于正常情況下時間系數(shù)與能耗數(shù)據(jù)變化趨勢一致這一特性。

圖5 時間系數(shù)與能耗數(shù)據(jù)趨勢對比圖
通過比較直接POD 和POD-LSE 時間系數(shù)的FCD,對實時能耗數(shù)據(jù)異常值檢測方法進行了評價。若將時間跨度設(shè)為28,只需要確定1 個參數(shù)——步長。若步長設(shè)定為Step=7,則每次使用7 個新數(shù)據(jù)和21個歷史數(shù)據(jù)來計算FCD。同時,在正常情況下選擇的參考時間系數(shù)的維度與步長相同,應(yīng)用該算法可檢測出異常的能耗數(shù)據(jù)。直接POD 和POD-LSE 時間系數(shù)的FCD 標(biāo)準(zhǔn)差由式(17)計算,圖6,圖7 和圖8 分別為不同步長Step=14,Step=7 和Step=4 的異常數(shù)據(jù)檢測測結(jié)果。

圖6 異常數(shù)據(jù)實時檢測結(jié)果(Step=14)

圖7 異常數(shù)據(jù)實時檢測結(jié)果(Step=7)

圖8 異常數(shù)據(jù)實時檢測結(jié)果(Step=4)
如圖6 所示,當(dāng)Step=14 時,檢測結(jié)果顯示在Step No.=12 時,即第12 步時,直接POD 和POD-LSE 時間系數(shù)的FCD 標(biāo)準(zhǔn)差SD=8.04%,明顯高于其余計算步驟的標(biāo)準(zhǔn)差,該數(shù)據(jù)點出現(xiàn)的時間為[Start time:End timetime]=[171:198];如圖7 所示,當(dāng)Step=7 時,檢測結(jié)果顯示在Step No.=11 和Step Noo.=24 時,即第11步和第24 步時,直接POD 和POD-LSE 時間系數(shù)的FCD 標(biāo)準(zhǔn)差分別為SD=-12.41%和SD=15.76%,明顯高于其余計算步驟的標(biāo)準(zhǔn)差,這兩個數(shù)據(jù)點出現(xiàn)的時間分別為[Start time:End timetime]=[78:105]和[Start time:End timetime]=[169:196];如圖8 所示,當(dāng)Step=4 時,檢測結(jié)果顯示在Step No.=19 和Step No.=42 時,即第19步和第42 步時,直接POD 和POD-LSE 時間系數(shù)的FCD 標(biāo)準(zhǔn)差分別為SD=-13.58%和SD=11.66%,明顯高于其余計算步驟的標(biāo)準(zhǔn)差,這兩個數(shù)據(jù)點出現(xiàn)的時間分別為[Start time:End timetime]=[77:104] 和[Start time:End time-time]=[169:196]。
由圖6,圖7 和圖8 還可以看出,當(dāng)時間跨度Span=28 時,不同步長檢測異常值結(jié)果略有不同。當(dāng)Step=14 時,只檢測出1 個異常數(shù)據(jù)點,而當(dāng)Step=7 和Step=4 時,檢測出2 個異常數(shù)據(jù)點且2 個數(shù)據(jù)點的位置一致。檢測出異常值的步驟,其直接POD 和POD-LSE 時間系數(shù)的FCD 標(biāo)準(zhǔn)差SD 均大于8%,明顯高于其余計算步驟的標(biāo)準(zhǔn)差。綜上,當(dāng)檢測時間跨度Span=28 時,步長Step=7 時最為合適,與Step=14相比較更能準(zhǔn)確地檢測出異常值的位置,與Step=4 相比減少了計算量。
本文提出了POD-LSE-FCD 能耗數(shù)據(jù)異常值檢測方法,該方法將本征正交分解,線性隨機估計和分型關(guān)聯(lián)維數(shù)相結(jié)合。將該方法應(yīng)用于大連市某高校能耗監(jiān)測數(shù)據(jù),通過比較直接POD 和POD-LSE 時間系數(shù)的FCD,對實時能耗數(shù)據(jù)異常值檢測方法進行了評價。分別模擬計算了當(dāng)時間跨度Span=28 時,不同步長Step=14,Step=7 和Step=4 的異常數(shù)據(jù)檢測測結(jié)果,得出以下結(jié)論:
1)當(dāng)時間跨度Span=28 時,不同步長檢測異常值結(jié)果略有不同:當(dāng)Step=14 時,只檢測出1 個異常數(shù)據(jù)點。當(dāng)Step=7 和Step=4 時,檢測出2 個異常數(shù)據(jù)點,且兩個數(shù)據(jù)點的位置一致。
2)檢測出異常值的步驟,直接POD 和POD-LSE時間系數(shù)的FCD 標(biāo)準(zhǔn)差均大于8%,明顯高于其余計算步驟的標(biāo)準(zhǔn)差。
3)當(dāng)檢測時間跨度Span=28 時,步長Step=7 時最為合適,與Step=14 相比較更能準(zhǔn)確地檢測出異常值的位置,與Step=4 相比減少了計算量。
綜上,POD-LSE-FCD 法可以準(zhǔn)確并快速的檢測出能耗異常數(shù)據(jù),適宜應(yīng)用于iBES 建筑能耗監(jiān)測平臺異常數(shù)據(jù)診斷。