


摘要:建筑可視化是應用該技術的重要領域。討論功耗異常檢測方法,試圖找到一種合適的數據可視化方法來構建HVAC功耗和異常檢測。與其他建筑物異??梢暬椒ㄏ啾?,K-Means+Polty異常檢測可視化方法主要具有以下優點:(1)可以將室外數據與傳感器檢測到的功率損耗數據結合起來,包括天氣的影響可以被認為包括在內,并獲得更準確的結果;(2)所有可視化數據都提供了一個交互式UI,便于建筑物管理員在異常時刻更快速、方便地查找相關信息;(3)與帶標簽的數據采集相比,無標簽數據的采集難度和采集成本大大降低。
關鍵詞:建筑可視化;異常檢測;無監督學習;人工智能
中圖分類號:F293 文獻標識碼:A
文章編號:1001-9138-(2020)09-0064-69 收稿日期:2020-09-07
1 緒論
美國有73%的用電量和39%的二氧化碳是建筑物排放的,如何減少用電量也是環境保護中非常重要的部分。如何減少建筑物的用電量呢?一種方法是減少異常用電量。在許多情況下,異常的發生將使功耗達到峰值,但是這樣的功耗并未帶來任何收益。除此之外,通過檢測電力系統異常并減少電力損耗來解決電力系統問題不會影響普通用戶的使用。因此,如何檢測建筑用電異常以及如何幫助建筑經理找出異常情況將成為解決此問題的關鍵。本文將專注于用無監督學習的方法解決HVAC(供暖、通風和空調)部分的電力異常檢測。盡管建筑物中有許多不同的系統,但是HVAC系統占據了商業建筑總能耗的30%。更詳細地講,HVAC消耗5.35萬億Btu,照明設備需要1.48萬億Btu,包括PC在內的辦公設備需要1.71萬億Btu等。有許多研究集中在如何節省照明功率上,但實際上照明僅需1.48萬億Btu。換句話說,HVAC的能耗幾乎是照明的4倍。因此,嘗試減少HVAC的用電量非常有意義,因為它是商用建筑用電量的最大部分。異常檢測和可視化是幫助建筑物管理員節省HVAC或其他部分耗電方法的有效方法。
異常檢測(Anomaly detection)也被稱為離群值檢測(outlier detection)。它是對不常出現的個例、事件或觀測值的識別,這些數據與大多數據明顯不同,從而引起人們的關注。功耗異常檢測區域中使用了一些方法:基于預測的異常檢測(prediction-based anomaly Detection)、基于聚類的異常檢測(clustering-based anomaly detection)、Z分數(z-score)、自回歸模型(Autoregressive Model)、自動回歸移動平均模型(Auto regressive-moving-average model)、高斯內核分布模型(gaussiankernel distribution model)等。隨著機器學習技術越來越發達,一些機器學習方法大大改善了異常檢測的實施難度和檢測正確率。根據數據是否帶有標簽(在異常檢測領域,標簽表示該數據是否已知為異常,未標記表示該數據不知道其是否為異常),有三種不同類型的異常檢測技術:一是監督學習技術。監督技術基于整個數據(異常數據和正常數據)生成模型。將需要預測的數據根據生成的模型計算出不同類別的概率,并分配給整個模型中具有最高概率的類別中。二是半監督學習。半監督技術僅針對正常數據生成模型。它介于監督技術和無監督技術之間。如果需要預測的數據很好地適合半監督模型,則將其分類為正常;否則,將其分類為異常。三是無監督技術。無監督技術不需要帶有任何標簽的數據。該方法基于以下假設:異常值或異常的發生概率或頻率比正常數據小得多。無監督技術將相似的數據劃分為一個類,并將整個數據集分為多個類,異常類與其他類相比,數據明顯更少。
由于本文研究的是沒有標簽的數據,因此,無監督技術將是最佳選擇。
異常或離群值可分為三類:一是點異常:與其他數據相比,存在一個單個數據異常。二是上下文異常:數據實例在上下文中是異常的,例如在冬季,所有HVAC都使用暖氣,但是其中一個數據對空調的使用率很高。三是集合異常:當嘗試瀏覽整個數據集時,一些相關數據實例是異常的。這些異常數據并不是單個數據,而是一個集合??梢暬蓭椭ㄖ浝砀苯拥孬@取所需信息。與大量數字數據相比,人類更愿意看到可視化的數據,并且對可視化的數據有更加清晰直觀的理解。
2 相關工作
2.1 電力消耗異常檢測
基于預測的異常檢測是電力消耗異常檢測的一個優秀方法。此方法有一個前提假設:人們所觀察到的模式應該是通用的,并將在未來保留。模型基于現有數據,并且可預測的方法無法根據未來發生的改變做出應有的調整。因此,如果將來的數據不遵循現有模型發現的模式,則該模型將無法準確地預測將來的數據。
基于聚類的異常檢測適用于時間序列數據,并且僅有少數數據是異常數據,大多數時間的數據都是穩定且正常的。Z分數會根據一個可靠的標準偏差發生的頻率來識別異常。每一個單一數據會根據Z分數的算法得到一個單獨的Z分數。分數越高表明數據異常的可能性越高。
自回歸模型是基于時間序列數據分析中的一種著名方法。這種方法的關鍵是試圖找到數據和過去數據之間的關系,這意味著它們不是獨立的。例如,AR(2)意味著使用Xt-1和Xt-2預測數據Xt,以t時刻為基準,t-1意味著t之前的第一個時間節點,t-2意味著t之前的第二個時間節點。
2.2 可視化
可視化可以幫助用戶更簡便地查看整個數據集并對整個數據集產生更直觀的認識。在建筑物電源異常檢測區域中,可視化被廣泛使用,以幫助建筑物管理員更輕松地獲取有關建筑物的信息。通過建筑物可視化,建筑物管理員可以通過圖形方式了解數字數據,從而不僅可以了解到單一的數據,還可以輕松找到數據變化的趨勢和異常數據。由于包括暖通空調和室外溫度在內的數據都是基于時間序列的,因此適用的方法應該著重于深入研究構建異常可視化區域的時間序列可視化方法。
時間序列方式有幾種不同的建筑物可視化方法:
一是折線圖(line chart):折線圖是建筑物電源異常檢測區域中最常見的可視化方法。在大多數情況下,x軸顯示數據時間,y軸顯示電力消耗。
二是遞歸模式(Recursive Pattern):用來展示數據屬于某個確定類別的概率,或者使用不同顏色表示將數據預測到不同的類別。通常,數據的顏色越亮,代表其出現的概率越高(在少數情況下使用相反的顏色)。熱力圖是遞歸模式的一種,本文所使用的可視化方法之一正是熱力圖。
三是螺旋可視化(Spiral visualization):螺旋可視化通常用于可視化周期性數據集。在螺旋可視化中,每一輪螺旋用于顯示特定時間段的數據,例如每輪一天或每星期一周。螺旋可視化可以更直觀地顯示數據的周期性特征。
四是矩形式樹狀圖(Treemapping):矩形式樹狀圖與樹狀圖不同,在樹狀圖中,彼此之間存在根節點和分支連接,但是在矩形式樹狀圖中,整個圖形是由數個小長方形組成的一個矩形。每個小矩形代表一個類(class),小矩形的面積越大,意味著相應類出現的可能性越大。而且每個矩形還具有自己獨特的顏色,以顯示彼此之間的關系。
3 方法
上文所介紹的電力異常檢測方法并不適合建筑HVAC功耗異常檢測。對于異常檢測,無監督技術K-Means是更為適合的方法之一。對于基于時間序列的異??梢暬糠郑瑢⒄劬€圖和熱力圖相結合可能會得到更好的結果。
3.1 電力消耗異常檢測
機器學習在數據科學領域非常有幫助。本文的案例研究數據都是無標簽數據,因此應該選擇一種無監督算法來解決此問題。第4章案例研究的主要目標是找到異常數據。要應用無監督學習算法,有一個必要的假設:異常數據的數量遠遠小于正常數據。如果不滿足這一假設在對案例數據進行聚類時會出現問題,無法分辨哪一個聚類是需要找到的異常類。
那么,章節2.1所提到的方法為什么不適合用于建筑電力異常檢測呢?自回歸模型的缺陷是:溫度將對HVAC產生很大影響,如果室外溫度由于氣候變化突然升高或降低,HVAC系統將適應室外情況并改變工作狀態。比如室外溫度突然下降,則供暖的電力消耗將大大增加,自回歸模型將基于最近幾天的數據得出異常的結論。實際上,HVAC系統照常工作,只是由于室外溫度的變化而使功耗發生很大變化,而自回歸模型沒有這種能力來找到溫度與HVAC功耗之間的聯系。Z分數也有這樣的問題,因為它基于整個數據的均值和標準差,而夏季和冬季分別使用不同的系統,一種是空調,一種是暖氣,兩者電力消耗量并不相同。如果使用整個數據平均值,將很難檢測到異常。另一方面,如果為使用空調和暖氣建立兩個不同的Z分數模型,來嘗試解決不準確的平均值問題,那么當溫度突然下降,它將給出相當高的Z值。
因此,對于HVAC功耗異常檢測,重要的是找到一種可以將室外溫度和功耗連接在一起以獲得更好精度的方法。這也是為什么要將室外溫度作為變量的原因,而不僅僅是依據供暖和空調的電力消耗來建立所要使用的模型。
機器進行無監督學習方法的優勢是可以利用多維度的數據并且不需任何數據的標簽。而恰恰就是這樣的特性,可以解決室外溫度和電力消耗的直接聯系關系,從而更加準確對電力消耗異常做出判斷。一旦算法生成模型,新數據就可以在模型上驗證,系統就可以自動將新數據直接分類到正常組或異常組。K-均值(K-Means)的關鍵公式如下:
算法的核心就是嘗試最小化式(1)來為每個組找到最合適的中心點。xi代表已知數據的多維數據,包括室外溫度、暖氣電力消耗、空調電力消耗。μj是聚類(cluster)的中心點,j的數量由人為定義,意味著將數據集分為j個族。因此,K-Means聚類的方法就是嘗試找到每一個最佳的μj,使其組內所有數據到中心點μj的距離之和最短。
除了傳統的HVAC數據外,外部溫度也被視為xi的附加維數,并將其添加到x;以執行與HVAC的K-Means聚類。這意味著每個xi具有5個維度,分別代表南/西冷氣電力消耗、北/東冷氣電力消耗、南/西熱氣電力消耗、北/東熱氣電力消耗和外部溫度。建筑各房間靜態冷氣熱氣分布如圖1所示,橘色為南/西部分,綠色為北/東部分,灰色為沒有HVAC房間。
3.2 可視化
本文方法的可視化部分使用了折線圖和熱力圖,并結合了兩者的優點。折線圖用于顯示初始數據,例如按時間序列顯示電力消耗或按時間序列顯示室外溫度。熱力圖將顯示數據所屬的最佳類別。熱力圖中的每個像素代表一個時間戳,像素的顏色顯示了該時間點數據所屬的類編號。
在案例研究中,熱力圖并非對所有xi都進行了可視化,而是在對所有xi進行K-Means聚類之后,每6小時(0:00、6:00、12:00、18:00)取一次值,然后將取出來的這些值進行可視化,在案例研究中聚類族的數量J等于4a
此外,本文的方法還為建筑物管理員提供了交互式操作。包括對可視化的數據進行放大縮小,以及當觸摸或移動鼠標到所需位置時,具體數據值的展示。圖2顯示了有關交互操作的示例。它從圖3中3年的數據放大到了一周的數據,并檢查了2013年7月1日22:00北部和東部的冷氣電力功耗。
4 案例研究
4.1 實驗環境
Python 3.7.7
Numpy 1.18.1
Pandas 1.0.3
Plotly 4.5.2
Sklearn 0.22.1
4.2 數據信息
案例研究數據來自Synergy BTC AG,位于伯爾尼Laupenstrasse 20,3008。它是一個大約有9560平方米、三層樓高的建筑物,位于Industrigebiet的Ostschweiz。整個建筑有13個辦公區域(主要是OpenSpace)、6個會議室和5個外圍區域。每個小時,傳感器會記錄電力消耗的數據。
圖1顯示了案例研究數據中的HVAC系統。整個建筑分為兩部分:西/南和東/北。有一些特殊情況,例如S02分為南/西,而S02則更靠近北。北方和南方的照明時間不同,因此在不同的室內溫度下,所需的HVAC功耗將有所不同。HVAC數據將對整個K-Means的聚類產生一定的影響。
圖3有兩個子圖。上面的子圖是可視化功耗,下面的子圖顯示了同一時間的室外溫度。但是,由于使用兩個子圖片分別進行可視化,也帶來了一個問題:橫坐標并不完全一致。在案例研究中,個別室外溫度數據丟失,而兩個子圖看上去完全正常。
4.3 結果
在本文的案例研究中,j的數值被設置為4。之所以將j設置為4,是因為建筑的HVAC系統主要存在4種情況:(1)室外炎熱,需要空調;(2)室外環境很好,無需空調或暖氣;(3)室外寒冷需要暖氣;(4)異常數據。
原始的數據并不能滿足機器學習的格式,因此必須進行規范化。通過歸一化將幾組不同的數據進行歸一,使不同的屬性之間擁有相同的權重,例如室外溫度是兩位數,而電力消耗可能是三位數,這就會導致電力消耗的權重遠遠大于室外溫度,但是歸一化之后,兩組屬性的最大值被設為1,大大減小了樣本數據屬性之間帶來的權重變化。對于K-Means中的其他一些參數,最大迭代數為10000,重心種子的值設為10。
圖4顯示了方法獲得的最終結果,并將結果可視化。4種不同的類別所顯示的4種不同的顏色,而用黃色表示異常則更容易找到。異常檢測可視化同樣支持交互操作。每個數據具有x、y、z的三個屬性,x表示日期,y表示一天中的時間,z表示數據所屬的類。有趣的是,與K-Means發現的異常點相對應的數據對于人類視覺而言并不那么重要。除此之外,2013年7月1日10點的異常數據在熱力圖中并沒有被展示,因為熱力圖選取的時間并不包含10點,見圖5。
5 總結
本文不僅關注異常檢測,同時還提供了一種優秀的可視化方法,并在異常檢測和可視化之間找到平衡。組合折線圖和熱力圖不僅可以幫助建筑物管理員輕松獲得有關整個數據的概覽,還可以快速找到異常數據信息。
本文的主要結論如下:(1)使用無監督方法K-Means來適應功耗異常檢測,從而顯著縮短檢測時間。(2)結合折線圖和熱力圖,以幫助建筑物管理員輕松獲得有關整個數據的總體概覽,同時快速找到異常數據信息。(3)提供了一種交互式的方法來取得可視化折線圖和熱圖中的數據。交互方式可以使建筑管理員更加方便地獲取數據的詳細信息。(4)找到了一種將空調、暖氣和室外溫度結合在一起的方法。大多數傳統方法無法將室外溫度與HVAC系統結合起來。但是,室外溫度是HVAC功耗和異常檢測的直接影響因素。
參考文獻:
1.Y.Agarwal,S.Hodges,R.Chandra,J.Scott,P.Bahl,and R.Gupta.Somniloquy:Augmenting NetworkInterfaces to Reduce PC Energy Usage.In Proceedings ofUSENIX Symposium on Networked Systems Design andImplementation(NSDI09)USENIX Association Berkeley,CA,USA,2009
2.Mills,Evan.“Building commissioning:a goldenopportunity for reducing energy costs and greenhouse gasemissions in the United States.”Energy Efficiency 4.2 (2011):145-173
3.Goetzler,William,et al.Energy savings potential andRD&D opportunities for commercial building HVAC systems.No.DOE/EE-1703.Navigant Consulting,Burlington,MA(United States),2017
4.Janetzko,Halld or,et al.“ Anomaly detection for visualanalytics of power consumption data.”Computers&Graphics38(2014):27-37
5.Seem,John E."Using intelligent data analysis to detectabnormal energy consumption in buildings.”Energy andbuildings 39.1(2007):52-58
6.Cui,Wenqiang,and Hao Wang.“A new anomalydetection system for school electricity consumption data.”Information 8.4(2017):151
7.Chandola,V.:Banerjee,A.:Kumar,V.Anomalydetection:A survey.ACM Comput.Surv.(CSUR)2009,41,15
8.Chatfield,C.The Analysis of Time Series:AnIntroduction; CRC Press:Boca Raton,FL,USA,2003
9.Oelke,Daniela,et al.“Visual boosting in pixel一basedvisualizations.”Computer Graphics Forum.Vo1.30.No.3.Oxford,UK:Blackwell Publishing Ltd,2011
10.Weber,Marc,Marc Alexa,and Wolfgang M ii Her.“Visualizing time-series on spirals." Infovis.Vol.I.2001
11.Shneiderman,Ben.“Tree visualization with tree-maps:2-d space-filling approach.”ACM Transactions ongraphics(TOG)11.1(1992):92-99
12.jain,Anil K.“Data clustering:50 years beyondK-means.”Pattern recognition letters 31.8(2010):651-666
作者簡介:趙雪圻,瑞士伯爾尼大學碩士研究生,研究方向:計算機科學與技術-人工智能-深度學習。