吳聞婧, 張軒濤
(天津市建筑設計院,天津 300074)
智能建筑是集現代科學技術之大成的產物,是一個國家綜合國力和科技水平的具體表現之一。它包含了網絡技術、信息技術、智能化技術、無線局域網技術等。智能建筑真正實現“智能”的關鍵在于其建筑內所有信息的交互,信息來源于數據,只有對數據進行加工、整理、去偽存精,才能提煉為信息。
數據挖掘(Data Mining,簡稱“DM”)是一項備受矚目的新興科技,被譽為大數據處理的骨干技術,集人工智能、機器學習、數據可視化和統計數學于一體的多學科產物。近年來,DM受到各行各業的關注,如銀行和金融服務、零售、醫療保健、電信和反恐等。在建筑領域中使用數據挖掘技術在節能和改善室內環境方面也產生了一系列的成果,但相較于其他行業,在建筑領域數據挖掘的應用較少,目前主要應用在處理預測、故障診斷和建筑領域的最佳控制等方面。Amin-Naseri和Soroush提出了一種混合神經網絡模型,結合聚類分析算法來預測每日電氣峰值負荷,結果表明,與統計方法(如線性回歸)相比,基于DM的方法在預測準確性方面具有顯著優勢。Ahmed等人使用分類技術研究了建筑特性和氣候條件對室內熱舒適度和室內照度水平的影響,開發了三種方法,即樸素貝葉斯、決策樹、支持向量機。
雖然DM技術已經在建筑領域中使用,但是之前的研究很少充分利用DM技術來發現海量數據集,且很少對建筑智能化系統的運行數據進行挖掘分析。在建筑智能化系統中的數據中應用DM存在兩大問題,一是大多數DM技術都非常復雜,很少有樓宇自動化專業人員能夠掌握它們。二是DM本身無法分辨所發現知識的價值或重要性,因此仍需要建筑領域的專業知識來解釋建筑各機電系統中的知識。但使用DM技術挖掘建筑運行數據庫缺乏通用方法,因此本文提出一種適用于使用典型DM技術挖掘建筑運行能耗數據的運行模式。
某大型文化綜合體一期項目選址于濱海新區核心區天堿地區,主要為市民服務的公共活動中心,項目的建設將進一步完善核心區功能,充分整合并形成濱海新區更大的文化優勢,成為文化藝術發展和傳播的優質平臺,為居民提供豐富的公共文化服務。
項目一期規劃總用地面積約為12ha,總建筑面積31.2萬m2,綠色二星建筑群。一期項目建設內容共有“五館一廓”六個單體,包含“一個長廊”(即文化長廊)及“五個場館”(即演藝中心、圖書館、科技館、美術館、市民活動中心)。其中,文化長廊作為整個項目的核心空間,統籌銜接五個文化場館,實現功能的有效互補,形成多元復合的空間布局,成為一個文化綜合體,一期效果圖如圖1所示。
本項目各個單體均為綠色建筑,各個單體內智能化系統較多,主要有安全防范、出入口、建筑設備監控、客流量分析、智能照明、能耗監測、ATSE監測管理、停車、光伏等系統,如圖2所示。

圖2 單體中各子系統顯示圖
某文化綜合體的數據來源于五館一廊及管控中心的智慧集成平臺,包括運維管理平臺和能源管理平臺。運維管理平臺數據主要為眾多智能化子系統設備運行情況數據等。其中運維管理平臺的數據來源主要各單體的的智能照明、建筑設備、客流量分析、視頻監控等智能化系統,能源管理平臺數據來源主要包括各單體中的電表、水表及冷熱量表數據。
數據的分析是建立在數據正確的基礎之上。然而,建筑物中各個系統數據采集系統中的測量、記錄、轉換、傳輸過程的任一環節的故障都會導致數據的缺失或異常;另一方面,當數據采集系統正常,由于特殊事件(如線路檢修、消防演習等)引起各個系統的異常變化,也會導致數據異常。如果這些異常數據得不到有效的判斷和校正,它們將以偽信息、偽變化的規律提供給綠色建筑的數據分析系統作為參考,進而導致錯誤的決策。其中能耗數據有功電能為主,考慮到研究對象為綠色建筑,多有能耗監測平臺或智能系統集成平臺,數據中異常值較少,且多為維修停電導致數據為空值或0值。針對能耗系統表計數據非減的特點,經對比分析各種算法的優缺點,采用單調序列邏輯檢測算法進行異常值的檢測,并采用均值插補法進行異常數據處理。
有些變量呈現一種非遞減或者非遞增的趨勢。如電表的表底值就呈現一種非遞減的趨勢。以呈現非遞減趨勢的時間序列變量為例,設xt為非遞減的時間序列變量,新監測數據xt+1滿足xt+1-xt=λ≥0時,為非異常數據。然而,由于隨機誤差的影響,λ可能會出現在一定范圍內小于0的情況,即σ<λ<0也是正常的,當λ<σ時可直接將xt+1判為異常數據。根據概率論的知識,長時間連續出現小于0的情況也是異常的,設置連續次數上限k,若出現連續k次小于0的情況,則數據異常。圖3為單調序列邏輯檢測法的流程圖。

圖3 單調序列邏輯檢測流程圖
采用均值插補法對異常數據進行處理。均值插補,顧名思義就是用調查項中有回答單元的均值替代無回答的缺失值。均值插補法就是分別計算各目標變量中回答單元的均值,然后把各組均值分別作為各變量所有缺失項的插補值,插補值的計算如下:
(1)
式中,αi為示性變量,αi=1是有回答,αi=0是無回答;n1為回答單元數。此時總體的均值估計為:
(2)
插補后的樣本方差為:
(3)

聚類分析(Cluster Analysis)是根據事物本身的特性研究個體分類的方法。根據分類對象不同分為樣品聚類和變量聚類。變量聚類在統計學中又稱為R型聚類,常用相似系數來測量變量之間的親疏程度。在實際中有著廣泛的應用,一方面,通過變量聚類可以發現某些變量之間的一些共性,以有利于分析問題和解決問題;另一方面,變量聚類也可以作為某些數據分析的中間過程。變量聚類的算法一般從相似系數矩陣出發,關于變量的譜系聚類過程與從距離矩陣出發,關于樣品的譜系聚類過程類似,只是由于相似系數越大,表明變量之間越相似,因此,每次應選取相似矩陣或更新的相似矩陣中主對角線以外的最大元素所對應的兩個變量或兩個類合并。具體求解方法步驟如下文所示。
假設對p個變量X1,X2,…,Xp各觀測了n次,觀測向量為x(j)=(x1j,x2j,…,xnj)T(j=1,2,…,p)。
變量的觀測向量x(i)與x(j)間的相似性可以用相似系數度量。
設x(i)=(x1i,x2i,…,xni)T,x(j)=(x1j,x2j,…,xnj)T,則x(i)與x(j)的相似系數為:
(4)
顯然,|rij|≤1,rij=rji且rii=1。若將x(i)和x(j)看做n維空間中的兩個向量,則rij是它們的余弦夾角。變量觀測向量x(1),x(2),…,x(p)兩兩間的相似系數構成相似系數矩陣為:
(5)
顯然,對于標準化數據,R即原觀測數據的相關系數矩陣,這時,|rij|的大小反應了兩個變量Xi與Xj線性關系的強弱。

若R為相關系數矩陣,以變量的線性關系強弱作為相似性度量,這時可令dij=1-|rij|(i,j=1,2,…,p)。
通過求得變量之間的線性關系強弱即可實現變量之間類別之間的區分。
數據的分析是建立在數據正確的基礎之上的。然而,數據的異常會直接導致數據分析無法了解系統真實的運行狀態,甚至造成對系統運行的錯誤評估。限于篇幅問題,本文舉例對文化綜合體中圖書館的照明插座用電量進行分析,利用上文介紹的單調序列邏輯檢測算法進行照明插座用電量的異常數據的檢測。本文實現對從2018年1月1日至2019年3月10日之間的照明插座的用電量的數據進行分析,電能數據存儲周期為一個小時,一天24個數據點,本次檢測時間段內的數據點位共包括 10 224 個數據點,本研究利用Python編寫算法對數據清洗。為便于數據圖形的查看,本文截取時間為2018年1月至2018年10月之間的數據進行圖形展示,由圖4可知,在2018年1月20日的13點和14點存在兩個異常數據點,對此兩個數據點完成了數據檢測及補值。

圖4 圖書館照明插座用電量數據清洗圖
本文對圖書館建筑的照明插座耗電量按日進行分組。由于數據采集間隔為1h,每天有24個功耗數據,故本文共對426個完整日的能耗數據(即10 224點觀測數據)進行進了一步分析。
本研究采用變量聚類的方法,對建筑照明插座的日常耗電量的角度識別典型的建筑運行模式。為實現對圖書館照明插座用電量的運行模式進行挖掘分析,首先對426個完整日的數據分成426組,一組數據包括24條數據,且為實現對每組數據(即日數據)的整體特征進行識別,首先對數據進行平移處理(使用每組數據中的24條數據分別減去其均值得到新的數據組)。故最終形成一個426×24的矩陣,對此矩陣使用變量聚類的算法進行分析。本文利用SAS軟件進行算法的運行處理,按照最大類別進行分類,最終聚類結果分為5類,在這里選擇每類中1-R2最小的數據,代表此類的特征曲線。故可分別找到可代表時間為2018年11月5日,其值為0.0528;2018年2月15日其值為0.2187;2018年11月21日其值為0.0285;2018年7月23日,其值為0.0977;2018年9月15日,其值為0。其特征運行模式如圖5所示。

圖5 照明插座運行能耗模式
由上文對圖書館照明插座對典型日用能模式進行分析,分析結果表明根據不同的時間用能情況的不同,及人的行為用能習慣,可能導致典型日用能模式的類內差異性較大。而對于采用聚類分析得到各種不同的日用能模式,需要對其特征結合專業的知識及現場的運行情況進行專業解釋,才能實現對挖掘的內容進行更加合理的利用。
(1)從各類內在差異性看,各類在能耗的峰值、均值、跨度等方面,其不同時刻能耗值及能耗跨度的差別較大;其內部形狀也有微小差異不同的用能行為,可能導致的建筑能耗差異性較大。
(2)從上述各自聚類圖可知,其中第五類只有一天,這類模式也正代表著典型的異常用能模式,在01:00~21:00一直處于高用能情況(經與現場物業人員溝通,了解到當天處于活動日,故照明用電一直處于打開狀態)。
對于運行模式2,可發現能耗在20:00以前均已經下降,此部分運行情況結合現場運行情況,此時間是由于圖書館存在提前閉館進行館內事情處理。
對于運行模式4,可發現由于存在周一上午閉館,進行圖書館整理、打掃。
對于運行模式1,則是由于在下午階段,由于光照問題,照明用電在逐步提升。
對于運行模式3,經了解則是處于完全定時狀態控制各燈具的打開和關閉,故中午用電依舊存在問題。
而其中運行模式內部在不同時刻用能不同的原因,則可能是受人為影響,比如插座的用電,用于手機、筆記本充電等。
