馬梓軒,展長虹,韓雪瑩,李光皓
(哈爾濱工業大學建筑學院,寒地城鄉人居環境科學與技術工業和信息化部重點實驗室,黑龍江 哈爾濱 150001)
隨著建筑采光與人工照明技術的進步,人們逐漸意識到光照環境對身心健康的影響,不舒適的光照環境,例如照度過高或者過低都會引起人眼的不適感,從而降低工作學習的效率。得益于目前智慧理念和人工智能技術的發展,建筑照明隨著室外光照條件智慧調度成為了頗具發展潛力的新興技術。天然光只存在于白晝期間,且其在室內產生的照度隨時間并不呈線性變化。本文目的是探尋機器學習算法在實時獲取工作面天然采光照度分布方面的應用,從而使得這些照度數據能夠指導建筑照明的高效調度。
在國內外學者的相關研究中,獲取工作面照度的方式不斷更新,主要可分為經驗公式、數值仿真、實測法以及機器學習。機器學習最早誕生于19世紀70年代,與軟件仿真相比,機器學習主要收集實際采集的數據,配合合理的超參數(hyperparameters)與輸入特征(features),可實現較好的泛化性能且無須重復建立建筑仿真模型,使得擬合模型更加實用和便捷。
Logar等[1]以充分利用日光保證室內照度并減少照明能耗為導向,提出了一種模糊黑盒模型(fuzzy black-box model),以太陽輻射強度、外部照度、百葉遮擋位置以及燈具開啟狀態作為輸入參量,室內某一點照度作為輸出,預測結果的均方誤差為25 lx,這種黑盒模型只能預測室內單點照度,如果需要多點預測,則需要多個模型共同運作。Kurian等[2]利用Perez天空亮度分布模型和建筑本身屬性(房間尺寸、采光窗尺寸、窗口朝向、傳感器位置、時間序列)作為機器學習的輸入變量,分別評價了反向傳播神經網絡、支持向量機和隨機森林三種不同的算法來預測室內某方向上眩光產生概率(DGP),判斷室內視覺舒適度。Ahmad等[3]利用太陽高度、太陽方位、日光法線直接輻射、窗口遮陽板角度等作為機器學習的輸入參數,分別評估了人工神經網絡(ANN)和隨機森林(Random forest)對室內照明能耗和工作面平均照度的預測性能。Ngarambe等[4]利用窗地比、墻體反射比、傳感器距窗口距離、太陽總輻射值等14個特征作為機器學習的輸入端,比較了多元線性回歸(ML)、深度神經網絡(DNNs)、隨機森林(RF)、梯度增強模型(GBM)、長短期記憶模型(LSTM)五種算法對室內工作面照度分布的預測。結果表明,當取全部輸入參數時,深度神經網絡在測試集中的擬合決定系數R2達到0.990,得分在所有模型中為最高值;當取前五個影響效果最強的輸入參數時,深度神經網絡在測試集中的擬合決定系數R2為0.777,得分仍然是所有模型的最高值。
機器學習算法的出現以及計算機硬件性能的提升,使得探尋數據集中更為深層的關系成為了可能,從上述文獻綜述可知,機器學習結合現有的理論框架不僅可以提升擬合精度還可以強化泛化能力。由于建筑室內工作面的照度分布受到多種因素的影響,例如天空亮度分布和建筑本身的屬性等。本文總結了2006年至2020年30余篇機器學習算法與建筑采光的相關文獻[1-39],分別對機器學習算法輸入參數、輸出參數、建筑類型以及數據來源進行了統計,如圖1所示。
由上述綜述可知,超過半數研究將照度值作為機器學習的預測目標,室內工作面照度分布的預測需要保證在時間序列上的數據獲取,且要保證一定的泛化能力,因此輸入特征也應具備一定的實時性與靈活性。由145點組成的tregenza天空分布模型的數據往往由氣象站和實驗室向大眾提供,更新速度快,準確率高。
本文結合傳感器照度信息、天空亮度信息、時間信息以及其他信息(房間尺寸、窗地比、室內平均采光系數、建筑朝向)作為機器學習的輸入特征,旨在面對建筑的多樣性也能保證良好的泛化能力,合理預測室內工作面照度分布情況,技術路線如圖2所示。
1.1.1 傳感器照度信息獲取
在以往學者關于工作面照度的研究中,往往會將光照傳感器直接布置在工作面上,但這種做法不僅會使傳感器占據一定桌面空間,而且人體活動以及物件擺放也容易使其受到遮擋,因此應該將傳感器放置于其他位置,保證在長期監測過程中所獲得的數據合理有效。
圖1 機器學習算法相關研究統計Fig.1 Machine learning algorithm-related research statistics
圖2 技術路線圖Fig.2 Technology roadmap
在空間活動范圍內,人體能夠觸及的儲納最大高度約為2 m[40],傳感器放置應盡量高于此高度,同時為避免陽光直射的影響,假設房間長度為L,房間凈高度為H0,窗口上沿距天花板高度為H,傳感器監測位置放置于采光窗對側墻體(面向窗戶)L/2、H0-H/2處,如圖3所示,用于機器學習的輸入特征。
1.1.2 天空亮度信息獲取
在實測環境下,本文采用哈爾濱工業大學寒地城鄉人居環境科學與技術工信部重點實驗室所引進的EKO MS-321LR全自動天空掃描儀獲取實時天空亮度分布數據。該儀器采用雙軸監測,可以監測天空亮度分布信息,滿足國際照明委員會設計標準,并可以識別拍攝范圍內的障礙物自動修正圖像。光譜測量范圍為380~780 nm,亮度測量范圍為0~50 000 cd/m2,分辨率約為1 cd/m2,可對天空半球內145個面元進行實時監測,每輪掃描時間為4.5 min,間隔為10 min。天空掃描儀實景照片以及其監測軟件界面如圖4和圖5所示。
圖4 EKO MS-321LR天空掃描儀實景照片Fig.4 Photo of EKO MS-321LR Sky Scanner
圖5 EKO MS-321LR天空掃描儀軟件監測界面Fig.5 Monitoring interface of EKO MS-321LR Sky Scanner software
通過EKO MS-321LR全自動天空掃描儀監測系統可以導出任意時間段的天空掃描數據,并輸入數據集中。
1.1.3 時間信息獲取
由于室內工作面照度分布情況受到外部環境的直接影響,且日光在天空半球的軌跡全周期為一年,因此時間特征應以年度區間進行細分并歸一化。本研究擬采用時間步長為15 min,即某一時刻占當年的比例,如式(1)進行計算。
(1)
式中:Pt——某一時刻占當年的比例;
Tn——某一時刻在當年的分鐘數;
TAnnual——年度總分鐘數。
例如2021年3月22日12:00在當年所占總分鐘數為117,360,全年分鐘數為525,600,則此時刻在全年的比例參數為0.223 29,此參數作為機器學習數據集的時間特征。
1.1.4 其他信息獲取
為保證機器學習訓練模型具有一定的泛化性能,即面對不同尺寸房間、不同采光窗大小、不同采光朝向等條件的房間不至于出現預測誤差過大的情況,本文結合《建筑采光設計標準》(GB/T 50033—2013),篩選了房間尺寸、窗地比、室內平均采光系數、建筑朝向四個指標作為特征的補充。
由前文可知,本研究的機器學習算法的特征向量包括天空亮度特征(天空亮度分布)、照度監控特征(指定位置照度傳感器讀數)、時間特征[當前時刻(步長為15 min)在全年中所占的比例]以及其他特征(房間尺寸、窗地比、平均采光系數、建筑朝向),如表1所示。
表1 特征劃分
1.2.1 機器學習數據集構建
對于數據集中一樣本xi,其特征向量所包含的特征可用圖6表示。
圖6 數據集預處理及匯總流程Fig.6 Data set preprocessing and summary processes
1.2.2 預測目標
本研究所采用的采樣點數量是根據均勻網格劃分工作面,每個網格中心的照度值作為機器學習的目標數組,對于數據集中第i個樣本,目標數組可表述為yi=(yi1,yi2,…,yi16),其中yij表示該樣本的目標數組中第j點照度值,yi∈y,y是所有樣本目標數組的集合。如果預測目標數組為8點照度值,點的位置及其編號順序如圖7所示。對于數據集中某一樣本,該樣本與目標數組的關系可表示為式(2)。
圖7 室內照度分布劃分8點構成目標數組Fig.7 The indoor illuminance distribution is divided into 8 points to form the target array
(2)
式中:yi——第i個樣本的目標數組,yi=(yi1,yi2,…,yi16;
θT——擬合參數,θ=(θ0,θ1,…,θn);
xi——數據集中第i個樣本。
(3)
(4)
本研究選取黑龍江省哈爾濱市某高校辦公室作為實測對象,地理位置為東經126.631 8°,北緯45.739 2°;房間長度為8.70 m,房間寬度為4.40 m,房間凈高度為4.20 m,工作面高度為0.75 m,建筑朝向為北向,共有2扇采光窗,單扇采光窗的尺寸為1.50 m×2.50 m,房間窗地比為0.196,平均采光系數為4.83,室內傳感器房間示意圖及指定位置傳感器安置如圖8所示,安裝高度為3.70 m,室內工作面共劃分為8個預測目標點,點間距為2.00 m,房間實景照片如圖9所示。
實測方法下數據采集時間為2021年5月4日至2021年6月2日,數據采集時間間隔為30 min,共收集856個數據樣本,實測方法下數據集構建流程如圖10所示,其中天空亮度特征采用哈爾濱工業大學寒地城鄉人居環境科學與技術工信部重點實驗室所引進的EKO MS-321LR全自動天空掃描儀獲取的實時天空亮度分布數據。
圖8 實測方法下房間尺寸示意圖Fig.8 A diagram of the room size under the measured method
圖9 實測方法下房間實景照片Fig.9 Photo of the room under the measured method
實測方法下,機器學習模型的訓練及驗證如圖11所示。
圖11 實測方法下機器學習模型的訓練及評估步驟Fig.11 Training and evaluation steps of machine learning models under the measured method
2.3.1 隨機森林模型驗證
隨機森林(Random Forest)是一種機器學習集成算法,也稱裝袋算法(Bagging meta-estimator)[41],其涵義是構建一個強評估器,其囊括多個弱評估器——決策樹。由于隨機森林算法的集成特性,其具備以下幾點優勢:可用于回歸問題,適合處理目標數組周期性變化問題,訓練所需的數據量較少、且不易發生過擬合問題,能夠處理目標數組多值輸出問題,這對于室內工作面的多點照度同時預測是十分有利的。
由于隨機森林可以很好地控制決策樹的過擬合現象,但是隨機森林中決策樹的數量(N_estimators)也會一定程度上影響硬件負荷。因此,本文通過嘗試將隨機森林中的決策樹數量從2棵以1的步長增至100棵,即訓練99個隨機森林模型,采用滑動平均法依據數據順序增減新舊數據獲取模型隨決策樹數量增加擬合表現的滑動平均值(Moving average),即估計局部均值,消除偶然波動,以查看數據趨勢。
圖12 隨機森林回歸評價:MSEFig.12 Random forest regression rating: MSE
圖13 隨機森林回歸評價:R2Fig.13 Random forest regression rating: R2
由圖12和圖13可知,隨著隨機森林中決策樹數量的增加,模型在訓練集中的表現逐漸趨于穩定,波動范圍有所減少,當決策樹數量超過60后,模型回歸決定系數滑動平均值的波動不超過±0.075,因此將隨機森林超參數中決策樹數量設定為60。
實測方法下訓練完成后的隨機森林模型在測試集中回歸決定系數R2為0.826。模型對于室內每一點照度的預測回歸決定系數R2如圖14和圖15所示。
本研究選取數據集中2021年5月10日0:00至2021年5月20日24:00,共11天的時間序列,用于比較隨機森林模型在實測方法下實際照度值與預測照度值之間的差異,如圖16所示。
2.3.2 BP反向傳播神經網絡模型驗證
BP反向傳播神經網絡目前在人工神經網絡中屬于發展較為成熟的一種算法,起源于McCulloch和Pitts的“M-P神經元模型”[42]。BP反向傳播神經網絡是按照反向傳播誤差進行訓練的多層前饋網絡,圖17為三層神經網絡的示例,在數學上具備完整的推導過程,擁有擬合任意非線性函數的能力,其靈活的擬合能力適用于天然采光隨著時間和天氣變化無常的情況。
圖14 隨機森林模型在實測方法下回歸決定系數Fig.14 The random forest model regresses the determining coefficient under the measured method
圖15 隨機森林模型在實測方法測試集中的預測結果示意圖Fig.15 Diagram of the predicted results of the random forest model in the test set of the measured method
圖16 隨機森林模型在實測方法下實際照度值與預測照度值對比結果Fig.16 The results of the comparison of the actual and predicted altruistic values of the random forest model under the measured method
在BP反向傳播神經網絡中,正向傳播-反向傳播1次稱為迭代1輪,迭代次數越多,梯度下降算法在參數空間中越能趨向于最優解。為一定程度避免陷入局部最優解,本文BP反向傳播神經網絡采用隨機梯度下降(SDG),即每次執行梯度下降時都對參數進行一次隨機更新;為選擇合適的迭代次數,本文嘗試迭代次數從10增至1 000,通過判斷均方誤差(MSE)、回歸決定系數R2、回歸決定系數滑動平均值(Moving average)選擇合適的迭代次數。
如圖18和圖19所示,隨著神經網絡迭代次數的增加,模型在訓練集中的表現逐漸趨于穩定,波動范圍有所減少,當迭代次數超過600后,模型回歸決定系數滑動平均值的波動不超過±0.075。因此,在實測方法下,BP反向傳播神經網絡迭代次數設定為800。
圖17 三層神經網絡示意圖Fig.17 Three-layer neural network diagram
圖18 BP神經網絡回歸評價:MSEFig.18 BP neural network regression rating: MSE
實測方法下訓練完成后的BP反向傳播神經網絡模型在測試集中回歸決定系數R2為0.739。模型對于室內每一點照度的預測回歸決定系數R2如圖20和圖21所示。
圖19 BP神經網絡回歸評價:R2Fig.19 BP neural network regression rating: R2
圖20 BP反向傳播神經網絡模型在實測方法下回歸決定系數Fig.20 The BP neural network model regresses the determining coefficient under the measured method
圖21 BP反向傳播神經網絡模型在實測方法下測試集中的預測結果示意圖Fig.21 Diagram of the predicted results of the BP neural network model in the test set of the measured method
本研究選取數據集中10天的時間序列,用以比較BP反向傳播神經網絡在實測方法下實際照度值與預測照度值之間的差異,如圖22所示。
圖22 BP反向傳播神經網絡模型在實測方法下實際照度值與預測照度值對比結果Fig.22 The results of the comparison of the actual and predicted altruistic values of the BP neural network model under the measured method
如表2所示,在實測方法下,隨機森林模型在測試集中的回歸決定系數R2為0.826;BP反向傳播神經網絡模型在測試集中的回歸決定系數R2為0.739。
表2 兩種機器學習模型的回歸決定系數
由上述可知,在實測方法下,隨機森林的表現相對較好,且隨機森林模型的訓練成本也相對BP反向傳播神經網絡較小。
判斷現有模型的預測精度能否指導照明系統的調光決策往往需要根據國家相關照明設計標準確定。《建筑照明設計標準 》(GB 50034—2013)中規定,普通辦公室內0.75 m工作面上的標準照度值應為300 lx,同時在其修訂說明中,照度分級是依據CIE標準《室內工作場所照明》(CIE S 008/E—2001)確定的,由于在主觀感覺上,人眼能夠明顯感知到照度變化的最小照度變化差大約為1.5倍[43],以普通辦公室工作面標準照度值300 lx為參考,其臨近照度分級為200 lx和500 lx,照度差分別為100 lx和200 lx。本研究所闡述的工作面照度實時監測方法中照度預測值與實測值之間的殘差應保證在上述照度差范圍內,并指導照明系統進行合理的調光決策,保證視覺的舒適性。
以本文實測收集數據為例,傳感器各點實測值與預測值的平均殘差如圖23所示,兩種算法的各點平均殘差小于上述最小照度差(100 lx),隨機森林相對于BP反向傳播神經網絡表現更好。
圖23 實測傳感器各點實測值與預測值平均殘差Fig.23 The average residual difference between the measured and predicted points of the measured sensor
為實現室內工作面天然采光照度分布的實時獲取,同時對現有傳感器的數據進行實時校正,本文選擇了兩種機器學習算法隨機森林(Random Forest)和BP反向傳播神經網絡(Back Propagation Neural Network),并基于實測數據進行建模及性能評價。研究結論如下:
1)本文探索了機器學習在室內工作面照度監測方面的應用,相較于傳統室內工作面照度測量的不便,本文闡述的天然采光照度分布預測方法可以同時預測多點工作面照度,并且可以修正不在工作面上布置的傳感器讀數,不會給使用者帶來不利影響,在未來建筑的照明智慧化調光及間接節能方面具有正向促進作用。
2)使用實測方法獲取的數據,隨機森林模型在測試集中的回歸決定系數R2為0.826;BP反向傳播神經網絡模型在測試集中的回歸決定系數R2為0.739。兩種機器學習算法在室內照度分布預測方面具備發展潛力。
3)分別計算了兩種算法在實測情況下各點傳感器實測值與預測值之間的平均殘差,以普通辦公室工作面標準照度值300 lx為參考,其臨近照度分級為200 lx和500 lx,照度差分別為100 lx和200 lx,各點殘差均小于100 lx照度差,滿足視覺舒適性,預測數據可用于照明系統的調光決策。