段在鵬,李 帆,邱少輝,俞思雅,張一洋
(1.福州大學 環境與安全工程學院,福建 福州 350108;2.中鋁瑞閩股份有限公司,福建 福州 350108)
城市快速發展過程中遺留大批隱患房屋,目前房屋排查完全采用人工排查手段,排查成本高、效率低。
截至2020年底,中國各個城市地鐵線路總里程已經達5 180.6 km[1],但地鐵線路規劃建設不可避免地會下穿城市建筑群,從而對地上建筑產生影響。國內學者針對地鐵施工對周邊房屋的影響做了大量研究:錢春宇等[2]研究地鐵盾構施工和運營振動對城墻和鐘樓的影響;崇金玲[3]研究地鐵運營產生的振動對古建筑結構性能的影響。在現代建筑方面,宋波等[4]監測地鐵通過時建筑物的振動加速度,研究地鐵運行對鄰近磚混結構建筑物的影響;于凱文等[5]系統研究地鐵運營對沿線不同基礎型式建筑物的振動影響規律。
國內外對建筑結構安全分析的研究大多集中在計算機模擬和無損探測方面:Guo等[6]通過建立力學仿真模型研究客運滑道的安全性;Bernardi等[7]提出基于CFD技術模擬和熱力有限元模型的結構安全評估方法;Isaac等[8]通過對比標準區間分析和參數化區間分析發現,標準區間分析方法在某些情況下會得出具有誤導性的結論;Daou等[9]通過數字模擬建模驗證碼頭結構的安全性。無損探測在結構安全評價方面得到一定應用:Stefan等[10]利用超聲波探測和概率分析對大橋結構安全性進行評估;常銀生等[11]以南京地鐵3號線為例,提出利用房屋結構信息和抵抗不均勻沉降能力等情況初步判斷房屋的安全性能;張飛[12]以廈門1號線為背景提出對地鐵沿線老舊房屋進行安全現狀評價的具體方法;蔣智勇等[13]提出在地鐵施工前對老舊房屋安全性能鑒定和測試的方法。近年來,利用計算學習進行房屋性能評估的方法逐漸盛行:Zhang等[14]提出用于震后結構安全性評估的機器學習框架;Lee等[15]利用深度神經網絡(DNN)實現對老舊房屋采暖能耗的預測,均取得較好的效果。
鑒于此,本文基于房屋基本數據(建筑年份、結構類型、基礎類型、地理位置等),利用4種不同機器學習算法分別對某市地鐵沿線老舊房屋的安全狀況進行預測,采用不同指標比較不同分類器的性能,驗證利用機器學習預測房屋安全性的可行性。
本文實驗選取某市地鐵1號線與2號線沿線老舊房屋作為預測對象,每棟房屋屬性見表1,共收集11個指標。
表1 實驗數據屬性Table 1 Introduction to experimental data attributes
房屋安全現狀分為存在安全隱患和暫無安全隱患2級,由技術人員現場從房屋基礎、外觀、結構等方面進行辨識,具體分級標準見表2。
表2 房屋安全現狀分級標準Table 2 Classification standard of building safety status
研究區域衛星圖像如圖1所示。該區域地鐵線路穿過市中心,沿線街道存在大量老舊房屋,各類用途房屋占比情況見表3。
表3 房屋用途統計表Table 3 Statistical table of building usages
房屋數據各指標相關性熱力圖如圖2所示。由圖2可知,與房屋安全性(安全現狀)相關性最高的指標為房屋改造情況,相關系數絕對值達0.7;其次為房屋結構類型、基礎類型和設計情況,相關系數絕對值均大于0.1。
1)缺失值和離群值。收集到的數據數量充足且完整性較高,含有缺失值和異常值的樣本量很少,因此本文通過人工篩選的方式對這部分樣本進行剔除。
2)變量處理。對年份、建筑面積、地上及地下樓層數等連續型變量進行標準化處理,采用Standard Scaler[16]對訓練集和測試集進行標準化。對于離散型變量,本文采用獨熱編碼(One-Hot Encoding)[17]的方式進行處理。
本文實驗共收集房齡大于20 a的老舊房屋數據2 431條,其中暫無安全隱患數據與存在安全隱患數據的比例為2 407∶24,“暫無安全隱患”數據量遠大于“存在安全隱患”數據量,屬極端不平衡數據。
在數據層面,樣本不均衡性解決辦法主要包括過采樣和欠采樣(下采樣)2種,欠采樣方法在樣本正負例比例過大時失去作用,目前對這種數據集效果較好的處理方法為數據過采樣技術(SMOTE)[18-19],在諸如醫療等非均衡樣本機器學習領域得到廣泛應用[20-21],并取得很好的效果。
研究數據屬極端不平衡數據,若采用欠采樣,則易造成數據浪費,故本文采用過采樣思路中的SMOTE模型進行研究。SMOTE通過插值法生成新樣本,使得輸入數據集達到平衡。過采樣前后訓練集中正負類樣本數量統計見表4。
表4 過采樣前后訓練集正負樣本數量統計Table 4 Statistics on positive and negative samples numbers of training set before and after oversampling
本文所有程序均基于Python3.7環境,各分類器主要參數如下,未標明參數均采用默認值。
1)KNN,Bayes 2個分類器的參數均采用默認值。
2)Logistic:max_iter=2 000。
3)SVM:懲罰系數C:2;內核類型kernel:‘linear’;分類策略decision_function_shape:‘ovo’。
實驗數據離散變量多且存在大量相似數據,本文采用One-Hot Encode+KFOLD+SMOTE的方式對數據進行加工,算法流程如圖3所示。
圖3 算法流程示意Fig.3 Schematic diagram of algorithm flow chart
實驗數據集共2 431條數據,訓練集與測試集劃分比例為1∶1。為避免隨機性,實驗2次訓練所用數據不存在交叉,即將第1次實驗的測試集作為第2次訓練的訓練集,2次實驗結果的混淆矩陣如圖4所示。
圖4 實驗結果混淆矩陣Fig.4 Confusion matrix of experimental results
從2次實驗的混淆矩陣可知,綜合負例檢出率和正例誤判率,Bayes模型在4個模型中表現最差;邏輯回歸模型和SVM模型的表現比較出色,負例檢出率均大于70%,正例誤判率較低,但無法進一步做出比較。
根據2次實驗結果生成的PR曲線,整條曲線反應在不同判別閾值情況下模型的預測能力(用AP值量化)如圖5所示。由圖5可知,KNN和Bayes模型2次實驗的PR曲線非常接近,但效果均不佳;從AP值來看,邏輯回歸和SVM的差距并不明顯,但邏輯回歸有部分閾值的Precision值和Recall值大于其他3個模型,即通過優化判定閾值,邏輯回歸效果較好。
圖5 PR曲線Fig.5 Precision-Recall (PR) curves
根據2次實驗結果生成的ROC曲線如圖6所示。ROC曲線表示選取不同判定閾值時,真正率(TPR=TP/(TP+FN))隨假正率(FPR=FP/(FP+TN))的變化情況。ROC曲線越向上遠離Chance線,分類器性能越好。由圖6可知,KNN分類器在不同測試集上的波動性較大,性能不夠穩定,Bayes分類器2次實驗結果均不理想,邏輯回歸和SVM分類器在2次實驗中ROC曲線均十分穩定,且邏輯回歸分類器的表現要略優于SVM分類器。
圖6 ROC曲線Fig.6 Receiver Operating Characteristic (ROC) curves
各分類器2次實驗表現的定量評價指標匯總見表5。由表5可知,無論是從準確率、精確率、召回率這類2級指標,還是F1_score3級指標來看,邏輯回歸模型比其他3種分類器表現更為突出,其準確率(Accuracy)高達99.02%,查準率(Precision)達到75.63%,驗證邏輯回歸模型分類器的有效性。
表5 評價指標匯總Table 5 Summary of evaluation indexes
1)通過對11個房屋指標進行統計分析發現,城市中存在很多經不合理設計、結構老化、違規改造的老舊房屋,其中違規建造導致的上下樓體結構不一致、地基滑移,違規改造造成的樓體結構損壞更易影響樓體的結構安全。
2)通過模型擬合結果可知,在使用的10個指標中,房屋是否經過改造和是否經過正規設計、基礎、結構指標與房屋是否有安全隱患有較強的相關性,因此在城市房屋安全隱患整治過程中,應尤其注重對于違規建造和改造的房屋的排查。
3)KNN、Bayes、Logistic、SVM 4個分類器對于正例樣本均能達到較好的分類性能,但Bayes分類器的錯誤分類最多,表現最差。在房屋安全性負例樣本預測中,KNN和Bayes分類器效果相近,檢出率約為50%,基于邏輯回歸和SVM的分類器表現較好,達70%左右的檢出率。