韓曉健,徐 翌
(南京工業大學,江蘇 南京 210000)
房屋的安全狀況直接關系到人民群眾的生命財產安全[1]。20 世紀建造的房屋由于年久失修以及在使用過程中遭受的自然災害和人為破壞,使房屋安全性逐年降低,甚至發生破壞倒塌事件。例如在 2017年2月2日,溫州市文成縣 4 間民房坍塌,造成 7 人死亡 2 人受傷。慘痛的教訓表明,對老舊房屋進行動態監測,保障結構在使用過程中的安全性,防止意外事故的發生,是一項非常重要的工作。
房屋安全監測系統克服了傳統人工檢測成本高、效率低、受檢測人員經驗水平限制等缺點,它利用物聯網技術,通過儀器對房屋進行實時監測預警,掌握結構的變形和構件安全狀態,及時發現結構存在的安全隱患,以便采取應急措施,保障建筑結構的安全使用,避免人員與財產的損失[2]。
監測系統采集的數據受到噪聲干擾、設備故障等因素的影響,會使原始數據存在異常和噪聲。而且大多數的監測系統只是把原始數據簡單地呈現在界面上,觀察數據的變化趨勢以及是否報警。這樣使得大量的監測數據得不到妥善的處理與利用,難以發現監測數據中有規律的、重要的信息,導致了數據資源的巨大浪費,不利于結構的狀況評估和安全預警,甚至可能導致錯誤的分析結果[3-4]。因此,對監測數據進行處理和分析是至關重要的。
監測數據經過預處理后,能夠剔除異常數據,填補缺失數據,獲得真實的數據,并將數據進行轉化,進而提高數據挖掘的質量。本文主要介紹了對監測數據異常值、缺失值和數據平滑處理的方法。
異常值是指樣本中的個別值明顯偏離其它的觀測值[5]。
本文采用箱型圖進行異常值剔除。箱形圖對數據不作任何限制性要求,能夠直觀地反映數據的分布,是一種比較簡單、有效的判斷異常值的方法。它提供了識別異常值的一個標準。
異常值<QL-1.5 IQR 或異常值>QU+1.5 IQR
其中 QL 稱為下四分位數,表示全部觀察值中有四分之一的數據值比它小;QU 稱為上四分位數,表示有四分之一的數據值比它大;IQR 是四分位數間距,是 QU 與 QL 之差。圖1、2 是采用箱型圖剔除異常值的結果。

圖1 箱型圖
少量的異常值可以直接刪除,或者視為缺失值進行插補處理。如果監測數據中出現了大量的、連續的異常值,則需要分析這些異常值產生的原因,這才是解決異常值的根本[6]。

圖2 剔除異常值前后對比曲線
監測設備由于故障、停電等原因也會產生缺失值。數據缺失會對數據處理的結果造成誤差,給數據分析帶來一定的麻煩。下面給出了插補缺失數據的常用方法。
1)最近鄰插補。利用與缺失值最接近的數據值代替。
2)回歸方法。根據已有數據建立擬合模型來預測缺失值。
3)插值法。利用已知點建立合適的差值函數 f(x),缺失值由其相對應的 xi求出的函數值 f(xi)來近似 代替。
本文采用拉格朗日插值法對缺失數據進行插補。已知 n 個點坐標(x1,y1),(x2,y2),…,(xn,yn),則可構造拉格朗日插值多項式,如式(1)所示。

然后將缺失值對應的橫坐標 xi代入插值多項式,即可得到缺失值的近似值 L(xi)。對上文剔除異常值后的數據進行拉格朗日插值,如圖3 所示。

圖3 拉格朗日插值處理后曲線
監測系統采集的數據通常是真實值和各種干擾或噪聲等成分迭加在一起的結果。為了消除噪聲成分而讓真實值保留下來,需要對原始數據進行平滑處理。常用的數據平滑方法有移動平均法、中值濾波等。
本文采用移動平均方法,平滑效果如圖4 所示。它的基本思想是對監測數據依次計算包含一定項數的平均值,逐項推移,可以消除隨機波動和季節性的影響,得到序列的變化趨勢。

圖4 移動平均法處理后對比曲線
時間序列通常是指按時間順序排列的一系列觀測數據,監測系統所采集的數據正符合時間序列的定義。將時間序列分析方法應用到房屋安全監測中,分析監測數據的變化特征和趨勢,預測數據未來的發展,幫助管養單位防范危險的發生。
設序列{xt}為平穩、正態、零均值的時間序列,在 t 時刻的隨機變量 xt是前 p 期 xt-1,xt-2,…,xt-p和前 q 期的隨機擾動 εt-1,εt-2,…,εt-p的多元線性函數,得到自回歸移動平均模型,記為 ARMA(p,q)模型如式(2)所示。

式中:p 為模型的自回歸階數;q 為移動平均階數;φ、θ 為不為零的待定系數;{εt}為零均值的隨機干擾項。
特別的,當 q=0 時,ARMA(p,q)模型就變為 p 階自回歸模型,記為 AR(p),如式(3)所示。

當 p=0 時,ARMA(p,q)模型就變為 q 階移動平均模型,記為 MA(q),如式(4)所示。

1)平穩性檢驗。可以根據原始數據的時序圖、自相關函數或者通過單位根(ADF)檢驗,對序列的平穩性進行識別。如果序列非平穩,可以使用差分的方法對數據進行差分處理,實現序列的平穩化。
2)白噪聲檢驗。為了確定序列是否有分析的價值,需要進行白噪聲檢驗。一般是構造檢驗統計量來檢驗序列的純隨機性,例如 Q 統計量、QLB統計量。
3)模型識別。對平穩非白噪聲序列的自相關系數和偏自相關系數進行分析,判斷其拖尾性和截尾性,確定模型的類別和階次,定階原則如表1 所示。

表1 模型定階的基本原則
4)參數估計。確定擬合模型后,求出模型中的未知參數的值。常用的參數估計方法有極大似然估計和最小二乘估計等。
5)模型檢驗。判斷模型殘差是否為白噪聲,如果殘差是非白噪聲,說明殘差中還存在可以提取的有用信息,此時需要對模型進一步改進。
6)模型優化。如果一個序列能構造多個顯著有效的模型,可以通過最小信息準則從中選擇最優模型。
7)模型預測。利用最終建立好的模型對序列未來的發展進行預測。
某居民樓建于 20 世紀 90年代,7 層砌體結構,材料強度不符合設計要求,各層承重墻體被普遍違規拆改,房屋地基不穩定、傾斜嚴重。根據現場傾斜測量結果:最大傾斜率為偏東 17.2 ‰。
本次監測采用基于云平臺的房屋安全監測系統對該居民樓傾斜情況進行實時監測。在樓頂東西兩邊各安裝一個傾角傳感器 Q 1、Q 2,傳感器測點布置如圖5 所示。X 方向的監測方向為東西向;Y 方向的監測方向為南北向。

圖5 傾角傳感器安裝位置示意圖
以測點 Q2 為例,取 2018年9月1日至 10月31日,共 61 期監測數據,對前 55 期數據進行建模分析,后 6 期數據作為預測結果的比較。
圖6 的數據是經過預處理后的房屋傾斜數據,直觀地發現該數據有明顯的增長趨勢,初步判斷該序列是非平穩、非白噪聲的時間序列。

圖6 原始序列圖
對原始序列進行一階差分運算使其平穩化,差分公式為:Δxt=xt-xt-1。一階差分后序列{Δxt}的時序圖如圖7 所示,差分序列基本上消除了趨勢項。采用 ADF 檢驗的方法判斷差分序列平穩性,求得 τ 統計量對應的 P 值為 1.85×10-11,遠小于給定的顯著性水平 α=0.05,屬于平穩序列。
然后對差分序列{Δxt}進行時間序列分析。由圖8 可以看出,差分后數據的自相關系數和偏自相關系數在二階延遲后均在2倍標準差以內,呈現出明顯的二階截尾現象。為了盡量避免因個人經驗不足而導致的模型識別不準,本文嘗試了建立 ARMA(2,0)、ARMA(2,1)和ARMA(2,1)模型,然后再根據最小信息準則選擇最優模型。

圖7 一階差分數據圖

圖8 差分數據自相關和偏自相關圖
值得注意的是,當分析的數據量少,要建立的時序模型不多時,可以通過自相關圖和偏相關圖來識別模型。但是如果需要分析的監測數據量較大、監測點較多時,采用人工方法逐個識別模型,這樣的工作量很大。這時,不妨直接依據 BIC 準則,借助計算機程序,能夠自動、快速地求出 BIC 為最小值時所對應的 p,q 值。這樣對結果可能會稍有偏差,但是能節約大量時間,有利于實現對監測數據的自動化分析。
BIC 準則是擬合精度與未知參數個數的加權函數,當 BIC 函數值達到最小時所對應的模型即為最優模型,如式(5)所示。

式中:L 為模型的極大似然估計值;K 為模型未知參數個數;N 為觀測值數量。
運用 BIC 準則確定模型為ARMA(2,0),然后對模型的殘差進行白噪聲檢驗。構造 QLB檢驗統計量,結果表明一階延遲的 QLB統計量 P 值為 0.649,大于顯著性水平α=0.05,所以判定該殘差序列是白噪聲,該模型合理。
最后采用最小二乘法對模型參數進行估計,確定模型表達式,如式(6)所示。

根據建立的 ARMA(2,0)模型擬合原始數據,擬合和預測結果如圖9 所示(虛線為原始數據,實線為擬合預測數據,陰影部分代表預測值 95 % 置信區間)。

圖9 原始數據與擬合預測數據對比圖
后 6 期傾斜數據的預測值如表2 所示,模型的擬合和預測有較高的精度,實測值基本在預測值 95 % 的置信區間內,同時隨著預測期數的增加,預測誤差有增大的趨勢。

表2 時間序列分析預測結果
為了能夠充分利用海量的監測數據,本文以某居民樓傾斜監測為例,對數據預處理和時間序列分析方法進行了研究,得到以下結論。
1)對房屋監測數據的預處理可以提高數據分析的質量和效率。
2)依據最小信息準則通過程序可以實現對時間序列模型的自動定階,從而實現對監測數據的自動化分析。
3)在進行時間序列分析時,不僅僅要求出具體的預測值,更要得到預測值合理的置信區間。如果下一期的實測數據超過了這個置信區間,可視為異常情況,應當引起分析人員的注意。
4)時間序列模型具有較高的短期預測精度,預測精度會隨著預測期數的增加而下降。因此在實際監測過程中,應根據新的監測數據及時更新模型,從而提高預測精度,及時做出預警。Q