徐虎博,史東輝
(安徽建筑大學電子與信息工程學院,安徽 合肥 230601)
1144024636@qq.com;donghui_shi@163.com
近年來,隨著我國經濟的迅速發展,建筑業發展規模不斷擴大,但與此同時建筑安全事故發生率逐步提升。雖然我國歷來非常重視安全生產問題,并且政府有關部門為了應對建筑安全事故發生率不斷上升的問題,研究并采取了不少的對策和措施[1-2],但是建筑安全事故仍然層出不窮。建筑安全事故頻發,不僅會影響建筑從業人員的心理健康狀況,還會影響我國國民經濟的穩定增長。因此,建筑安全事故預測對提前預防事故的發生具有重要的意義。
通常,對建筑安全事故的研究大多集中在事故分析和預警管理分析方面,利用模型對建筑安全事故發生次數進行預測的研究較少,而使用ARIMA與LSTM模型對建筑安全事故預測的研究基本沒有。所以,本文將建筑安全事故發生次數作為研究對象,使用ARIMA和LSTM模型對其進行預測分析。
國內外使用ARIMA模型進行事故預測的案例不斷增多。2012 年,甘旭升等[3]構建ARIMA模型預測美國空軍飛行事故的萬時率,平均相對誤差在7%以內。2015 年,鄭向陽等[4]為了減少生產作業中由不確定性因素導致錯誤決策引發的風險,通過ARIMA模型對安全生產事故發生次數進行預測,研究表明其模型用于預測企業安全生產事故發生的情況與企業的實際情況基本吻合。2015 年,KARIMLOU等[5]構建ARIMA模型用于預測伊朗受保工人的工傷事故數量,該數據擬合模型的預測結果平均絕對百分比誤差(MAPE)為20.942。2019 年,LI[6]研究民航領域不同飛行階段發生飛行事故和人員傷亡的變化趨勢,根據ARIMA(1,0,1)模型對全球民航飛行事故和傷亡人數進行預測,預測未來飛行事故可能發生的變化,為航空安全研究提供數據參考。
隨著神經網絡的發展,近幾年使用LSTM進行預測的研究案例顯著增多。2019 年,張志豪等[7]使用LSTM神經網絡對影響交通安全水平的指標進行預測,準確地反映交通事故安全發生率。2020 年,RADAIDEH等[8]以冷卻劑損失事故為分析特征,采用核電廠設計基準事故的時間序列數據進行建模和預測。LSTM模型在預測測試和基本情況場景預測方面表現出優異的性能,預測準確率高達99%。2020 年,MOHANTY等[9]使用LSTM模型預測一個區域內的社區交通擁堵情況,并且開發了一個更好解釋輸入對其輸出貢獻的模型框架。2021 年,ESSIEN等[10]將雙向LSTM模型用于多步交通流預測,該模型在英國大曼徹斯特的城市道路網上進行了評估,結果證明了該方法在提高預測精度方面的有效性。2022 年,曾航等[11]提出一種改進的LSTM模型進行航空安全預測,實驗結果表明該模型預測誤差較現有方法降低了28%以上,同時具有較好的泛化能力和魯棒性。
綜上,使用ARIMA和LSTM模型均能對時間序列數據進行預測,但是單個模型的預測較難看出其優勢和劣勢,所以為了能夠選擇對時間序列數據擬合更好的模型,近幾年開始對兩個模型進行對比研究。2020 年,景楠等[12]對新型冠狀病毒肺炎引起的網絡輿情進行分析,使用ARIMA和LSTM模型對其網絡關注度趨勢進行預測,兩個模型都能較好地模擬疫情網絡輿情關注度的變化趨勢。2020 年,WANG等[13]使用ARIMA和LSTM模型預測使用共享汽車頻次高、中、低三類用戶的短期需求,發現LSTM模型對每種類型的用戶具有更高的需求預測精度,但是ARIMA模型的整體預測精度更高。2021 年,王淑平等[14]使用ARIMA和LSTM模型對醫院月出院人次進行預測,結果表明ARIMA模型的預測效果要好于LSTM模型。2021 年,徐映梅等[15]使用ARIMA和LSTM模型對2019 年中國的生產總值GDP進行預測,得出在樣本量相對較少的情況下,并且針對簡單時間序列的數據時,使用ARIMA模型進行預測更具優勢的結論。2021 年,MAHADIK等[16]研究對特定公司數據集進行擬合時哪種模型更適合,并且在預測股票未來趨勢上ARIMA模型具有更高的精度。2021 年,MEJRI等[17]將ARIMA和LSTM模型用于家用洗滌劑工業生產的需求預測,研究表明LSTM模型具有更好的整體性且具有更高的預測精度。2021 年,WAN等[18]使用ARIMA和LSTM模型對玉米期貨的日收盤價進行預測,研究發現LSTM模型的預測能力更好。
可以看出,ARIMA和LSTM模型對不同數據集的預測效果各不相同,所以為了能夠找到對建筑安全事故預測更加準確的模型,本文采用對比研究的方法,通過對比實驗選取能夠更加準確地預測建筑安全事故發生的規律。這對建筑行業風險管理具有重要意義,并且能為建筑安全事故預防提供參考。
時間序列主要包括自回歸模型(AR)、移動平均模型(MA)和自回歸移動平均模型(ARMA)的平穩時間序列模型,以及差分自回歸移動平均模型(ARIMA)的非平穩的時間序列模型。
時間序列模型在進行時間序列分析時起關鍵作用,可以表示出時間序列的特性。每個時間的數值表示某一現象在該時間的觀測值,其中相鄰點的時間間隔可以不同。假設有時間序列,則有公式(1):
其中,ti表示時間,xi表示觀測值,(ti,xi)表示在時間ti的觀測值為xi。
ARIMA模型,對非平穩時間序列進行d階差分處理時,首先使其變為平穩數列,然后將其數據輸入ARMA模型進行擬合,簡記為ARIMA(p,d,q),見公式(2):
ARIMA的建模步驟如圖1所示。首先判斷時間序列數據是否為平穩數據,如果不是平穩數據,就需要對數據進行差分運算,使其變為平穩數據。其次在判斷是否為平穩數據之后,需要進行白噪聲檢測,白噪聲檢測是為了使數據符合模型擬合要求。最后對通過白噪聲檢測的數據選擇合適的ARIMA模型進行擬合。

圖1 ARIMA建模步驟Fig.1 ARIMA modeling steps
LSTM神經網絡是循環神經網絡(Recurrent Neural Network,RNN)的擴展,解決了長期依賴的問題。一個LSTM單元的基本結構由遺忘門、輸入門和輸出門組成,門實現遺忘或記憶的功能,其單元基本結構如圖2所示。

圖2 LSTM單元基本結構Fig.2 Basic structure of LSTM unit
遺忘門中將當前時刻的輸入和上一時刻的輸出作為sigmoid函數的輸入,用來控制上一單元狀態被遺忘的程度。輸入門和tanh函數結合組成,用來控制新輸入信息的量。輸出層決定輸出的信息,主要利用tanh函數處理當前細胞狀態,接著結合sigmoid函數得到的權值來過濾部分細胞狀態信息,并獲得下一時刻的輸出。
公式(3)—公式(8)中,ft為遺忘門的輸出;it為輸入門的輸出;Ot為輸出門的輸出;為當前輸入的記憶;C(t-1)為上一時刻的細胞狀態;Ct為當前時刻的細胞狀態;h(t-1)為當前時刻的輸出;Wf、Wi、Wo、Wc分別為遺忘門、輸入門、輸出門和輸入門中間變量與當前時刻輸入Xt和上一時刻輸出h(t-1)作乘法運算的權重;bf、bi、bo、bc為偏置向量;σ為sigmoid函數。
LSTM建模過程分三步。一是對將進入輸入層的樣本數據進行數據歸一化,將滿足LSTM輸入要求的數據輸入隱含層。二是將隱含層輸出的多個結果在輸出層通過映射輸出模型期望的結果,接著進行模型訓練,在設定迭代周期內進行安全事故數據訓練,以更好地預測安全事故發生量的變化趨勢。三是利用訓練好的模型預測和分析測試集數據,通過計算誤差函數值評估模型的擬合效果。
研究使用2012—2018 年《全國建筑安全事故快報》中的建筑安全事故發生的時間序列數據,其中使用2012—2017 年的死亡一人以上的安全事故案例作為訓練模型,然后使用2018 年的數據進行驗證,其中對建筑安全事故時序數據使用ARIMA和LSTM模型進行擬合,并對擬合完成的模型通過RMSE和MAE進行比較,分析兩種模型的優勢和劣勢后,選擇最適合預測的模型。
本研究是對建筑安全事故發生次數進行預測,統計每年、每月建筑安全事故(死亡1 人以上的事故)發生次數作為時序數據,得到2012—2018 年建筑安全事故發生次數的時序變化折線圖(圖3)。通過圖3可以看出,建筑安全事故發生次數總體呈現增長趨勢。

圖3 時序數據折線圖Fig.3 Line chart of time series data
由于模型要求時序數據為穩定數據,因此要先判斷時序數據是否穩定,通過單位根檢驗(ADF檢驗)進行判斷。該方法通過查看是否存在單位根,判斷序列是否平穩,即檢驗的假設為存在單位根,查看顯著性檢驗統計量是否小于三個置信度(10%,5%,1%)。
對原始時序數據進行ADF檢驗,通過表1得出ADF檢驗的p值為0.980842,顯著水平一般為0.05,因此p值大于顯著水平,說明并不能拒絕原假設。由于Test Statistic Value的值大于三種置信水平下的值,因此數據是不穩定的。

表1 時序數據平穩化過程ADF檢驗結果Tab.1 ADF test results of time series data stabilization process
由于原始時序數據為非平穩數據,因此需要通過處理并再次判斷數據是否已經平穩化。原始時序數據的數值都大于0,所以先對其進行對數變換。通過表1發現,對數變換后的時序數據進行ADF檢驗可知p值為0.988261,仍然大于顯著水平且在任何置信水平下,Test Statistic Value的值表明不能拒絕原假設,因此對數變換后的時序數據也是非平穩數據。
經過對數變換后仍為非平穩數據,接著對時序數據進行差分運算處理,該方法主要是對等周期間隔的數據進行線性求減。對時序數據進行一階和二階差分處理,通過對表2中的數據進行對比,可以得出兩種差分處理后的時序數據均是平穩數據。可以看出,ADF檢驗的p值明顯低于顯著水平,并且在三種置信水平下都拒絕原假設,即序列不具有單位根。又因為均值和標準差的數值相差不大,所以選取一階差分后的時序數據,將差分次數定為1。

表2 時序數據差分化過程ADF檢驗結果Tab.2 ADF test results of differential differentiation process of time series data
經過一階差分后的數據為平穩序列。對序列進行白噪聲檢驗,得到統計量和p值兩個數值,分別為10.2648925和0.00135586,可以得出p值明顯小于顯著水平,因此一階差分后的時序序列為平穩非白噪聲序列。
通過圖4確定模型參數,經過分析選定范圍內的p、q參數,然后對選取的各個參數進行評估,根據評估結果選擇效果最好的一個參數模型。評估的標準按照赤池信息準則(AIC)及貝葉斯信息準則(BIC)。表3為截取效果較好的部分參數的結果,并確定使用參數(1,1,0)進行模型擬合。

圖4 自相關圖和偏自相關圖Fig.4 Autocorrelation diagram and partial autocorrelation diagram

表3 選取參數結果表Tab.3 Selected parameter result table
在模型訓練之前,為了使數據更好地擬合模型,需要對數據進行歸一化處理。其功能是使用數據的最大值和最小值對當前值進行縮放,使數據的值在0—1,歸一化公式見公式(9):
公式(9)中,xi為未處理的數據,min(x)為整體最小數據,max(x)為整體最大數據。對歸一化后的數據進行劃分,將2012—2017 年的建筑安全事故發生次數作為LSTM的訓練集,2018 年的數據作為測試集。
構建LSTM模型,采用單向編碼方式,隱藏層數設置為2,隱藏層神經元的數量設置為64 個,全鏈接層數設置為1。同時,設置輸入數據批次大小為10,每次選取12 個數據進行訓練,時間長度為12 個月,訓練次數為2,000 次。使用Adam優化器對模型進行調優,并使用Pytorch搭建模型結構。
為了評價模型的預測效果,選取RMSE和MAE作為模型評價指標。RMSE用于衡量預測值與實際值之間的偏差,誤差越小,則表明精度越高。MAE是預測值與實際值之間絕對誤差的平均值,能直觀地反映預測值誤差的實際情況,其值越接近于0,則表示預測越準確。計算見公式(10)和公式(11):
為了更好地分析和對比ARIMA和LSTM模型預測建筑安全事故次數的效果,加入Holt-Winter(霍爾特-溫特)模型,并用相同的數據進行預測,該模型適用于任何呈現某種趨勢具有季節性的數據集。三種模型對2018 年安全事故次數預測結果如圖5所示。

圖5 3 種模型的預測結果Fig.5 Prediction results of three models
ARIMA、LSTM、Holt-Winter三種模型的預測曲線、預測結果如圖5和表4所示,在預測準確率上,ARIMA模型的預測效果明顯優于其他兩種模型,能夠很好地擬合建筑安全事故發生次數曲線;而LSTM模型的預測結果的變化趨勢和原始數據的振動情況雖然基本吻合,但是預測值與實際值在部分月份有較大差距,并且誤差值是ARIMA的兩倍。對于Holt-Winters模型,雖然建筑安全事故發生次數在一定時間段內呈現相似的周期性,但是預測結果表明建筑事故發生次數并不是呈現某種趨勢的季節性數據。

表4 三種模型的預測誤差及時長Tab.4 Prediction error and time length of three models
本文為了驗證ARIMA和LSTM兩種模型在建筑安全事故發生次數預測的效果,通過對比研究,得出兩種模型在擬合預測上均有良好的表現,都能對安全事故發生次數進行較好的預測,但在準確度上,ARIMA模型比LSTM模型要高,在數據處理方面,ARIMA模型所需的步驟比LSTM模型多。盡管ARIMA模型在訓練之前需要對數據進行多步處理,但是高準確率對建筑安全事故能進行有效預警,能夠在事故高發期提前做出應對措施,對建筑工人的人身安全起到更好的保障。