馮一鉑
(喀什大學數學與統計學院,新疆喀什 844000)
隨著我國經濟的繁榮發展,保險行業在國家的政策下發展迅速,人們對于保險了解的更加深入,這使得越來越多人愿意給自己及家人一份保障。因此壽險保費收入的預測,在國家、地區、公司對于下一階段政策的制定具有重要的指導意義。
基于傳統的保費收入預測方法,使用單一預測模型對保費收入進行預測。孫景云等[1]對2004-2010 年兩家保險公司的壽險和財險保費收入進行預測和分析,證明了ARIMA 乘積季節模型在保費收入預測上有良好的適宜性;尹成遠等[2]對1980-2010 年我國保費收入進行預測分析,通過模型預測我國“十二五”期間每年保費收入,并結合《中國保險業發展“十二五”規劃綱要》做出展望;張鑫等[4]基于灰色最優化模型以東北三省為例,對保費收入進行預測,證明了經過創新改進的灰色最優模型極大地提高了預測準確度;何淑菁等[5]運用BP 神經網絡對我國人身保費收入進行預測,表明神經網絡模型與計量經濟模型相比具有更高的預測精度。
通過查閱相關文獻以及學習,發現傳統模型的預測雖然有著操作簡單、運行速度快的優點,但未考慮保費收入時間序列數據是線性和非線性的組合,僅是單一的進行線性或非線性預測。傳統的時間序列模型只能擬合保費收入的線性時間序列部分,而神經網絡算法可以任意地逼近非線性數據,所以本文將傳統的時間序列模型與神經網絡算法進行組合,構建線性模型和非線性模型的組合模型對保費收入進行預測,并證明組合模型的預測準確率比使用單個模型更準確。神經網絡算法可以很好地擬合非線性數據,在眾多深度學習模型中,LSTM 神經網絡[5-6]在時序數據分析中較BP 神經網絡[5-6]表現出更強的適應性,所以本文提出ARIMA 與LSTM 組合預測的方法,并利用銀保監會公布的北京、天津、上海三個地區2006 年1月至2020 年12 月,共180 個月的壽險保費收入月度數據證明模型的有效性。
ARIMA(p,d,q)模型[1-3]叫差分自回歸移動平均模型,AR 是自回歸,p 是自回歸項,MA 是移動平均,q 為移動平均項,d 為時間序列成為平穩時所需做的差分次數。ARIMA 模型就是指將非平穩時間序列轉化為平穩時間序列,然后將因變量僅對它的滯后值以及隨機誤差項的現值和滯后值進行回歸所建立的模型。ARIMA 模型的通用表達[8]式為:

其中yt為時間序列y 的當期值,yt-1為yt前一期的值,yt-2則為yt-1前一期的值,依次類推,Φ1,Φ2,……,Φp是自回歸系數,p 是自回歸階數,Θ1,Θ2,……,Θp是移動平均系數,q 是移動平均階數,{εt}是白噪聲序列。
長短期記憶網絡(Long Short-Term Memory,LSTM),是遞歸神經網絡(Recurrent Neural Network,RNN)的變型。RNN 進行訓練時采用通過時間反向傳播算法,為了解決在處理長期依賴時的消失梯度問題,Hochreiter&Schmidhuber 提出長短期記憶網絡模型,LSTM(長短期記憶網絡)相比傳統的RNN,有著更為精細的信息傳遞機制,能有效的解決長時間的依賴問題。同時,作為Encoder-Decoder 框架中的基本細成單元,也能實現時間序列數據的編碼和解碼,用記憶單元代替RNN 中隱含層的LSTM 神經元實現對過去信息的記憶,每個記憶單元中包含一個或多個記憶細胞和三個門控制器,LSTM 的核心是一個記憶單元,由遺忘門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)組成,“門”結構能夠控制信息在網絡中的狀態?!伴T”結構依賴于Sigmoid 激活函數,當輸出為0 時,表示丟棄信息,當輸出為1時,表示完全保留信息,其他情況表示保留部分信息。
由于壽險保費收入時間序列數據比較復雜,既有線性趨勢又有非線性趨勢,使用單一的ARIMA 模型或LSTM 神經網絡預測誤差都會比較大。所以,先利用ARIMA 模型預測各地區壽險保費收入的時間序列線性部分,時間序列的非線性部分就包含在了ARIMA 模型的誤差部分,然后利用LSTM 神經網絡對ARIMA 的誤差序列進行預測,將ARIMA 的預測值和LSTM 神經網絡的預測值求和,則可得到最終的組合模型預測值。
ARIMA 模型以2017 年1 月至2020 年12 月48 個月的數據作為測試集,其他月份的數據為訓練集,該模型利用Python構建。
2.1.1 壽險保費收入時間序列平穩化
在使用ARIMA 模型對數據進行預測前,先通過ADF 檢驗即單位根檢驗來判斷差分前后的序列是否平穩。在0.05 的顯著性水平下,原始序列不平穩。分別對不同地區數據進行差分,可以看出北京、天津和上海的數據都在進行12 階差分后數據趨于平穩,故d北京=2、d天津=2、d上海=2。隨后利用自相關(ACF)圖和偏自相關(PACF)圖,以及AIC 最小的準則來確定p 和q 的值。
最終通過實驗確定三個地區的ARIMA 模型,北京壽險保費收入的模型為ARIMA(0,2,1),天津壽險保費收入的模型為ARIMA(1,2,1),上海壽險保費收入的模型為ARIMA(0,2,1)。
2.1.2 參數估計及模型的檢驗
利用最大似然法進行各個階數的參數估計,得到各階的系數估計以及標準誤差。估計結果如表1 所示。

表1 ARIMA 系數估計結果(注:括號內數值為標準誤差)
對三個模型的殘差序列進行Ljung_Box 檢驗,得到北京、天津、上海三個地區ARIMA 模型得殘差序列的Ljung_Box 檢驗結果的p 值分別為0.983、0.369、0.479,在0.05 的顯著性水平下,可以判斷三個殘差序列均為白噪聲,表明所構建的模型是有效的。
通過Python 的keras 庫實現LSTM 神經網絡的構建。使用LSTM 神經網絡對各地區殘差序列進行預測,同樣使用2017 年1 月至2020 年12 月的數據作為測試集,并對數據進行歸一化處理。選用滾動式的神經網絡,將數據的時間步長(time step)都設置為12,即以前某年的12 個月為輸入,第二年的第一個月為輸出。考慮到壽險保費收入序列較簡單,所以本文構建的LSTM神經網絡,在隱藏層中使用雙曲正切函數(tanh)為激活函數,迭代次數為400 次,批大小(batch size)統一設置為10。
為驗證LSTM 神經網絡在時序數據上的擬合效果優于BP神經網絡,BP 神經網絡的參數設置與LSTM 神經網絡一致。通過計算指標的均方誤差(RMSE)和平均誤差百分比(MAPE)來判斷,其結果越小越好。結果如表2 所示。

表2 LSTM 神經網絡和BP 神經網絡的預測結果對照
通過表3 可知LSTM 神經網絡中的RMSE 和MAPE 都比BP 神經網絡中的值低,表明了LSTM 神經網絡在時序預測中較BP 神經網絡更精確。故使用LSTM 神經網絡對北京、天津、上海三個地區壽險保費收入的ARIMA 模型的殘差序列進行訓練和預測。

表3 ARIMA 模型和組合模型的預測結果對照
組合模型先利用北京、天津、上海三個地區ARIMA 模型進行預測,再利用LSTM 神經網絡對三個殘差序列進行預測,將ARIMA 模型的預測結果與LSTM 神經網絡對殘差的預測結果進行相加得到最終的預測結果,預測結果如表3 所示。
通過表3 可知,組合模型較傳統ARIMA 模型在RMES 和MAPE 都有明顯的下降:北京地區MAPE 下降了9.8%、RMSE 下降了51.97;天津地區分別下降了4.5%、28.49;上海地區分別下降了18.7%、57.56。同時組合模型的擬合的精確度得到了提升:北京、天津、上海三個地區分別提升了33.79%、28.7%、18.77%。
本文主要運用ARIMA 模型以及LSTM 神經網絡構建了對時序數據進行預測的組合模型。利用北京、天津、上海三個地區壽險保費收入數據對模型進行驗證,主要結論如下:動態神經網絡LSTM 較靜態網絡BP 神經網絡在時序預測上更精確;組合模型保持ARIMA 模型實操簡單、運行速度快的基礎上提升了模型的預測精度;組合模型是基于處理線性與非線性問題提出的,具有一定的可適用性,也可處理其他時序預測。
本文將傳統的統計方法與深度學習技術融合,在保險金融方向利用深度學習前沿技術進行了積極探索。但本文也有值得改進的方向,包括建立的ARIMA 模型較簡單,未考慮季節因素;在對ARIMA 模型和LSTM 神經網絡進行組合時,組合方法不夠創新,后來學者可在模型的組合上做更好的優化。