董 毅
(山西云時代技術有限公司,山西 太原 030006)
根據十九大報告所指出的要全面建成可持續的多層次的社會保障體系,城鎮職工醫療保險是組成社會醫療保障體系的關鍵一部分,其可持續性受到了各界審視目光。城鎮職工醫療保險基金收入是其可持續發展的重要基礎,基準把握預測基金收入對其穩定的、可持續性的發展和監管有著舉足輕重的作用。
2017年統計結果顯示,年齡在65歲及以上人口占我國總人口11.39%。人口老齡化現象日趨嚴峻,既阻礙了經濟發展,又促使城鎮職工醫保基金增長率顯著上升。因此,大量專家學者對于這一理念展開了豐富的探究。在2018年,幸超等人[2]發現延遲退休年齡后,推遲了城鎮職工基本醫保統籌基金累計赤字開始出現的時點,故得出改善城鎮職工基本醫?;鸬呢攧者\行狀況可通過延遲退休年齡來實現。鄧大松[3]、史若丁等人發現更有效的方案為增加繳費率;由于退休人員的醫護費用需醫?;鹬Ц丁M魝4]等人通過實證研究得出我國人口老齡化程度加深的主要原因之一是1978年頒布實施的計劃生育政策。還有部分學者指出改善城鎮職工醫保基金的收支狀況,要通過調整生育政策,拉長人口紅利窗口期,真正做到緩解人口老齡化進程。
本文嘗試運用某省職工醫療保險基金收入數據來構建ARIMA 預測方式,同時根據其所構建的模型具體運行結果來探究該種預測方式的普適性。
本文采用某省職工醫療保險基金收入,數據訓練選取時間區間為2017年1月至2020年1月,共計37個月基金收入數據,并使用2019年9月-2020年1月數據用來檢驗所建模型的預測效果。
2.2.1 分析工具
本實驗采用Python 語言進行數據分析及模型建立,其中使用pandas 包進行進一步的分析與挖掘。Pandas 是python 語言中用于解決數據集成及數據分析功能的強大的工具包,其具有數據處理、統計分析、建模分析、預測和模擬等功能。Pandas 同時封裝包含了眾多數據挖掘算法模型,大大增強了其數據挖掘的工作效率。
同時本實驗還運用matplotlib 包和seaborn 包,來用于構建本研究中出現的統計繪圖。
2.2.2 ARIMA 模型

ARMA 模型稱為自回歸模型及滑動平均模型的組合,其數學公式表達為:式中:x為表示該模型的不同階數(i=1,2,…,x)即此模型的應賦值的關鍵參數;εt表達為殘差;ht是一個平穩的時間序列。
2.2.3 ARIMA 建模步驟
ARIMA 的建模主要分為以下幾個部分:(1)ARIMA 模型的主要要求為該序列的平穩性,隨意第一步應對時間序列進行平穩化變化;(2)ARIMA 模型是使用ACF 和PACF 兩個指標,來對模型進行調整和參數設定;(3)模型需要對其進行對應的檢驗,以確定其普適性,也就是對該模型進行白噪聲檢驗;(4)使用該模型進行時間周期較短的預測。
2017年第1個月-2020年第1個月某省職工醫療保險基金收入情況呈現12個月的周期性波動。

圖1 2017.01-2020.01某省職工醫療保險基金收入情況
若對某個時間序列進行建模,那么需對時間序列進行特點的捕捉,通常來講,針對時間序列,可將其分為趨勢性、季節性和隨機性。對應的模型都應按照其相應要求,差分整合移動平均自回歸模型有一個重要的運行條件,即時間序列的穩定性,其應匹配兩個要求:
(1)對于任意時間點t,整體均值應為不變值。
(2)對于任意時間點t 和s,其皮爾森相關指數只應與其單位時間間隔t-s 有影響,不應與其所處起點產生影響。
針對特殊并不平穩的時間序列,因對其進行相應的平穩化處理,而體現其平穩性的指標為自相關系數如圖二所示。

圖2 自相關偏相關系數圖
可由圖2 看出,2017 年1 月至2019 年8 月基金指數變化并不是相對穩定的,針對這種非平穩但存在一定趨勢的序列,本研究通過d 階差分的方式來完成。即:

使用Pmdarima 包來挑選最優模型(p,d,q)值,使用AIC 作為模型判別的標準指標,最終從12種不同的搭配值挑選出最有模型搭配值,ARIMA(0,1,0)*(2,1,0)作為最后模型挑選值。
在調整完模型所含超參數之后,應對模型進行評判體系的建立,這里我們采用殘差序列的檢驗方法進行檢驗,即評價體系體現為該模型白噪聲序列均值為0,方差不變。若殘差數列不為白噪聲數列,代表模型應該進一步進行修改。
用所得到的模型得到的預測數值、擬合數值與真實數值下表。

時間 真實值 預測值2019-09 437962934 436568037 2019-10 435476368 440727617 2019-11 442237641 444887196 2019-12 447198035 449046775 2020-01 463974534 453206354
觀察真實值與預測之間誤差,并可觀察得出誤差較小,相對誤差較小,可以看出模型具有較好的預測能力及一定的普適性。
ARIMA 模型是近些年使用較為廣泛且普適性較強的時間預測模型,本研究建立的ARIMA 模型對某省職工醫療保險基金收入進行預測,其結果相對來說較為準確,具有一定的普適性,其結果造成誤差的原因有:模型的設立為運用時間慣性來進行,未考慮到其余影響因素對其的影響,對基金收入影響因素處理能力有限[8]。
同時,我們可以從該模型呈現及預測結果發現以下結論:
(1)職工醫保基金收入呈現以年為單位的周期性變化,且為較為穩定的時間序列。
(2)職工醫保基金收入增長趨勢較為平穩,但近一年增長速度有所略微收緊。
(3)職工醫?;鹗杖胪鶗诖文暌辉掠幸粋€陡增的現象,究其原因本研究認為是醫保收繳方式所致的。
從基金收入的角度來看,該模型是否取得研究進展并不應將數據的誤差作為惟一的衡量指標,而應將其趨勢變化的一致性作為重要的評判標準,因為其可對基金缺口的是否出現或暴發提出預警。