徐飛龍 葉孟良 王潤華
(重慶醫科大學公共衛生與管理學院衛生統計與信息管理教研室,重慶 400016)
中國60歲及以上老年人口達1.78億,占總人口的13.3%〔1〕,比2000年上升了2.93個百分點。醫療費用作為老年人群費用的主要支出,已成為重要經濟負擔,本課題擬采用自回歸求和移動平均模型分析老年人醫療費用趨勢。
1.1資料來源 整理2005年1月至2010年12月重慶市某老年群體醫療費用月度資料如表1。
1.2研究方法 求和自回歸移動平均(ARIMA)模型〔2〕是由Box和Jenkins提出的著名時間序列預測方法,又稱為Box-Jenkins模型。該模型是用于描述非平穩資料的一種方法,當時間序列含有季節變動趨勢時可以建立ARIMA季節乘積模型。
ARIMA預測模型ARIMA(p,d,q)(P,D,Q)s〔3〕,其中p和q為自回歸和移動平均階數,d為差分次數,P和Q為季節性自回歸和移動平均階數,D為季節差分次數,s是季節周期。ARIMA建模有4個基本步驟〔4〕:①序列的平穩化。要求原始序列平穩,即均數與方差都不隨時間變化,自相關系數只與時間間隔有關,而與所處時間無關;②模型識別〔5〕。根據時序圖和自相關(ACF)圖、偏相關(PACF)圖確定;③參數統計和模型診斷。通過擬合優度檢驗得到統計量包括方差、對數似然函數值、赤池信息準則(AIC)及貝葉斯信息準則(BIC),選用各種參數有統計意義的模型;④模型預測〔6〕。以2005~2010年的逐月人均醫療費用擬合模型,利用2011年的逐月人均醫療費用回代檢驗模型的預測效果,根據預測值得到95%可信區間,計算預測值與實際值的相對誤差,以此判斷模型的預測精度,并進一步預測2012年的逐月人均醫療費用。
1.3統計學方法 采用SPSS19.0建立逐月人均醫療費用數據庫,并利用Time Series分析模塊進行數據處理與建模〔7,8〕。
2.1序列的平穩化 將表1中2005~2010的逐月人均治療費用做時間序列圖(圖1),重慶市某老年群體逐月醫療費用呈現明顯的整體上升趨勢和周期性。在每年的4,5,10,11月出現波峰,但在每年的12,1,6,7月出現波谷。對原始序列作ACF,PACF圖,發現它們均為緩慢拖尾衰減,可判斷為非平穩序列,識別為ARIMA (p,d,q)模型。對原始數據進行正態性檢驗Shapiro-Wilk(t=0.973,P=0.131),不能拒絕原始數據正態分布的假設,不需要對原始數據進行對數轉換。

表1 2005~2011逐月人均醫療費用情況(元)
因此,只考慮對分別進行一次一般差分和季節差分以消除整體趨勢和季節的影響,預處理后的時序圖見圖2,長期趨勢和季節性基本消除,得到一個寬平穩的隨機序列,符合ARIMA模型的平穩性要求。
2.2模型識別 根據差分變換的次數,可初步確定模型應該是以12個月為周期的綜合了連續模型和季節模型的復合季節模型ARIMA(p,1,q)(P,1,Q)12〔6〕,其中p,q和P,Q是待定參數,分別為連續模型和季節模型的自回歸階數和移動平均階數。由ACF(圖3)及PACF圖(圖4)得到,序列經差分后ACF由于含有季節的周期性影響,呈近似一步截尾,PACF拖尾,可以提示p=0,q=1,可進一步確定模型為ARIMA(0,1,1)(P,1,Q)12。季節模型的P和Q判斷較難,根據文獻,參數>2階的情況很少,可以分別取0,1,2,由低階到高階逐個實驗,根據模型的擬合優度、殘差的白噪聲情況及系數間的相關性進行綜合判斷。
2.3參數估計和模型診斷 分別對P、Q取0,1,2,由低階到高階逐步試驗,根據最小BIC準則,并且結合參數檢驗可知:ARIMA(0,1,1)(2,1,0)12擬合最優,其中BIC=13.663,R2=0.555,一階非季節滑動平均參數MA1=0.894(t=9.715,P=0.000),一階自回歸參數SAR1=-0.691(t=-4.234,P=0.000),SAR2=-0.415(t=-2.109,P=0.048),模型具有統計學意義,本模型殘差序列Box-Ljunt統計結〔Q(18)=11.859,P=0.690〕顯示統計量差異均無統計學意義,可以認為殘差為白噪聲,表明所選模型是恰當的。
2.4模型擬合和比較
2.4.1ARIMA模型的擬合運用模型ARIMA(0,1,1)(2,1,0)12,對2005~2010年的逐月人均醫療費用時間序列數據擬合,并對2011年1月至12月的逐月人均醫療費用進行預測,擬合情況如圖5,該圖顯示了模型對2005~2010年數據的擬合值以及預測值的95%的可信區間,可見模型對實際值進行了較好的跟蹤和預測,南值與預測值的動態趨勢基本一致,表現出與實際值相似的升降規律。雖然各個月份的適人均醫療費用與預測值不完全一樣,但基本落在95%CI范圍內。用相對誤差衡量預值和實際值差距大小,可以看出2011年的合計相對誤差為4.06%。
2.4.2指數平滑法 (Winters相乘模型)的擬合 指數平滑法有助于預測存在趨勢和/或季節的序列,此處數據同時體現上述兩種特征所以我們考慮運用指數平滑法與ARIMA(0,1,1)(2,1,0)12進行比較。經過對指數平滑法的多次嘗試,選擇了Winters相乘法預測模型,擬合情況如圖6,其中R2=0.631,BIC=13.194。
2.4.3兩種預測方法比較 一方面,從擬合的效果來看,兩者的R2、Normalized BIC相差不大,均能較好的包含樣本數據的信息;但是另一方面,從預測精度來看,前者的相對誤差普遍較小,平均相對誤差〔9,10〕小于后者,預測精度高。綜合考慮,選擇ARIMA(0,1,1)(2,1,0)12模型用于逐月人均醫療費用的短期預測。見表2。

表2 ARIMA模型和Winters相乘模型的擬合情況比較

圖1 原始序列圖

圖3 一般差分和季節差分后的ACF圖

圖4 一般差分和季節差分后的偏PACF圖

圖5 ARIMA模型

Winters相乘模型
Winters相乘模型、ARIMA法都用于短期預測,當預測數據隨時間呈現一種線性趨勢和季節波動趨勢時,兩種方法均能提取很好地提取原始數據中的線性和季節信息,且能得到較好的擬合效果。但這兩種方法針對不同的時間序列效果有所不同,Winters相乘模型是假設事物過去的發展規律會延展到未來,更多的利用近期的信息,因此就沒有考慮到從過去到未來期間客觀因素的影響,可能產生較大的預測誤差,它也能較好的修正序列數據的季節性和趨勢性,但由于近年來醫療改革的推動、醫療體制的變化,導致醫療費用發生了變化,預測精度有所下降;ARIMA模型則充分考慮了基本趨勢、周期性、季節性、殘差相關性等問題,使得預測精度提高,預測數據接近實際水平,尤其是短期預測方面,預測精度更高。而且利用SPSS、SAS等軟件計算簡單,預測結果直接輸出,可選為醫療費用短期預測的最佳方法。
以上分析可知,重慶市某老年群體逐月人均醫療費用呈逐年增長趨勢,這與近年來我國醫療體制的改革、經濟發展、生活水平提高等有關系,與慢性病疾病模式的轉變、高新醫療設備的應用、醫療服務于成本價格的不斷提升、醫療保險覆蓋面擴大后醫療服務利用的增加,以及群眾健康期望值和醫療保健需求的提高也有關系。另外,醫療費用還表現為明顯的季節趨勢,在每年的3,4,10,11月出現高峰,這可能與該季節的氣候環境有關,同時存在周期性,周期為S=12個月。
摸清醫療費用的增長趨勢,建立預測模型可以為有關企業和部門制定措施提供依據,如醫保部門制定財務規劃、商業醫療保險制定賠付依據等。
4 參考文獻
1中華人民共和國國家統計局.2010年第六次全國人口普查主要數據公報(第1號)〔R〕.2011.
2張 蔚,張彥奇,楊 旭.時間序列資料ARIMA季節模型及其應用〔J〕.第三軍醫大學學報,2002;4(8):955-7.
3陳 玲,徐慧蘭.自回歸求和移動平均模型在湖南省食物中毒預測中的應用〔J〕.中南大學學報(醫學版),2012;37(2):142-6.
4Brockwell PJ,Davis RA.Introduction to time series and forecasting〔M〕.New York:Springer Verlag,2002:179-219.
5Stadnytska T,Braun S,Werner J.Comparison of automated procedures for ARIMA model identification〔J〕.Behavior Res Meth,2008;40(1):250-62.
6Mehdi K,Mehdi B,Seyed RH.Combining seasonal ARIMA models with computational intelligence techniques for time series forecasting〔J〕.Soft Comput,2012;16:1091-105.
7宇傳華.SPSS與統計分析〔M〕.北京: 電子工業出版社,2007:577-612.
8王 燕.應用時間序列分析〔M〕.北京: 中國人民大學出版社,2005:224-51.
9張 麗,閆世鋒.Hoter-winters方法與ARIMA模型在中國航空旅客運輸量測量中的比較研究〔J〕.上海工程技術大學學報,2006;20(3):280-3.
10杜迅惠.醫院出院人數的長期趨勢及季節因素分析〔J〕.中國衛生統計,2009;26(2):175-6.