濰坊醫學院公共衛生學院(261053) 李望晨
基于增長特征法與ARIMA的人均衛生事業費趨勢預測比較研究*
濰坊醫學院公共衛生學院(261053) 李望晨
目的以增長特征法與ARIMA法對人均衛生事業費建立預測模型,比較方法原理、應用條件、數據要求、設計步驟和適配性能。方法依據算例資料,方法借助excel、SAS軟件進行計算、檢驗和仿真實現;建立擬合模型并外推預測。結果兩種方法均對衛生事業費增長趨勢預測有代表性,前者強調截取近期部分數據優選曲線,適于近期規律最優曲線擬合,后者需數據充分和趨勢差分處理,適于長期規律擬合,經建模比較ARIMA法更適于衛生事業費擬合,預測精度高。結論兩種方法原理、前提條件、數據要求及和適配特點有差異;增長特征法特定于近期平滑增長趨勢數據問題,適配好但不具更普遍的最優性能;ARIMA法對長期平滑趨勢數據資料擬合預測好,對隨機性時序資料有較強普適性;預測建模問題須注重原理分析、方法優選、數據處理和適配論證工作。
增長特征法 ARIMA 人均衛生事業費預測 比較研究
人均衛生事業費是指國家用于疾病防治、防疫和監控而保證公民身體健康的全部人均經費支出。改革開放后逐年穩定增長,影響或構成因素復雜,定量模型有助于擬合演化規律并推測未來費用到位情況,提供決策依據。根據時間序列預測思想,如果假設長期事物綜合影響因素穩定變化且共同作用于未來發展,可根據數理統計方法由其隨時間變化資料建立擬合模型進行外推預測。本文注重于兩類方法套系建模設計,多層面分析討論和實證比較應用意義。
1.增長特征法[1]增長特征法是趨勢外推理論的集成或延伸,假定事物隨時間呈升降趨勢且無較大波動,用于優化設計曲線類型的一套方法體系。它適合于平穩增長趨勢變化的短期預測問題,以函數曲線擬合歷史數據發展規律,經序列計算與曲線理論性質比較,優選曲線類型。
考慮對序列yt(t為時序)一階差分ut=yt-yt-1,平滑預處理以消除隨機干擾(不可過度削弱信息)。以代替yt,以代替ut,計算序列增長特征,與幾種趨勢曲線的理論增長性質進行比較,以二者相近為優選準則。記a,b,k為參數,曲線理論性質和序列增長特征匹配對照見表1。

表1 序列增長特征與幾種曲線理論性質對照


同理,若取對數序列lny0,…,lnyn-1;lnyn,…,lny2n-1;lny2n,…,lny3n-1,以及取倒數序列1/y0,…,1/yn-1;1/yn,…,1/y2n-1;1/y2n,…,1/y3n-1,等分三段求和,據此也可以推導后兩種類型曲線參數公式。根據所建立模型可將t+1代入進一步外推預測yt+1數值。
2.ARIMA法 ARIMA(p,d,q)模型[2]即差分自回歸移動平均模型(autoregressive integrated moving average,ARIMA),主要用于隨機平穩時間序列擬合建模和外推預測,由Box和Jenkins提出,p,q為自回歸和移動平均階數,d為差分次數。記φi,θj分別為自回歸和移動平均參數,原始序列{xt},殘差序列{εt},延遲算子Bxt=xt-1;則模型式:

先對原始序列{xt}(不要太少)進行純隨機檢驗和平穩性檢驗確定其是否非純隨機平穩序列,若為白噪聲序列則無須建模分析,若非平穩要經差分變換處理為平穩序列。計算樣本自相關系數(ACF)和偏自相關系數(PACF),繪制樣本時序圖、自相關圖和偏自相關圖,并根據AIC、SBC準則判定擬合優度,進行定階與優選,再估計參數建立模型。經{εt}白噪聲檢驗以判斷信息是否提取充分,將識別模型用于外推預測。ARIMA法步驟復雜,可借助SAS編程實現,迄今已成為時間序列建模經典方法。
資料源自《中國衛生統計年鑒》1978-2009年我國人均衛生事業費統計數據。
1.增長特征法預測建模設計 增長特征法旨在根據時序資料匹配最優擬合曲線,適合數據穩定且平滑變化趨勢問題(但也受此條件限制),該法不需太多數據而以近期數據反映演化規律,全部數據納入會造成過度擬合歷史規律。參數識別時需將數據等分三段,近期數據反映短期發展趨勢,數據太多卻會降低近期擬合與外推效果,數據太少則信息不充分,鑒于此考慮選用1998-2009年共12個數據。借助excel計算序列數值,見表2。

表2 各增長特征序列計算結果
2.ARIMA法預測建模設計 ARIMA法常用于擬合隨機序列規律與建模[3-4],數據要求不能太少,將改革開放以來人均衛生事業費共32年數據全部納入建模過程。借助SAS軟件實現操作,經純隨機性檢驗認為序列相關有統計學意義(P=0.0238)。二階差分序列、自相關系數(ACF)和偏自相關系數(PACF)依次由SAS軟件給出,見圖1。

圖1 原始序列、二階差分序列、ACF和PACF依次簡示
經分析,原始序列為非平穩序列,有明顯遞增趨勢但無周期波動,經二階差分為平穩序列。由圖知ACF二階截尾、PACF拖尾,根據AIC、SBC準則最優確定二階移動平均模型MA(2)。根據參數公式識別模型ARIMA(0,2,2):(1-B)2xt=(1-0.66821B+B2)εt。
殘差序列{εt}經白噪聲檢驗,分別延遲12,18,24階得P值為0.943,0.995,0.999>0.05,說明無任何信息可再提取,該模型擬合優度好。計算短期預測值和95%置信區間,2010年174.26[167.64,180.89],2011年209.2137[198.2018,220.225]。SAS程序如下:


3.結果比較 兩套理論方法以不同原理和數據條件設計模型,擬合效果均非常好;前者擬合近期數據指數曲線的變化趨勢,并嚴格將其假設以曲線外推;后者允許數據隨機波動性特點,全部數據用于擬合整體歷史規律,預測精度高一些。兩套方法的建模表達式、預測值、相對誤差見表3,擬合效果見圖2~3。

表3 兩套方法建模及預測結果比較

圖2 指數曲線近期擬合簡示圖

圖3 ARIMA整體擬合簡示圖
1.時間序列預測為定量技術研究范疇,以適配方法根據實際問題的時間變化資料建立模型,用于歷史規律擬合和未來外推預測。我國人均衛生事業費統計數據連貫、資料無缺失,這類問題具有隨時間穩定增長的特點,增長特征法和ARIMA法均可用于此類問題建模設計。二者方法原理、數據要求、限制條件、建模程序、設計過程和預測效果不同,應作適配論證,考慮近期數據段截取和去趨勢差分預處理,然后比較研究方法應用價值。
2.增長特征法適于趨勢性數據,更適于預處理后趨勢穩定且近似呈曲線變化的問題,結合多技術優選曲線用于時序擬合、預測;數據不應太多應作近期數據段截取。本例擬合很好但因以近期曲線趨勢為規律反映,以曲線剛性變化反映事物發展規律,不容許轉折性存在,對特定平滑增長趨勢問題擬合外推較好,對預測問題普遍意義和適配廣度差一些。局限是近期平滑趨勢數據建模,特定問題時適配好但不具普遍意義。
3.ARIMA是經典的時間序列方法,包括純隨機性與平穩性檢驗、差分運算、模型識別和殘差檢驗等許多步驟,需要連貫而充分的數據(若數據少且散亂可選灰色方法),必要時經差分運算為平穩序列,擬合模型可以刻畫轉折性,對于隨機波動性、周期性變化及復雜演化規律問題常有普適性和方法替代性。本例來看長期歷史規律擬合效果好,外推預測誤差小,不僅適于平穩增長趨勢數據資料擬合,而且適合隨機非平穩序列問題。適合衛生領域中時序性數據資料問題定量分析。預測方法均須經原理分析、數據處理和適配論證。ARIMA法適于衛生事業費等平滑增長趨勢預測,對長期趨勢數據資料擬合預測具有普適性,可推廣于衛生預測領域。
1.秦俠.衛生管理運籌學.北京:人民衛生出版社,2005,80-120.
2.王燕.應用時間序列分析.北京:中國人民大學出版社,2008,1-100.
3.孟蕾,王玉明.ARIMA模型在肺結核發病預測中的應用.中國衛生統計,2010,27(5):507-509.
4.李紅,潘東峰,郭忠琴,等.時間序列模型在醫院感染發生率擬合預測中的比較研究.中國衛生統計,2013,30(1):87-89.
(責任編輯:郭海強)
*:山東省自然基金ZR2013HM 045;山東省社科規劃項目11CGLZ09;濰紡市科技局項目201301079;全國統計科研項目2013666