李望晨 王素珍 劉洪慶 張利平△
預測問題應用設計中的若干適配對策與實證研究*
李望晨1,2,3王素珍1劉洪慶1張利平1,2,3△
資料驗證、方法適配分析與軟件輔助相結合為衛(wèi)生預測問題的統(tǒng)計建模應用提供了空間。時間序列分析作為主要的定量預測方式,依賴時序數(shù)據(jù)特點建立預測模型,制定決策依據(jù)。鑒于預測問題資料特點多樣化和代表方法適配性能差異,從衛(wèi)生預測思想、方式和方法出發(fā),針對資料特點,以建模設計為立足點尋求綜合對策,借助經(jīng)典案例,分析資料特點與方法適應性,制定改進模型和實現(xiàn)程序,綜合探索其在衛(wèi)生領域建模設計中的推廣價值。
1.兩類預測思想概述 預測就是由過去與現(xiàn)在情況預測未來,是科學決策的基礎和前提,活躍于經(jīng)濟學、管理學、醫(yī)學等領域。定性預測側重主觀經(jīng)驗判斷,定量預測側重客觀數(shù)據(jù)計算。定性預測法是在數(shù)據(jù)資料不豐富、發(fā)展規(guī)律不穩(wěn)定或轉折趨勢狀況下,借助業(yè)務知識、邏輯判斷、專業(yè)經(jīng)驗綜合研究,靈活性強、適用性廣、可隨時隨地開展,利用多層面信息,不受信息量限制,可兼顧突變轉折和復雜不確定因素,可分析未來發(fā)展性質和程度,但是受專家知識經(jīng)驗、信息收集廣度和研判能力限制,需要大量調查、咨詢、論證和研討工作。定量預測是指借助數(shù)理統(tǒng)計方法對較完備數(shù)據(jù)經(jīng)模型描述和客觀計算后,尋求蘊含規(guī)律信息進行外推預測,不受主觀因素影響,不必對復雜因素研討論證,計算客觀,成本低,可重復應用,但方法特定、信息利用單一、運行機械,對數(shù)據(jù)資料質量與數(shù)量度依賴高,對于變化復雜、不可測量和轉折突變多的問題應用受限制。兩類方法原理性能、優(yōu)缺點和建模方式不同,應用效果與適用價值有區(qū)別,而資料的特點、復雜程度和預測精度決定了方法選用的有效性。
2.定量預測分類比較 定量預測分為因果回歸和時間序列方式,前者是建立預測對象與影響因素間隨時間變化形成的函數(shù)關系,進一步進行計算模擬和推斷預測。但由于影響因素的復雜變動性、主次不明性或難以量化性,因素篩選難度和非線性關系的難確定也造成了模型構建和參數(shù)識別難度,實際應用意義并不大。時間序列[2]是根據(jù)事物本身隨時間變化而形成的等間隔數(shù)據(jù),建模時不必篩選影響因素,不必確定主次因素、數(shù)值量化以及復雜因果關系,只須借助數(shù)理方法和時序數(shù)據(jù)本身計算,就可實現(xiàn)預處理、模型擬合、檢驗和外推制定模擬流程,資料獲取方便、建模成本低,方法選擇恰當就可有效擬合數(shù)據(jù)演化規(guī)律,預測精度可觀。該法依賴設計者數(shù)理技術掌握程度,受預測對象學科知識約束小,適于時序資料建模分析,為各類預測問題通用,理論體系和應用設計相互推動、交叉發(fā)展。
3.時間序列預測若干適配對策 并非任意資料都可用于建模,如果數(shù)據(jù)變化不規(guī)則且表現(xiàn)純隨機性,短期內無關聯(lián)性或延續(xù)性,則失去分析意義。擬合效果好,往往認為外推預測精度高,但有時過度擬合歷史規(guī)律卻使泛化性能下降,預測變差,如曲線擬合法。由于時間序列預測方法多樣化,應對方法性能、數(shù)據(jù)特點歸類分析,探討方法優(yōu)選策略和進行實證研究。數(shù)據(jù)資料變化特點不同,應由方法原理性能擇優(yōu)選取。例如,灰色法適于數(shù)量少、缺規(guī)律、欠規(guī)則性隨機數(shù)據(jù),還可用擬合誤差建模預測值與原預測值結合修正精度。單調性、穩(wěn)定性、延續(xù)性平緩變化數(shù)據(jù)可以用以時序為自變量的曲線函數(shù)進行外推,根據(jù)差分性質與序列差分算子進行匹配;長期、連貫、豐富且隨機性強的時序資料適于ARIMA模型。周期性和趨勢性可經(jīng)因素分解后充分提取季節(jié)指數(shù)、交易日因素、趨勢規(guī)律等信息,以有效保證擬合效果。
確定性因素分解方法具有數(shù)據(jù)演化解釋能力,但對隨機信息提取欠充分,有時擬合效果欠理想。隨機時序方法是對序列過去值、當前值和殘差項建立線性函數(shù),利用序列短期相關性建模,理論成熟、隨機信息提取好、擬合精度高,但不能直觀解釋演化規(guī)律。成熟軟件背景下預測建模實現(xiàn)便利,方法復雜度和設計成本將不再是主要障礙,而有些方法隨機信息提取粗糙、擬合精度差,原理簡單,失去有效代表性。資料預分析、方法優(yōu)選與組合設計是建模前的重點工作,可考慮分類設計和制定實施流程,研究建模適用價值。
1.殘差修正灰色(grey method)模型
該法是對隨機不規(guī)則序列累加,生成類似某指數(shù)函數(shù)的規(guī)律性序列,建模提取信息進行擬合和外推,計算殘差序列,通過檢驗后預測應用,包括累加、建模、檢驗、外推和累減過程。對殘差序列可同樣建模并外推預測,用于修正預測值和改進精度。該法適于小樣本、貧信息、不規(guī)則時序數(shù)據(jù)預測建模問題,對于長時平穩(wěn)趨勢資料無競爭優(yōu)勢。基本原理[2-3]如下:
原始數(shù)據(jù)序列為x(0)={x(0)(1),x(0)(2),…,x(0)(n)},x(1)={x(1)(1),x(1)(2),…,x(1)(n)}為其一次累加生成后的序列,其中x(1)(k)=x(1)(k-1)+x(0)(k)。再計算序列z(1)={z(1)(2),z(1)(3),…,z(1)(n)},其中z(1)(k)=0.5x(1)(k)+0.5x(1)(k-1)。然后根據(jù)x(0)(k)+az(1)(k)=b建立方程組并識別參數(shù):
(a,b)T=(BBT)-1ByT,
y=(x(0)(2),x(0)(3),…,x(0)(n))T。
2.曲線擬合(curvefit)優(yōu)選模型
對某醫(yī)院各年度門診人次進行擬合及預測研究。序列差分特征計算見表1。
3.X-11-ARIMA組合模型
X-11過程法屬于時間序列季節(jié)調整法,它基于確定性因素分解原理對序列分離出多種變化特征如周期變化、交易日波動、長期趨勢和隨機影響等因素,在計算時實行了11次移動平均而得名,可用于時間序列季節(jié)效應分析,多與其他方法組合建模使用。
其中▽d=(1-B)d為差分算子,Φ(B)=(1-φ1B-…-φpBp),Θ(B)=(1-θ1B-…-θqBq)為自回歸和移動平均算子,p,q為自回歸和移動平均最高階數(shù),φi,θj為自回歸和移動平均系數(shù)。Bkxt=xt-k為k步差分算子,i=1,2,…p;j=1,2,…q。{xt}為原始序列, {εt}為殘差序列。
以非純隨機序列低階差分后消除趨勢,對此平穩(wěn)序列提取短期相關信息,擬合建模和外推預測,算法比較復雜但理論成熟,為時間序列經(jīng)典分析方法[3]。
(1) 平穩(wěn)性與白噪聲檢驗 先對{xt}進行純隨機和平穩(wěn)性檢驗,根據(jù)延遲自相關系數(shù)構造Q、LB統(tǒng)計量進行檢驗。序列有趨勢性和周期性時可由d階或k步差分實現(xiàn)平穩(wěn)化。時序圖、自相關圖、偏自相關圖或單位根檢驗有助于{xt}隨機性、趨勢性和平穩(wěn)性分析。
(2) 模型選擇和參數(shù)估計 計算自相關系數(shù)(ACF)和偏自相關系數(shù)(PACF),協(xié)助模型定階。二者均拖尾,則取ARMA(p,q)模型,但定階復雜;前者q階截尾后者拖尾,則取MA(q)模型;后者p階截尾前者拖尾,則取AR(p)模型。但多根據(jù)AIC、SBC或BIC擇優(yōu)適配或尋優(yōu)計算最優(yōu)階數(shù)結構,參數(shù)識別采用條件最小二乘法,不顯著時可剔除后重新優(yōu)化為疏系數(shù)模型。
(3) 模型檢驗與應用 根據(jù)模型擬合處理得{εt},白噪聲檢驗用于判斷信息是否提取充分;若通過檢驗則殘差為純隨機序列,模型顯著有效并可用于外推預測。
針對某地區(qū)連續(xù)10年各季度綜合醫(yī)療收入進行建模擬合及預測研究。數(shù)據(jù)見表2。
經(jīng)分析,原始序列為非平穩(wěn)序列,有明顯季節(jié)波動和長期增長趨勢,用X-11法計算季節(jié)指數(shù)依次為0.9612,0.97785,1.00289,1.05821,對原序列消除季節(jié)影響后得到長期趨勢序列,經(jīng)過一階差分消除趨勢性,將處理后平穩(wěn)序列建模。在p=6,q=6范圍內最優(yōu)定階,BIC(4,0)=3.658最小,考慮AR(4)模型(1-φ1B-φ2B2-φ3B3-φ4B4)(1-B)xt=εt。經(jīng)參數(shù)顯著性檢驗,φ3、φ4均不顯著(P=0.3391,0.2381),兼顧模型約減原則,經(jīng)剔除后構造AR(2)模型,(1+1.003B+0.50684B2) (1-B)xt=εt。φ1、φ2均顯著(P=0.0001,0.0013)。由模型擬合后計算殘差序列,分別延遲6,12,18,24階時構造LB統(tǒng)計量卡方檢驗,殘差為白噪聲序列(P=0.8049,0.9457,0.9979,0.9372),說明模型擬合序列有效,外推趨勢數(shù)值為1201,1224,1244,1267,再分別乘以季節(jié)指數(shù)后得到預測值1154,1197,1248,1341。趨勢擬合外推效果見圖1;第11年4個季度外推效果見圖2。
[1]徐國祥.統(tǒng)計預測與決策.上海:上海財經(jīng)大學出版社,2012,8:50-136.
[2]王燕.應用時間序列分析.北京:中國人民大學出版社,2012,12:120-177.
[3]安震東.應用灰色模型預測沈陽市沈河區(qū)乙肝流行趨勢.中國衛(wèi)生統(tǒng)計,2013,30(3):414-415.
[4]李望晨,潘慶忠,王培承,等.增長型經(jīng)濟預測模型優(yōu)選與識別方法的運用.統(tǒng)計與決策,2010,(2):40-42.
[5]孟蕾,王玉明.ARIMA模型在肺結核發(fā)病預測中的應用.中國衛(wèi)生統(tǒng)計,2010,27(5):507-509.
(責任編輯:郭海強)
*全國統(tǒng)計科研項目(2013666);山東高校人文社科項目(J14WG21);教育部人文社科項目(13YJAZH094);山東統(tǒng)計科研項目(2014-184)
1.濰坊醫(yī)學院公共衛(wèi)生學院(261053)
2.“健康山東”重大社會風險預測與治理協(xié)同創(chuàng)新中心
3.社會領域健康風險協(xié)同創(chuàng)新中心
△通信作者:張利平