高 明 唐 順 徐福文
醫院數據挖掘平臺中X-11-ARIMA預測模型的應用研究
高 明1唐 順2徐福文3
近年來,大部分醫院開始建立集成平臺、BI(business intelligence,商務智能),將醫院已沉淀的海量數據進行利用,但多數集成平臺和BI僅限于數據的查詢、分析,針對數據挖掘方面的應用較為缺乏。本文通過對預測方法的研究,以全院收入的預測為實例,探索數據挖掘平臺對醫院的價值。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程,其分類、聚類、估計、預測、關聯分析等方法在醫療行業中有著廣泛的應用前景,本論文基于醫院領導層對預測方法的實際需求,有著普遍的實踐意義。
1.ARIMA模型
ARIMA模型全稱為差分自回歸移動平均模型(autoregressive integrated moving average model,ARIMA),其中 ARIMA(p,d,q)稱為差分自回歸移動平均模型,AR是自回歸,p為自回歸項;MA為移動平均,q為移動平均項數,d為時間序列成為平穩時所做的差分次數。
2.X-11過程
X-11過程是由美國國情調查局于1965年編制的時間序列季節調整過程。它的基本原理是時間序列的確定性因素分解法。X-11過程是基于這樣的假定:任何時間序列都可以拆分成長期趨勢起伏Tt、季節波動St、不規則波動It的影響。又有經濟學家發現在經濟時間序列中交易日Dt也是一個很重要的影響因素,因此任何一個時間序列可以如下分解:
乘法模型:xt=TtStDtIt
加法模型:xt=Tt+St+Dt+It
3.X-11-ARIMA模型
1978年,加拿大統計局推出了改進的X-11-ARIMA(自回歸合并移動平均)模型。該方法引進隨機建模的方法,通過自回歸和移動平均方法對時間序列進行季節調整。這個方法不僅包含了X-11的所有優點,而且還具有通過ARIMA模型在季節調整前向前或向后擴展時間序列的能力。
1.初步建模
設定X-11-ARIMA程序使用加法模型對全院收入原始序列進行季節調整,表1為未考慮春節因素的回歸結果,回歸變量中有兩個異常值,其中一個出現在2012年1月。由于我國傳統節日春節通常是在1月或2月,因此有理由相信這一次季節調整可能受到了春節效應的影響,如表1所示。

表1 未考慮春節因素的回歸模型
2.消除春節效應
為消除春節效應,我們引入春節因素變量spring,構建了春節效應模型,具體方法如下:
對于年份j,假設春節對時間序列的影響天數為τ,且假定這τ天中每天的影響是相同的,我們用變量τt(j)來表示這τ天落在j年t月的天數,則對于j年t月,構建一個春節因素變量,定義為:


其中 u(τ,t)為所有年份第 t月(t=1,2)春節變量Hj(τ,t)的均值。則春節效應模型可表示為:

其中 Yj,t為待調整序列,bhj(τ,t)為春節效應值,Xj,t為 Yj,t剔除春節效應后的序列。
根據我國春節的放假情況,引入τ=6,10,14,20的春節因素變量使用加法模型對原始序列進行季節調整。這里以BIC統計量作為判斷春節因素模型優劣的標準,當τ=10時,BIC最小,表明該春節因素模型為最優模型。選取τ=10時的春節因素變量的取值情況如表2所示。

表2 2010-2015年的春節因素變量取值(τ=10,春節前三天至初七)
1.建模過程
X-11-ARIMA建模過程首先是執行regARIMA預調整模塊,通過識別、估計和診斷建立ARIMA模型并用于前向和后向預測,從而實現時間序列雙向擴展,并進行季節調整,如圖1所示。

圖1 X-11-ARIMA季節調整的流程圖
2.建立regARIMA回歸模型
在regARIMA預調整模塊加入春節因素變量,加法分解模型中,regARIMA回歸模型形式為:

模型首先從待調整Yj,t序列中減去回歸效應值,得到零均值的誤差序列Xj,t,然后差分該序列以得到一個平穩序列 pj,t,pj,t服從平穩的 ARIMA模型。引入 τ=10的春節因素變量使用加法模型對原始序列進行季節調整,通過識別、估計和診斷,程序確定了5個較優模型,如表3所示,這里我們選取預測平均相對誤差最小的 ARIMA(0,1,1)(0,1,1)12模型為最優模型。

表3 各ARIMA模型的比較結果
表4為考慮春節因素的回歸結果,春節變量的t統計量為-6.86,其絕對值顯著大于1.96,由此可知春節變量具有較強的顯著性,表明春節對全院收入影響明顯,因此考慮春節效應是很有必要的。其中,春節變量的估計系數b=-9247238.55,春節效應Zj,t=b×hj(10,t)值,2010年至2015年的春節效應值如表5所示。

表4 考慮春節因素的回歸模型(τ=10)

表5 2010-2015年的春節效應值
3.模型檢驗
為了檢驗模型的有效性,我們進行了殘差的相關性檢驗和正態性檢驗,其中殘差沒有明顯的自相關性,同時殘差服從均值為0的正態分布,因此證明我們建立的消除春節效應的ARIMA模型是有效的。
4.基于該模型季節調整的效果檢驗
如圖2所示,對比全院收入原始序列、未加入春節因素和加入春節因素季節調整后的序列,可以看出季節調整后的序列比原始序列平滑的多,而加入春節因素進行季節調整后,2012年1月出現的異常值得到了修正,調整后的序列更清晰地反映了全院收入的基本走勢。
同時,利用 9種統計量(M1、M2、M3、M4、M5、M6、M7、Q、Q2)來判斷加入春節因素模型后季節調整的質量,這些統計量的取值在0~3之間,只有小于1的值可以接受。加入春節因素后模型的M1~M7均小于1,且Q統計量也在可接受范圍內,表明加入春節因素的季節調整效果還是比較令人滿意的,從而說明我們的預測效果是有效的。
1.以下應用X-11-ARIMA的季節調整法對醫院的全院收入序列進行了分析及預測,考慮到春節期間是醫院業務活動的低潮期,這里特別引入了春節效應模型準確測量了春節因素的影響程度,提高了預測精度。這里選取了2010年1月至2014年7月共55個院收入的月數據作為樣本,通過識別、估計和診斷,最終確立了 ARIMA(0,1,1)(0,1,1)12模型,預測了未來6個月的全院收入,預測結果如表6所示。
2.圖3為2010年1月至2014年7月全院收入實際值與預測值的比較圖,可以看出預測值和實際值十分接近,平均相對誤差為3.40%,由此可見我們建立的模型對全院收入進行分析和預測具有明顯的參考價值。
通過引入X-11-ARIMA預測模型,已經將醫院的收入預測誤差控制在較低的范圍,為醫院的費用預算提供了較好的決策依據,后期再通過時間的積累,不斷完善模型,就可以將此模型應用于收入、成本、床位、患者等各個方面的預測,給醫院管理層提供全面的決策支持。
[1]Han JW,Kamber M,Pei J,et al.數據挖掘:概念與技術.第3版.機械工業出版社,2012.
[2]Torgo L著,李洪成,陳道輪,吳立明譯.數據挖掘與R語言.機械工業出版社,2013.
1.重慶市涪陵中心醫院(408000)
2.江蘇世軒科技股份有限公司
3.重慶市涪陵中心醫院
劉 壯)