朱恩文 曹峻 朱安麒 張梅
(長沙理工大學數學與統計學院,長沙,410114)
旅游業是第三產業的重要組成部分,是世界上發展最快的新興產業之一,被譽為“朝陽產業”、“無煙產業”[1].隨著入境旅游業的快速發展,越來越多的學者開始關注入境旅游的發展分析和預測,且分析預測的方法多種多樣[6,9?17].但是其中大多數的方法只能適用于正常發展的時間序列,對于存在突發事件,特別是影響序列發展的事件的情形,采用一般的方法進行分析預測可能導致結果誤差較大、不精確,此時如果引入干預分析對序列進行分析預測,則可使結果更精確[4,18].
2010年第41屆世界博覽會在上海舉辦,全年接待的入境旅游人數達851.12萬人次,較上一年增長了35.3%;國際旅游外匯收入達64.05億美元,同比增長了32.7%.通過觀察上海市入境旅游數據發現,世博會的舉辦使得上海市的入境旅游業在2010年發生了重大變化,且影響的持續時間長.因此我們可以將世博會看成是一個突發的干預事件,使用干預分析的方法,來分析世博會對上海市的入境旅游的發展情況的影響[5,19,20].
本文選取上海市2004年1月到2014年8月入境游客人數月度數據進行統計分析.通過繪該入境游客人數月度數據制序列的時序圖發現,序列存在趨勢效應和季節效應,并且從2010年3月開始,序列均值發生了變化.我們推斷,這是由于世博會舉辦產生的.Box-Jenkins模型是時間序列經典模型,有很多學者利用該模型來預測入境游客人數[7].因此本文首先以Box-Jenkins模型(ARIMA)為基礎,對序列擬合乘法季節模型,并將其作為該入境游客人數的預測模型[2.3.8]對接下來8個月的入境旅游人數進行預測.然后考慮到世博會對上海市入境旅游產生的影響,采用干預分析的方再法建立干預模型,同樣對接下來8個月的入境旅游人數進行預測.最后對計算實際值與兩個模型的預測值之間的相對誤差.通過比較發現,干預模型的相對誤差比單一的乘積季節模型的要小,能更精準地描述上海市入境旅游的發展趨勢.
1975年,由Box和Tiao引入的干預分析對于受干預事件影響的時間序列的效果評估提供了一個框架.他們假設干預之所以能對過程施加影響,是通過改變事件時間序列的均值函數或者發展趨勢而實現的[18],產生影響的干預既可以是自然產生的,也可以通過人為施加.本文將上海世博會作為影響上海市入境旅游正常發展的干預事件,通過建立時間序列干預模型,研究上海世博會對于上海市入境旅游發展規律的影響,可以定量地分析上海市入境旅游的結構性趨勢變化,為上海市相關部門提供更加切實的意見和建議.
時間序列{Yt}的一般干預模型形式如下:

其中,Zt表示均值函數的變化,Nt為ARIMA過程,并且還有可能是季節過程.過程Nt表示的是沒有受到干預事件影響的基礎時間序列,稱為自然過程或者是無干擾過程.自然過程既有可能是平穩的序列,也有可能是非平穩的序列;不僅可能是非季節性的,還可能是季節性的.假設時間序列在時刻T受到干預影響,即假設在T之前,Zt與零無異.稱時間序列Yt,t 通常用階梯函數和脈沖函數來說明干預對均值函數的影響.如果干預事件最終導致均值函數發生的是永久性的偏移,即干預影響是長期的,則用階梯虛擬變量來表示干預變量: 而如果干預事件只在T時刻產生然后逐漸消失,且并不會對均值函數產生長期影響,即干預效應短期存在,則可以用脈沖虛擬變量來表示干預變量: 按照干預影響的時間長短和干預對均值函數產生的影響,可以將干預事件分為四種類型: (1)影響突然開始并且持續時間很長,即對均值函數的影響是永久性的,則該類干預可表示為: 其中ω表示干預影響導致均值發生的永久變化,即表示序列均值產生變化的強度,且是未知的.如果干預事件是經過了d個時間單位的延遲后作用才開始顯現,則可表示為: (2)影響逐漸開始并且持續時間很長,例如本文研究的世博會對上海市入境旅游產生的影響.現實生活中有的干預影響并不是立刻產生的,有的影響可能會在干預發生較長時間后影響才產生,這類干預可表示為: (3)影響突然開始并且只產生短期影響,例如某著名旅游景點在“五一”小長假或者“十一”長假期間接待游客的人數.節假日的干預導致影響突然開始,并且在假日結束影響隨之消失,不會對均值函數產生長久影響.這類干預可表示為: (4)影響突然開始隨后逐漸減弱直至消失,且只產生短期影響,這種干預可表示為: 此外,還可以把若干類型結合起來對更為復雜的干預效應建模,如: 或者 在實際應用中,需要根據干預事件本身的特性,選擇合適的模型進行建模.建立干預模型后,常采用極大似然估計法對其參數進行估計. 利用干預分析建模的具體步驟如下: (1)繪制收集到的時間序列數據的時序圖,觀察干預事件發生前后序列的發展規律,根據干預事件發生影響的情況以及持續的時間,初步判斷干預事件的性質; (2)將序列分為干預事件發生影響前和干預事件發生影響后兩部分,然后利用干預事件發生前的數據,建立恰當的時間序列模型.再利用建立的模型進行預測,將得到的預測值作為不受干預影響時序列正常發展的數值; (3)用干預事件發生影響后觀察到的實際值減去由(2)得到的不受干預影響的數值,作為干預對研究對象的序列產生影響所得到的具體結果; (4)根據具體影響結果和干預影響的性質確定干預模型的類型,并利用第三步求得的結果,使用極大似然估計法估計干預模型的參數; (5)用上一步建立的干預模型去擬合干預事件發生后的影響值,然后用干預事件發生影響后觀察的實際值減去干預模型擬合后得到的擬合值,作為即使干預事件發生,仍然不受影響的時間序列值.最后再加上干預事件發生前的實際值序列即預干預數據,得到在研究的整個時間段內,研究對象不受干預事件影響的凈化時間序列值; 使用凈化序列值擬合適合序列的時間序列模型,最后再加上由(4)估計得到的干預影響模型,得到總的干預分析模型. 本文研究第41屆世博會的舉辦對上海市入境旅游的影響,選用的是從2004年1月開始,到世博會舉辦結束兩年后的上海市入境旅游月度數據.數據主要來源于上海市文化和旅游局官網發布的旅游統計資料,還有中國國家統計局官網《中國統計年鑒》發布的從1978年到2018年的中國入境旅游人數和入境旅游外匯收入的數據資料. 將研究的時間序列數據記為num1,利用軟件繪制時序圖(見圖1). 圖1 num1時序圖 可以看出,上海市入境旅游人數呈現出較明顯的季節效應.于是,采用移動平均的方法將原始序列轉換為12月平均旅游人數序列,消除序列的季節效應.這樣能更好地觀察世博會舉辦前后旅游人數總體趨勢變化,還可以將人數波動曲線變得相對平滑. 原始數據經過移動平均后,得到80個數據,記新的數據序列為num2.num2的時序圖見圖2. 圖2 num2時序圖 由圖2可以看出,序列在自2004年12月后的第64個月,即2010年3月開始有明顯的變化. (1)平穩性檢驗 根據上節的分析,從時間序列num1的時序圖可以看出: ①時間序列num1除了存在顯著的季節效應以外,還存在著遞增的趨勢效應,由此可以判斷序列num1是非平穩的; ②上海市入境游客人數在2010年達到最高峰,最高月份入境游客總數超過90萬人次. 除了時序圖,還可以通過時間序列的自相關圖對其平穩性驗證上述結論.序列num1的自相關圖見圖3. 圖3 序列num1自相關圖 自相關圖顯示,序列num1的自相關系數具有單調趨勢,且一直位于零軸上方,由此也可以判斷序列num1是非平穩的. (2)差分運算 因為序列num1不平穩,且存在明顯的季節效應和趨勢效應,因此對序列num1進行1階12步差分處理,差分后所得的序列記為num1.dif. 觀察序列num1.dif的時序圖(圖4)可以發現,序列num1.dif的值在某個值附近波動,具有平穩性,也就是說經過1階12步差分后,序列是平穩的.接著,利用R軟件對序列num1.dif進行純隨機性檢驗,判斷該序列是否為白噪聲序列.檢驗結果如表1所示. 圖4 num1.dif時序圖 表1 白噪聲檢驗結果 由表1知,在滯后6期和滯后12期兩種情形下,LB統計量的P值都比較小(<0.05),所以拒絕原假設,即可以以很大的把握確定2004—2012年8月上海入境游客數據差分后序列屬于非白噪聲序列. (3)模型擬合與優化 差分后的序列num1.dif通過了純隨機性檢驗,下面將進行模型的擬合. 首先,我們選擇模型的類型以及確定模型的階數.為此,繪制序列num1.dif的自相關圖(圖5)和偏自相關圖(圖6). 圖5 序列num1.dif自相關圖 圖6 序列num1.dif偏自相關圖 由圖可知,差分后的序列num1.dif的自相關圖和偏自相關圖都呈現出明顯的拖尾性,故可以先嘗試用加法季節模型ARIMA(1,(1,12),1)去擬合原始序列,并對其殘差序列進行白噪聲檢驗,檢驗結果見表2. 表2 殘差序列的白噪聲檢驗結果 由表2知,雖然在延遲6階情況下的P值是遠遠大于0.05的,但是在延遲12階時P值已經遠小于0.05,于是可以判定擬合的加法季節模型的殘差序列屬于非白噪聲序列,說明該模型擬合序列的效果不理想,由此可以推出加法季節模型并不適合這個序列,所以考慮更換為乘積季節模型. 先觀察序列num1.dif 12階以內的自相關系數和偏自相關系數的特征.由圖5和圖6可知,序列num1.dif在滯后期數為12階以內的自相關系數和偏自相關系數都不是截尾的,故可嘗試用ARMA(1,1)模型去提取序列num1.dif的短期自相關信息.接著觀察12階、24階等以周期長度為單位的自相關系數和偏自相關系數來考察序列的季節自相關特征.由圖5可以看出,雖然延遲12階的自相關系數是顯著非零的,但是延遲24階的自相關系數落入了2倍標準差范圍之內?而不管是延遲12階還是延遲24階的偏自相關系數都顯示出顯著非零的特性.因此,我們認為自相關系數是截尾的,偏自相關系數是拖尾的,故可用12步周期的ARMA(0,1)12模型去提取序列num1.dif的季節自相關信息. 綜合前面的分析,我們確定利用乘積季節模型ARIMA(1,1,1)×(0,1,1)12去擬合原始序列,模型如下: 其中?表示步長為1的差分算子,?12表示步長為12的差分算子,B為延遲算子,xt為時間序列在t時刻的值,εt為白噪聲序列在t時刻的值. 用R軟件進行計算,得到的擬合結果見表3. 表3 ARIMA(1,1,1)×(0,1,1)12模型擬合結果 模型的階數是依據自相關圖和偏自相關圖所定,具有一定的主觀性.我們可以嘗試用不同階數的模型去擬合序列.因此,我們再用ARIMA(1,1,1)×(1,1,0)12模型對序列進行擬合,然后對擬合的兩個模型的殘差序列進行白噪聲檢驗.檢驗結果見表4. 表4 兩個擬合模型的殘差序列白噪聲檢驗 由表4知,兩個模型的LB統計量的P值在各階延遲下都遠遠地大于0.05,說明兩個模型的殘差序列都屬于白噪聲序列,即不管是模型ARIMA(1,1,1)×(0,1,1)12還是模型ARIMA(1,1,1)×(1,1,0)12,對原始序列的擬合效果都比較好.最后,由于ARIMA(1,1,1)×(0,1,1)12模型的AIC值和BIC值比模型ARIMA(1,1,1)×(1,1,0)12的小一點,我們最終選擇用第一個模型去擬合序列. 根據模擬輸出結果,擬合的模型如下: (4)預測 根據2004年—2012年上海市月度入境旅游人數建立的乘法季節模型,對上海市接下來8個月的入境游客人數進行預測,預測結果見表5. 表5 上海市未來8個月入境旅游人數預測 通過觀察原始序列時序圖可以發現,在2010年,由于世博會的舉辦,上海市入境游客暴增,遠高于往年同期水平.將時間序列分為世博會產生影響前和產生影響后兩個部分,通過干預分析建立干預模型,來分析世博會對上海市入境人數產生的影響. 3.3.1 世博會產生影響前的模型構建 將時間序列num1分為世博會產生影響前(即預干預數據序列)和世博會產生影響后(從2010年3月份開始)的兩個時間序列. (1)平穩性檢驗 將預干預數據的序列設為num3,并通過R軟件繪制num3時序圖(見圖7). 從圖7可以看出,從2004年1月開始到2010年2月世博會產生影響前的74個月期間,序列num3不僅存在著明顯的趨勢效應,還有顯著的季節效應,明顯是非平穩的.這也可以通過序列的自相關圖(圖8)驗證. 圖7 序列num3時序圖 圖8 序列num3的自相關圖 (2)差分運算 為消除序列num3的季節和趨勢效應,先對其進行12步差分處理去除季節效應,再進行1階差分處理去除趨勢效應,然后觀察差分處理后的序列是否平穩,決定是否需要對其繼續差分.將序列num3經過1階12步差分后的序列記為num3.dif.num3.dif的時序圖和自相關圖分別見圖9和圖10. 由圖9知,經過差分處理后的序列nnum3.dif基本在零均值附近波動,而又由圖10知num3.dif的自相關系數都比較小,并且在滯后12期以后都在兩倍標準差之內,說明序列具有長期相關性,且序列num3在進行1階12步差分后已經平穩,不用繼續進行差分. 圖9 序列num3.dif時序圖 圖10 序列num3.dif的自相關圖 接著,我們對序列num3.dif進行白噪聲檢驗,結果如表6所示. 表6 序列num3.dif白噪聲檢驗 由表6知,P值遠小于0.05,由此斷定num3.dif的序列值之間還存在著相關關系,屬于非白噪聲序列,因此可以根據過去的數據研究未來的發展. (3)模型識別與定階 序列num3.dif的偏自相關圖見圖11. 圖11 序列num3.dif偏自相關圖 首先確定短期相關模型.由圖10和圖11可以看出,序列num3經過1階12步差分處理后,12階以內的自相關系數和偏自相關系數均不截尾,因此,可以用ARIMA(1,1)模型提取差分后所得序列的短期自相關信息. 再考慮季節自相關模型.根據圖10和圖11顯示的特點,滯后12期和滯后24期的自相關系數和偏自相關系數都顯著非零,并且滯后24期的自相關系數和偏自相關系數都落入2倍標準差范圍,因此,可以認為季節自相關系數拖尾,偏自相關系數也是拖尾,故可嘗試以12步為周期的ARMA(1,1)12,ARMA(1,0)12和ARMA(0,1)12三個模型來提取差分后所得序列的季節自相關信息. 綜上,我們可以對num3序列建立三個乘積季節模型ARIMA(1,1,1)×(1,1,1)12,ARIMA(1,1,1)×(1,1,0)12和ARIMA(1,1,1)×(0,1,1)12,并對它們的殘差序列進行白噪聲檢驗,結果如表7所示. 表7 殘差序列白噪聲檢驗結果 由表7可知,不管是延遲6階還是延遲12階三個模型的P值都遠大于臨界值,表明三個模型都通過了殘差序列白噪聲檢驗,因此,不管用哪個模型去擬合序列num3都是顯著有效的.此外,第二個模型的AIC值和BIC值比第一個模型和第三個模型都要小,根據最小信息量準則,我們選擇ARIMA(1,1,1)×(1,1,0)12模型對序列進行擬合.用R軟件輸出的擬合結果見表8. 表8 ARIMA(1,1,1)×(1,1,0)12模型擬合結果 根據輸出的結果,擬合模型為: 3.3.2 世博會產生影響后的干預分析模型構建 (1)干預模型構建 以世博會產生影響后30個月內上海市入境旅游人數為例,分析世博會對上海市入境旅游人數的影響. 首先利用上面建立的ARIMA(1,1,1)×(1,1,0)12模型進行預測,再利用預測值進行外推,將預測值作為沒有舉行世博會的上海市入境旅游人數的正常發展值.然后利用觀察值減去模型的預測值,得到受世博會影響的干預值序列. 對其進行分析發現,從2010年3月份開始,世博會開始產生影響,隨著世博會的舉行影響越來越大,隨后減小,但對上海市的入境旅游的長期發展產生了深遠影響.這十分符合實際情況. 隨著世博會舉行,越來越多的外國游客來到上海,見證該盛事.因為世博會的舉辦,上海被更多人所熟知,自然就促進了上海市入境旅游的發展. 世博會的影響屬于四種基本的干預模型形式中的一種,屬于一個階梯函數的情形,因此,由(1.6)可知,相應的干預模型形式為: 其中, t=75對應于2010年3月. 待建立的AR(1)自回歸模型是Zt=δZt?1+ω.利用R軟件,采用極大似然估計法對模型的參數進行估計,并對擬合的模型進行檢驗,得到的結果如表9. 表9 模型擬合與檢驗結果 由表9知,干預模型的參數估計值分別為:?δ=0.5481,^ω=167102.34,所以擬合的干預模型為: (2)凈化值序列構建 先計算干預模型的擬合值,再用觀察值減去模型的擬合值,最后再加上預干預序列的實際值,就得到需要的凈化值.對凈化值序列利用ARIMA(1,1,1)×(0,1,1)12乘積季節模型進行擬合,得到的擬合結果見表10. 表10 模型擬合結果 根據擬合結果,得到如下擬合模型: 接著對此模型進行殘差序列白噪聲檢驗,檢驗結果見表11. 表11 模型ARIMA(1,1,1)×(0,1,1)12殘差序列白噪聲檢驗 根據檢驗結果,滯后6階和滯后12階的P值都大于臨界值,表明模型通過了檢驗,擬合效果顯著. 3.3.3 干預分析組合模型構建 用凈化序列擬合的模型,加上估計的干預影響模型,即可得到在世博會影響下的上海市入境旅游人數序列的干預分析組合模型, 利用建立的干預分析模型對上海市2012年9月到2013年4月8個月的入境旅游人數進行預測,結果見表12. 表12 上海市入境旅游未來8個月預測人數 本文利用上海市2004年1月到2012年8月入境旅游人數的數據,建立了干預組合模型,并預測了接下來8個月的數據.利用2012年9月到2013年4月8個月的實際值,可以求出實際值與模型預測值之間的相對誤差,并與一般的乘積季節模型ARIMA(1,1,1)×(0,1,1)12進行對比,據此判斷利用哪個模型對于描述上海市入境旅游人數的發展規律更優. 2012年9月到2013年4月上海市入境人數的真值、兩個模型的預測值以及根據真值和預測值得出的相對誤差見表13. 由表13可知,雖然觀察值與兩個模型的預測值之間的相對誤差都比較小,但是相對于普通的乘積季節模型,干預分析模型的相對誤差更小,由此說明干預分析模型的預測值更接近于真實值,也就是說干預分析模型更能精準地描述上海市入境旅游的發展情況. 表13 兩個模型預測結果對比 對于受重大政策和事件影響的時間序列,采用通常的時間序列分析方法有時并不能很好地對其進行擬合和預測.此時,需要引入干預分析模型對其進行分析預測. 第41屆上海世博會是一場全球盛事,此次世博會的舉辦對上海市入境旅游帶來了更多的發展機遇,對上海市入境旅游發展產生了重大影響.本文將上海市入境旅游人數作為統計指標,根據上海市2004年1月到2012年8月的入境人數序列建立了干預分析模型,然后根據建立的模型對接下來8個月的入境旅游人數進行預測,得到了較好的擬合效果. 這說明有重大事件或者政策影響時,運用干預分析能更好地說明事件發展的規律,對未來作出更好的預測.








3 干預模型的構建
3.1 數據預處理


3.2 ARIMA模型乘積季節模型構建











3.3 干預模型構建


















4 結論
4.1 模型對比

4.2 研究結論