任芳玲,左 童
(延安大學 數學與計算機科學學院,陜西 延安 716000)
延安一直是紅色教育和革命情懷的培養地,所以每年都會有大量的游客來進行觀光和革命熏陶,據統計局數據顯示,延安市近十年來旅游收入占延安市財政收入的比重明顯增高,為了進一步使得旅游收入再創新高,分析其各方面的影響因素非常有必要[1]。本文選取居民消費水平,旅游人口總數,延安市年度旅客周轉量,私人汽車擁有量以及居民可支配收入作為參數,通過多元線性回歸分析、逐步回歸法進行優化,最終得出結論。
多元線性回歸在分析多因素模型時,具有簡單和方便等優點,在各類分析問題中都得到應用。如文獻[2-5]在對旅游收入影響因素分析過程中都用到了線性回歸法,本文會在此基礎上對基本的回歸方法進行改進。文獻[6-7]對旅游收入影響因素進行了分析和評價,文獻[8]在進行回歸分析中對模型進行了多重共線性的診斷并解決多重共線性問題,文獻[9]使用逐步回歸法對得到的結果進行優化,最后分析得到結論。本文在參考了以上相關論文的基礎之上,選用延安市旅游收入作為因變量來研究,使用改進的多元線性回歸法和逐步回歸法對延安市旅游收入影響因素進行分析,并得出相應結論。
在現實問題中,因變量的變化往往受多個因素影響,就要用多個自變量來解釋因變量的改變,這就是多元回歸。當多個自變量和因變量之間呈線性相關,對其回歸就是多元線性回歸[2-3]。設x1,x2,…,xk為自變量,y為因變量,則回歸模型為:
y=b0+b1x1+…+bkxk+ε。
b0為常數項,b1,b2,…,bk為系數,b1為x1,x2,…,xk固定值時,y隨x1的單位改變量,即x1對y的偏回歸系數。
為檢驗方程的顯著性,需要進行F檢驗,現提出如下假設:
H0:b1=b2=…=bk=0,
H1:b1,b2,…,bk不全為0。
經分析計算,由F分布定義,得檢驗統計量:
SR為離差平方和;SE為殘差平方和。若F≥Fα(k,n-k-1),則拒絕H0,該回歸顯著。若F<
Fα(k,n-k-1),則接受H0,該回歸不顯著。
F檢驗完成,進行t檢驗。在SPSS中,對t值的檢驗只需看sig.的值就行,sig.意為顯著性(significance),sig.是一個最終值。sig.<0.05則表示t檢驗通過。
逐步回歸是將變量依次引入模型,每引入一個就要對其進行F檢驗,對所有入選的變量進行t檢驗。若原來的變量變得不再顯著,則將其刪除。以此類推,直到模型中沒有不再顯著的變量,也沒有變量從方程中剔除為止。逐步回歸法包含向前法和向后法。
向前法:對k個回歸自變量x1,x2,…,xk分別同因變量y建立一元回歸模型
y=b0+bixi+ε,i=1,…,k。


向后法的步驟與向前法相反,它先全部選入,隨后逐個剔除。
在對影響旅游收入因素的分析中,本文選取旅游人數,居民消費水平,旅客周轉量,私人汽車擁有量,以及可支配收入5個主要因素來進行分析[4]。其中旅游收入為因變量,其他因素為自變量。通過延安統計局官網和國家統計年鑒,得到2005—2014年表1數據:

表1 延安市旅游收入及影響因素表
其中:y為延安市旅游年收入總值(億);x1代表的是延安市每年旅游人數總量(萬);x2代表居民消費水平(元);x3代表旅客周轉量(億人公里);x4私家汽車擁有量(萬);x5代表可支配收入(元)。建立回歸模型:
y=b0+b1x1+b2x2+b3x3+b4x4+b5x5+ε。
通過SPSS進行回歸分析,統計結果顯示,所有的自變量都在考慮范圍之內,共同決定因變量,沒有進行變量的剔除,繼續查看模型擬合度。
模型匯總結果顯示,變量間的線性相關系數R=1,R2=1,調整之后的R2=1,標準估計的誤差為0.87083,表示擬合度良好,變量相關程度高。然后進行方差檢驗,結果如表2所示。

表2 方差分析表
a.預測變量:(常量),旅客周轉量,旅游人數數量,居民消費水平,私人汽車擁有量,可支配收入。b.因變量:旅游收入
由表2,對給定的顯著水平α=0.05,F臨界值為Fα(k,n-k-1)=F0.05(5,4),F=6997.348>F0.05(5,4)=6.256,于是拒絕零假設,變量之間線性關系顯著,于是建立線性模型[7],再查看正態分布。
如圖1,該直方圖基本符合正態分布。

圖1 標準化殘差直方圖
如圖2,通過分析標準化殘差圖是在一條直線上的散點圖,基本上都在一條直線上,因此符合正態分布,具有統計意義。于是得到如下結果:

圖2 標準化殘渣圖

表3 回歸系數表
a.因變量:旅游收入
由表3可得到回歸方程為:
y=-37.332+0.044x1-0.013x2+1.029x3-
0.007x4+0.003x5
(1)
1)擬合度檢驗:R2=1.000代表該模型線性擬合度良好。
2)F檢驗:由表2可知,F值大于顯著水平H0,拒絕原假設,總體回歸顯著。
3)t檢驗:由表3可知,t統計量所對應的檢驗值分別為:0.016,0.656,0.012,0.031,0.000,0.042與檢驗α=0.05比較,其中居民消費水平這一項所對應的檢驗值不符合,且符號的經濟意義也不合理。說明各變量之間有可能存在多重共線性[8],于是對該模型進行共線性診斷。

表4 共線性診斷
如表4所示,特征值約為0和部分條件指數大于10表明存在多重共線性。以及相關系數矩陣中,居民消費水平系數為0.99接近于1,證明存在多重共線性[9]。
現使用逐步回歸法解決該問題,對自變量逐個進行一元回歸:

表5 一元回歸結果表
如表5所示,一元回歸結果如下:
旅游人數數量:y=-3.248+0.055x1,
R2=0.998,F=3272.166;
居民消費水平:y=-117.213+0.180x2,
R2=0.980,F=383.329;
旅客周轉量:y=-66.556+6.347x3,
R2=0.976,F=322.411;
私人汽車擁有量:y=-16.000+0.017x4,
R2=0.981,F=423.321;
可支配收入:y=-74.061+0.006x5,
R2=0.982,F=448.324。
結果表明,y與x1的回歸可決系數最大,選用y與x1為初始回歸模型[10]。然后建立自變量與因變量的二元回歸模型,通過SPSS軟件可得各個變量之間回歸的模型擬合度,即x1與x2,x3,x4,x5之間的模型擬合度分別為0.999,0.998,0.998,0.999。可見,x1和x2變量集與x1和x5變量集的可決系數大于其它變量集,通過觀察兩者的系數表,發現后者的模型比前者更優,于是選用x1和x5作為新的回歸模型,以此類推,重復以上步驟,繼續進行逐步回歸的變量引入,得出如下最終結果。

表6 逐步回歸后的系數表
如表6所示,所有的值均小于0.05,檢驗通過。

表7 模型匯總表
a.預測變量:可支配收入,旅游人數數量,旅客周轉量,私人汽車擁有量。
如表7所示,R2=1,表明模型擬合度良好。

表8 方差分析表
a.預測變量:(常量),旅客周轉量,旅游人數數量,居民消費水平,私人汽車擁有量,可支配收入。b.因變量:旅游收入
如表8所示,F值大于顯著水平,拒絕零假設。
以上結果是在剔除不顯著變量后得出的結果,F和t檢驗都通過,且R2=1,得到新的回歸方程為:
y′=-38.144+0.044x1+1.082x3-0.007x4+
0.003x5
(2)
對于x4系數為負的原因進行考慮,原因可能如下:首先私人汽車擁有量確實一直都在提高,但是提高的車數量并不代表車主會去旅游。其次,旅游是較高消費支出的活動,有的家庭由于買了車所以可支配收入減少旅游支出減少,于是旅游收入可能降低。因此,x4系數為負就很正常。
將表1中數據分別帶入(1)式和(2)式,利用歷史數據檢驗兩種模型的優勢,得到如下結果:
由表9可見,(1)式平均相對誤差為2.76%,遠遠小于(2)式,說明后者比前者更優。于是采用逐步回歸后的模型進行研究,從回歸結果可得出以下結論:
從回歸結果來看,旅游收入與旅游人數,旅客周轉量,私人汽車擁有量以及可支配收入相關。其中,旅游人數數量和旅客周轉量對延安市旅游收入的影響較大,意味著旅游人數數量的多少將直接影響到延安市旅游收入的多少。旅客周轉量的多少也決定了旅游收入,因此延安市既要加大旅游投資,也應該加大延安交通建設,交通方便,旅客周轉量會增大,旅客人流量也會變大,延安市旅游人數數量會相應增加,收入也會提高。

表9 結論檢驗表
其次,私人汽車擁有量和居民可支配收入也對旅游收入有一定的影響,但效果不太顯著。原因可能是汽車私有量人數的增多導致居民消費水平結構變化,具體原因上文已經分析過。而居民可支配收入是由居民決定的,具有隨機性和不可控制性,因此影響較小。