摘 要 影響汽車的價格有很多因素,包括發動機容量,空車質量,油耗,燃燒效率等。本文使用SPSS方法,采用普通回歸分析,逐步回歸分析這兩種方法,對數據進行分析。比較了普通回歸分析和逐步回歸分析的差異后發現,逐步回歸分析和普通回歸分析得出的結論完全一致,但是逐步回歸分析步驟要明顯少于普通回歸分析。在對多個變量進行回歸時,逐步回歸是比較理想的分析方法。
關鍵詞 普通回歸 逐步回歸 SPSS 汽車市場
1 普通回歸分析
1.1 普通回歸分析方法介紹
在大多數的實際問題中,影響因變量的因素不是一個而是多個,我們稱這類回歸問題為多元回歸分析。可以建立因變量與各自變量( =1,2,3…,)之間的多元線性回歸模型:
= + + + … +
1.2 模型應用
本文研究汽車功率、軸距、燃燒效率、油耗、發動機容量、空車質量對價格的影響,建立線性模型。其中是價格,( = 1,2,3,4,5,6)分別代表發動機容量、空車質量油耗、燃燒效率、軸距、功率。
對回歸模型的擬合優度評價(解釋變量強制進入),給出了回歸模型的擬合優度(R Square),調整的擬合優度(Adjusted R Square)以及估計標準差(Std. Error of the Estimate)。從結果來看回歸的擬合優度和調整的擬合優度是0.775和0.765,即價格的75%以上的變動都可以被該模型說解釋,擬合優度比較高。
利用spss得出了回歸模型的方差分析,可以看到F統計量為83.129,對應的p值為0,所以,拒絕模型整體不顯著的原假設,即該模型是整體顯著的。
1.3 多重共線性
在討論多重共線性時,spss給出了解釋變量多重共線性的診斷結果。從條件指數來看,后面5個條件指數都大于10,說明變量之間確實存在多重共線性。從方差比例來看,第4個特征根解釋了功率方差的68%,同時解釋了發動機容量方差的88%,說明這兩個變量之間可能存在多重共線性。
由各個模型擬合優度的評價,可以看到,隨著解釋變量的減少,模型的可決系數也逐漸減少,但是,由于解釋變量減少的同時增加了自由度。所以,調整的可決系數卻逐漸增大。從給出的模型整體顯著性的F檢驗也可以看到,隨著模型中冗余解釋變量被提出,F統計量逐漸增大。這再次表明,盲目的增加解釋變量并不一定能使模型的解釋能力變強。
然而,在最終得出的模型3中的回歸系數均通過了顯著性檢驗,而系數的容忍度和方差膨脹因子相對模型1有了很大的改善,說明多重共線性得到了較為有效的控制。
2 逐步回歸
2.1實驗原理
運用逐步回歸法的基本思想是:將變量一個一個引入,每引入一個變量后對已選入的變量要一個一個進行逐個檢驗,當原引入的變量因后面變量的引入而顯得不再顯著時,要將其剔除。 引入一個變量或從回歸分析中剔除一個變量為逐步回歸的一步,每一步都要進行F檢驗,以確保每次引入新的變量之前回歸方程中只包含顯著的變量。這個過程反復進行,直到既無顯著的自變量選入回歸方程,也無不顯著的自變量從回歸方程中剔除為止。
2.2 模型應用
顯示變量的引入或提出變量,逐步回歸法首先引入了變量功率,建立了模型1,然后又引入了變量發動機容量,建立模型2...。最終建立了模型4,包含變量功率,發動機容量,空車質量,軸距。
2.3實驗結果及分析
Spss顯示了各個模型的擬合情況。根據各個模型的方差分析結果,最終模型4的回歸均方Mean Square=6048.008,殘差的均方Residual Mean Square=48.983,線性回歸方程顯著。按照顯著性0.05的水平,認為4個偏回歸系數都顯著有意義。
同時spss也可以計算各個模型方程外的相關統計量,包括Beta、t值、P值偏相關系數和共線性統計的容忍值。可見模型4外的變量油耗和燃燒效率偏回歸系數的P值都大于0.05,故不能引入方程。
3 總結
將逐步回歸方法與普通回歸方法對比發現,兩種方法得出的篇相關系數一致,但是逐步回歸方法明顯比普通回歸方法快捷。因而,在考慮多個變量的線性關系時,推薦使用逐步回歸方法。
從以上分析可以得出汽車特征的很多信息,根據影響價格的因素功率,發動機容量,空車質量和軸距,汽車制造商可以參考回歸方程中各個變量的偏相關系數,對汽車進行合理定價。同時,SPSS的統計分析功能十分便捷和強大,這里只是介紹了普通回歸,逐步回歸。
參考文獻
[1] 朱建平,殷瑞飛.SPSS在統計分析中的應用. 北京:清華大學出版社, 2007.
[2] 方開泰.實用多元統計分析.上海:華東師范大學出版社,1989.
[3] 余小華,魏曉寧.對中國汽車產業的實證分析.統計與信息論壇,2003.