鄭俊卿
(山東科技大學數學與系統科學學院統計系 山東 青島 266590)
基于Lasso方法的山東經濟增長影響因素實證研究
鄭俊卿
(山東科技大學數學與系統科學學院統計系 山東 青島 266590)
通過從國際、國內宏觀經濟環境和山東省局部環境中共計選取12個主要影響因素作為自變量,并利用Lasso變量選取方法對影響山東省經濟增長的這些主要影響因素進行了實證分析,結果發現Lasso變量選取方法在對經濟領域的研究有極大的積極作用,并通過實證分析影響山東省現階段經濟發展的各個因素。
Lasso方法;變量選擇;經濟增長;影響因素
在構建模型進行統計分析時,變量選擇是我們不容忽視的問題。變量選擇不當會使得模型出現多重共線性、過擬合等問題。早期的變量選擇方法一般是采用逐步回歸法同AIC、BIC準則結合,這種方法雖然具有一定的實用性,但也有很多不足,并且在模型選擇時也會不穩定。此后Tibshirani(1996)提出了Lasso方法,Lasso方法會在模型進行參數估計的同時實現變量選擇。在此之后,在進一步的研究中,大量學者對Lasso變量選取方法的算法及理論進行了研究。
對于Lasso變量選取方法,正是在模型中添加懲罰項來實現變量的壓縮,系數估計較小的剔除,由此可以較好地解決模型的多重共線性問題以及過擬合問題等,這使得Lasso變量選取方法的應用領域十分廣泛。
對于一般的線性回歸模型:
Y=α+Xβ+ε
其中,Y=(y1,y2,…yn)T,X=(x1,x2,…,xp),xi=(x1i,x2i,…,xni),i=1,2,…,p,α為常數項,β=(β1,β2,…,βp)T,n為觀測數目。ε=(ε1,ε2,…,εn)T為誤差項,且滿足E(ε)=0,Var(ε)=σ2I。

(1)
上式也可以用懲罰性的形式給出:

(2)
其中,調和參數λ≥0。顯然,當λ越大時,模型中懲罰項所占的比重就越大,這意味著變量壓縮的越多;反之,λ越小,模型的懲罰項所占比重越小,模型的擬合越好。
本文采用lasso方法對影響山東省經濟發展的主要因素進行分析,并應用R語言編程求解Lasso。
(一)變量選取及數據來源
本文從國內環境影響、山東省區域影響及國際環境影響因素三個方面選取主要影響變量。國內環境將由人均GDP、年平均利率來衡量;山東省區域影響因素主要由山東省人均地區生產總值、山東省地方財政支出、山東省消費品零售總額、山東省老年撫養比、山東省重要科技成果數量、山東省第三產業生產總值、山東省能源生產總量、山東省城鎮居民可支配收入來衡量;國際環境影響因素主要由山東省進出口總額及美元兌人民幣匯率兩方面來衡量。
本文中所需數據均來自于國家統計年鑒及山東省統計年鑒。
(二)數據預處理
為消除數據量綱對模型的影響,在利用lasso方法前,本文先對數據及逆行標準化處理以消除量綱等帶來的負面影響,即:
(三)lasso變量選擇
本文利用RStudio軟件進行Lasso變量選取,其中常用的軟件包主要包括msgps、glmnet及lars等,在本文中利用msgps軟件包對影響因素進行變量選擇,根據此算法得到的部分結果如下表:

表1 山東省經濟增長影響因素的Lasso參數估計部分結果
通過表1我們可以發現:
1.利用Lasso變量選取的方法可以有效的發現對模型因變量具有強影響力的因素,Lasso方法可以將對山東省經濟增長作用不大的影響因素的系數壓縮為0,并且同時還可以消除選取變量間的多重共線性、過擬合性等問題,因此,Lasso方法在經濟方面的應用具有十分積極的作用。
2.人均GDP、山東省消費品零售總額、第三產業生產總值和能源生產總量對山東省經濟增長具有一定的積極作用,說明國內宏觀經濟環境和山東省局部環境因素對山東省經濟增長的影響是有利的。
3.相比于國內宏觀經濟環境和山東省局部環境因素對山東省經濟增長的影響,國際環境對山東省經濟增長的影響略弱,因此,有必要加強同國際經濟環境的交流。
本文對Lasso變量選取方法進行了介紹,并將此方法應用到山東省經濟增長的影響因素分析中,結果表明:Lasso方法對經濟領域的研究具有很好的促進作用,其可以有效的處理各個影響因素之間的多重共線性問題,并能對影響作用較弱的變量將其系數進行壓縮為0;目前山東省經濟增長同國內宏觀經濟環境和山東省局部環境因素的影響較大,其中消費、能源等作用突出,科研等方面則需進一步加強,而國際環境對山東省經濟增長的影響則偏弱。
[1]Tibshirani,R.Regression shrinkage and selection via Journal of the Royal Statistical Society Series B,the lasso.1996,58(1):267-288.
[2]閆麗娜,覃婷,王彤.LASSO方法在Cox回歸模型中的應用[J].中國衛生統計,2012,29(1):58-60.
[3]曹芳,朱永忠.基于多重共線性的Lasso方法[J].江南大學學報(自然科學版),2012,11(1).
[4]鐘金花,基于Lasso方法的上海經濟增長影響因素實證研究[J].統計與決策,2013,373(1).
[5]徐慶娟,楊彬彬.基于R軟件的Lasso回歸在腫瘤信息基因選擇中的應用[J].廣西師范學院學報(自然科學版),2016,33(12).
鄭俊卿,男,漢族,山東臨沂,碩士研究生,山東科技大學,精算學與風險管理。