(廣東財經大學 廣東 廣州 510000)
R語言環境下的廣州市就業情況分析
李雪薇
(廣東財經大學廣東廣州510000)
新世紀以來,中國一直被譽為“世界工廠”,龐大的勞動力、廉價的土地資源和相對成熟的基礎設施,從世界各地吸引了大量的資本。然而現今,關于外資是否正從中國撤離的話題,正引發激烈的爭論。而廣州去年實際使用外資57億美元 新設外商投資企業1757家增長達23%。本文利用廣州市歷年相關數據,運用R軟件對數據進行分析,研究2006~2015年間廣州市外商投資對廣州就業崗位的影響,通過對解釋變量的選擇以及判斷,消除違反多元線性回歸模型假設的因素,從而建立正確的回歸模型,在此基礎上合理的進行回歸分析與預測。
多元線性回歸;虛擬變量;多重共線性;預測
(一)背景資料
近兩年,關于外資從中國撤離的消息屢屢被曝光。2月16日,根據商務部公布的數據顯示,今年1月份,中國實際使用外資額為120億美元,同比下跌14.73%。這更讓外資撤潮說重新成為熱門話題。權威的解讀認為月度數據不代表長期趨勢,但從實際情況來看,每一次外資撤離都涉及到人數眾多的裁員。因此,正確預測外商投資對廣州就業崗位的影響對于即將畢業的大學生來說起到了一定的參考價值。
(二)本文主要討論以下幾個問題:
1.從廣州市產出水平(以地區人均生產總值為指標)、在職職工平均工資水平、歷年利用外資情況指數(取外商直接投資使用外資金額)、進出口總值中選擇合適的變量作為解釋變量。
2.根據預測目標選擇廣州市從業人數作為被解釋變量。
3.通過建立恰當的多元線性回歸模型,對廣州市從業人數進行點預測和區間預測。
(1)變量Y和X1,X2,…Xk之間存在線性隨機函數關系Yi=β0+β1X1i+β2X2i+…+βkXki+εi
(2)每組觀測數據的誤差項εi都為零均值的隨機變量。
(3)誤差項εi的方差為常數。
(4)對應不同觀測數據的誤差項不相關。
(5)解釋變量Xk為確定型變量而非隨機變量。當存在多個解釋變量時,不同解釋變量不存在線性關系。
(6)誤差項εi服從正態分布。
(一)數據來源和模型變量的選擇
通過查找廣州統計信息網站中2006-2015年廣州市就業人數與廣州市產出水平(以人均地區生產總值為指標)、在崗職工平均工資水平、歷年利用外資情況指數(取外商直接投資使用外資金額)、廣州市進出口總值(億美元)的數據,將數據匯總見附錄。
分析:由于影響廣州市就業人數的因素有很多,為了簡化分析,我們選擇其中四個經濟變量作為主要影響因素建立多元線性回歸模型。根據預測目標以廣州市就業人數(人)作為被解釋變量Y;解釋變量分別為廣州市人均地區生產總值X1(元)、在崗職工平均工資水平X2(元)、外商直接投資使用外資金額X3(萬美元)、進出口總值(億美元)X4,設定線性回歸模型為:Yi=β0+β1X1i+β2X2i+β3X3i+β4X4i+εii=1、2、3…n
其中ε為隨機誤差,且認為ε服從N(0,σ2)的正太分布。對于式中未知參數的估計采用最小二乘法,求相關系數R2,并做顯著性檢驗,通過二者表明模型建立的是正確的。

參數βi誤差項εi虛擬變量Ni廣州市就業人數(qscy)Y廣州市人均地區生產總值(rjGDP)X1在崗職工平均工資水平(gzsp)X2外商直接投資使用外資金額(wzje)X3進出口總值(jckzz)X4
(二)模型的建立與分析
1.繪制趨勢圖
導入函數


Y

X1

X2

X3

X4
分析:從曲線趨勢圖上我們大致可以看出,被解釋變量Y和解釋變量X1、X2、X3、X4隨著時間的變化有明顯的增長趨勢,說明人均地區生產總值、在崗職工平均工資水平、外商直接投資使用外資金額、進出口總值隨著年份的增加在不斷的上升。
2.畫相關圖選擇回歸方程的形式

可見,X1、X2、X3、X4與Y的關系是明顯的線性的。
3.做回歸,并檢視回歸結果
對樣本相關系數進行分析

綜合以上的結果,所有四個變量與Y的相關性較好。
4.模型分析
(1)對三個變量建立多元回歸方程得到如下結果:

通過觀察,X2、X3沒有通過顯著性檢驗
(2)逐步回歸分析
剔除X2后

剔除X3后:

回歸系數的顯著性水平有所提高,但是x1 x2 x4的顯著性水平仍然不理想
(3)逐步回歸分析的優化

如果去掉x1,AIC的值從230.75增加到234.70是三個變量中增加最小的
(4)進一步進行多元回歸分析

結果發現兩個變量與Y的相關性依舊不大,得到的線性回歸方程為Y=4331000+23.65X2+1406X4,但該模型并不是最優模型,說明引入的虛擬變量不是最合適的指標,所以只能得出結論是:兩者存在正相關關系,但不顯著,可能是樣本量不夠,或者代理變量選擇不同造成的,只能部分驗證假設。
5.模型檢驗
收集2006/2010/2015年對應的X2、X4數據,得到

200620102015實際數值599497371106958109811計算數值6097104.227086163.638132878.23誤差比例0.017036140.003449930.00284436
所以,這個模型的相關性檢驗并沒有很高的擬合度,但是三組數據得出的結果誤差比例卻很低,那么或許更多的樣本量可能會得到更合適的結果。
6.結論說明
由以上可得出廣州市就業人數與廣州市在崗職工平均工資水平、廣州市進出口總值有較明顯的關系,且之間成正相關,這是符合實際的,工資剛性理論認為,工資可以對勞動力供求的變化作出反映,但其調整過程是非常緩慢的,正是調整的緩慢才導致失業的上升和下降,也影響就業率的變化;進出口總值反應了廣州市的對外經濟貿易活躍度,對就業率也是起到了正面的影響。
該模型從相關性的分析來看并不是一個很好的契合模型,變量的參數P值也只是都小于0.1,但是將原數據帶入方程式所得到的誤差值卻很小,因此猜想或許是樣本量過少,但是因為其中有關于外商直接投資實際使用金額(X3)這一項,因此數據庫中資料不足,所以函數的構建應該還是有待改進
R代碼
讀取數據
mydata<-read.csv("gzjy3.csv")
mydata
Y<-mydata[,1]
X1<-mydata[,2]
X2<-mydata[,3]
X3<-mydata[,4]
X4<-mydata[,5]
繪制趨勢圖
plot(Y)
plot(X1)
plot(X2)
plot(X3)
plot(X4)
畫相關圖選擇回歸方程的形式
plot(Y~X1);abline(lm(Y~X1))
plot(Y~X2);abline(lm(Y~X2))
plot(Y~X3);abline(lm(Y~X3))
plot(Y~X4);abline(lm(Y~X4))
對樣本相關系數進行分析
cor(mydata)
做回歸,并檢視回歸結果lm.test<-lm(Y~X1+X2+X3+X4,data=mydata)
summary(lm.test)
lm.test<-lm(Y~X1+X3+X4,data=mydata)
summary(lm.test)
lm.test<-lm(Y~X1+X2+X4,data=mydata)
summary(lm.test)
逐步回歸分析的優化
drop1(lm.test)
進一步進行多元回歸分析
lm.test<-lm(Y~X2+X4,data=mydata)
summary(lm.test)
李雪薇(1993.01-),女,碩士,廣東財經大學,人力資源管理。
)