童婉迪


摘要:農村居民收入影響因素的研究往往采用均值和分位數回歸方法,眾數回歸是一種新的刻畫因變量與自變量之間的關系的回歸模型,是均值回歸和分位數回歸模型的重要補充。本文將眾數回歸方法應用到農村居民收入研究中,用EM算法求解估計量,并采用Bootstrap方法給出了回歸系數的估計的置信區間。并基于分析結果,給出提高農村居民收入水平相應的建議。
關鍵詞:農村居民收入;EM算法;眾數回歸模型
一、引言
2020年是脫貧攻堅工作的收官之年,農村居民收入的問題至關重要,這關系到我們能否鞏固來之不易的脫貧成果。目前圍繞農民收入問題,已經有許多學者做了大量的調查研究,形成了一批研究成果。王春超(2004)先從微觀的角度分別對農民收入和非農生產活動的影響因素進行實證分析,再從宏觀角度分析,得出結論農民合理的投資行為、農民受教育程度和技能培訓可以提高農民的收入。蔡昉、王德文(2005)分析了80-90年代以來我國經濟變化的格局,指出非農收入占農民收入的比重正在逐年增加,所以要提高農民收入可以從提高農民的非農收入的角度人手。張艷華、李秉龍(2006)從人力資本的角度,選取了幾個人力資本方面的因素,研究對農民非農收入的影響,結果表明教育、培訓、專業技能、經驗等人力資本變量不僅可以增加農民非農的就業機會,而且可以顯著提高農民的非農收入。辛嶺、王艷華(2007)采用雙對數模型,對農民受教育水平與農民收入進行格蘭杰因果檢驗,并進一步進行了協整檢驗,結果證明農民受教育水平對農民收入有長期影響,提高農民受教育水平的確可以提高農民收入。陳珍珍、游家興(2009)使用了分位數回歸模型對農民收入的不同水平進行了全面的因素分析,結果表示農民受教育程度對農民收入是正向影響,并且提出自主營業會提高農民收入。張占貞、王兆君(2010)選取了與農民工工資性收入具有強相關關系的因素,進行主成分分析得到農民文化程度、城鎮化率、農村剩余勞動力轉移率、農民人均交通和通訊支出比重這幾個因素的變化對農民工工資性收入有很大促進作用,農村人均固定資產投資額和財政支農支出額對農民人均工資性收入有微弱促進作用。
大多數學者在研究影響農民收入因素問題的時候多采用均值回歸,該模型能從總體上概括地解釋年齡、受教育水平、性別和工作單位的經濟性質對農民工收入的影響程度。但無法深入、細致地揭示各個因素在不同的區間對農民收入的影響程度,結論過于籠統。且均值回歸常假定誤差項服從正態分布,而實際應用中的調查數據往往不能滿足,系數估計值容易受到極端值的影響,所以用均值回歸來研究農民收入問題有一定的局限性。眾數回歸模型無需對誤差項進行假定,因而具有很強的魯棒性。根據眾數回歸模型的特性,可以準確描述占最大比例的人群收入的影響因素,所以依據眾數回歸模型制定增加農村居民收入的政策可以使占最大比例的人群受益。目前很少有學者利用眾數回歸模型對農民收入問題進行研究,本文利用基于廣義線性的眾數回歸模型進行分析,并用EM算法求解,然后將回歸結果與均值回歸和中位數回歸進行比較分析,綜合分析后得出相應的政策建議。
二、數據說明
2018年中國綜合社會調查數據(CGSS)包括全國31個省、市、自治區被訪者的年齡、教育年限、性別及2017年全年職業收入等信息。本文從這些數據中選取五個對農村居民收入較為重要的影響因素變量,分別是:教育年限、性別、健康狀況、家庭人口數以及地區。根據研究需要,本文事先對數據進行了預處理,去掉了上學、參軍、喪失勞動能力以及收入為0的樣本,最終選取的樣本包括18歲-65歲的農村居民共8680人。并將地區變量按照全國經濟地帶劃分為三個地區:東部、中部和西部,其中中西部為參照組。
三、模型設定
(一)經典眾數回歸模型簡介
眾數回歸與傳統的均值和中位數回歸方法不同,它使用條件眾數來表示條件分布的中心。在下列兩種情況下比均值和中位數回歸更合理:一是在噪聲服從有偏分布或重尾分布,此時均值和中位數并不能很好地表示分布的中心;二是樣本中包含離群點。傳統的回歸模型中,通常假定噪聲服從正態分布,而在實際應用中,這些假定難以全部成立,因而眾數回歸方法是完善回歸分析非常重要的工具類型。
為眾數回歸函數。眾數回歸具有下列良好的特征:眾數回歸用“最有可能”的條件值一眾數(而不是均值或者中位數)來度量分布的中心;因此眾數回歸對離群點不敏感,具有良好的魯棒性。
其中K為核函數,h為帶寬參數,回歸系數β=(β0β1)T。關于系數向量B各個分量的漸進理論,目前還沒有成熟的結果。我們根據Bootstrap方法重復抽取500次,根據系數向量估計值計算各個分量2.5%和97.5%的分位數作為各分量置信水平為95%的置信區間下限和上限,如果置信區間包含0,那么在5%的顯著性水平下不顯著,反之則顯著。
(二)模型的構建
基于描述性統計及各變量的預處理,本文構建廣義線性模型如下:
其中,Y,Edu,Gender,health。add,number分別表示因變量收入以及教育年限、性別、健康、地區和家庭人口規模這五個影響收入的變量。
根據交叉驗證結果,取參數h= 0.7,得到眾數回歸系數向量。按照眾數回歸EM算法步驟抽取500次,其中,均值回歸、中位數回歸、眾數回歸模型的估計結果及其顯著性見下表,其中系數向量估計值各分量95%的置信區間上、下限由500個估計值97.5%和2.5%的分位數計算得到,回歸結果如下表所示。
四、結果分析
上述的結果表明這五項指標的系數估計值在三種回歸中均為正,說明各項指標系數的增加均能提高農村居民收入。其中,眾數回歸中,教育年限和性別系數估計值與均值回歸和中位數回歸結果差異較大。下文分析回歸結果中的每個指標:
1.教育年限:對于均值回歸、中位數回歸、眾數回歸,式(2)中β2的含義分別為:對于相同教育程度的農村居民而言,在其他變量保持不變的條件下,教育年限每增加1年,收入的條件均值、條件中位數、條件眾數分別增加100β2%。觀察表2結果,三種回歸的教育系數估計值均顯著為正,所以增加受教育年限肯定可以提高收入,而這其中眾數回歸的系數估計值最高,說明對于占最大比例入群的農村居民來說,教育收益率最高。所以,應當繼續保障農村義務教育順利實施,發展鄉村學前教育,對于因為學費問題而無法負擔高中階段教育的家庭給予補助,鼓勵建設鄉村教師隊伍,為農村教育繼續引進更多優質師源,為農村教育提供更多免費的資源。推廣農民技能培訓。