新型城鎮化背景下城鎮常住人口收入差距分析

2016-12-20 03:31:34楊斯琪趙彥云

統計與決策 2016年21期

關鍵詞：經驗模型教育

楊斯琪，趙彥云

（中國人民大學統計學院，北京 100872）

新型城鎮化背景下城鎮常住人口收入差距分析

楊斯琪，趙彥云

（中國人民大學統計學院，北京 100872）

文章利用中國城市、農村和流動人口居民收入調查2008年數據，在明瑟方程的基礎上，利用半參數分位數回歸模型，對教育、工作經驗兩大人力資本因素進行分析，并將市場分割因素城鄉戶籍、地區、行業作為控制變量。就方法論來說，半參數分位數回歸模型擬合結果優于OLS模型及分位回歸模型，并且經驗在第一個十年內與收入之間呈現三次函數關系，隨后呈現二次函數關系。從政策建議角度來說，教育、經驗作為人力資本對高收入人群具有更高的回報率，為從長遠角度解決收入差距問題，應提高農民工受教育程度及培訓力度，將人力資本投入向貧困地區傾斜。

半參數分位數回歸;新型城鎮化;收入差距;明瑟方程

0 引言

收入分配作為影響民生的重要因素，對城鎮化具有不可忽視的影響。收入差距所體現的收入分配不均等已經受到社會大眾、政府和專家學者廣泛關注。收入差距過大會影響新型城鎮化的質量，導致勞動力過多地向高收入地區流動，不利于引導人力資本向中小城市集聚，阻礙大、中、小城市與城鎮協調發展；同時對世界各國的經濟增長研究表明，收入差距過大可能導致一國經濟增長陷入“中等收入陷阱”，不利于長期的經濟增長和到達高水平的收斂。在經濟發展方面，盡管城鎮化會帶來大量的基礎設施投資及消費需求，但收入差距過大會增大城鎮低收入人群的恐慌心理，降低消費水平，對經濟的內需動力帶來不利影響。

收入差距的來源主要可以分為兩方面，第一方面來自于市場本身，市場根據個人能力對收入進行分配，從而在不同能力水平的人之間產生收入差距；第二方面來自于非市場性因素，即機制體制方面的壁壘，如戶籍制度、行業壟斷等。本文將重點放在第一個方面，即個人能力所帶來的收入差距，而其中最重要的即為人力資本。明瑟（1974）對人力資本的研究中將教育、經驗作為主要的人力資本要素，得出了明瑟方程。本文以明瑟方程為基礎研究城鎮居民收入的影響因素，與前人的研究相比，本文的不同之處在于：（1）本文采用半參數分位數回歸模型進行分析，將經驗納入非參數部分，對經驗的具體形式進行檢驗。同時，融合了分位數回歸的優點，可以研究自變量隨著收入的變化對其影響的改變。（2）本文以教育、經驗為主要自變量，同時將勞動力市場分割因素地區、城鄉戶籍、行業作為控制變量加入模型中，提高模型準確性。（3）本文中所用數據包括城鎮人口與流動人口，并非單純的城鎮人口或是城鄉混合樣本，而是以城鎮常住人口為分析對象。

1 半參數分位數回歸方法

本文中擬對經驗變量采用非參數的形式，其余變量仍采用參數形式，同時結合分位數回歸，采用半參數分位數回歸模型對城鎮居民收入進行分析。

半參數分位數回歸模型結構如下：

可以看出模型由兩部分組成，線性部分XTβ稱為參數分量，非線性部分 f(T)稱為非參數分量，Qy(τ |X)為條件分位數，τ為分位點。

最小化式（2）即可求得參數β及非參數部分 f(T)：

參數α為懲罰參數，通過改變α可以平衡擬合程度與懲罰項，調節光滑程度，式中對參數部分加入了lasso懲罰項，對系數進行收縮，非參數部分為光滑樣條法的懲罰函數，通過對節點處光滑程度附加限制條件，來防止待估參數過多，估計過分地擬合數據。關于其求解采用Frisch–Newton內點法（Portnoy and Koenker，1997）及稀疏矩陣Cholesky分解（Koenker and Ng，2003）。

半參數分位數回歸模型結合了半參數回歸與分位數回歸的方法，因此更具有優勢。首先，與OLS回歸相比，由于同時具有參數部分與非參數部分，使得數據擬合不需要過多分布假設，更接近真實情況，擬合優度更高。同時，與非參數回歸相比，參數部分大大增強了結果的可解釋性，可以得出具有經濟學含義的實際結論，并且避免了“維數禍根”的問題。另一方面，根據不同分位點的回歸結果，可以得到因變量不同水平下的分析結果，從而精確描述自變量對因變量的條件分布的影響，尤其是當分布為偏態分布時，可以分析因變量尾部的分布，對異常值不敏感，具有更高的穩健性。

根據明瑟方程，因變量為對數收入，自變量選取人力資本變量受教育程度edu與工作經驗exp，并加入控制變量性別sex、東部地區east、西部地區west、城鄉戶籍變量urban、行業變量ind。根據半參數分位數回歸模型可知，若自變量與因變量呈非線性關系，則將其設為非參數部分；若自變量與因變量呈線性關系，則將其設為參數部分。根據之前對經驗變量的分析，我們將其設為非參數部分，以防止由于模型設定錯誤使得分位回歸結果有偏，同時設為非參數部分可對不同分位點經驗與收入的關系有更直觀全面的認識。除工作經驗外，其余變量均設為參數部分。最終所得基于明瑟方程的半參數分位數回歸模型如下：

2 數據來源及描述性分析

本文中選取的是2008年CHIP數據，數據分為流動人口數據，城鎮人口數據和農村人口數據，其中城鎮人口數據采集由國家統計局完成，流動人口數據采集由調查公司執行，所以樣本不重合，考慮將兩樣本數據合并進行研究，以分析城鎮化過程中全部城鎮勞動人口的收入差距。流動人口數據中刪除了在外打工時間在6個月以內（包括6個月）的樣本，因此，整合后的樣本為符合統計學上對常住人口定義的城鎮人口樣本。

由于數據并非單純采用城鎮樣本，也非農村與城鎮的混合樣本，而是采用所有城鎮人口及農村到城市的流動人口，使得該數據會得出與以往收入研究不同的結論，這是本文與以往明瑟方程的研究結果不同的重要原因之一，值得一提的是，樣本中既包括具有固定居所的居民，也包括大部分無固定居所的流動人口，因此該數據可以用來研究勞動力市場的城鄉分割現象。

合并之后的數據共有14000個樣本點，個人樣本僅包括從事工資性工作及自我經營者，不包括失業人員、離退休人員等，同時刪除缺失值及不確定回答，剩余有效樣本個數為10959個，分布在9個省。因變量設置為收入水平，問卷中變量為平均月收入，乘以12得到平均年收入，并且根據明瑟方程對收入取對數得到收入水平。教育水平自變量選取問卷中正規教育年限變量，扣除跳級和留級年數。性別為虛擬變量，男性為1，女性為0。

城鄉戶口為虛擬變量，城市戶口取值為1，農村戶口取值為0，其中，城市戶口樣本個數為6520，農村戶口樣本個數為4261，樣本個數之間不存在過大差距。對于9個省份，廣東省、上海市、浙江省、江蘇省屬于東部地區，安徽省、河南省、湖北省屬于中部地區，四川省、重慶市屬于西部地區。其中東部地區5592個樣本，中部地區3157個樣本，西部地區1932個樣本，由此設定東部地區、西部地區兩個虛擬變量，以中部地區作為參照組。

對于行業變量ind，以往的研究（李實等，2009）表明，不同行業之間的收入差距主要體現在壟斷行業與非壟斷行業之間，因此本文中考慮設立壟斷虛擬變量，關于壟斷行業的判斷，同樣采用李實等（2009）中的分類方法，將金融保險業、房地產業、水電石油等公共基礎行業作為壟斷行業。壟斷設為1，非壟斷設為0。

關于工作經驗變量的處理，以往研究者普遍采用的方法有兩種：第一種是用年齡減去6再減去受教育年限，第二種是直接采用當前工作的工作時間。本文中采用的是第一種方法，因為考慮到當前工作的工作時間并不能全面代表一個人的工作經歷，其中可能存在更換職位等情況；而第一種方法所計算的工作經驗基本與實際情況相符，同時可以控制出生年份對收入的影響。根據勞動年齡人口的定義，選取了16～60歲的男性及16～55歲的女性，計算出相應的工作經驗。表1為所有變量的描述統計。

表1 樣本數據的變量描述統計

3 不同模型估計結果比較

本文中用R軟件對半參數分位數回歸模型進行計算，首先取分位點0.5，得到半參數中位數回歸結果，同時給出OLS模型、分位數回歸模型結果，通過比較擬合效果，分析半參數分位數回歸的優勢所在。表2（見下頁）為半參數中位數回歸與OLS回歸、中位數回歸的結果比較。從回歸擬合程度來看，半參數分位數回歸的赤池信息量AIC最小，因此半參數分位數回歸的效果更好，這表明將工作經驗變量設為非參數部分是合理的。無論是OLS回歸還是中位數回歸，對經驗引入二次項都可以提高模型的擬合程度，并且經驗二次項系數顯著，說明明瑟對經驗的二次項設定是有其合理性的。但半參數分位數回歸將經驗放入非參數部分，能夠根據數據本身得到擬合結果，將參數與非參數的方法更好地結合在一起，因此模型擬合結果更加準確。從半參數分位數回歸系數結果來看，教育、性別、東部地區、行業變量的系數均為正且顯著，這與以往的研究結果相符，西部地區的系數為正但不顯著，說明西部地區與中部地區之間在收入中位數處的差距不大，因此，東、中、西部地區中，收入差異主要存在于東部與中西部之間。

表2 OLS、分位數回歸、半參數分位數回歸結果比較

半參數分位數回歸模型的非參數部分估計結果見表3，其中給出了非參數估計部分的光滑樣條參數lambda，懲罰項penalty，并且可以看出工作經驗的非參數部分估計結果是顯著的。

表3 半參數分位數回歸模型在0.5分位點的非參數回歸結果

圖1中給出了三種模型的工作經驗的擬合結果，比較可知，模型2與模型3在0～10年間的擬合結果大致相同，而模型1的擬合結果相對平緩，由于非參數部分回歸結果對分布的假定更少，可以根據數據本身的特點進行擬合，由此認為工作經驗與收入之間在最初10年內為三次函數關系。而在隨后的變化中，由于三次項函數形式最終走勢向上，與實際不符，而模型1與模型3大致相同，半參數分位回歸的變化更加劇烈。在40～50年間，半參數分位回歸下降慢且波動大。從以上分析可知，明瑟方程中對經驗的二次項設定在經驗積累最初階段是有偏差的，而在積累到一定程度后，經驗對收入的影響大致符合二次項形式。

同時從半參數回歸結果來看，收入的變化呈現出先增長后下降的倒U型曲線。工作經驗在0～10年間，收入隨工作經驗增加而增加，隨后工作經驗的效應基本保持不變，說明0～10年間內，工作經驗對收入有顯著正向影響，而在實際中，經驗從0上升到10的過程，也正是個人積攢工作經驗的主要起步時期，且隨著經驗增加，個人收入、職位都會得到顯著的提升。而10～50年之間工作經驗對收入并非主要影響因素，在50年及以上，工作經驗的效應迅速下降，這可能是由于工作經驗50年及以上的個體生產效率降低，使得收入傾向于下降。這與以往對收入的年齡剖面的分析結果基本一致，即在工作期頭一個十年收入急劇增長，隨后增長緩慢，而在第三四十個年份則基本保持在同一水平。

圖1 工作經驗的非參數效應估計

4 收入影響因素分析

分析半參數分位數回歸在0.1，0.25，0.5，0.75，0.9分位點的參數估計結果及非參數估計結果，見表4。從表4中可以看出，除下四分位點處的urban與中位數west系數估計值外，其余參數系數估計值均顯著。同時，非參數部分的擬合效果同樣顯著，非參數部分的設定正確。

表4 半參數分位數回歸模型在各分位點的回歸結果

4.1 教育對收入的影響

從回歸系數顯著性來看，教育對收入的影響為正且顯著，這與以往的研究是相符的，教育始終是影響收入的主要因素。從圖2中可以看出，系數隨收入組的變化呈現倒U型。以往的分析結論中，部分研究人員認為隨著收入的水平組提高，教育的影響增大（張車偉，2006），從而帶來“貧者愈貧，富者愈富”的“馬太效應”，而也有研究人員認為隨著收入的水平組提高，教育的影響減小（劉生龍，2008）。主要原因在于使用的數據不同，張車偉使用的樣本數據來自于東部發展地區的三個省份，劉生龍使用的則是城市農村混合的樣本數據，而本文中使用的數據來自于城鎮居民數據與流動人口數據，為城鎮常住居民數據，因此結果會有差異。

圖2 半參數分位數回歸模型參數部分在各分位點的系數變化圖

從表4中數據來看，在控制了行業、城鄉等重要影響因素之后，在10%低收入組，受教育程度每提高一年，收入平均增加5.7%，隨著收入水平提高，教育回報率提高，到75%收入組時，受教育程度每提高一年，收入平均增加8%，而在90%高收入組，受教育程度每提高一年，收入平均增加7.1%，比起之前有所下降。究其原因，低收入組與中高等收入組相比，工作職位性質不同，低收入組大多數從事不需專業知識和技能的純勞力工作，因此受教育程度對收入的影響較小，而中等收入組則會因本科學歷和碩士學歷的差別而有不同的工資收入待遇；從75%收入組到90%高等收入組，教育回報率下降，可能是由于90%高等收入組的高收入主要是由于家族企業等原因帶來的，因此教育并非收入的主要影響因素，故從上四分位點到0.9分位點，教育回報率會下降。但盡管如此，0.9分位點的系數值仍舊比0.1分位點的系數值大，這意味著，高收入組的教育回報率仍舊比低收入組高，具體來說，高收入組受教育程度每提高一年，教育回報率比低收入組高1.4%，因此教育擴張可能會導致城鎮常住居民收入差距進一步擴大。

4.2 城鄉二元戶籍制度對收入的影響

從表4中可以看出，城鄉變量urban的回歸系數隨收入水平的提高，由負變為正，且回歸系數在0附近時，回歸系數顯著性差。在10%低收入組中，回歸系數為-0.053且顯著，這說明在低收入組中，城鎮戶口居民的收入比農村戶口居民平均低5.3%，這一現象是值得討論的，這可能有三個方面的原因，其一是由于“民工荒”現象的存在，使得低收入崗位處于供過于求的狀態，因此不存在城鄉戶籍歧視現象；其二是由于在低收入組中城鄉戶口的分布比例可能是失衡的，大部分個體為農村戶口，因此回歸系數受到自變量分布很大影響；其三是與低收入組人群所從事的行業有關，低收入組人群大部分從事餐飲服務業等需要體力耐力的行業，而在這方面，農村戶口居民由于從小在農村長大，更具有優勢，因此收入會更高一些。在25%分位點處，城鄉變量不顯著，因此其正負也無太大意義。但從50%分位點到90%分位點，城鄉變量的系數為正且顯著，這說明在中高收入組，城鎮戶口相對農村戶口更具有優勢，這正體現了城鄉戶籍分割效應。同時，隨著收入組的提高，回歸系數逐漸變大，這說明，收入越高，城市戶口的優勢越明顯。相比于“民工荒”現象，高收入職位供不應求，競爭激烈，因此用人單位處于主導地位，在這種情況下，戶籍歧視現象就會凸顯，表現為隨著收入組的提高，城鄉戶籍分割的現象愈加嚴重。

4.3 中西部地區收入差異

從回歸系數來看，其值均為正且除0.5分位點外均顯著，這說明西部地區平均收入要高于中部地區，且回歸系數隨分位數的分布呈現倒U型。地區收入差距的影響因素包括地理位置、歷史背景、產業結構、人力資本等，根據以往的研究（張文武等，2011）表明，隨著國家大力提倡西部大開發的戰略，西部地區的資本存量穩步提升，且人力資本聚集度雖有下降但速度緩慢，個別省份有所提升，另一方面，中部地區毗鄰東部地區，造成大量的人才流失，加快了人力資本聚集度下降速度，因此可以從此方面解釋西部地區平均收入為何高于中部地區。當然，不可忽視的一點在于，本文中所選取的西部地區僅有四川、重慶兩個省市，并未包括新疆、西藏、青海等較為落后的地區，這也在一定程度上影響了西部地區與中部地區的平均收入差距。

4.4 中東部地區收入差異

與中西部地區類似，east變量回歸系數均為正且均顯著，同時，隨著收入組的提高，回歸系數變化呈現倒U型。長期以來的統計數據表明，東部地區經濟發展水平遠高于中西部地區，無論是從經濟開放程度，產業結構還是人力資本方面，東部地區都具有極大的優勢，因此東部地區平均收入遠高于中部地區。在10%低收入組，東部地區平均收入比中部地區高40%，在90%高收入組，東部地區平均收入比中部地區高45.5%，低收入組與高收入組的收入差距相差不大，這說明東部地區與中部地區的收入分布集中程度大體相同，兩者相比只存在位置上的移動，東部地區的收入整體上均比中部地區高。

4.5 性別、行業對收入的影響

本文對性別的分析中，系數均為正且顯著，說明女性平均收入水平低這一現象仍普遍存在，男性平均工資水平比女性高20%左右。同時，隨著收入的提高，這一差距呈波動變化，無明顯趨勢。行業變量系數均顯著，分位點系數變化呈現倒U型，說明低、高等收入組壟斷行業收入顯著高于非壟斷行業。

圖3 半參數分位數回歸模型在各分位點的非參數效應

從非參數部分的分析結果來看，各分位點非參數效應均顯著，非參數部分的設定合理。從圖3中可以看出，各分位點的變化趨勢是一樣的。隨收入組的提高，整體效應值增大。在0～10年間，高收入組的效應變化幅度更大且持續時間更長。即離散性隨著收入組的提高而提高，這正體現了經驗對收入影響的“馬太效應”。同時，低收入組在較晚的年間效應值迅速下降，高收入組并未呈現出下降趨勢。這其中的原因可能有以下幾方面：（1）高收入組職業往往對技術水平要求更高，更加復雜，因此生產效率的提高會更加顯著且持久。（2）低收入組主要從事體力型工作，經驗的積累對收入影響較小，并且隨著年齡的增長，由于體力下降從而導致經驗的效應值迅速下降。（3）高收入組所在部門更可能為家族企業部門，因此高齡并不會對收入產生負面影響。經驗對收入的這種效應將會對農民工就業有更大的阻礙，增大提高收入的難度。

5 結論及政策建議

本文在明瑟方程的基礎上，利用半參數分位數回歸模型對城鎮居民收入進行分析。主要結論如下：（1）半參數分位數回歸在模型擬合方面比OLS、分位數回歸更好，且經驗在0～10年內與收入之間呈三次關系，而在之后的年份中兩者之間呈現二次關系。（2）高收入組教育回報率高于低收入組，變化范圍在6%～8%。（3）經驗回報率在高收入組的提高更加顯著且持續時間更長，低收入組在高齡期經驗效應迅速下降。（4）城鄉戶籍收入差距隨收入組的提高而增大。（5）東部地區收入水平明顯高于西部地區。

從本文的研究結論來看，人力資本教育、經驗均呈現出“馬太效應”，因此對于東部高收入地區，市場將會導向人才由中西部地區向東部地區一線城市流動，造成貧困地區愈加貧困，城鎮、二線城市人才流失嚴重。在倡導城鄉一體化發展的背景下，這種不合理的人力資本分配現象將會導致收入差距進一步擴大，阻礙新型城鎮化進程。同時，由于城鄉戶籍分割現象隨收入組增加而提高，導致流動人口（主要為農村人口）在城市就業面臨更大的困難，收入難以提高，市民化問題難以解決。因此，為促進新型城鎮化的發展，政府應對人力資本流動進行干預，加大對城鎮、二三線城市的人力資本投入，只有當貧困地區的人力資本素質得到提高，從而提高貧困地區的收入水平，才能從長遠的角度減小收入差距。具體來說，第一，應加大政府在教育方面的投資比例，確保義務教育的普及，提高教學質量與規模。第二，應鼓勵人才向貧困地區流動，以優惠的政策吸引高素質人才，同時減少其人才流失。

[1]Koenker R，Bassett G.Regression Quantiles[J].Econometrica，1978，(46).

[2]Koenker R，Portnoy S.Quantile Smoothing Splines[J].Biometrika， 1994，(81).

[3]Koenker R，Portnoy S.The Gaussian Hare and the Laplacean Tor?toise:Computability of Squared-error vs Absolute Error Estimators， (With Discussion)[J].Statistical Science，1997，(12).

[4]Sun Y，Stengos T.The Absolute Health Income Hypothesis Revisited: A Semiparametric Quantile Regression Approach[J].Empir Econ， 2008，(35).

[5]萬海遠，李實.戶籍歧視對城鄉收入差距的影響[J].經濟研究，2013，（9）.

[6]余向華，陳雪娟.中國勞動力市場的戶籍分割效應及其變遷——工資差異與機會差異雙重視角下的實證研究[J].經濟研究，2012，（12）.

[7]張文武，梁琦.勞動地理集中、產業空間與地區收入差距[J].經濟學，2011，（2）.

[8]張占斌.新型城鎮化的戰略意義[J].國家行政學院學報，2013，（1）.

（責任編輯/浩天）

C812

1002-6487（2016）21-0091-05

楊斯琪（1994—），女，山西臨汾人，碩士研究生，研究方向：人力資本、收入分配。

趙彥云（1957—），男，天津武清人，教授，博士生導師，研究方向:宏觀經濟統計分析、投入產出分析。