基于LASSO 變量選擇方法的人口數量模型構建

2020-06-01 03:28:36麥繼芳趙海清

韶關學院學報 2020年3期

麥繼芳，劉惠，趙海清

（嶺南師范學院數學與統計學院，廣東湛江 524048）

人口是反映一個國家或地區的國情、國力、社會狀況等基本情況的一個重要指標，合理準確的對人口進行預測，把握人口結構信息，對研究未來經濟發展規劃、人口發展規劃、推進城市化進程，維持可持續發展至關重要［1］.人口問題是制約我國經濟發展的關鍵因素.為更好地推動我國經濟發展，促進我國經濟結構調整，需及時掌握人口數量規模和人口結構等信息，才能更好地統籌人口、社會、環境、資源和經濟的協同發展.人口普查是了解人口信息的一種方式，人口普查每10 年進行一次，尾數逢0 的年份為普查年度［2］. 隨著經濟、醫療、科學技術等快速發展，人口數量信息變化較大，10 年一次人口普查的數據在后期逐漸失去參考價值，而人口普查需要消耗大量的人力物力等資源，縮短普查年限顯得不切實際.顯然，及時了解人口數量情況，掌握人口數量信息，對制定科學有效的經濟決策具有重要意義.因此，若利用現有的行政記錄信息等所獲取的數據就能預測人口數量規模，這將為社會經濟發展帶來極大的推力.

人口數量受很多復雜因素的影響.郝斌巧等指出，人口數量變化受育齡婦女人數、人口政策、醫療水平等因素的影響［1］.坎南等學者提出，經濟發展、勞動力與人口數量之間存在一個均衡點［3］.這說明了人口數量與經濟、勞動力、醫療水平、政策等因素之間存在一定的關系.參考已有的研究成果和結合實際情況，本文挑選就業人數、醫療衛生機構數等因素，結合使用LASSO 變量選擇方法挑選變量，并使用部分線性可加模型構建人口數量模型.

1 數據來源與變量定義

本文數據來源于國家統計局網站，選取2002 年至2017 廣東、山東、浙江、湖南、四川5 個省的數據.由于“就業人數”屬于勞動力指標；“地區生產總值指數”“居民教育類消費價格指數”“住宅商品房平均銷售價格”和“其他商品房平均銷售價格”屬于經濟指標；“醫療衛生機構數”體現了社會醫療的完善程度，因此，依據參考文獻［1］和［3］所提出的觀點：勞動力、醫療水平、經濟發展與人口數量存在一定關系.本文初步挑選“地區生產總值指數”“住宅商品房平均銷售價格”“其他商品房平均銷售價格”“普通高中畢業生數”“就業人數”“居民教育類消費價格指數”“醫療衛生機構數”作為人口數量的影響因素.根據現實意義可知，人口結構比重也是影響人口數量的重要因素，因此，本文也將“少年兒童撫養比”和“老年人口撫養比”考慮為人口數量的影響因素.

選取5 個省的人口數量為因變量，自變量總共9 個，分別為：地區生產總值指數（x1）、住宅商品房平均銷售價格（x2）、其他商品房平均銷售價格（x3）、普通高中畢業生數（x4）、就業人口數量（x5）、居民教育類消費價格指數（x6）、醫療衛生機構數（x7）、少年兒童撫養比（x8）、老年人口撫養比（x9）.針對缺失數據，本文使用核估計求取均值來替代缺失值，對人口數量取對數變換處理，即y=loge（人口數量），其目的是減少量綱的影響.

2 變量選擇

1996 年Robert Tibshirani 提出了一種新型的變量選擇方法［4］，即Least Absolute Shrinkage and Selection Operator（LASSO）.與其他變量選擇方法比較，LASSO 方法能夠較準確地選擇出重要變量，同時還具備變量選擇的穩定性.LASSO 方法能夠同時進行變量選擇和參數估計，此外，還可以適度壓縮參數［5］.

設yi和xi=（xi1，…，xip）分別是被解釋變量和解釋變量的觀測值，同時假設yi與xij相互獨立，且xij已被標準化.則定義LASSO 方法的估計量為：

其中，式子（2）中的前半部分表示模型的擬合度，后半部分表示參數的懲罰限制項.調和系數γ ≥ 0，當γ越小，表示該系數對模型的懲罰限制力度越小，被壓縮為零的變量系數數目越少；相反地，當γ 越大，表示該系數對模型的懲罰限制力度越大，被保留下來的變量數目就越少.

這里，嘗試使用LASSO 變量選擇和逐步回歸的方法挑選變量，使用LASSO 變量選擇得到變量選擇結果見圖1.由圖1 可依次挑選出自變量x5，x4，x1，x7，x8.使用逐步歸回分析方法可剔除掉變量x2，x4，x8，x9，剩余變量x1，x3，x5，x6，x7.

圖1 LASSO 變量選擇

3 簡單線性回歸模型構建

設隨機變量y 與x1，x2，…，xp一般變量線性回歸模型為：

模型中y 為被解釋變量，而x1，x2，…，xp是p 個解釋變量.被解釋變量y 由兩部分決定：一部分是誤差項隨機變量ε，另一部分是p 個自變量的線性函數β0+β1x1+β2x2+…+βpxp.其中，β0稱為回歸常數，β1，β2，…，βp稱為偏回歸系數，ε 是隨機誤差，隨機誤差項滿足ε～N（0，1）.

分別對LASSO 方法挑選出的自變量和逐步回歸方法所選的自變量與因變量建立簡單線性回歸模型，分別稱為模型一和模型二，得到擬合結果如表1 所示.由表1 可知，模型一和模型二的調整R2都較小，整體模型的F 值都較小，P 值較大，顯然，兩個模型都沒有通過顯著性檢驗.

表1 簡單線性回歸模型結果

4 部分線性可加模型的構建

Hastie T 和Tibshirani R 提出廣義可加模型［6］.廣義可加模型綜合了可加模型和線性模型的特點，不要求因變量與自變量滿足線性關系，適用于非線性關系方面的研究.部分線性可加模型實際上是廣義可加模型和線性模型的結合，屬于半參數模型，該模型是由Engel 等人提出來的［12］.其表達形式為：

其中，X（t），Y ∈（Ω，B，P），Y 為該概率空間上的隨機變量，E［X（t）］=0，且有α（t）平方可積斜率函數（α（t）∈τ），Z=（z1，…，zq）為q 維隨機向量，為非參數可加函數［7］. ε 為隨機誤差，滿足E（ε|X，Z）=0.

常見的非參數函數估計方法有樣條估計和局部多項式估計等非參數估計方法.樣條估計方法是對目標函數進行全局逼近，能達到很好的效果［8］.具體地，定義X（t）的協方差函數及其經驗協方差函數分別為：

由Mecer 定理，C（t，s）和（t，s）具有譜分解形式，即：

其中γ1＞γ2＞…＞0 和γ^1≥γ^2≥…≥γ^n+1=0 分別為C（t，s）和（t，s）的特征值.{vk}和{v^k}分別為對應的標準正交基.根據Karhunen-Loéve 定理可知：

其中Uk=∫01X（t）vk（t）dt，Wk=∫01α（t）vl（t）dt，且滿足E（Uk）=0，Var（Uk）=γk. 又因為{vk} 正交，故其中m=m（n）是截斷參數.

分別對LASSO 方法挑選出的自變量和逐步回歸方法所選的自變量與因變量建立部分線性可加模型，分別稱為模型三和模型四.使用統計軟件R 語言實現計算，所得結果分別如表2 和表3 所示.從調整R2來看，R12=0.928＞R22=0.708，模型三的擬合效果相較模型四更佳；從模型的解釋能力來看，91.9%＞72.9%，顯然，模型三的解釋能力更好；故選擇模型三為本文最優模型.在顯著性水平為0.05 時，模型三的線性部分僅有變量普通高中畢業生數（x4）顯著；非參數部分顯著的變量是：就業人數（x5）、醫療衛生機構數（x7）.因此，最終可得人口數最優化模型為：

表2 線性部分模型回歸結果

表3 非線性部分模型的回歸結果

圖2 為模型三的置信帶圖形.由圖2 可知，非參數部分中就業人數（x5）呈先加速上升后減速上升的趨勢，醫療衛生機構數（x7）總體上呈現先緩慢增長后逐漸持平的趨勢；此外，這兩個變量的置信帶相對較窄，說明樣本點基本分布在擬合曲線附近，故也反映出模型擬合結果較理想.

圖2 非參數部分相應函數的擬合及其置信帶

為驗證模型的準確性，利用該模型擬合出2018 年的人口數量，并將2018 年人口數量擬合值設為自變量，2018 年的人口數量真實數據設為因變量，使用線性回歸模型進行擬合分析，結果如表4 所示.由表4 可知，該線性回歸模型的調整R2=0.992；F= 515.61；P=1.871×10-4，表明該模型擬合效果很好，2018 年的真實人口數量與2018 年擬合人口數量幾乎是呈線性關系，且真實人口數量基本可由擬合人口數量表達.

表4 擬合值與真實值線性回歸結果

5 結語

由部分線性可加模型分析結果可知，人口數量主要受普通高中畢業生數、就業人數和醫療衛生機構數幾個因素的影響.普通高中畢業生數與人口數量呈線性正相關關系；就業人數和醫療衛生機構數與人口數量呈非線性非參數關系，就業人數呈先加速上升后減速上升的情形，醫療衛生機構數總體上呈現下降的趨勢.實際上，一開始，隨著人口的增長，普通高中生人數也隨之不斷增加；而就業人數一開始隨著人口數量增長急加速增長，到后面隨著大城市勞動力需求量的逐漸飽和，就業人員增長速度也逐漸減慢；醫療機構數總體上隨著人口增長，數量有所上升，但上升的速度緩慢，直至后面逐漸飽和.顯然，本文的研究結果與實際情況基本吻合，這證明了部分線性可加模型適用于擬合人口數量模型.本研究結論為相關管理部門快速估算出人口數量提供一種簡易方法，有利于及時做好相關政策調整、更好調控人口數量、推動人口均衡和可持續發展.