楊雙雙 王 亮 李興平
(云南師范大學(xué)數(shù)學(xué)學(xué)院,云南 昆明 650500)
人口問(wèn)題是國(guó)家的全局性、長(zhǎng)期性、戰(zhàn)略性問(wèn)題,關(guān)乎民生大計(jì)、發(fā)展大局以及國(guó)家和民族前途命運(yùn)。近年來(lái)我國(guó)人口出生率持續(xù)下降,人口增長(zhǎng)數(shù)量不斷減少,出現(xiàn)人口負(fù)增長(zhǎng)。國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2020 年我國(guó)人口出生率為8.52‰,人口自然增長(zhǎng)率為1.45‰,人口凈增長(zhǎng)204 萬(wàn)人;2021 年人口出生率下降到7.52‰,人口自然增長(zhǎng)率下降到0.34‰,人口凈增長(zhǎng)48 萬(wàn)人,有11 個(gè)省(區(qū)、市)的人口出現(xiàn)了負(fù)增長(zhǎng);2022 年人口出生率降到6.77‰,人口自然增長(zhǎng)率降到-0.60‰,人口凈增長(zhǎng)-85 萬(wàn)人。人口長(zhǎng)期負(fù)增長(zhǎng)會(huì)造成內(nèi)需不足、經(jīng)濟(jì)增長(zhǎng)乏力、社會(huì)老齡化等一系列問(wèn)題,給經(jīng)濟(jì)社會(huì)發(fā)展帶來(lái)很多危害。因此,亟須對(duì)引發(fā)人口增長(zhǎng)持續(xù)下降的因素進(jìn)行全面、系統(tǒng)挖掘,在此基礎(chǔ)上對(duì)人口增長(zhǎng)進(jìn)行合理規(guī)劃。
影響人口增長(zhǎng)的因素眾多,各因素之間關(guān)系錯(cuò)綜復(fù)雜。隨著信息技術(shù)的快速發(fā)展,數(shù)據(jù)的采集、存儲(chǔ)和處理能力不斷提高,影響人口增長(zhǎng)的因素?cái)?shù)據(jù)呈現(xiàn)“高維小樣本”特性。當(dāng)從高維小樣本變量數(shù)據(jù)中選擇出分辨力較好的變量時(shí),普通變量選擇方法需消耗高昂的時(shí)間成本,有時(shí)其結(jié)果并不佳,而高維變量選擇方法可以快速?gòu)暮A繑?shù)據(jù)中選擇出分辨力較好的變量。
現(xiàn)階段采用高維變量選擇挖掘人口增長(zhǎng)影響因素的文獻(xiàn)較少,運(yùn)用相關(guān)性分析、因果檢驗(yàn)、正則化方法和灰色關(guān)聯(lián)分析方法等對(duì)我國(guó)人口增長(zhǎng)影響因素進(jìn)行分析的相對(duì)較多。沈巍和武鑫(2013)[1]選擇人口、經(jīng)濟(jì)、消費(fèi)、就業(yè)、教育、收入、通信7 類指標(biāo)共53 個(gè)因素,用相關(guān)性檢驗(yàn)和格蘭杰因果檢驗(yàn),挖掘出教育、經(jīng)濟(jì)、人口是影響北京市人口增長(zhǎng)的主要因素。劉麗萍(2018)[2]選擇經(jīng)濟(jì)、人口層面下的7 個(gè)變量,用LASSO分析得出GDP、人均薪酬和少兒撫養(yǎng)比與出生率正相關(guān)的結(jié)論。張夏雨(2021)[3]選取經(jīng)濟(jì)、社會(huì)、人口層面下的16 個(gè)變量,用LASSO、MCP、SCAD、自適應(yīng)LASSO分析,發(fā)現(xiàn)教育、撫養(yǎng)負(fù)擔(dān)和婚姻對(duì)出生率影響較大。李華炯和尹喆軒等(2022)[4]通過(guò)灰色關(guān)聯(lián)分析,從86個(gè)因素中選出43 個(gè)與出生率強(qiáng)相關(guān)的因素,采用回歸分析法,得出養(yǎng)老保險(xiǎn)、儲(chǔ)蓄率、性別比等因素對(duì)出生率影響較大的結(jié)論。郭良箴(2022)[5]選取經(jīng)濟(jì)、社會(huì)維度下與出生率相關(guān)的因素,建立線性回歸模型,得出GDP、人均支配收入與湖北省人口出生率正相關(guān)的結(jié)論。
只采用一種或一個(gè)系列的高維變量選擇方法對(duì)人口增長(zhǎng)的影響因素進(jìn)行研究,不能合理評(píng)估各方法的變量選擇效果。因此,本文首先運(yùn)用多種高維變量選擇方法對(duì)我國(guó)人口增長(zhǎng)影響因素進(jìn)行系統(tǒng)、全面挖掘,接著對(duì)挖掘出的重要影響因素進(jìn)行定量分析,得到最終的變量選擇結(jié)果,對(duì)改善當(dāng)前嚴(yán)峻的生育形勢(shì)具有重要的現(xiàn)實(shí)意義,對(duì)今后選擇合適的高維變量方案以及解決類似問(wèn)題,具有借鑒意義。
當(dāng)高維數(shù)據(jù)的自變量相關(guān)性較高時(shí),會(huì)導(dǎo)致難以抓住重點(diǎn)、費(fèi)時(shí)費(fèi)力,還可能造成后續(xù)建模過(guò)擬合等問(wèn)題。因此,對(duì)于高維數(shù)據(jù),通常需要對(duì)數(shù)據(jù)進(jìn)行處理,篩選出重要且獨(dú)立性好的自變量[6]?;诖?,對(duì)我國(guó)人口增長(zhǎng)具有重要影響的因素,應(yīng)該是獨(dú)立性較好且具有顯著重要性。
本文變量選擇的主要思路是將高維人口增長(zhǎng)影響因素降至低維人口增長(zhǎng)影響因素,并使用線性回歸模型定量分析低維人口增長(zhǎng)影響因素,得到最終變量選擇結(jié)果。其分析步驟為:首先,運(yùn)用Pearson 相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)、距離相關(guān)系數(shù)、灰色關(guān)聯(lián)度、最小深度、根節(jié)點(diǎn)的分裂頻次、置換重要性、節(jié)點(diǎn)純度增加的重要性、嶺回歸、LASSO、彈性網(wǎng)絡(luò)回歸、ALASSO、SCAD、MCP 和集成方法對(duì)人口增長(zhǎng)影響因素進(jìn)行重要性排序。其次,選取各方法下重要性較大的變量過(guò)濾掉冗余變量。再次,將各方法選出的變量輸入主流機(jī)器學(xué)習(xí)模型KNN、RF、SVR 和MLP 中,依據(jù)回歸模型性能指標(biāo)的平均值,綜合評(píng)估各方法的變量選擇效果,形成幾種較優(yōu)的變量選擇方案。最后,用每種變量選擇方案下選出的變量建立多元線性回歸模型,挑選性能較好的模型做預(yù)測(cè)分析。
1.樣本區(qū)間
研究影響我國(guó)人口增長(zhǎng)的因素時(shí),選取2010—2020 年全國(guó)人口的相關(guān)數(shù)據(jù)。數(shù)據(jù)主要來(lái)源于2010—2020 年的《中國(guó)統(tǒng)計(jì)年鑒》,以及2010 年第六次全國(guó)人口普查和2020 年第七次全國(guó)人口普查。
2.變量選取
(1)因變量
數(shù)據(jù)顯示,2010—2020 年我國(guó)人口死亡率在7.04‰ —7.14‰ 之間,保持在相對(duì)平穩(wěn)的水平。一個(gè)國(guó)家或地區(qū)的人口自然增長(zhǎng)率等于人口出生率減去人口死亡率。當(dāng)人口死亡率相對(duì)平穩(wěn)時(shí),人口自然增長(zhǎng)率和人口出生率的趨勢(shì)線非常相似,幾乎平行,因此研究影響我國(guó)人口增長(zhǎng)的因素時(shí),選用人口出生率和人口自然增長(zhǎng)率作為因變量,效果相差不大。鑒于現(xiàn)在“低生育”話題較熱,本文選擇人口出生率(Y)作為因變量,來(lái)衡量我國(guó)的人口增長(zhǎng)和出生情況。
(2)自變量
影響我國(guó)人口增長(zhǎng)的因素錯(cuò)綜復(fù)雜,人口增長(zhǎng)與政治、經(jīng)濟(jì)、文化、社會(huì)、生態(tài)和人口自身等方面息息相關(guān)。通過(guò)查閱相關(guān)文獻(xiàn),參考變量一級(jí)、二級(jí)、三級(jí)指標(biāo)的歸類,結(jié)合數(shù)據(jù)的可獲取性、代表性和簡(jiǎn)潔性等原則,從政治、經(jīng)濟(jì)、文化、社會(huì)、生態(tài)和人口自身等層面分別展開變量選取,并依次命名為Xi(i=1,2,…,92),具體指標(biāo)選取見表1。
1.變量重要性排序
分別使用Pearson 相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)、距離相關(guān)系數(shù)、灰色關(guān)聯(lián)度、最小深度、根節(jié)點(diǎn)的分裂頻次、置換重要性、節(jié)點(diǎn)純度增加的重要性、嶺回歸、LASSO、彈性網(wǎng)絡(luò)、自適應(yīng)LASSO、SCAD 和MCP 等方法,對(duì)92 個(gè)自變量,按與因變量的重要性進(jìn)行排序,得出各方法排名前20 的變量。
由于最小深度、根節(jié)點(diǎn)的分裂頻次、LASSO、彈性網(wǎng)絡(luò)、自適應(yīng)LASSO、SCAD 和MCP 選出的變量有限,因此只用置換重要性、節(jié)點(diǎn)純度增加的重要性、Pearson相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)、距離相關(guān)系數(shù)、灰色關(guān)聯(lián)度、嶺回歸構(gòu)建的集成式變量選擇方法,同樣得到排名前20 的變量。
2.冗余變量過(guò)濾
對(duì)各方法下排名前20 的變量進(jìn)行冗余變量過(guò)濾,各方法剩余的10 個(gè)自變量見表2。

表2 各變量選擇方法選出的10 個(gè)變量
3.變量選擇方法對(duì)比
分別將各方法下選出的10 個(gè)自變量與因變量送入機(jī)器學(xué)習(xí)回歸模型KNN、RF、SVR 和MLP 中,根據(jù)4 個(gè)回歸模型預(yù)測(cè)性能指標(biāo)的平均值綜合評(píng)估各方法的變量選擇效果。
從表3 可以發(fā)現(xiàn),以MAE 指標(biāo)來(lái)說(shuō),節(jié)點(diǎn)純度增加的重要性變量選擇效果最好;從MSE、RMSE 和R2指標(biāo)來(lái)說(shuō),置換重要性的變量選擇效果較好;從MAPE指標(biāo)來(lái)說(shuō),集成方法的變量選擇效果較好;綜合說(shuō),置換重要性、節(jié)點(diǎn)純度增加的重要性、集成方法、距離相關(guān)系數(shù)的變量選擇效果較好。

表3 各方法的變量選擇效果綜合排名
1.幾種較優(yōu)的變量選擇方案
由上可知置換重要性、節(jié)點(diǎn)純度增加的重要性、距離相關(guān)系數(shù)和集成方法的變量選擇效果較好,用其構(gòu)建出15 種變量選擇方案,具體見表4。

表4 幾種較優(yōu)變量選擇方案下選出的變量

表5 最優(yōu)模型結(jié)果
15 種較優(yōu)的變量選擇方案中有5 種方案選出變量為X90、X46和X33,即結(jié)婚登記數(shù)、就業(yè)人員數(shù),以及甲、乙類法定報(bào)告?zhèn)魅静∷劳雎蕦?duì)我國(guó)人口增長(zhǎng)影響較大;從其所屬的二級(jí)指標(biāo)看,婚姻情況、就業(yè)水平和醫(yī)療水平對(duì)我國(guó)人口增長(zhǎng)影響較大;從其所屬的一級(jí)指標(biāo)看,人口因素、社會(huì)因素(頻數(shù)為2)對(duì)我國(guó)人口增長(zhǎng)影響較大,其中社會(huì)因素對(duì)我國(guó)人口增長(zhǎng)的影響最大。
2.最優(yōu)的定量預(yù)測(cè)模型
(1)統(tǒng)計(jì)意義檢驗(yàn)
將15 種較優(yōu)變量選擇方案下的變量輸入回歸方程中,并進(jìn)行逐步回歸,發(fā)現(xiàn)有9 種方案都顯示只有變量時(shí),模型和回歸系數(shù)的顯著性較好,因此得到統(tǒng)計(jì)意義上的“最優(yōu)”回歸方程為:
最優(yōu)回歸結(jié)果顯示,殘差與標(biāo)準(zhǔn)化預(yù)測(cè)值序列的相關(guān)圖中各相關(guān)點(diǎn)的分布沒有呈現(xiàn)出明顯的規(guī)律性,說(shuō)明不存在異方差現(xiàn)象;標(biāo)準(zhǔn)化殘差的直方圖顯示殘差服從正態(tài)分布,說(shuō)明模型滿足高斯假設(shè)。
(2)理論意義檢驗(yàn)
對(duì)因變量和自變量進(jìn)行單位根檢驗(yàn),發(fā)現(xiàn)因變量序列為2 階單整序列,自變量序列為0 階單整序列,二者之間具有協(xié)整關(guān)系(回歸殘差序列屬于無(wú)常數(shù)均值和無(wú)趨勢(shì)的1 階自相關(guān)平穩(wěn)序列,ADF 檢驗(yàn)中P 值=0.01205)。因此統(tǒng)計(jì)意義上的“最優(yōu)”回歸方程可以擬合其長(zhǎng)期的均衡關(guān)系。
為了解釋序列之間的短期波動(dòng)關(guān)系,建立誤差修正模型如下:
其回歸模型和回歸系數(shù)都比較顯著。從回歸系數(shù)看,每增加1 單位的全國(guó)就業(yè)人員數(shù),會(huì)增加0.004165單位的人口出生率;上期誤差對(duì)人口出生率當(dāng)期波動(dòng)影響較大,單位調(diào)整比例為-1.290789。
3.最優(yōu)定量模型的預(yù)測(cè)結(jié)果
2021 年全國(guó)人口出生率為7.52‰ ,用模型預(yù)測(cè)的2021 年全國(guó)人口出生率為7.01‰ ,預(yù)測(cè)誤差率為6.78%,預(yù)測(cè)值曲線和真實(shí)值的擬合效果較好。
1. 置換重要性和距離相關(guān)系數(shù)的變量選擇效果較好
通過(guò)實(shí)證分析,發(fā)現(xiàn)置換重要性、節(jié)點(diǎn)純度增加的重要性、距離相關(guān)系數(shù)、集成方法的變量選擇效果均較好。但集成方法計(jì)算量大,節(jié)點(diǎn)純度增加的重要性對(duì)離散特征存在偏向性,且重要性分析結(jié)果與特征變量的選擇順序有關(guān)。因此,做變量選擇時(shí)首選置換重要性和距離相關(guān)系數(shù)。
隨機(jī)森林對(duì)異常值與噪音也有很好的容忍度,穩(wěn)健性較強(qiáng),不易出現(xiàn)過(guò)擬合,對(duì)特征變量選擇也有很好的適用性?;陔S機(jī)森林變量重要性測(cè)度指標(biāo)中的置換重要性可直接度量每個(gè)特征變量對(duì)模型精確率的影響程度,不存在偏向問(wèn)題。
距離相關(guān)系數(shù)距離協(xié)方差的構(gòu)造方式,使其在揭示兩變量間相關(guān)關(guān)系時(shí)有著獨(dú)特的優(yōu)越性。一是可以直接計(jì)算兩個(gè)不同維度變量之間的距離相關(guān)系數(shù);二是只要距離相關(guān)系數(shù)為0,即說(shuō)明被檢驗(yàn)的兩個(gè)變量之間相互獨(dú)立。
2. 就業(yè)問(wèn)題是導(dǎo)致我國(guó)人口出生率下降的核心因素
國(guó)內(nèi)外有關(guān)人口增長(zhǎng)影響因素方面的研究文獻(xiàn),共性是認(rèn)為教育、就業(yè)等是影響人口增長(zhǎng)主要的因素。本文搜集了政治、經(jīng)濟(jì)、文化、社會(huì)、生態(tài)和人口層面下可能影響我國(guó)人口增長(zhǎng)的92 個(gè)因素,運(yùn)用多種高維變量選擇方法將變量維數(shù)降到低維,發(fā)現(xiàn)婚姻、醫(yī)療、就業(yè)是影響人口增長(zhǎng)的主要因素,進(jìn)一步實(shí)證分析發(fā)現(xiàn)就業(yè)是影響我國(guó)人口增長(zhǎng)的核心因素。
原因可能在于人類能主動(dòng)勞動(dòng)創(chuàng)造,并已形成了相對(duì)完備的社會(huì)消費(fèi)財(cái)富配給體系,現(xiàn)代社會(huì)一切生存競(jìng)爭(zhēng)幾乎都是圍繞主動(dòng)勞動(dòng)創(chuàng)造的工作崗位展開。當(dāng)供人類主動(dòng)勞動(dòng)創(chuàng)造的工作崗位增加時(shí),人類社會(huì)的總?cè)丝诰蜁?huì)增長(zhǎng);反之,總?cè)丝诰蜁?huì)減少。
1.穩(wěn)住就業(yè)崗位,擴(kuò)大就業(yè)容量
幫助企業(yè)紓困解難。近幾年,經(jīng)濟(jì)下行壓力持續(xù)增大,很多企業(yè)為了生存,采取縮招、降薪、裁員等措施,導(dǎo)致就業(yè)崗位縮減。就業(yè)是最大的民生,也是發(fā)展最大的保障,因此政府部門需千方百計(jì)穩(wěn)住就業(yè)崗位,可通過(guò)稅費(fèi)減免、優(yōu)惠貸款等措施幫助企業(yè)渡過(guò)難關(guān)。積極開發(fā)服務(wù)業(yè)、公益性就業(yè)崗位。隨著經(jīng)濟(jì)轉(zhuǎn)型升級(jí),第三產(chǎn)業(yè)的就業(yè)崗位呈增多趨勢(shì),政府部門應(yīng)大力支持新興服務(wù)業(yè)的發(fā)展,充分發(fā)揮服務(wù)業(yè)的就業(yè)吸納作用。同時(shí),可以通過(guò)政府出資、社會(huì)扶持等方式,在政府部門、高校等設(shè)立公益性崗位,就業(yè)困難人員。
2.開展技能培訓(xùn),調(diào)整人才供應(yīng)
積極開展職業(yè)技能培訓(xùn)。政府部門可以依托社區(qū)聯(lián)合招聘單位開展職業(yè)技能培訓(xùn),提升轄區(qū)內(nèi)居民的就業(yè)能力;也可以依托高校聯(lián)合招聘單位開展專業(yè)技能培訓(xùn),提升畢業(yè)生的專業(yè)素養(yǎng)。瞄準(zhǔn)市場(chǎng)走勢(shì),做好人才儲(chǔ)備。人才培養(yǎng)是為了適應(yīng)市場(chǎng)需求,但人才培養(yǎng)需要時(shí)間,而市場(chǎng)需求卻在不斷變化,因此政府部門需要提前做好市場(chǎng)分析調(diào)研,找準(zhǔn)未來(lái)市場(chǎng)需求,做好人才儲(chǔ)備,保障人才供應(yīng)。
3.了解求職意向,精準(zhǔn)幫扶就業(yè)
根據(jù)求職意向推送招聘信息。政府部門可依托社區(qū)了解轄區(qū)內(nèi)未就業(yè)人員的就業(yè)意向,針對(duì)性地推送真實(shí)可靠的招聘信息;也可依托高校了解畢業(yè)生的就業(yè)意向,針對(duì)性地開展就業(yè)服務(wù)。實(shí)施專人負(fù)責(zé),精準(zhǔn)幫扶就業(yè)。政府部門可依據(jù)未就業(yè)人員的具體情況,針對(duì)性地安排就業(yè)導(dǎo)師開展就業(yè)宣講,組織技能培訓(xùn),助力多渠道就業(yè)。