李 翼,李 曉
(淮北師范大學 1.數學科學學院;2.計算機科學學院,安徽 淮北 235000)
人口生育政策一直與國家經濟發展、民生建設、人才儲蓄、社會變遷等方面息息相關。我國人口生育政策經歷六個階段:鼓勵生育階段、節制生育階段、計劃生育思想復蘇階段、計劃生育落實與發展階段、計劃生育政策改進階段、二胎政策的實行階段[1-5]。就全球范圍來看,理想子女數減少是現代化社會普遍產生的一種趨勢,人們生育二胎的意愿較低[6-9]。目前我國人口結構失衡,帶來了諸如人口老齡化、性別比失衡、人與自然矛盾、勞動力人口結構性短缺等問題。因此黨中央從2013年起開始對我國的二胎政策適當放寬,2016年全面施行二胎政策。然而,全面二胎政策并沒有完全解決我國目前存在的問題,為此,許多專家對全面二胎政策未取得理想效果進行了系統分析,試圖找到一條更加適合國情的道路。
為得到影響“小家”生育意愿的關鍵因素,進而為人口學專家提供現實基本材料與合理化建議,本文以安徽省新晉文明城市——淮北市為例,通過問卷調查的方式收集數據,綜合考慮個人基本信息、主觀意愿、客觀條件方面等情況,建立不同模型,經過“初篩—精篩—細篩”等環節挖掘二胎影響因素并對其進行詳細分析。首先經過卡方檢驗,剔除了部分自變量指標作為初步篩選,并分析篩選結果;建立二元Logistic回歸模型,通過模型結果的顯著性大小的篩選剩下的自變量;考慮到Logistic回歸模型容易過擬合且針對非線性問題的局限性,基于caret框架,通過trControl定義函數運行參數,對抽樣重復交叉驗證,以避免被檢驗樣本的數據趨向不平衡,進一步建立SVM-RFE模型求解各特征的重要性,并對特征按照重要性進行排序,更有針對性的提出政策建議。
二元邏輯回歸是因變量為二分類的廣義線性回歸模型。在本文的模型中,因變量為“被調查者是否愿意生育或已生育二胎。”因此,本文定義“愿意=1”,“不愿意=0”,將其帶入邏輯回歸模型進行分析,具體公式如下。
二元Logistic回歸模型首先利用公式[10]:
(1)
再經過Logistic函數的轉換,通過取對數發現其線性關系如式(2)所示。
(2)
上式中α是常量,βi是回歸系數。當公式中的xi每向上增加一個單位后,就會對優勢產生乘積效應,即能夠顯示出已育家庭生育二胎的意愿與自變量之間的關系。
SVM模型是一種分類學習算法,廣泛用于模式識別,下面先介紹SVM[11]。

SVM需要求解的優化問題如下式所示:
(3)
s.t.yi(ω·xi+b)≥1-ζi,1,2,…,N
(4)
ζi≥0,i=1,2,…,N
(5)
這樣最初的原始問題就變成了對偶問題:
(6)

(7)
0≤αi≤C,1,2,…,N
(8)
其中,αi為拉格朗日乘子。
最后ω的解為:
(9)
將支持向量機與遞歸特征消除法相結合提出的了SVM-RFE模型。SVM-RFE模型是一個基于SVM的最大間隔原理的序列后向選擇算法。通過模型訓練樣本,對每個特征進行得分進行排序,去掉最小特征得分的特征,然后用剩余的特征再次訓練模型,進行下一次迭代,最后選出需要的特征數。特征i的重要性得分排序準則如圖1所示。

圖1 SVM-RFE模型原理圖
本文基于中國人口與發展研究中心和《中國人口統計年鑒》以及銳思人口統計數據庫,抽取1000份統計調查數據,并最終選取了25個可能影響二胎的因素,主要包括三個部分:第一部分,從被調查者的個人基本情況來看;第二部分,從被調查者的家庭情況;第三部分,可能影響被調查者二胎生育意愿的社會基礎設施。為了更好的顯示被調查者的滿意程度,本文參考了李克特量表中題目設置的五個類別,分別從非常滿意、滿意、一般、不滿意、非常不滿意五種程度來設置選項,從而更加準確的反映被調查者對這些社會基礎設施的看法。
綜上三個方面,本文對影響因素進行匯總、賦值以更加直觀清晰。如表1所示。

表1 因素賦值表
首先使用卡方檢驗與秩和檢驗相結合的方法對于問卷中的影響因素進行初步篩選??ǚ綑z驗作為非參數檢驗,在統計學中用以探究變量頻數分布的擬合優度、兩變量之間有沒有關聯性的一種方法。卡方檢驗公式如下:
(10)
該公式之中i為樣本(i=1,2);R為樣本的屬性個數,也就是本文問卷調查選項的個數;x2為2個樣本之間的卡方計算值;Ai為樣本i在屬性上的實際頻數;Ti為檢驗樣本某種屬性的理論頻數。在計算卡方值之后,再通過卡方分布表判斷樣本之間的關聯度。若p≥0.05,則樣本之間的差別“無顯著性”;若p≤0.05,則樣本之間的差別“有顯著性”。
通過卡方檢驗剔除了X1、X4、X6、X10、X11、X15、X20以上8個自變量,接著基于剩余的自變量進行logistic模型建模。邏輯回歸建模結果如表2所示,從表2可以看出,被調查者年齡、最高學歷、家庭人均年收入、對居住地醫療條件和服務的滿意程度以及被調查者“大寶”的性別(即表1中的X2、X3、X5、X13、X22)均不能顯著影響二胎生育意愿。剩下的因素(即X7、X8、X9、X12、X14、X16、X17、X18、X19、X23、X24)均能夠顯著影響被調查者是否生育二胎。最后將這些因素代入SVM-RFE模型,進行重要性大小的排序,深入研究影響二胎生育的關鍵因素。而X2、X3、X5、X13、X22沒通過顯著性檢驗,剔除未通過顯著性檢驗的指標后,考慮到二元Logistic回歸模型無法有效處理非線性問題,且容易陷入過擬合,建立SVM-RFE模型進一步給出各自變量的重要性大小,并給出重要性排序,結果見表3。

表2 二元logistic回歸表
基于R語言caret框架,SVM-RFE模型參數設定如下:通過trControl定義函數運行參數,并選擇重復交叉驗證抽樣,避免了樣本數據的的不平衡性,保證了模型樣本的可靠性。數量或重抽樣的迭代次數記為10次,計算的完整折疊集的數量記為3。模型訓練方法選擇SVM模型,作為分類判斷模型,可以有效彌補二元Logistic回歸模型的不足。對Logistic模型通過顯著性檢驗的自變量建立SVM-RFE模型如表3和圖2所示。

表3 基于邏輯回歸模型篩選的SVM-RFE建模結果

圖2 基于邏輯回歸模型篩選的SVM-RFE建模結果圖
基于SVM-RFE模型的特征重要性排序之后,本文對已育家庭生育二胎的意愿研究,通過研究發現被調查者周圍是否有生育二胎的朋友、“大寶”的年齡、是否為城市戶口和對當前養老保險制度滿意度等因素對已育家庭生育二胎的影響最大;“單獨家庭“和“雙獨家庭”更偏向生育二胎;“從眾效應”仍然是影響二胎生育的關鍵因素;城市戶口的家庭比農村戶口的家庭更傾向生育二胎,且呈現城市影響農村的趨勢;二胎生育的意愿隨“大寶”的年紀增加而降低且15歲上下差距明顯;養老保險作為二胎生育的關鍵因素需要政府加大投入;影響二胎生育意愿的其他因素;如家庭收入、學歷、政治面貌等因素對是否生育二胎影響并不明顯,表明各階層人民思想觀念正在轉變,生育二胎并不是“高學歷”“高收入”“體制內”人員的專利。
本文為了挖掘二胎生育影響因素,構造了Logistic-SVM-RFE模型,分別通過卡方檢驗、二元Logistic回歸和SVM-RFE模型對自變量指標進行篩選,并最終得到各影響因素的重要性以及排序。結果表明,被調查者周圍是否有生育二胎的朋友、“大寶”的年齡、是否為城市戶口和對當前養老保險制度滿意度等因素對已育家庭生育二胎的影響最大;“單獨家庭”“雙獨家庭”以及“從眾效應”仍然是影響二胎生育的關鍵因素;二胎生育的理念并不是“高學歷”“高收入”“體制內”人員的專利。
計劃生育這一基本國策,雖然對中國的人口問題和發展問題起到了積極的作用,但是也帶來了人口老齡化問題。而國家施行的“全面二胎”政策,對扭轉老齡化和少子化的人口新常態,促進社會、經濟與人口協調發展起到了至關重要的作用。在“全面二胎”的政策背景下,越來越多的人開始響應國家號召,生育二胎。基于影響因素的重要性排序,本文給出以下政策建議。
(1)個人情況有二胎生育意愿的育齡女性必須具有良好的身體素質,有二胎生育意愿的育齡女性必須要做好充分的心理準備。
(2)家庭準備。第一,經濟成本。在生育二胎之前當事人首先應該考慮能否保證穩定的經濟來源,保障家庭的正常生活。第二,時間成本。當事人要保障有足夠的時間和精力去應對生育二胎帶來的一系列問題。第三,“大寶”的情緒問題不容忽視。
(3)社會服務。第一,加強醫療設施和醫療服務的投資力度。第二,重視基礎教育建設。國家要加強基礎教育設施建設,優化教育資源配置,加大財政支出,緩解家庭教育負擔,保證“優生”“優育”。第三,注意滿足“二胎女性”的就業需求。要保障女性在勞動力市場上的差異,縮小體制內差異,注重公平性,創造有利的女性就業環境。第四,重視二胎產婦的心理健康。有關部門要加強完善相關政策制度,為高齡產婦和孕婦及時提供心理疏導,保證其能夠接受優質的醫療檢查和醫療服務。
總之,在“全面二胎”政策的落實過程中,要注意從個人、家庭和社會三個角度著手,以保證“全面二胎”政策的順利實施。