王純杰, 張詩羽
(長春工業大學 數學與統計學院, 吉林 長春 130012)
婚姻是人類社會生活的重要體現,對社會的結構影響重大[1]。20世紀70年代末以來,中國離婚率持續增加,引起了國內外學者的關注。建模過程中選擇9個指標[2-4],考察這些因素對婚姻狀況的影響,通過運用回歸分析模型探究變量粗離婚率與各相關指標的關系。文中建立了全因素模型、逐步回歸模型、嶺回歸模型[5],并結合數學模型實際意義給出結論與建議。
文中研究數據為1996-2014年的19條縱向年度數據,所研究的地區為全國范圍。研究的因變量選定為粗離婚率。解釋變量的選擇從三個角度入手:一是經濟水平(居民消費水平、房地產住宅投資);二是受教育水平(年度普通本專科招生數、研究生招生數);三是社會參數水平(第三產業GDP貢獻率、第三產業增加值、移動電話普及率、男性人口、女性人口)。變量聲明和源數據分別見表1和表2。

表1 變量聲明

表2 源數據
設隨機變量y與p個解釋變量x1,x2,…,xp的線性回歸模型[6-7]為:
y=β0+β1x1+β2x2+…+βpxp+ε
(1)
式中:β0,β1,β2,…,βp——p+1個未知參數;
β0——回歸常數;
β1,β2,…,βp——回歸系數;
y——被解釋變量;
x1,x2,…,xp——p個可以精確測量并控制的一般變量,稱為解釋變量;
ε——隨機誤差,對隨機誤差項假定
(2)
對一個實際問題,如果獲得n組觀測數據(xi1,xi2,…xip,yi)(i=1,2,…,n),則線性回歸模型可表示為
(3)
上式的矩陣形式為
y=Xβ+ε
(4)
其中
(5)
X是一個n×(p+1)階矩陣,稱為回歸設計矩陣或資料矩陣。



(6)
(7)
移項得
(8)
當(X′X)-1存在時,即得回歸參數的最小二乘估計為

(9)
式(9)為經驗回歸方程。
在建模之前,首先對各指標進行相關性分析。經SAS軟件corr過程步得到y與9個解釋變量的相關矩陣見表3。

表3 全模型Pearson相關系數
可以看出,y與各解釋變量的相關系數基本都屬于0.8~1.0范圍內。
但通過表3也可以明顯看出,各解釋變量之間存在高度相關性,這說明全模型存在著實際回歸問題中常出現的多重共線性。顯然,直接使用全模型進行回歸是不合理的。
為解決多重共線性問題,文中的思路是使用逐步回歸法選取最優變量集,在最優子集基礎上再進行普通最小二乘回歸。取顯著水平aentry=0.1,aremoval=0.15情況下,SAS程序在9個解釋變量中選擇了3個,分別為x1,x3,x5,見表4。

表4 逐步回歸模型匯總
入選變量的p值均小于0.05,通過了顯著性檢驗。此時對最優變量集做普通最小二乘回歸,并用方差膨脹因子法檢驗多重共線性,分別見表5和表6。

表5 選模型方差分析

表6 選模型擬合優度
此時,Pr<0.000 1,即基于逐步回歸所生成的選模型顯著有效,R2=0.992 1,即選模型擬合程度為99.21%。這樣看來,逐步回歸后基于最優子集的選模型很好地擬合了源數據。
選模型的參數估計和假設檢驗結果見表7。

表7 選模型參數估計及多重共線性檢驗
顯然在選模型下的回歸系數均通過了檢驗,即各解釋變量系數均顯著不為0。此時方差膨脹因子也在正常范圍內,認為選模型沒有出現多重共線性。由表中讀出參數的估計值,可得模型:
y= 1.735 2+0.000 10x1+0.010 92x3-
0.032 81x5
(10)
由于實際問題是錯綜復雜的,因此在建立實際問題的回歸模型時,會出現某一因素或某些因素隨著解釋變量觀測值的變化而變化,導致隨機誤差項產生不同的方差,違背了方差齊性的原假設公式,也就是常說的異方差現象。模型(10)的殘差直觀來看較為分散且沒有明顯趨勢,但為給出更可靠的結果,文中進行spearman相關系數檢驗,以判斷基于逐步回歸的選模型是否存在異方差性,見表8。
可見,在置信水平為0.05的情況下,選模型不存在異方差現象。但倘若模型違背了隨機誤差項是無關的這一條假設,就會存在自相關現象。為判斷模型(10)是否存在自相關性,運用DW法檢驗。

表8 選模型spearman相關系數法判斷異方差

表9 選模型DW檢驗自相關
根據樣本量n=19與解釋變量數目p=4(包含常數項),查DW分布表,得到臨界值dL=0.97,dU=1.68,依照DW準則模型落入不能確定區域。
為消除這一現象,對選模型進行一步box-cox變換,見表10。

表10 box-cox變換模型擬合優度
變換后模型擬合程度為99.11%。選取lambda=1.4,對模型(10)變換。
根據box-cox變換后輸出的參數估計結果,y(1.4)對x的回歸方程為:
68+0.000 10x1-0.002 54x3-0.038 50x5
(11)

(12)
為解決模型多重共線性問題,選擇從模型的數據角度考慮,采用剔除解釋變量的方法來克服多重共線性的影響,最終得到模型(12),但這始終是基于普通最小二乘估計。而近40年來,統計學家還對普通最小二乘估計提出了一些改進方法。目前,嶺回歸就是最有影響的一種新的估計方法,在此,文中列舉嶺回歸建模結果以作參考。
考慮到變量的量綱問題,先將數據標準化。由于嶺參數k不是唯一確定的,所以得到的嶺回歸估計模型是一個估計族,選定k的過程就顯得至關重要,文中結合標準化后的嶺跡圖與標準化后的方差膨脹因子選擇k。若采用方差擴大因子法,當k≥0.016時,方差擴大因子小于10,故建議在此范圍內選取k。同時結合嶺跡圖法選取k=0.016。
在用嶺回歸進行變量選擇時發現,解釋變量x4有相對穩定且絕對值較小的嶺回歸系數,可以剔除該變量。又因為x2,x3,x6和x9的嶺回歸系數很不穩定,且隨著k的增加很快趨于0,這些自變量也是可以剔除的。最終剩余變量為x1,x5,x7,x8,即可用這些變量建立回歸方程。
當k=0.016時,選模型標準化嶺回歸方程為:
0.36x7+0.064x8
(13)
嶺回歸模型均方誤差RMSE=0.130 38。相比于表6逐步回歸后選模型下的均方誤差,雖略有增大,但屬于可接受范圍內。造成這種情況的原因是在嶺回歸最優子集篩選時存在一定人為主觀因素,相比于逐步回歸篩選更為活躍,因此可能導致均方根誤差的變化。宏觀上講,嶺回歸模型的建立也是成功的,它同逐步回歸下box-cox模型一樣,能夠解決多重共線性問題。
文中雖已經得到了較為完善且結果良好的模型,但仍需探討模型所存在提升的空間。散點圖矩陣如圖1所示。

圖1 散點圖矩陣
由圖1可見,y與部分解釋變量存在著較為明顯的曲線走勢。如y與x2,x3等解釋變量大致為指數函數形式。從社會意義方面考慮,指數也是更符合隨穩定年增長率而增長的粗離婚率現象[8-9],以x2為例可以假設存在關系。
y=exp(β0+β1x2)
(14)
基于這種思想,嘗試將對因變量y進行一步對數變換,再進行普通最小二乘回歸。將因變量y進行對數變換,得到新變量yt,即有關系
yt=ln(y)
(15)
此時基于變換后的yt進行全模型普通最小二乘回歸,分別見表11和表12。

表11 非線性回歸方差分析

表12 非線性回歸擬合優度
與普通最小二乘全模型相比較,非線性回歸模型均方根誤差從0.061 38減小為0.043 77,體現了非線性模型的穩定性與優越性,這說明了對因變量y的對數變換是合理的,提高了方程的擬合程度。若想更為精確的擬合問題,可以選擇在對數變換基礎上進行后續多種方法的回歸分析。
在研究單一因變量y的過程中,首先根據模型變量之間的關系、誤差項之間的關系,針對模型存在的異方差和自相關現象進行了診斷與消除。其次針對模型多重共線性問題使用逐步回歸法進行消除,并以嶺回歸法作為參考[6]。最終建立了逐步回歸模型、嶺回歸模型,均得到了擬合度高、實際意義清晰的模型。兩個模型雖形式上各有不同,但縱觀其反映的社會問題大同小異。文中采用擬合程度最高且有代表性的box-cox變換逐步回歸模型(12)為文中最終結論。
顯然,此模型的意義符合實際情況,影響回歸方程的變量為x1、x3、x5。x1與y的正相關系數說明隨著社會經濟水平的進步,離婚率會隨之增加。但因x1只是經濟水平的一個宏觀體現,并不能完全概括社會的經濟水平。所以對y的影響率較低,x1每增加一個單位,y會增加0.000 1。反觀x2并未入選模型,可以認為與其說受教育水平對離婚率有所影響,不如說學歷高低會對離婚率產生影響。而代表社會服務業水平的x5也入選了模型,符合社會服務業發展對人民生活及思想的影響。
宏觀來講,y受到經濟因素、教育水平因素以及社會因素三個方面的影響。首先,隨著社會的進步、經濟水平的不斷提升,離婚率也會隨之增加。其次,高學歷人群的婚姻相比低學歷更為穩定。最后,社會的變遷對人民婚姻情況也有所影響,伴隨著社會第三產業也就是服務業水平的提升,婚姻卻變得更為脆弱。
鑒于以上分析,為穩定全社會婚姻的穩定性,文中提出如下建議:
隨著社會主義市場經濟的不斷推進,傳統的倫理道德受到沖擊,新的倫理道德觀念還未建成。我國人民對婚姻的看法應從根本上實現轉型,擺脫老舊的封建思想如童養媳、門當戶對、重男輕女,也不該不經篩選地效仿外來文化如AA制婚姻、性解放、三八界限婚姻。結合文中回歸模型與社會情況,當下常出現將擇偶價值觀建立在高強度經濟基礎上的情況,這種趨勢是病態的、不被接受的。顯然,與基于愛情婚姻相比,建立在經濟水平上的婚姻是不穩定的。由此呼吁我國社會建設健康積極的婚姻觀念、擇偶觀念以及婚后生活觀念,以減少大批量離婚對社會帶來的不穩定性。
參考文獻:
[1] 俞文書.少數民族地區族際離婚的特點及原因研究[J].懷化學院學報,2016,35(1):61-65.
[2] 解韜.我國成年殘疾人口的婚姻狀況及其影響因素研究[J].人口學刊,2014,36(4):54-63.
[3] 楊文山.臺灣地區的婚姻擠壓[M].北京:中國人口出版社,2005.
[4] 李銀河.當代中國人的擇偶標準[J].中國社會科學,1989(4):61-74.
[5] 馮虹,趙一凡,艾青.中國超大城市新生代農民工婚姻狀況及其影響因素析:基于2015年全國流動人口動態監測調查數據[J].北京聯合大學學報,2017(1):63-69.
[6] 何曉群,劉文卿.應用回歸分析[M].4版.北京:中國人民大學出版社,2015.
[7] 孫建英.概率論與數理統計中的數學建模案例[J].長春工業大學學報:自然科學版,2014,35(2):224-226
[8] 薛菁.進城務工對農民工婚姻生活影響研究[J].科學·經濟·社會,2013,31(3):148-152.
[9] 祝平燕,王芳.返鄉相親:新生代農民工的一種擇偶形態-以豫東S村為例[J].中國青年研究,2013(9):51-60.