韓耀風 覃文峰 陳 煒 李博涵 滕伯剛 方 亞△
adaptive LASSO logistic回歸模型應用于老年人養老意愿影響因素研究的探討*
韓耀風1,2覃文峰1,2陳 煒1,2李博涵1,2滕伯剛1,2方 亞1,2△
目的 探討adaptive LASSO logistic回歸模型在老年人養老意愿影響因素研究中的應用。方法 基于廈門市60歲及以上老年人口的多階段整群抽樣調查數據,建立老年人養老意愿影響因素的adaptive LASSO logistic回歸模型,通過交叉驗證法選擇模型中的調和參數λ;通過與全變量和逐步logistic回歸結果的比較,探討adaptive LASSO logistic回歸模型的優勢。結果 共納入1244名老年人,其養老意愿為家庭養老、社區居家養老和機構養老的比例分別為70.0%、21.1%和8.9%。交叉驗證法選擇的λ 為0.018;此時adaptive LASSO logistic回歸模型納入的自變量為居住地、年齡、婚姻狀況、文化程度、子女數、每月退休金收入、公費醫療和住院情況;BIC和AIC分別為1931、1888,均低于全變量logistic回歸(2077、1923)和逐步logistic回歸(2025、1912)。結論 adaptive LASSO logistic 回歸模型可用于老年人養老意愿影響因素研究。老年人的養老意愿受多個因素影響。
adaptive LASSO logistic 回歸模型 養老模式 影響因素
2010 年第六次全國人口普查結果顯示,中國60 歲及以上老齡人口已達到 1.78億,所占比例從 2000 年的 10.2%增至 13.3%[1]。隨著老齡化速度的不斷加快,在經濟發展與社會結構轉型的過程中,傳統家庭養老和單純的機構養老遠遠不能滿足當今社會的養老需求。在此背景下社區居家養老應運而生,形成了多種養老方式并存的多元化養老模式。老年人養老意愿的影響因素復雜,如何選擇自變量是研究的關鍵點。本研究擬基于對廈門市老年人養老意愿的調查數據,探討adaptive LASSO logistic回歸模型在老年人養老意愿影響因素分析研究中的應用,分析老年人養老意愿的影響因素,為完善多元化養老模式提供依據。
1.LASSO logistic回歸模型
對于多變量logistic回歸問題,一般常使用變量子集選擇的方法來選擇變量。Zou等人[2]提出變量子集選擇有兩點限制:首先,當變量的個數較多時,子集選擇的運算量龐大,甚至可能無法運算;其次,因為子集選擇方法存在內在離散性[3],子集選擇的結果是不穩定的[4]。
作為變量子集選擇的替代方案,逐步回歸克服了變量較多時的運算量問題,但是得到的結果仍具有內在離散性和不穩定性[3-4]。同時逐步回歸得到的結果一般為局部最優解而不是全局最優解[2],且忽略了變量選擇過程中的隨機誤差和不確定性[5-6]。
LASSO方法[6-8]用模型的絕對系數函數作為懲罰項來壓縮模型的系數,使絕對值較小的系數為0,達到同時進行變量選擇和參數估計的目的,而傳統方法變量選擇和參數估計是分開進行的。LASSO方法很好地克服了逐步回歸變量選擇方法的局限性,同時又保留了子集選擇和嶺回歸的優良性質。采用LASSO方法選擇自變量而建立的logistic回歸模型即為LASSO logistic回歸模型。
假設有獨立同分布的觀測值(Xi,yi),i=1,2,…,n,其中Xi(xi1,…,xip)和yi是模型的自變量和因變量。logistic回歸模型的條件概率如式(1)所示。
(1)
其中
(2)

(3)
其中λ是一個非負的正則化參數,它決定了LASSO logistic回歸模型系數的壓縮程度,稱為調和參數。隨著λ 的增大,各個變量系數估計值逐漸被壓縮,當λ足夠大時,一些變量系數被壓縮為0。研究表明,LASSO方法具有優良的理論性質,適合于稀疏的多變量回歸問題[9-11]。選擇λ的常用方法有自助法、交叉驗證法、廣義交叉驗證法等。在交叉驗證法中,每個子樣本驗證一次,交叉重復n次,得到n次的模型擬合情況,從中選擇最優λ。
2.adaptive LASSO logistic回歸模型
LASSO logistic 模型雖然可以較好地進行多變量的選擇,但得到的結果是有偏估計,且不具有模型的相合性和參數估計漸進正態性,即不具有Oracle Property(哲人性質)[2,4]。Zou等人于2006年提出了一個改進的LASSO方法,被稱為adaptive LASSO方法[2]。adaptive LASSO logistic回歸模型既具有LASSO logistic回歸模型的優點,同時估計結果具有漸進無偏性和Oracle Property。

(4)

(5)
1.資料來源
采用橫斷面調查的方法,調查廈門市60歲及以上常住老年人,調查內容包括個人信息(性別、年齡、子女數、婚姻情況、文化程度、居住地)、生活基本情況(每月退休金、城鎮職工基本醫療保險、城鎮居民基本醫療保險、公費醫療)、健康狀況(健康自評、是否曾住院)和養老意愿(家庭養老、社區居家養老、機構養老)等信息。
2.統計分析
采用Epidata 3.1軟件進行雙人雙錄入資料,使用 R 3.2.0 進行統計分析。本研究使用卡方檢驗分析分類變量與養老意愿的關系,通過建立adaptive LASSO logistic回歸模型分析老年人養老意愿的影響因素,其中λ 的選擇使用交叉驗證法。將adaptive LASSO logistic模型與全變量logistic回歸、逐步logistic回歸進行比較,采用AIC和BIC準則評估adaptive LASSO logistic回歸模型的擬合效果。檢驗水準取α=0.05。
1.基本情況
本次調查共發放問卷1328份,回收有效問卷1244份,有效應答率為93.67%。1244名老年人的年齡60~100歲,中位年齡71 歲;其養老方式選擇意愿的分布分別為家庭養老(70.0%)、社區居家養老(21.1%)、機構養老(8.9%)。各分析變量及養老方式意愿情況見表1。
2.老年人養老方式選擇的單因素分析
對各分類變量與養老方式選擇進行單因素卡方檢驗,結果見表1。其中居住地、文化程度、每月退休金、城鎮職工基本醫療保險、城鎮居民基本醫療保險、公費醫療、是否曾住院等因素有統計學意義(P<0.05)。
3.老年人養老方式選擇的多因素分析
(1)變量選擇與模型估計
在單因素分析的基礎上,以居住地、年齡、子女數、文化程度、每月退休金、城鎮職工基本醫療保險、城鎮居民基本醫療保險、公費醫療、是否曾住院等因素作為自變量,建立logistic回歸模型,分析它們對養老方式選擇的影響,各變量的賦值情況見表2。
以家庭養老為參照,利用R軟件包glmnet[12]進行adaptive LASSO logistic回歸模型分析。通過交叉驗證得到模型誤差與λ的關系,折疊次數為10次,結果如圖1示。由圖1可見,模型誤差最小時對應的λ為0.018,此時入選的變量有居住地、年齡、婚姻狀況、文化程度、子女數、每月退休金、參加公費醫療和住院情況,即這些因素為老年人養老方式選擇的影響因素。

表1 各分析變量的養老方式意愿情況

表2 變量賦值表

圖1 Lambda與模型誤差

*:上方的數字為模型變量選擇數;橫坐標()內的數字為λ
圖2為隨著λ 值的變化模型變量的篩選情況。可見,隨著λ 增大,模型壓縮程度增大,模型中包含的自變量個數減少,模型選擇主要變量的功能增強。
(2)模型的參數估計
為了對比LASSO變量選擇的結果,本研究還建立了全變量logistic回歸模型和逐步logistic回歸模型。各模型的參數估計及AIC和BIC結果見表3,其中adaptive LASSO logistic回歸模型的AIC和BIC均為最小,而全變量logistic回歸的AIC和BIC均為最大。

表3 不同回歸模型參數估計結果
*:P<0.1,**:P<0.05,***:P<0.01。
對于多變量選擇問題,子集選擇具有運算量大和變量選擇結果不穩定的缺點。逐步回歸克服了較多變量時子集選擇的運算量問題,但是變量子集選擇具有內在的不連續性,從而導致變量子集選擇的結果不穩定,逐步回歸方法得到的變量選擇結果并不一定是最佳子集[6]。逐步回歸方法還忽略了變量選擇過程中的隨機誤差和不確定性。adaptive LASSO logistic模型使用絕對系數函數作為懲罰項來壓縮模型的系數,同時在參數估計時對于不同的系數分配了不同的權重。它既具有LASSO logistic回歸模型的優點,同時參數的估計結果具有漸進無偏性和Oracle Property。adaptive LASSO logistic回歸模型很好地克服了傳統變量選擇方法在選擇模型方面的不足,同時又保留了子集選擇和嶺回歸的優良性質,適合于多個影響因素研究中的變量選擇問題。本研究以廈門市60歲及以上常住老年人的養老意愿數據為基礎,擬合全變量logistic回歸、逐步logistic回歸和adaptive LASSO logistic回歸模型。結果發現,adaptive LASSO logistic回歸模型的AIC值和BIC值均小于全變量logistic回歸、逐步logistic回歸,說明adaptive LASSO logistic回歸模型對數據的擬合效果最好。
老年人養老方式選擇的影響因素較為復雜,往往受多種因素的影響。本研究的單因素分析、adaptive LASSO logistic回歸模型、全變量logistic回歸模型和逐步logistic回歸模型均顯示,居住地、年齡、文化程度、公費醫療和住院情況與養老方式的選擇有關聯。在本次調查中,城市老年人選擇家庭養老的比例高于農村,而農村老年人選擇機構養老的比例低于城鎮;趙海林等人對淮安市的研究和譚小林等對重慶市老年人的調查也發現這樣的差異性[13-14]。本研究發現隨著年齡的增長,老年人選擇家庭養老的可能性降低。劉小春等人對江西省的研究發現,年齡越長者越傾向于選擇機構養老模式,年齡越小者越傾向于選擇家庭養老模式或社區居家養老模式[15]。但陳玉蘭等的研究發現,老年人的年齡越小,越傾向選擇機構養老和社區居家養老[19]。國內多數學者均發現,文化程度是老年人養老意愿的影響因素,文化程度越高,選擇機構養老和社區居家養老的比例越高,而文化程度越低,選擇家庭養老的比例越高[15-17]。本研究還發現享有公費醫療的老年人選擇機構養老和社區居家養老的比例高于未享有公費醫療的,而后者選擇家庭養老的比例高于前者;曾住院的老年人選擇機構養老和社區居家養老的比例高于未曾住院的,而后者選擇家庭養老的比例高于前者。目前很少有學者關注公費醫療、住院情況與養老意愿的關系。本研究的adaptive LASSO logistic回歸模型、全變量logistic回歸和逐步logistic回歸模型結果顯示婚姻狀況與老年人的養老方式選擇有關,在婚的老年人選擇社區居家養老的比例較高,而非在婚的老年人選擇家庭養老和機構養老的比例較高。國內多項研究發現,婚姻狀況與老年人的養老意愿有關[15,17]。
子女數、每月退休金收入僅在adaptive LASSO logistic回歸模型中顯示出與老年人養老意愿的相關性。隨著老年人的子女數增多,與社區居家養老、機構養老相比,老人更有可能選擇家庭養老,說明子女對于老年人的撫養對老年人養老方式的選擇有一定的影響。顧永紅等人對全國9個省份27個地級市進行的研究和劉小春等人的研究均顯示子女數與老年人養老意愿之間的這種關系[15,18]。選擇機構養老意味著老年人需要定期給養老機構支付一定數額的資金,需要一定的經濟基礎。本研究發現,每月養老金收入高于2000元的老年人,更有可能選擇機構養老或社區居家養老。覃丹等人以湖南省某市開展的研究[19]和趙海林等人的研究[13]也得出了類似的結論,研究發現經濟有保障和社會地位較高老年人群,退休金一般在2000元以上,對生活質量和精神文化生活要求較高,在生活方面比較獨立,能夠自費購買老年服務或者選擇入住養老機構,在對養老模式的選擇上更具有主動性[19]。
綜上所述,adaptive LASSO logistic回歸模型可用于老年人養老方式選擇影響因素分析,得到的模型具有更好的解釋性。老年人養老意愿受多個因素的影響,應加強農村、高齡、在婚、低文化程度、子女數較多、低收入、未享有公費醫療和未曾住院老年人的養老保障的覆蓋及社會養老的宣傳教育,開發有針對性的養老方式。
[1]中華人民共和國國家統計局.2010年第六次全國人口普查主要數據公報(第1號).中國計劃生育學雜志,2011,54(8):511-512.
[2]Zou H.The adaptive lasso and its oracle properties.Journal of the American statistical association,2006,101(476):1418-1429.
[3]Breiman L.Better subset regression using the nonnegative garrote.Technometrics,1995,37(4):373-384.
[4]Fan J,Li R.Variable selection via nonconcave penalized likelihood and its oracle properties.Journal of the American statistical Association,2001,96(456):1348-1360.
[5]Shen X,Ye J.Adaptive model selection.Journal of the American Statistical Association,2002,97(457):210-221.
[6]張秀秀,王慧,田雙雙,等.高維數據回歸分析中基于LASSO的自變量選擇.中國衛生統計,2013,30(6):922-926.
[7]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society,1996,58(1):267-288.
[8]陳江鵬,彭斌,文雯,等.微陣列數據中的先驗信息對基于LASSO變量選擇方法影響的模擬研究.中國衛生統計,2015,32(3):407-409.
[9]Meinshausen N,Bühlmann P.High-dimensional graphs and variable selection with the lasso.The annals of statistics,2006,34(3):1436-1462.
[10]Donoho DL,Elad M.Optimally sparse representation in general(nonorthogonal) dictionaries via l1 minimization.Proceedings of the National Academy of Sciences,2003,100(5):2197-2202.
[11]Donoho DL,Huo X.Uncertainty principles and ideal atomic decomposition.Information Theory,IEEE Transactions on,2001,47(7):2845-2862.
[12]Friedman J,Hastie T,Tibshirani R.Regularization paths for generalized linear models via coordinate descent.Journal of statistical software,2010,33(1):1.
[13]趙海林.淮安市老年人養老模式選擇意愿實證分析.南京人口管理干部學院學報,2012,28(2):9-12.
[14]方匡南,章貴軍,張惠穎.基于Lasso-logistic模型的個人信用風險預警方法.數量經濟技術經濟研究,2014(2):125-136.
[15]劉小春,李嬋.中部欠發達地區城鎮居民養老模式選擇行為實證分析——基于江西省的調查數據.社會保障研究,2014(2):24-31.
[16]陶濤,叢聰.老年人養老方式選擇的影響因素分析——以北京市西城區為例.人口與經濟,2014,(3):15-22.
[17]扈映,楊康,舒泰.農村居民養老居住意愿選擇的實證研究.調研世界,2014,(8):24-29.
[18]顧永紅.農村老年人養老模式選擇意愿的影響因素分析.華中師范大學學報(人文社會科學版),2014,53(3):9-15.
[19]覃丹.城市老年人養老需求及養老模式選擇研究.華中師范大學,2015.
(責任編輯:郭海強)
Influencing Factors on Elder’s Preference for Supporting:Application of an adaptive LASSO logistic Model
Han Yaofeng,Qin Wenfeng,Chen Wei,et al
(SchoolofPublicHealth,XiamenUniversity(361102),Xiamen)
Objective This study was aimed to analyze influencing factors on elder’s preference for supporting in case to provide evidence for diversified elderly supporting.Methods This article applied an adaptive LASSO logistic model to the multi-stage cluster sampling data of the population aged 60 or older in Xiamen to analyze influencing factors on elder’s preference for supporting.Cross validation method was used to choose λ for adaptive LASSO logistic model.In addition,we evaluated the model fitting of adaptive LASSO logistic model by comparing the BIC and AIC with full logistic model and stepwise logistic model.Results The cross validation method resulted in λ=0.018 for adaptive LASSO logistic model,in which variables retained were residence,age,marital status,education level,number of children,the monthly pension income,medical insurance and hospitalization.BIC of adaptive LASSO logistic model,full logistic model and stepwise logistic model were 1931,2077and 2025 respectively.And AIC of the three models were 1888,1923 and 1912 respectively.Conclusion Compared to full logistic model and stepwise logistic model,adaptive LASSO logistic model was the best fitting model for influencing factors on elder’s preference for supporting.Adaptive LASSO logistic model could be used to analyze influencing factors on elder’s preference for supporting.There were multiple factors which influenced elder’s preference for supporting.
Adaptive LASSO logistic model;Elderly supporting;Influencing factors
廈門大學大學生創新創業訓練計劃項目(2015Y0827)
1.廈門大學公共衛生學院(361102)
2.衛生技術評估福建省高校重點實驗室
△通信作者:fangya@xmu.edu.cn