








摘要:老年人自評(píng)健康是反映老年人身體健康狀態(tài)的重要因子,對(duì)提高老年人健康水平提供參考具有重要意義。為了解影響我國(guó)農(nóng)村老年人自評(píng)健康的主要因素并實(shí)現(xiàn)精準(zhǔn)地預(yù)測(cè),本研究基于2022年湖南省岳陽(yáng)縣養(yǎng)老需求調(diào)研數(shù)據(jù),首先探究了不同影響因素對(duì)老年人自評(píng)健康的作用機(jī)制;然后基于顯著影響因素,在面向高維度數(shù)據(jù)特征的情況下,提出一種基于交叉熵和變學(xué)習(xí)率的改進(jìn)一維卷積神經(jīng)網(wǎng)絡(luò)(1D-ICNN)用于構(gòu)建老年人自評(píng)健康預(yù)測(cè)模型,以解決1D-CNN容易出現(xiàn)預(yù)測(cè)不準(zhǔn)確和不穩(wěn)定等問題。本研究顯示,老年人自評(píng)健康與文化程度、政治面貌、婚姻狀況、職業(yè)、年收入等因素有關(guān);在較高維度數(shù)據(jù)特征情況下,1D-ICNN模型具有較好的預(yù)測(cè)效果。該方法的應(yīng)用和普及能夠?yàn)闇?zhǔn)確預(yù)測(cè)老年人健康狀況、實(shí)現(xiàn)“健康老齡化”提供實(shí)證依據(jù)。
關(guān)鍵詞:老年人;自評(píng)健康;一維卷積神經(jīng)網(wǎng)絡(luò);預(yù)測(cè)模型
中圖分類號(hào):TP399" " " " " " " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼:A" " " " " " " " " " " " " " " " DOI:10.3969/j.issn.1006-1959.2024.14.005
文章編號(hào):1006-1959(2024)14-0025-08
Self-rated Health Prediction Method for the Elderly Based on 1D-ICNN High-dimensional Data
LI Yue,ZHANG Cheng-meng,HUANG Cheng-ye,SUO Hao-yu,HU Xin-yue,LIU Na,ZHANG Ya-lu,CHEN Gong
(Institute of Population Research,Peking University,Beijing 100871,China)
Abstract:The self-rated health of the elderly is an important factor to reflect the health status of the elderly, and it is of great significance to provide reference for improving the health level of the elderly. In order to understand the main factors affecting the self-rated health of the rural elderly in China and achieve accurate prediction, this study first explored the mechanism of different influencing factors on the self-rated health of the elderly based on the survey data of the elderly care demand in Yueyang County, Hunan Province in 2022. Then, based on the significant influencing factors, an improved one-dimensional convolutional neural network (1D-ICNN) based on cross entropy and variable learning rate is proposed to construct a self-rated health prediction model for the elderly in the case of high-dimensional data features, so as to solve the problems of inaccurate prediction and instability of 1D-CNN. This study shows that the self-rated health of the elderly is related to factors such as education level, political outlook, marital status, occupation and annual income. In the case of higher dimensional data features, the 1D-ICNN model has better prediction results. The application and popularization of this method can provide an empirical basis for accurately predicting the health status of the elderly and achieving \"healthy aging\".
Key words:Elderly;Self-rated health;One-dimensional convolutional neural network;Prediction model
人口老齡化已成為全世界人口發(fā)展的必然趨勢(shì),我國(guó)已成為老齡化速度最快的國(guó)家之一[1]。在我國(guó)城鄉(xiāng)二元結(jié)構(gòu)體制下,城鄉(xiāng)之間的戶籍壁壘、資源配置差異使得城鎮(zhèn)居民和農(nóng)村居民在認(rèn)知和經(jīng)歷中都存在顯著差異。根據(jù)第七次人口普查數(shù)據(jù),截至2020年11月,岳陽(yáng)縣常住人口561 888人,60歲以上、65歲以上、80歲以上老年人分別占21.68%(全國(guó)占比18.70%)、15.98%(全國(guó)占比13.50%)和2.97%。人口老齡化現(xiàn)象日趨嚴(yán)重,如何評(píng)價(jià)老年人健康是急需解決的問題[2]。同時(shí),湖南省岳陽(yáng)縣作為我國(guó)農(nóng)村創(chuàng)業(yè)創(chuàng)新典型縣,其農(nóng)村老年人的健康狀況有其自身特色。在此背景下,對(duì)老年人健康問題進(jìn)行深入研究有著十分重要的意義和價(jià)值。
評(píng)價(jià)老年人健康狀況的指標(biāo)較多,自評(píng)健康是調(diào)查者根據(jù)自身的身體、心理、社會(huì)功能等各方面綜合情況對(duì)自身健康狀況的主觀評(píng)價(jià)與估計(jì)。自評(píng)健康在調(diào)查中經(jīng)常運(yùn)用和容易測(cè)量,目前已成為國(guó)際上運(yùn)用廣泛的健康狀況測(cè)量方法之一[3]。國(guó)內(nèi)外學(xué)者對(duì)關(guān)于老年人自評(píng)健康的問題開始受到學(xué)界的重視,主要集中對(duì)老年人自評(píng)健康的影響因素分析和預(yù)測(cè)方面[4]。
在探索影響老年人自評(píng)健康的決定因素方面,有研究[5]對(duì)影響老年人健康行為進(jìn)行了全面的探析,發(fā)現(xiàn)老年人的健康生活方式與積極生活態(tài)度、健康行為、對(duì)心理健康狀態(tài)的關(guān)注、對(duì)疾病的預(yù)防,以及環(huán)境因素等密切相關(guān)。適量飲酒有益于身體健康[6],因?yàn)轱嬀瓶梢越档湍承┬难芗膊〉乃劳龈怕省D壳皩?duì)影響老年人自評(píng)健康的因素主要集中在人口學(xué)特征、生活方式、患病情況、社會(huì)經(jīng)濟(jì)等[7]。人口學(xué)因素包括性別、年齡、受教育程度、婚姻狀況等方面;生活方式因素,例如生活行為特征和飲食習(xí)慣都與老年人自評(píng)健康密切相關(guān);患病情況與老年人自評(píng)健康也有顯著的相關(guān)關(guān)系;社會(huì)因素包括生活環(huán)境、經(jīng)濟(jì)狀況,社會(huì)參與等也會(huì)對(duì)老年人的健康狀況產(chǎn)生影響[8]。影響老年人自評(píng)健康信息數(shù)據(jù)中存在變量冗余問題,這將降低預(yù)測(cè)有效性的同時(shí)造成模型的過擬合。很多學(xué)者使用單因素和多因素分析方法探索影響老年人自評(píng)健康的顯著影響因素。單因素分析利用假設(shè)檢驗(yàn)的方法來判斷影響因素是否確實(shí)能解釋因變量的變動(dòng),可以很容易地應(yīng)對(duì)高維數(shù)據(jù),結(jié)果具有良好的可解釋性。目前使用較多的是卡方檢驗(yàn)和方差分析。卡方檢驗(yàn)用于研究分類變量與分類變量之間的差異關(guān)系,方差分析用于分析分類變量和定量變量之間差異關(guān)系[9]。
在老年人自評(píng)健康預(yù)測(cè)方面,機(jī)器學(xué)習(xí)在處理復(fù)雜數(shù)據(jù)問題時(shí)可以獲得較好的精確度[10]。相比傳統(tǒng)統(tǒng)計(jì)分析方法,基于分類算法的分析更加高效、客觀,能夠進(jìn)一步支持健康的預(yù)測(cè)與預(yù)警。但隨著影響老年人自評(píng)健康數(shù)據(jù)特征維度日益增加,傳統(tǒng)分類算法的預(yù)測(cè)精度不高,很容易出現(xiàn)過擬合問題。因此,需要通過尋找更合適的分類算法提高老年人自評(píng)健康預(yù)測(cè)準(zhǔn)確度。深度學(xué)習(xí)為解決高維度數(shù)據(jù)預(yù)測(cè)問題提供了新思路,其中1D-CNN是采用一維卷積核進(jìn)行卷積操作,不僅能面向高維度數(shù)據(jù)省略掉復(fù)雜的人工特征提取工作,還能通過多層卷積操作提取到傳統(tǒng)特征工程所無法提取到的抽象特征,但是1D-CNN模型的預(yù)測(cè)性能受到模型結(jié)構(gòu)和參數(shù)設(shè)置等影響。隨著網(wǎng)絡(luò)深度和訓(xùn)練數(shù)據(jù)的增加,固定學(xué)習(xí)率難以適應(yīng)網(wǎng)絡(luò)的學(xué)習(xí)過程。在學(xué)習(xí)率優(yōu)化方面,迭代過程中通常采用人工調(diào)整學(xué)習(xí)率、指數(shù)衰減、自適應(yīng)參數(shù)等學(xué)習(xí)率變化方法。有研究[11]通過最大化局部似然估計(jì)來自動(dòng)調(diào)整學(xué)習(xí)率,來防止學(xué)習(xí)率的波動(dòng);也有研究針對(duì)神經(jīng)網(wǎng)絡(luò)收斂性能較慢的問題[12],在泰勒公式的基礎(chǔ)上,提出自適應(yīng)學(xué)習(xí)率的計(jì)算方法,結(jié)果表明該模型迭代次數(shù)明顯少于基于固定學(xué)習(xí)率方法。
本研究擬探討湖南省岳陽(yáng)縣農(nóng)村老年人自評(píng)健康的影響因素并實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè),對(duì)于提高老年人身心健康水平以及推進(jìn)社會(huì)發(fā)展,具有重要的理論和實(shí)踐意義。
1數(shù)據(jù)來源
為了解我國(guó)農(nóng)村老人的養(yǎng)老現(xiàn)狀及需求,北京大學(xué)人口研究所于2022年在湖南省岳陽(yáng)縣開展農(nóng)村養(yǎng)老服務(wù)專題調(diào)研實(shí)踐活動(dòng)。由于農(nóng)村老年人居住分散、調(diào)研難度大,且調(diào)研時(shí)間有限,本研究選擇通過分層抽樣法進(jìn)行研究以提高樣本的代表性。刪除有空缺的數(shù)據(jù)后,最終獲得有效樣本369份。根據(jù)研究需要,選取老年人自評(píng)健康作為因變量,即問卷中問題“您認(rèn)為您的健康狀況怎樣?”選項(xiàng)為:很好、好、一般、不好、很不好,分別賦值為1~5。 選取與老年人自評(píng)健康相關(guān)的指標(biāo)變量,包括:基本信息、家庭狀況、生活方式、網(wǎng)絡(luò)使用情況、養(yǎng)老需求等方面。老年人自評(píng)健康影響因素中的基本信息及賦值情況見表1。
由于老年人自評(píng)健康選擇為“不好”“很不好”“很好”“好”的樣本數(shù)量較少,因此將“不好”“很不好”合并為“差”,將 “很好”“好”合并為“好”。369名農(nóng)村老年人中,有116人(31.44%)表示自評(píng)健康為“好”,賦值為1;121人(32.79%)表示自評(píng)健康為“一般”,賦值為2;132人(35.77%)表示自評(píng)健康為“差”,賦值為3。
從性別段來看,其中男190人,占比51.49%,女179人,占比48.51%;從年齡段來看,70~79歲202人,占比為54.74%。其他年齡段,60~69歲100人,占比27.10%,80~89歲56人,占比15.18%,90歲及以上11人,占比2.98%;從教育水平上看,小學(xué)學(xué)歷176人,占比47.70%,說明在本次調(diào)查中農(nóng)村老年群體總體學(xué)歷水平較低;從婚姻狀況來看,與配偶居住的老年人260人,占比70.46%,喪偶老年人92人,占比24.93%;從年收入情況來看,年收入3000元以下126人,占比34.15%,低收入群體較多。
2基于1D-ICNN的老年人自評(píng)健康預(yù)測(cè)模型
1D-ICNN模型的輸入向量是一維的,卷積層的卷積核和池化層的濾波器都相應(yīng)變成一維,同時(shí)特征圖也是一維的向量[13],這樣可以減少學(xué)習(xí)的參數(shù)數(shù)量,從而提高模型訓(xùn)練學(xué)習(xí)的效率。1D-ICNN模型的基本結(jié)構(gòu)見圖1。
在輸入層,首先基于卡方分析篩選的主要影響因素特征數(shù)據(jù),對(duì)數(shù)據(jù)中的單選題進(jìn)行one-hot編碼后,共計(jì)生成70個(gè)特征維度數(shù)據(jù)用于建模;在卷積層,采用卷積核大小為3,卷積步長(zhǎng)為2的卷積操作,激活函數(shù)采用ReLU函數(shù);在池化層,采用最大池化法,池化區(qū)域?yàn)?,移動(dòng)步長(zhǎng)為2進(jìn)行特征壓縮。為了避免過擬合,提高模型的泛化能力,在最大池化后應(yīng)用比例為0.2的隨機(jī)失活操作(Dropout);全連接層通過對(duì)最后Dropout層輸出的一維特征進(jìn)行特征展開,提升模型的訓(xùn)練速度;最后通過softmax分類器預(yù)測(cè)老年人自評(píng)健康。網(wǎng)絡(luò)模型中的結(jié)構(gòu)設(shè)計(jì)和參數(shù)優(yōu)化是預(yù)測(cè)問題的關(guān)鍵,本次1D-ICNN模型構(gòu)建及優(yōu)化策略如下:
卷積層:卷積層的作用是通過多個(gè)卷積核進(jìn)行數(shù)據(jù)特征提取,具有權(quán)值共享和局部連接的優(yōu)勢(shì)。為了使模型學(xué)習(xí)更多的特征,通常采用多卷積核進(jìn)行特征提取,有效降低模型的復(fù)雜程度。卷積運(yùn)算可以表示為:
x=fx*W+b(1)
式中,*表示卷積運(yùn)算;l表示當(dāng)前網(wǎng)絡(luò)的層數(shù),第l層是特指卷積層;x和x分別表示第l層和第(l-1)層的第j個(gè)卷積核對(duì)應(yīng)的特征向量;M表示第l層第j個(gè)卷積核的視野域;W表示第l層的第j個(gè)卷積核的第i個(gè)加權(quán)值;b是第l層的第j個(gè)卷積核對(duì)應(yīng)的偏置;f(·)表示激活函數(shù)。
池化層:池化層具有二次特征提取的作用,主要在去除冗余特征的同時(shí)可以保留關(guān)鍵特征信息,有助于減少后續(xù)卷積操作的計(jì)算量。池化運(yùn)算可以表示為:
r=fβ×downr+b(2)
式中,down(·)表示池化函數(shù);β表示第p層的第j個(gè)特征圖的加權(quán)值,第p層是特指池化層;b是第p層的第j個(gè)特征圖的偏置;r為第p層池化層的第j個(gè)池化核對(duì)應(yīng)的特征圖。
全連接層和輸出層:為保證模型可以最大程度地學(xué)習(xí)數(shù)據(jù)特征中的隱含知識(shí),全連接層采用與上一層所有神經(jīng)元進(jìn)行連接的方式,同樣也包含了線性操作和非線性操作,計(jì)算為:
z=fzW+b(3)
式中,zq是第q層輸出的特征圖,即為全連接層輸出的特征圖;zq-1是第(q-1)層的輸出特征圖,即為上一層卷積和池化后輸出的特征圖;Wq是第q層特征圖zq連接到zq-1的權(quán)重;bq是第q層的偏置。如果研究任務(wù)為多分類問題,則輸出層一般為softmax輸出層,計(jì)算為:
p=(4)
式中,pk表示當(dāng)前輸入數(shù)據(jù)屬于第k類的概率;k表示分類器的類別索引;K是類別個(gè)數(shù)。zk是分類器接收的全連接層輸出的特征圖;通過softmax函數(shù)計(jì)算后輸出,得到不同類別的概率值pk,輸出概率值最大的即為預(yù)測(cè)類別。
交叉熵?fù)p失函數(shù):1D-ICNN模型中采用損失函數(shù)評(píng)價(jià)輸入數(shù)據(jù)的真實(shí)類別與預(yù)測(cè)類別的一致性。與均方誤差相比,交叉熵?fù)p失函數(shù)更能評(píng)估網(wǎng)絡(luò)模型的質(zhì)量,因?yàn)橥ㄟ^交叉熵運(yùn)算并不會(huì)影響分類函數(shù)本身的單調(diào)性[14]。交叉熵?fù)p失函數(shù)的計(jì)算為:
L=-y^logp(5)
式中,m表示輸入數(shù)據(jù)批量的大小,即為訓(xùn)練樣本數(shù)據(jù)集的數(shù)量;K為類別個(gè)數(shù);p表示第d個(gè)數(shù)據(jù)屬于第k類的類別預(yù)測(cè)值;y^表示第d個(gè)數(shù)據(jù)屬于第k類的類別one-hot編碼真實(shí)值。反向傳播不斷迭代使損失函數(shù)的值收斂,求解損失函數(shù)對(duì)權(quán)重和偏置的梯度。
變學(xué)習(xí)率:學(xué)習(xí)率越大,模型權(quán)重和偏置參數(shù)每次更新的程度越大,模型收斂越快;學(xué)習(xí)率越小,模型權(quán)重和偏置參數(shù)每次更新的程度越小,模型收斂越慢[15]。為了最小化損失函數(shù),在模型訓(xùn)練初期,保持一段時(shí)間較大的學(xué)習(xí)率可以盡快使網(wǎng)絡(luò)收斂到最優(yōu)解附近,可以減小時(shí)間開銷;在模型訓(xùn)練后期,保持一段時(shí)間較小的學(xué)習(xí)率在最優(yōu)解附近搜索,可以避免參數(shù)在極值兩側(cè)跳動(dòng),保證了最佳精度。基于衰減學(xué)習(xí)率變化策略設(shè)計(jì)自適應(yīng)動(dòng)態(tài)調(diào)整學(xué)習(xí)率方法為:
α(t)=(6)
式中,α為初始學(xué)習(xí)率;α為最小學(xué)習(xí)率;t為當(dāng)前迭代次數(shù);Tmed為迭代中期次數(shù);v為預(yù)設(shè)的正常數(shù)。圖2表示以初始學(xué)習(xí)率0.1,迭代次數(shù)100為例,說明不同學(xué)習(xí)率衰減策略隨迭代次數(shù)的變化曲線。
3老年人自評(píng)健康影響因素分析及預(yù)測(cè)流程
基于實(shí)證數(shù)據(jù)進(jìn)行研究,首先采用單因素分析中的卡方檢驗(yàn)篩選具有統(tǒng)計(jì)顯著意義的影響因素;然后基于1D-ICNN模型進(jìn)行迭代優(yōu)化,不斷更新網(wǎng)絡(luò)模型參數(shù),從而對(duì)待測(cè)老年人自評(píng)健康進(jìn)行預(yù)測(cè)。老年人自評(píng)健康影響因素分析及預(yù)測(cè)流程見圖3,主要步驟:①輸入樣本數(shù)據(jù),并基于統(tǒng)計(jì)學(xué)方法進(jìn)行特征提取,以分析影響老年人自評(píng)健康的主要因素;②將特征提取后的老年人自評(píng)健康數(shù)據(jù)劃分為訓(xùn)練和測(cè)試數(shù)據(jù)集;③在訓(xùn)練學(xué)習(xí)過程中,基于本文改進(jìn)策略,對(duì)1D-ICNN模型進(jìn)行前向傳播,不斷更新網(wǎng)絡(luò)模型參數(shù)。若滿足設(shè)置的迭代條件,則輸出1D-ICNN模型結(jié)構(gòu)和參數(shù);否則,基于交叉熵?fù)p失函數(shù)對(duì)1D-ICNN模型進(jìn)行后向傳播訓(xùn)練;④在測(cè)試學(xué)習(xí)過程中,將測(cè)試數(shù)據(jù)集輸入至訓(xùn)練好的1D-ICNN模型中,通過softmax層計(jì)算預(yù)測(cè)結(jié)果,最終輸出老年人自評(píng)健康預(yù)測(cè)結(jié)果。
4試驗(yàn)與結(jié)果
4.1老年人自評(píng)健康影響因素分析" 因變量老年人自評(píng)健康以及自變量均屬于多分類型變量,因此以卡方檢驗(yàn)分析不同因素對(duì)于老年人自評(píng)健康的顯著影響。在假設(shè)的顯著性水平下(P=0.05),最終篩選出15個(gè)通過顯著性檢驗(yàn)的特征變量,見表2。
在以往的研究中,收入、經(jīng)濟(jì)地位、性別、婚姻狀況、地區(qū)、健康保險(xiǎn)、社會(huì)參與等因素被認(rèn)為是影響老年人自評(píng)健康的重要因素[16]。就本次結(jié)果而言,老年人自評(píng)健康狀況與職業(yè)、睡眠質(zhì)量、網(wǎng)絡(luò)信任感知、鍛煉頻次、就醫(yī)地點(diǎn)選擇、養(yǎng)老居住意愿等方面有關(guān)。本研究部分結(jié)果與以往研究一致,并且有新發(fā)現(xiàn)。
4.1.1社會(huì)經(jīng)濟(jì)地位與老年人自評(píng)健康狀況的關(guān)系" 研究發(fā)現(xiàn)[17],經(jīng)濟(jì)地位對(duì)自評(píng)健康有直接影響,人均純收入高的社區(qū)自評(píng)健康狀況好于人均純收入低的社區(qū)。相對(duì)貧困與城市和農(nóng)村老年人的自我評(píng)價(jià)健康呈負(fù)相關(guān)[18]。教育程度會(huì)對(duì)老年人的自評(píng)健康產(chǎn)生影響,有研究認(rèn)為受教育程度較低的人更可能認(rèn)為自身的健康狀況較好,受教育程度較高的人則更可能準(zhǔn)確地評(píng)價(jià)自己的健康狀況[19]。本研究表明,相對(duì)于其他社會(huì)經(jīng)濟(jì)的構(gòu)成因素,職業(yè)類別對(duì)老年人自評(píng)健康程度的影響更為顯著。或許是因?yàn)槁殬I(yè)類別代表了收入和社會(huì)地位,以及相對(duì)應(yīng)的各種健康福利。在我國(guó)傳統(tǒng)的“單位”制度下,職業(yè)轉(zhuǎn)變是比較困難的,而在政府機(jī)構(gòu)工作的人員即使在退休后也具有很高的社會(huì)影響力,與其他的職業(yè)類型相比,他們較高的收入和社會(huì)地位對(duì)他們的自我健康評(píng)估產(chǎn)生了積極影響[20]。
4.1.2家庭功能與老年人自評(píng)健康狀況的關(guān)系" 代際福祉是家庭的基本功能,家庭可以提供對(duì)于家庭成員養(yǎng)老的支持。穩(wěn)定的婚姻關(guān)系能夠?yàn)槔夏耆颂峁┥鐣?huì)支持,從而增強(qiáng)他們的自信心、自我效能感等[21]。大部分學(xué)者的研究結(jié)果顯示有配偶的老年人比沒配偶的老年人自評(píng)健康狀況更好,喪偶、分居或離婚的老年人更容易表現(xiàn)出較差的自評(píng)健康[22]。就家庭功能而言,本研究證實(shí)了既往研究的觀點(diǎn),老年人對(duì)于居住地點(diǎn)的不同偏好對(duì)于自評(píng)健康有不同影響,傾向于居家養(yǎng)老的老人具有更高的家庭支持水平,因此自評(píng)健康狀況更好。而傾向于機(jī)構(gòu)集中養(yǎng)老的老人,大部分可能由于家庭支持水平較低而做出的偏好選擇,因而更容易產(chǎn)生較差的自評(píng)健康狀態(tài)。
4.1.3社會(huì)參與與老年人自評(píng)健康狀況的關(guān)系" 社會(huì)參與是“積極老齡化”的重要內(nèi)容,一般來說,與他人有更多社會(huì)互動(dòng)的老年人,能夠得到更多的社會(huì)支持,其自評(píng)健康狀況較好[23]。本研究發(fā)現(xiàn),網(wǎng)絡(luò)信任感知作為一個(gè)社會(huì)參與和社會(huì)認(rèn)同的指標(biāo),能夠一定程度上反應(yīng)老年人對(duì)于社會(huì)的親近感。對(duì)于網(wǎng)絡(luò)社會(huì)交往信任水平越高的老年人,自評(píng)健康狀況越好。而對(duì)于老年人來說,鍛煉也是社會(huì)交往的一種形式,我國(guó)老年人經(jīng)常通過太極拳認(rèn)識(shí)伙伴,擴(kuò)展社會(huì)交往,經(jīng)常參加鍛煉活動(dòng)的老年人不僅改善了身體功能,還因?yàn)殄憻拵淼纳鐣?huì)支持而有更好的自評(píng)健康水平。睡眠質(zhì)量是一個(gè)非常主觀的評(píng)價(jià)因素,睡眠持續(xù)時(shí)間長(zhǎng)不一定會(huì)提升自評(píng)健康狀況,但當(dāng)老年人認(rèn)為睡眠質(zhì)量較差時(shí),通常會(huì)帶來較低的自評(píng)健康狀況[24]。
4.2基于1D-ICNN的老年人自評(píng)健康預(yù)測(cè)結(jié)果分析
4.2.1評(píng)估指標(biāo)" 關(guān)于老年人自評(píng)健康預(yù)測(cè)問題使用的實(shí)證數(shù)據(jù)集分配規(guī)則,選取70%的樣本數(shù)據(jù)進(jìn)行模型構(gòu)建和優(yōu)化,30%的樣本數(shù)據(jù)作為模型預(yù)測(cè)性能的評(píng)估。采用準(zhǔn)確率(Accuracy)、精準(zhǔn)率/查準(zhǔn)率(Precision)、召回率/查全率(Recall)、特異度(Specificity)、AUC(Area Under ROC Curve)指標(biāo)、運(yùn)行時(shí)間來評(píng)估預(yù)測(cè)性能。
Accuracy:衡量預(yù)測(cè)正確的結(jié)果占所有結(jié)果的比例。
Accuracy=(7)
Precision:衡量預(yù)測(cè)為正的結(jié)果有多少實(shí)際為正。
Precision=(8)
Recall:衡量實(shí)際為正的結(jié)果有多少預(yù)測(cè)為正。
Recall=(9)
Specificity:所有負(fù)類數(shù)據(jù)中被預(yù)測(cè)正確的比例。
Specificity=(10)
AUC:ROC曲線下的面積即為AUC。
AUC=AUCi(11)
式中,TP表示將實(shí)際為正類劃分為正類的個(gè)數(shù);TN表示將實(shí)際為負(fù)類劃分為負(fù)類的個(gè)數(shù);FN表示將實(shí)際為正類劃分為負(fù)類的個(gè)數(shù);FP表示將實(shí)際為負(fù)類劃分為正類的個(gè)數(shù);K表示類別個(gè)數(shù)。
本次采用的實(shí)驗(yàn)平臺(tái)為PyCharm,開發(fā)語(yǔ)言為Python3.7,深度學(xué)習(xí)框架為Keras,該框架可以進(jìn)行模型的設(shè)計(jì)、訓(xùn)練、優(yōu)化以及可視化。訓(xùn)練模型的硬件環(huán)境為AMD Ryzen 7 5800H with Radeon Graphics,主頻3.20 GHz,內(nèi)存為16 GB;軟件平臺(tái)為64位Windows10操作系統(tǒng)。1D-ICNN模型訓(xùn)練時(shí),相關(guān)參數(shù)設(shè)置如下:批處理個(gè)數(shù)為1,epochs為200,激活函數(shù)為ReLU,損失函數(shù)為交叉熵?fù)p失函數(shù),使用自適應(yīng)時(shí)刻估計(jì)算法作為優(yōu)化器,學(xué)習(xí)率設(shè)為自適應(yīng)衰減變化,初始學(xué)習(xí)率為0.001,其余參數(shù)保持默認(rèn)值。
4.2.2 預(yù)測(cè)模型性能分析" 為了驗(yàn)證1D-ICNN模型對(duì)老年人自評(píng)健康的預(yù)測(cè)性能,將該算法與傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,包括:邏輯回歸(Logistic Regression, LR)、K近鄰(K Nearest Neighbor, KNN)、支持向量機(jī)(Support Vector Machine, SVM)、決策樹(Decision Tree, DT)、隨機(jī)森林(Random Forest, RF)、強(qiáng)分類器(Adaptive Boosting, AdaBoost)、梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)、XGBoost(eXtreme Gradient Boosting)、LightGBM(Light Gradient Boosting Machine)、1D-CNN。不同分類器預(yù)測(cè)性能評(píng)估結(jié)果見表3。
由表3可以看出,LR是線性模型,可解釋性強(qiáng),但學(xué)習(xí)能力有限,需要大量的人工特征工程;KNN和SVM屬于涉及到對(duì)樣本距離度量的模型,如果缺失值處理不當(dāng),會(huì)導(dǎo)致模型預(yù)測(cè)效果很差;DT基礎(chǔ)決策樹容易產(chǎn)生過擬合的情況,在訓(xùn)練集上有很好的預(yù)測(cè)精度,在測(cè)試集上效果不明顯;RF的隨機(jī)抽樣使得樹與樹之間沒有太多關(guān)聯(lián)性,可能導(dǎo)致擬合效果達(dá)到瓶頸;AdaBoost利用了弱分類器進(jìn)行級(jí)聯(lián),考慮了每個(gè)分類器的權(quán)重;GBDT訓(xùn)練時(shí)間比較長(zhǎng),通常不適用于高維稀疏數(shù)據(jù);XGBoost計(jì)算效率高,使用了二階導(dǎo),而且有正則化,減少了過擬合;LightGBM在保證和XBGoost精度相當(dāng)?shù)那疤嵯拢嵘怂俣龋?D-CNN在高維度特征數(shù)據(jù)預(yù)測(cè)方面,相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法,提高了模型的特征提取能力和學(xué)習(xí)能力;通過對(duì)原始1D-CNN模型的優(yōu)化,采用交叉熵?fù)p失函數(shù)和變學(xué)習(xí)率進(jìn)行網(wǎng)絡(luò)訓(xùn)練,相較于原始1D-CNN,1D-ICNN模型在測(cè)試集上的Accuracy、Precision、Recall、Specificity、AUC評(píng)估指標(biāo)均為所比較算法中的最優(yōu)值,明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,但該算法增加了運(yùn)行時(shí)間。因此,在老年人自評(píng)健康預(yù)測(cè)問題中,該模型特征學(xué)習(xí)能力較強(qiáng),提高了預(yù)測(cè)精度。
5總結(jié)
我國(guó)對(duì)于農(nóng)村老年人自評(píng)健康的研究存在著一定地域上的局限性。湖南作為較為典型的低城鎮(zhèn)化率、高農(nóng)村人口老齡化率的中部人口凈流出省,在這一領(lǐng)域有著很高的研究?jī)r(jià)值。本文以年齡大于等于60歲的老年人作為研究對(duì)象,對(duì)2022年岳陽(yáng)縣老年人養(yǎng)老需求調(diào)研數(shù)據(jù)進(jìn)行整理,從中提取可能對(duì)老年人自評(píng)健康產(chǎn)生影響的因素。首先對(duì)提取的相關(guān)特征因素進(jìn)行卡方檢驗(yàn),全面探索各個(gè)因素對(duì)老年人自評(píng)健康的影響顯著性;然后在此基礎(chǔ)上建立老年人自評(píng)健康預(yù)測(cè)模型并進(jìn)行驗(yàn)證。
本次調(diào)研的369名農(nóng)村老年人的自評(píng)健康狀況不容樂觀,多數(shù)老年人對(duì)自身健康狀況評(píng)價(jià)一般或較差。通過研究發(fā)現(xiàn),文化程度、政治面貌、婚姻狀況、職業(yè)、年收入等15個(gè)特征變量與農(nóng)村老年人自評(píng)健康相關(guān);基于篩選的顯著影響因素,提出基于交叉熵和變學(xué)習(xí)率的1D-ICNN模型用于預(yù)測(cè)農(nóng)村老年人自評(píng)健康,通過與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,包括LR、KNN、SVM、DT、RF、AdaBoost、GBDT、XGBoost、LightGBM、1D-CNN,最終結(jié)果表明1D-ICNN模型在Accuracy、Precision、Recall、Specificity、AUC評(píng)估指標(biāo)上優(yōu)于所比較的算法。
本文創(chuàng)新之處:①研究視角:從我國(guó)農(nóng)村老年人角度探究影響自評(píng)健康的主要因素,可以更加針對(duì)性地解決農(nóng)村老年人健康問題;②研究數(shù)據(jù):通過問卷調(diào)查對(duì)農(nóng)村老年人自評(píng)健康進(jìn)行研究,一定程度上解決了缺乏微觀層面數(shù)據(jù)的問題,補(bǔ)充了縣域一級(jí)具有代表性的實(shí)證研究;③研究方法:在卡方分析對(duì)老年人自評(píng)健康影響因素顯著性分析的基礎(chǔ)上,進(jìn)一步采用改進(jìn)的1D-ICNN模型對(duì)老年人自評(píng)健康進(jìn)行預(yù)測(cè),突破了傳統(tǒng)機(jī)器學(xué)習(xí)分類算法的不足,提供了可應(yīng)用于識(shí)別和預(yù)測(cè)老年自評(píng)健康的深度學(xué)習(xí)模型。
本文不足及改進(jìn):①在對(duì)老年人健康狀況的分析過程中,沒有探究自變量之間交互作用對(duì)老年人健康狀況的影響,在今后研究中,可以探究多變量之間的交互作用對(duì)老年人自評(píng)健康的影響,從而更加充實(shí)老年人的健康影響因素分析。②本文建立的老年人自評(píng)健康預(yù)測(cè)模型,預(yù)測(cè)精度還有改進(jìn)提升空間,可能是由于特征類別數(shù)據(jù)比較分散,或是僅采用了老年人基本信息、家庭狀況、生活方式、網(wǎng)絡(luò)使用情況、養(yǎng)老需求共五個(gè)方面相關(guān)特征數(shù)據(jù)。但在健康中國(guó)大背景下,有待于添加更多的相關(guān)影響因素來建立預(yù)測(cè)模型,提高模型的預(yù)測(cè)精準(zhǔn)性。
參考文獻(xiàn):
[1]冉思燕.影響老年旅游者消費(fèi)水平的因素研究——以重慶市主城區(qū)為例[D].重慶:西南大學(xué),2010.
[2]張俊麗,溫丹丹,陳素娜,等.橫琴65歲以上老年人參加免費(fèi)健康體檢的現(xiàn)狀調(diào)查[J].醫(yī)學(xué)信息,2023,36(11):81-85,94.
[3]王輝,莫合德斯·斯依提,樊瓊玲,等.烏魯木齊農(nóng)村老年人養(yǎng)老服務(wù)現(xiàn)狀分析[J].醫(yī)學(xué)信息,2021,34(6):142-145.
[4]谷琳,喬曉春.我國(guó)老年人健康自評(píng)影響因素分析[J].人口學(xué)刊,2006(6):25-29.
[5]Zadworna-Cieslak M.The measurement of health-related behavior in late adulthood: the health-related behavior questionnaire for seniors[J].Roczniki Psychologiczne,2017,20(3):599-617.
[6]Janszky I,Ljung R,Ahnve S,et al.Alcohol and long-term prognosis after a first acute myocardial infarction: the SHEEP study[J].European Heart Journal,2008,29(1):45-53.
[7]谷景亮.山東省老年慢性病患者用藥行為及依從性研究[D].濟(jì)南:山東大學(xué),2019.
[8]Tomioka K,Kurumatani N,Hosoi H.Association between the frequency and autonomy of social participation and self-rated health[J].Geriatrics and Gerontology International,2017,17(12):2537-2544.
[9]王超,姜茂敏,沈世勇,等.上海市老年人健康素養(yǎng)的城鄉(xiāng)差異及影響因素[J].中國(guó)衛(wèi)生事業(yè)管理,2023,40(2):148-152.
[10]王可,趙華碩,張虹,等.基于SMOTE算法與機(jī)器學(xué)習(xí)的老年人健康素養(yǎng)預(yù)測(cè)研究[J].中國(guó)校醫(yī),2019,33(9):641-643,699.
[11]Cho K,Raiko T,Ilin A.Enhanced gradient for training restricted boltzmann machines[J].Neural Computation,2013,25(3):805-831.
[12]Li Y,F(xiàn)u Y,Li H,et al.The improved training algorithm of back propagation neural network with self-adaptive learning rate[C]//Proc of Computational Intelligence and Natural Computing.Piscataway,NJ:IEEE Press,2009:73-76.
[13]葛君偉,涂兆昊,方義秋.基于融合CNN和Transformer的分離結(jié)構(gòu)機(jī)器翻譯模型[J].計(jì)算機(jī)應(yīng)用研究,2022,39(2):432-435.
[14]Fei R,Yao Q,Zhu Y,et al.Deep learning structure for cross-domain sentiment classification based on improved cross entropy and weight[J].Scientific Programming,2020,2020:1-20.
[15]Cheng K,Tao F,Zhan Y,et al.Hierarchical attributes learning for pedestrian re-identification via parallel stochastic gradient descent combined with momentum correction and adaptive learning rate[J].Neural Computing and Applications,2020,32(10):5695-5712.
[16]杜本峰,穆躍瑄,盛見.老年人自評(píng)健康的預(yù)測(cè)因素、貢獻(xiàn)程度及群體差異[J].中國(guó)衛(wèi)生政策研究,2022,15(4):8-16.
[17]Zadworna M.Pathways to healthy aging-exploring the determinants of self-rated health in older adults[J].Acta Psychologica,2022,228:103651.
[18]Qin W,Xu L,Wu S,et al.Income,relative deprivation and the self-rated health of older people in urban and rural China[J].Front Public Health,2021,9:658649.
[19]Choi A,Cawley J.Health disparities across education:the role of differential reporting error[J].Health Economics,2018,27(3):e1-e29.
[20]He L,Wang K,Wang J,et al.The effect of serving as a danwei leader before retirement on self-rated post-retirement health:empirical evidence from China[J].BMC Public Health,2022,22(1):573.
[21]Kn?觟pfli B,Cullati S,Courvoisier DS,et al.Marital breakup in later adulthood and self-rated health: a cross-sectional survey in Switzerland [J].International Journal of Public Health,2016,61:357-366.
[22]Rana GS,Shukla A,Mustafa A,et al.Association of multi-morbidity, social participation, functional and mental health with the self-rated health of middle-aged and older adults in India: a study based on LASI wave-1[J].BMC Geriatr,2022,22(1):675.
[23]Matud MP,García MC,F(xiàn)ortes D.Relevance of gender and social support in self-rated health and life satisfaction in elderly Spanish people[J].International Journal of Environmental Research and Public Health,2019,16(15):2725.
[24]Coombe AH,Epps F,Lee J,et al.Sleep and self-rated health in an aging workforce[J].Workplace Health and Safety,2019,67(6):302-310.
收稿日期:2023-08-05;修回日期:2023-08-25
編輯/成森