鄒瓊,吳曦,張楊,萬毅,陳長生*
1.710032 陜西省西安市,空軍軍醫(yī)大學(xué)軍事預(yù)防醫(yī)學(xué)系軍隊衛(wèi)生統(tǒng)計學(xué)教研室 特殊作業(yè)環(huán)境危害評估與防治教育部重點實驗室
2.712046 陜西省咸陽市,陜西中醫(yī)藥大學(xué)公共衛(wèi)生學(xué)院
3.710032 陜西省西安市,空軍軍醫(yī)大學(xué)衛(wèi)勤訓(xùn)練基地
糖尿病是最常見的人類疾病,已成為世界范圍內(nèi)重要的公共衛(wèi)生問題[1]。糖尿病腎病(DN)是2 型糖尿病(T2DM)常見的慢性微血管并發(fā)癥,也是世界范圍內(nèi)終末期腎病(ESRD)的主要原因。印度、中國及其他發(fā)展中國家受糖尿病影響的人數(shù)正在迅速增長,給患者和衛(wèi)生保健系統(tǒng)造成了世界性的負擔(dān)[2]。因此,實現(xiàn)DN 的早期診斷和治療,有助于預(yù)防或延緩其發(fā)生、發(fā)展,從而提高患者的預(yù)期壽命[3]。
為了更好地控制疾病的進程,診斷出更易患DN 的患者至關(guān)重要[3]。近年來,隨著數(shù)據(jù)挖掘的發(fā)展,機器學(xué)習(xí)在糖尿病研究中發(fā)揮著越來越重要的作用[4]。其中K 近鄰(KNN)、支持向量機(SVM)和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)模型是常見的數(shù)據(jù)挖掘模型。與SVM 等傳統(tǒng)的機器學(xué)習(xí)算法相比,BP 神經(jīng)網(wǎng)絡(luò)具有良好的非線性映射能力、自適應(yīng)性、容錯性等優(yōu)點[5],但在實際應(yīng)用中也存在一定缺陷,如易陷入局部極小值、結(jié)果存在隨機性、網(wǎng)絡(luò)收斂速度慢等[6]。因此,有必要改進標準的BP 神經(jīng)網(wǎng)絡(luò)算法。麻雀搜索算法(SSA)是XUE 等[7]受麻雀覓食和反捕食行為啟發(fā)而提出的一種仿生智能優(yōu)化算法,因其具有良好的靈活性和全局尋優(yōu)能力,研究者們將其與BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合以彌補其缺點,但目前多應(yīng)用于電力工業(yè)、自動化技術(shù)等領(lǐng)域[8-9]。因此本研究將探索SSA 優(yōu)化的BP(SSA-BP)神經(jīng)網(wǎng)絡(luò)應(yīng)用于DN 的診斷預(yù)測中,以期提升模型預(yù)測的準確率,或可為DN 的早期篩查和診斷治療提供理論依據(jù)/臨床參考。
數(shù)據(jù)來源于KHODADADI 等[10]公開的伊朗133例糖尿病患者的并發(fā)癥數(shù)據(jù)(https://data.mendeley.com/datasets/k62fdsnwkg/1)。數(shù)據(jù)集由133 例糖尿病患者(1型和2 型)的24 項信息組成:性別、年齡、BMI、糖尿病類型、糖尿病持續(xù)時間、空腹血糖(FBG)、糖化血紅蛋白(HbA1c)、低密度脂蛋白(LDL)、高密度脂蛋白(HDL)、三酰甘油(TG)、治療類型、他汀類藥物類型、他汀類藥物劑量、神經(jīng)病變、腎病、視網(wǎng)膜病變、周圍血管疾病、心血管疾病、足部潰瘍、黎明效應(yīng)、收縮壓(SBP),舒張壓(DBP)、累積阿托伐他汀當(dāng)量,實際低密度脂蛋白膽固醇。依據(jù)既往文獻[10-12],提取了13 個可能與DN 患者相關(guān)的風(fēng)險因素,變量賦值見表1。

表1 變量賦值說明Table 1 The description of variable assignment
剔除9 例1 型糖尿病患者,本研究納入的有效樣本量為124 例T2DM 患者,其中73 例患有DN。對年齡、糖尿病持續(xù)時間和BMI 連續(xù)變量離散化并編碼。以是否患DN 為因變量,分別用8∶2 和7∶3 的比例劃分訓(xùn)練集和測試集。
將單因素分析(表2)中P<0.05 的變量納入LASSO回歸中進一步篩選并確定最終納入模型的變量,在訓(xùn)練集上分別使用Logistic 回歸(LR)、KNN、SVM、BP 神經(jīng)網(wǎng)絡(luò)和SSA-BP 神經(jīng)網(wǎng)絡(luò)建立DN 預(yù)測模型,并在測試集上進行驗證。

表2 2 型糖尿病腎病患者相關(guān)危險因素的單因素分析Table 2 Univariate analysis of risk factors associated with type 2 diabetic nephropathy
1.4.1 LASSO 回歸是TIBSHIRANI[13]提出的一種著名的稀疏回歸方法。作為一種變量選擇方法,LASSO 回歸需要一個懲罰項來約束系數(shù)的大小,并最終將結(jié)構(gòu)風(fēng)險降至最低,防止“過擬合”發(fā)生[14]。篩選的方法主要包括lambda.min 和lambda.1se。因λ 到達一定值之后,繼續(xù)增加自變量個數(shù)并不能很顯著地提高模型性能,而lambda.1se(距離均方誤差一個標準誤時的λ 值)可給出一個具備優(yōu)良性能且自變量個數(shù)最少的模型[15]。
1.4.2 KNN 算法是一種監(jiān)督機器學(xué)習(xí)算法,可用于解決回歸和分類問題[16]。KNN 分類是最基本、最簡單的分類方法之一,在對數(shù)據(jù)分布知之甚少或一無所知的情況下,該方法是分類研究的首選方法之一。其不需要考慮模型構(gòu)建的細節(jié),且模型中唯一可調(diào)整的參數(shù)是K[17]。其易于理解和實現(xiàn),但主要缺點是隨著使用中數(shù)據(jù)的大小增長,速度會明顯變慢[16]。
1.4.3 CORTES 等[18]于1995 年提出了SVM 模型。SVM 的常見的核函數(shù)種類有:線性、多項式、高斯和Sigmoid 核函數(shù)。優(yōu)點是泛化錯誤低,可獲得準確和穩(wěn)健的結(jié)果,適用于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)集(如圖像和文本)。缺點是當(dāng)用于大型學(xué)習(xí)任務(wù)時,對內(nèi)存和時間要求較高[19]。此外,對參數(shù)調(diào)節(jié)和核函數(shù)的選擇敏感,變量的權(quán)重在最終模型中難以解釋[20]。
1.4.4 BP 神經(jīng)網(wǎng)絡(luò)是根據(jù)誤差反向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò),是應(yīng)用較廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。SSA在一定程度上改進了對優(yōu)化搜索空間的探索和利用,有效地避免了局部最優(yōu)問題[7]。在覓食過程中,麻雀被分為發(fā)現(xiàn)者、加入者和預(yù)警者。假設(shè)d 維空間中有N只麻雀,每只麻雀的位置為X=[x1,x2,…,xD],適應(yīng)度值f=f(x1,x2,…,xD)[7]。該算法主要分為3 部分,通過3 個公式來進行更新[21]。首先,發(fā)現(xiàn)者的位置更新如公式(1):
式中t 表示當(dāng)前迭代次數(shù),j=1,2,…,d,Xti,j表示迭代t 時第i 個麻雀的第j 維的值。itermax是最大迭代次數(shù)(常數(shù)),α是一個隨機數(shù)(α ∈(0,1])。R2(R2∈[0,1])和ST(ST ∈[0.5,1.0])分別表示預(yù)警值和安全值。Q 是服從正態(tài)分布的隨機數(shù)。L表示一個1×d 維的矩陣,其內(nèi)部每個元素都為1。
其次,加入者的位置更新如公式(2):
XP是發(fā)現(xiàn)者占據(jù)的最優(yōu)位置。Xworst表示當(dāng)前全局最差位置。A+=AT(AAT)-1,A 表示 1 × d 的矩陣,其中每個元素隨機分配1或-1,A的轉(zhuǎn)置是AT。當(dāng)i > n/2時,表明第i 個適應(yīng)度值較差的加入者最有可能處于饑餓狀態(tài)。預(yù)警者一般占總種群的10%~20%,這些麻雀的初始位置是在種群中隨機生成的,其位置更新如公式(3):
式(3)中Xbest為當(dāng)前全局最優(yōu)位置,代表種群中心的位置,并且在它周圍是安全的。β 是服從均值為0方差為1 的正態(tài)分布的隨機數(shù),作為步長控制參數(shù)。K(K ∈[-1,1])是一個隨機數(shù),表示麻雀移動的方向,也是一個步長控制參數(shù)。fi是當(dāng)前麻雀的適應(yīng)度值,fg和fw分別是當(dāng)前全局最佳和最差適應(yīng)度值,ε是常數(shù)[21]。圖1 是算法的流程圖。
采用SPSS 26.0 軟件進行統(tǒng)計學(xué)分析,以P<0.05 為差異有統(tǒng)計學(xué)意義。計數(shù)資料采用[例(%)]描述,兩組比較采用χ2檢驗。符合正態(tài)分布的計量資料以(±s)表示,兩組間比較采用兩獨立樣本t 檢驗。非正態(tài)分布的計量資料用M(QR)表示,兩組間比較采用Mann-Whitney 檢驗。采用R 4.2.2 軟件中的glmnet、kknn、e1071 程序包在訓(xùn)練集上建立LASSO 回歸、KNN和SVM 模型。采用caret 程序包的dummyVars 函數(shù)對多分類變量進行啞變量處理。采用MATLAB 2022a 軟件構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)和麻雀搜索SSA-BP 的神經(jīng)網(wǎng)絡(luò)模型。最后在測試集上評價性能,由混淆矩陣計算出的準確度、精確度、靈敏度和特異度來判斷各模型的優(yōu)劣。
124 例研究對象中73 例(58.9%)被診斷為DN。
無DN 和患DN 患者的性別、治療類型、他汀類藥物類型比較,差異無統(tǒng)計學(xué)意義(P>0.05);無DN和患DN 患者的年齡、BMI、糖尿病持續(xù)時間、FBG、HbA1c、LDL、HDL、TG、SBP、DBP 比較,差異有統(tǒng)計學(xué)意義(P<0.05),見表2。
基于訓(xùn)練集,以是否發(fā)生DN 為因變量,以單因素分析中有統(tǒng)計學(xué)意義的10 個變量為自變量進行LASSO回歸分析。多分類變量在納入模型前先進行啞變量化(10個自變量變?yōu)?3 個候選變量)。選擇10 倍交叉驗證下lambda.1se(lambda.1se=0.068 191 87)為模型最優(yōu)值(圖2),訓(xùn)練集∶測試集=8∶2 時結(jié)果顯示,年齡、糖尿病持續(xù)時間、HbA1c、LDL 和SBP 是與DN 發(fā)生相關(guān)的5 個變量,訓(xùn)練集∶測試集=7∶3 時結(jié)果顯示,年齡、BMI、糖尿病持續(xù)時間、LDL、HDL、SBP 和DBP 是與DN 發(fā)生相關(guān)的7 個變量。

圖2 LASSO 回歸變量篩選Figure 2 LASSO regression screening for variables
以是否發(fā)生DN 為因變量(賦值:否=0,是=1),以LASSO 回歸篩選出的變量為自變量進行LR 分析。多分類變量進行啞變量處理,因某些分類算法(如SVM、LR 和神經(jīng)網(wǎng)絡(luò))在未縮放的數(shù)據(jù)上表現(xiàn)不佳[22],所以計量資料采用標準化公式歸一化處理成(0,1)區(qū)間的變量,進而建立LR 模型。訓(xùn)練集∶測試集=8∶2 時,結(jié)果顯示糖尿病持續(xù) 時 間(OR=6.615,95%CI=1.263~42.533)、LDL(OR=3.647,95%CI=1.493~10.511)、SBP(OR=4.884,95%CI=1.863~17.332)是DN 的危險因素(P<0.05)。LR 模型表達式為Logit(P)=1.861+1.889×糖尿病持續(xù)時間+1.294×LDL+1.586×SBP(R2=0.767)。訓(xùn)練集∶測試集=7∶3 時,糖尿病持續(xù)時間(OR=6.786,95% CI=1.154~54.104)、LDL(OR=5.834,95%CI=2.128~21.033)是DN 的危險因素(P<0.05),表達式為Logit(P)=-16.041+1.915×糖尿病持續(xù)時間+1.764×LDL(R2=0.739)。
以是否發(fā)生DN 為因變量(賦值:否=0,是=1)在訓(xùn)練集上建立KNN 模型。利用Caret 包中train()函數(shù)的網(wǎng)格搜索法尋找K 的最佳參數(shù),K 的初始取值范圍為[2,15]。分別在訓(xùn)練集∶測試集=8∶2 和7∶3 時,十折交叉驗證正確率最高時得到的最優(yōu)K 值分別為14和9。
以是否患DN 為因變量(賦值:否=0,是=1),LASSO 回歸篩選的變量為自變量(如表1)建立徑向基核函數(shù)支持向量機模型(kernel="radial")。利用R 軟件中的tune.svm()函數(shù)的網(wǎng)格搜索法來尋找最優(yōu)參數(shù),C 與γ 的初始取值范圍分別為[0.001,0.01,0.1,1,5,10,100,1 000]和[0.1,0.5,1,2,3,4]。在訓(xùn)練集∶測試集=8∶2 和7∶3 時,十折交叉驗證錯誤率最低時的選出的最佳參數(shù)分別為C=10、γ=0.1 和C=1、γ=0.1。
考慮到訓(xùn)練時間和模型復(fù)雜度,本研究建立3 層BP 神經(jīng)網(wǎng)絡(luò)模型。將樣本值進行歸一化處理,這有助于提高網(wǎng)絡(luò)的訓(xùn)練速度。在訓(xùn)練集∶測試集=8∶2 時,輸入層節(jié)點數(shù)(n)為5,輸出層節(jié)點數(shù)(m)為2。基于常用的經(jīng)驗公式[23]:[h=+a,a ∈(1,10)],根號7 為2.6,再加上a,則隱藏層節(jié)點范圍[3.6,12.6],則取[3,12]。同理在訓(xùn)練集:測試集=7∶3時,n 為7,m 為2,隱藏層節(jié)點范圍則為[4,13]。經(jīng)多次試驗,在訓(xùn)練集:測試集=8∶2 和7∶3 時,最佳隱藏層節(jié)點數(shù)分別為8 和12 時擬合效果最好,因此網(wǎng)絡(luò)拓撲結(jié)構(gòu)分別設(shè)為5-8-2 和7-12-2。隱藏層及輸出層的激勵函數(shù)采用雙曲正切S 型函數(shù)及線性求和函數(shù):tansig(n)=2/(1+e-2n)-1;purelin(n)=n,訓(xùn)練次數(shù)1 000 次,網(wǎng)絡(luò)訓(xùn)練速率為0.01,訓(xùn)練目標最小誤差為0.000 1,Levenberg-Marquardt 法為訓(xùn)練算法,用梯度下降法更新權(quán)重。
參數(shù)初始化:SSA 的進化代數(shù)為50,種群規(guī)模為30,安全值ST 為0.6;發(fā)現(xiàn)者比例PD 為0.7,意識到有危險的麻雀的比重SD 為0.2;適應(yīng)度函數(shù)設(shè)計為訓(xùn)練集與測試集整體準確率的平均值,適應(yīng)度函數(shù)值越大,表明模型訓(xùn)練越準確,隨后計算個體適應(yīng)度;更新發(fā)現(xiàn)者、加入者和預(yù)警者的位置;查看位置更新之后的個體適應(yīng)度,并與當(dāng)前最優(yōu)適應(yīng)度值進行比較,達到最終止條件則選擇全局最優(yōu)解;否則,再次進行迭代;將模型輸出的最優(yōu)解作為神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,代入BP 神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,利用誤差反向傳播調(diào)節(jié)參數(shù),當(dāng)達到最大迭代次數(shù)(1 000)或目標誤差(0.000 1)的時,訓(xùn)練停止;將SSA 優(yōu)化后的BP 神經(jīng)網(wǎng)絡(luò)模型用于預(yù)測是否患DN。用均方誤差(MSE)表示模型性能,訓(xùn)練集:測試集=8∶2 和7∶3 時,最終模型分別在迭代20 和5次處達到最優(yōu)。模型進化/適應(yīng)度曲線表明模型在不斷優(yōu)化,最終達到最佳的適應(yīng)度值(圖3)。

圖3 SSA-BP 神經(jīng)網(wǎng)絡(luò)模型的進化曲線Figure 3 Evolutionary curves of SSA-BP neural network model
基于測試集驗證上述模型的預(yù)測性能,各模型訓(xùn)練集與測試集的結(jié)果見表3。在訓(xùn)練集∶測試集=8∶2 時,KNN 模型和SVM 模型達到了同樣的性能,其在訓(xùn)練集上優(yōu)于LR 模型,但在測試集上卻不如LR 模型。BP 模型在測試集上的準確率,靈敏度,F(xiàn)1-score 和受試者工作特征曲線下面積(AUC)優(yōu)于LR 模型,KNN 模型和SVM 模型,整體上SSA-BP 模型在訓(xùn)練集和測試集上的性能優(yōu)于BP、LR、KNN、SVM 模型。

表3 機器學(xué)習(xí)模型在不同樣本拆分比例下預(yù)測DN 的準確率、精確率、靈敏度、特異度、F1-score 和AUCTable 3 Accuracy,precision,sensitivity,specificity,F(xiàn)1-score and AUC of machine learning models in predicting DN under varied sample splitting ratios
在訓(xùn)練集∶測試集=7∶3 時,LR 模型和KNN 模型在測試集上結(jié)果相同,但在訓(xùn)練集上KNN 模型性能優(yōu)于LR 模型。LR、KNN、SVM 模型在測試集上具有相同的準確率,但SVM 模型的精確率,特異度和AUC 高于LR 模型和KNN 模型。不管在訓(xùn)練集還是測試集上,LR、KNN、SVM 模型的效能優(yōu)于BP 網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)。SSA-BP 網(wǎng)絡(luò)神經(jīng)模型提高了BP 神經(jīng)網(wǎng)絡(luò)模型的性能,使得測試集上BP 神經(jīng)網(wǎng)絡(luò)模型的準確率從72.22%提升到了91.67%。
對比2 個劃分比例下的模型性能,發(fā)現(xiàn)LR、KNN、SVM 模型在訓(xùn)練集∶測試集=7∶3 時預(yù)測性能較高,而BP 和SSA-BP 則在訓(xùn)練集∶測試集=8∶2 時預(yù)測性能更高。這可能是BP 神經(jīng)網(wǎng)絡(luò)模型在處理大樣本數(shù)據(jù)時有優(yōu)勢,用于訓(xùn)練的樣本越多,模型訓(xùn)練越好(圖4)。

圖4 BP 神經(jīng)網(wǎng)絡(luò)優(yōu)化前后的預(yù)測值和真實值誤差對比圖Figure 4 Comparison of predicted and observed value errors before and after BP neural network optimization
目前,DN 仍然是21 世紀全球醫(yī)療保健的重大臨床挑戰(zhàn)和負擔(dān)。一項回顧性研究(含220 例中國T2DM患者)表明,年齡、糖尿病持續(xù)時間和SBP 與DN 發(fā)病風(fēng)險獨立相關(guān)[24],另一項回顧性調(diào)查(含11 771 例T2DM 患者)顯示,較小年齡、高BMI 和更嚴重高血壓是增加DN 發(fā)病率的獨立危險因素[25],這與本研究結(jié)果一致。LASSO 回歸結(jié)果顯示,年齡和DN 發(fā)病呈負相關(guān),說明年齡40~<60 歲者較年齡<40 歲者更不易患DN,可能因為2 型糖尿病在年輕人中更為常見,患有2 型糖尿病的年輕人表現(xiàn)出典型的一系列危險因素,如不良的生活習(xí)慣和環(huán)境因素導(dǎo)致的肥胖、胰島素抵抗、高血壓和血脂異常,這些也是DN 的風(fēng)險因素[26]。而與本研究結(jié)果不同的是,國際糖尿病聯(lián)盟數(shù)據(jù)顯示糖尿病患病率隨年齡增長而增加,年齡范圍在65~79 歲人群的患病率為19.9%(1.112 億),達到最高[27],而RAVINDRAN 等[28]發(fā)現(xiàn)年齡與DN 之間沒有相關(guān)性。
高珍秀[29]證實了HbA1c、SBP 和脈壓的變異性是DN 發(fā)生發(fā)展的關(guān)鍵影響因子。今日研究小組發(fā)現(xiàn)與DN 等微血管并發(fā)癥發(fā)生風(fēng)險增加相關(guān)的因素是高水平HbA1c[30]。有研究表明HbA1c升高是腎小球濾過率快速下降的危險因素[31]。英國前瞻性糖尿病研究[32]表明長期血糖控制不佳是糖尿病發(fā)生微血管并發(fā)癥或進一步惡化主要危險因素,并且該風(fēng)險隨著HbA1c水平的升高呈指數(shù)增加。本研究結(jié)果顯示HbA1c與DN 正相關(guān),這與前述研究結(jié)果一致。既往表明改善血糖控制對DN 的發(fā)生和進展具有有益的作用[33],然而,SHIKATA 等[34]的研究表明,強化血糖控制對日本DN 患者并沒有顯示出治療優(yōu)勢。強化血糖控制對腎病的益處目前還存在爭議[35]。
GALL 等[36]對26 名患者(1 名女性)平均隨訪5.2 年,結(jié)果表明SBP(并非DBP)升高會加速T2DM 患者DN的進展。SHI 等[37]開展的一項橫斷面研究(4 219 例患者)結(jié)果顯示,SBP 是DN 的危險因素。有研究單因素Logistic 分析顯示總膽固醇(TC)、TG、LDL 對腎功能進展有影響[38]。今日研究小組的研究表明高血壓和血脂異常與DN 發(fā)生風(fēng)險增加相關(guān)[30]。本研究LASSO 回歸結(jié)果顯示SBP、LDL 與DN 正相關(guān),LR 模型結(jié)果顯示SBP 和LDL 是DN 的危險因素,與既往研究一致。
研究表明DN 隨時間的推移而發(fā)展,發(fā)病高峰出現(xiàn)在患糖尿病10~20 年后,發(fā)病率為20%~40%[39]。一項來自巴基斯坦隨訪12 年的研究表明糖尿病持續(xù)時間越長,DN 的發(fā)病率越高[40]。JIANG 等[41]以302 例T2D 患者為研究對象開發(fā)了一個DN 預(yù)測模型,發(fā)現(xiàn)典型的T2DM 患者DN 的病程通常超過10 年。SHI 等[37]的研究表明糖尿病病程>10 年的T2DM 患者患DN 的風(fēng)險較高,其次是病程為5~10 年的患者。本研究LR 模型結(jié)果顯示糖尿病持續(xù)時間是DN 的危險因素,LASSO回歸結(jié)果顯示,糖尿病持續(xù)時間和DN 正相關(guān),糖尿病持續(xù)時間≥10 年的患者DN 的發(fā)病風(fēng)險較高,與既往研究結(jié)果一致。
本研究分別采用LR、KNN、SVM、BP 神經(jīng)網(wǎng)絡(luò)、SSA-BP 神經(jīng)網(wǎng)絡(luò)建立DN 診斷模型,總體上SSA-BP神經(jīng)網(wǎng)絡(luò)模型性能最佳。傳統(tǒng)LR 分析適用范圍廣,應(yīng)用靈活。對于特定的問題,其性能相當(dāng)于甚至優(yōu)于一些相對復(fù)雜的機器學(xué)習(xí)算法[42]。LYNAM 等[43]在判別糖尿病患者類型(1 型/2 型)時,LR 模型的性能與更復(fù)雜的方法(如神經(jīng)網(wǎng)絡(luò)、KNN 模型、隨機森林、SVM模型)一樣好。于大海等[44]在評估肝硬化上消化道出血患者的預(yù)后時發(fā)現(xiàn)LR 模型的準確率(81.5%)高于決策樹(75.1%),本研究與之相同,當(dāng)訓(xùn)練集∶測試集=8∶2 時,在測試集上LR 模型的準確率(83.33%)高于KNN 和SVM,且本研究LR 模型性能優(yōu)于于大海等研究,可能原因為本研究樣本量雖小但數(shù)據(jù)代表性強于后者。在對妊娠期糖尿病的早期預(yù)測研究中,機器學(xué)習(xí)模型的整體性能與LR 模型相似[45]。DAGHISTANI等[46]基于風(fēng)險因素預(yù)測糖尿病時,隨機森林算法的精確率、靈敏度分別為0.883 和0.880,預(yù)測性能高于LR算法(0.692 和0.703)。本研究LR 算法精確率和靈敏度分別為91.67%、78.57%,優(yōu)于上述研究的LR 模型。有研究表明,一般對于平衡和不平衡數(shù)據(jù),SVM 模型和LR 模型具有相同的性能,而對于高度不平衡的數(shù)據(jù)集,SVM 模型可能會更好[47]。但與本研究結(jié)果不一致,訓(xùn)練集∶測試集=8∶2 時,測試集上LR 模型的整體預(yù)測性能優(yōu)于SVM 模型。KNN 被稱為惰性算法,因為沒有明顯的訓(xùn)練階段,即使有也非常小[48]。訓(xùn)練集∶測試集=8∶2 時KNN 模型的測試集準確率只達到79.17%,可能是KNN 模型在訓(xùn)練過程中學(xué)習(xí)到的東西并不多,效率較低[49]。本研究及既往研究表明,機器學(xué)習(xí)算法與回歸模型的性能結(jié)果不一致。分析可能的原因有:LR 模型適用于變量與結(jié)果之間具有線性關(guān)系的簡單數(shù)據(jù),而應(yīng)用于非線性關(guān)系的數(shù)據(jù)性能較差;許多類型的機器學(xué)習(xí)模型和LR 模型可能適合不同的數(shù)據(jù)集,并在不同的數(shù)據(jù)集中表現(xiàn)不同[45];同時還有樣本量的原因。
近年BP 神經(jīng)網(wǎng)絡(luò)的應(yīng)用越來越廣泛。汪可可等[49]基于BP 神經(jīng)網(wǎng)絡(luò)建立急性腦梗死患者自發(fā)性出血性轉(zhuǎn)化的風(fēng)險預(yù)測模型,效果較好。田娟等[50]應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建兒童甲狀腺疾病預(yù)測模型,結(jié)果模型準確度達到91.43%,誤差較小,相比之下本研究BP 神經(jīng)網(wǎng)絡(luò)僅達到了87.50%的準確率,但靈敏度較高(92.31%)。然而為克服BP 神經(jīng)網(wǎng)絡(luò)全局搜索能力低下等缺陷,許多研究者對其進行了組合優(yōu)化研究,并達到了較好的效果。黃仕鑫等[51]使用遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò),建立預(yù)測T2DM 性周圍神經(jīng)病變的模型,準確率分別達到了98.9%、99.5%,性能優(yōu)于本研究建立的SSA-BP 模型。杭昕璇等[52]利用BP 網(wǎng)絡(luò)、SSA-BP 網(wǎng)絡(luò)對麥冬藥液糖析出過程建立回歸預(yù)測模型,發(fā)現(xiàn)后者預(yù)測精度更高更穩(wěn)定。韋哲等[53]利用思維進化算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)判斷T2DM 患者所處的并發(fā)癥階段,預(yù)測誤差更低。本研究中SSA-BP 神經(jīng)網(wǎng)絡(luò)模型在各評估參數(shù)上具有明顯優(yōu)勢,預(yù)測誤差更小,優(yōu)化算法提高了BP 神經(jīng)網(wǎng)絡(luò)的泛化性。
RODRIGUEZ-ROMERO 等[54]預(yù)測T2DM DN 時(10 251 例)結(jié)果顯示,RF 模型和LR 模型性能最好,準確率均為84.0%,MANIRUZZAMAN 等[12]利用主成分分析進行特征提取,采用線性判別分析、SVM、LR、KNN、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)技術(shù)建立DN預(yù)測模型(133例),結(jié)果高斯核函數(shù)(RBF)SVW 分類準確率最高(88.7%)。DAVID 等[55]基于410 個實例的數(shù)據(jù)集建立糖尿病腎臟病(DKD)預(yù)測模型,結(jié)果KNN 和隨機樹分類器的性能最好(準確率93.658 5%)。本研究構(gòu)建的SSA-BP 神經(jīng)網(wǎng)絡(luò)模型性能優(yōu)于既往研究,可能因為樣本量較小而達到了較好的性能。
神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)中應(yīng)用廣泛,針對其他糖尿病并發(fā)癥或慢病,神經(jīng)網(wǎng)絡(luò)均可找到適合的網(wǎng)絡(luò)結(jié)構(gòu)來進行學(xué)習(xí),有較好的拓展性。SSA-BP 神經(jīng)網(wǎng)絡(luò)模型無需對輸入數(shù)據(jù)的統(tǒng)計模型做任何先驗假設(shè),為基于神經(jīng)網(wǎng)絡(luò)的T2DM DN 的準確預(yù)測提供了算法支持和理論依據(jù)。本研究的局限是數(shù)據(jù)樣本量較少,未來可基于大樣本數(shù)據(jù)進行進一步的探索;此外,未進行外部驗證,有研究建議模型最好利用外部數(shù)據(jù)集和領(lǐng)域?qū)<襾頇z查模型的合理性,像支持向量機或神經(jīng)網(wǎng)絡(luò)等“黑盒模型”,可解釋性差,只能通過外部驗證或借助可解釋機器學(xué)習(xí)模型[17],未來將繼續(xù)探索其在外部數(shù)據(jù)集上的性能。
作者貢獻:鄒瓊、張楊進行數(shù)據(jù)的下載及整理;鄒瓊、吳曦、陳長生進行文章的構(gòu)思與設(shè)計、論文的修訂;鄒瓊、吳曦、張楊、萬毅、陳長生進行研究的實施與可行性分析;鄒瓊、吳曦、張楊、萬毅進行結(jié)果的分析與解釋并撰寫論文。
本文無利益沖突。