基于麻雀搜索算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)模型對2 型糖尿病腎病的預(yù)測研究

2023-12-13 06:45:32鄒瓊吳曦張楊萬毅陳長生

中國全科醫(yī)學(xué) 2024年8期

鄒瓊，吳曦，張楊，萬毅，陳長生*

1.710032 陜西省西安市，空軍軍醫(yī)大學(xué)軍事預(yù)防醫(yī)學(xué)系軍隊衛(wèi)生統(tǒng)計學(xué)教研室特殊作業(yè)環(huán)境危害評估與防治教育部重點實驗室

2.712046 陜西省咸陽市，陜西中醫(yī)藥大學(xué)公共衛(wèi)生學(xué)院

3.710032 陜西省西安市，空軍軍醫(yī)大學(xué)衛(wèi)勤訓(xùn)練基地

糖尿病是最常見的人類疾病，已成為世界范圍內(nèi)重要的公共衛(wèi)生問題［1］。糖尿病腎病（DN）是2 型糖尿病（T2DM）常見的慢性微血管并發(fā)癥，也是世界范圍內(nèi)終末期腎病（ESRD）的主要原因。印度、中國及其他發(fā)展中國家受糖尿病影響的人數(shù)正在迅速增長，給患者和衛(wèi)生保健系統(tǒng)造成了世界性的負擔(dān)［2］。因此，實現(xiàn)DN 的早期診斷和治療，有助于預(yù)防或延緩其發(fā)生、發(fā)展，從而提高患者的預(yù)期壽命［3］。

為了更好地控制疾病的進程，診斷出更易患DN 的患者至關(guān)重要［3］。近年來，隨著數(shù)據(jù)挖掘的發(fā)展，機器學(xué)習(xí)在糖尿病研究中發(fā)揮著越來越重要的作用［4］。其中K 近鄰（KNN）、支持向量機（SVM）和反向傳播神經(jīng)網(wǎng)絡(luò)（BPNN）模型是常見的數(shù)據(jù)挖掘模型。與SVM 等傳統(tǒng)的機器學(xué)習(xí)算法相比，BP 神經(jīng)網(wǎng)絡(luò)具有良好的非線性映射能力、自適應(yīng)性、容錯性等優(yōu)點［5］，但在實際應(yīng)用中也存在一定缺陷，如易陷入局部極小值、結(jié)果存在隨機性、網(wǎng)絡(luò)收斂速度慢等［6］。因此，有必要改進標準的BP 神經(jīng)網(wǎng)絡(luò)算法。麻雀搜索算法（SSA）是XUE 等［7］受麻雀覓食和反捕食行為啟發(fā)而提出的一種仿生智能優(yōu)化算法，因其具有良好的靈活性和全局尋優(yōu)能力，研究者們將其與BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合以彌補其缺點，但目前多應(yīng)用于電力工業(yè)、自動化技術(shù)等領(lǐng)域［8-9］。因此本研究將探索SSA 優(yōu)化的BP（SSA-BP）神經(jīng)網(wǎng)絡(luò)應(yīng)用于DN 的診斷預(yù)測中，以期提升模型預(yù)測的準確率，或可為DN 的早期篩查和診斷治療提供理論依據(jù)/臨床參考。

1 對象與方法

1.1 研究對象

數(shù)據(jù)來源于KHODADADI 等［10］公開的伊朗133例糖尿病患者的并發(fā)癥數(shù)據(jù)（https://data.mendeley.com/datasets/k62fdsnwkg/1）。數(shù)據(jù)集由133 例糖尿病患者（1型和2 型）的24 項信息組成：性別、年齡、BMI、糖尿病類型、糖尿病持續(xù)時間、空腹血糖（FBG）、糖化血紅蛋白（HbA1c）、低密度脂蛋白（LDL）、高密度脂蛋白（HDL）、三酰甘油（TG）、治療類型、他汀類藥物類型、他汀類藥物劑量、神經(jīng)病變、腎病、視網(wǎng)膜病變、周圍血管疾病、心血管疾病、足部潰瘍、黎明效應(yīng)、收縮壓（SBP），舒張壓（DBP）、累積阿托伐他汀當(dāng)量，實際低密度脂蛋白膽固醇。依據(jù)既往文獻［10-12］，提取了13 個可能與DN 患者相關(guān)的風(fēng)險因素，變量賦值見表1。

表1 變量賦值說明Table 1 The description of variable assignment

1.2 數(shù)據(jù)處理

剔除9 例1 型糖尿病患者，本研究納入的有效樣本量為124 例T2DM 患者，其中73 例患有DN。對年齡、糖尿病持續(xù)時間和BMI 連續(xù)變量離散化并編碼。以是否患DN 為因變量，分別用8∶2 和7∶3 的比例劃分訓(xùn)練集和測試集。

1.3 研究方法

將單因素分析（表2）中P＜0.05 的變量納入LASSO回歸中進一步篩選并確定最終納入模型的變量，在訓(xùn)練集上分別使用Logistic 回歸（LR）、KNN、SVM、BP 神經(jīng)網(wǎng)絡(luò)和SSA-BP 神經(jīng)網(wǎng)絡(luò)建立DN 預(yù)測模型，并在測試集上進行驗證。

表2 2 型糖尿病腎病患者相關(guān)危險因素的單因素分析Table 2 Univariate analysis of risk factors associated with type 2 diabetic nephropathy

1.4 方法學(xué)介紹

1.4.1 LASSO 回歸是TIBSHIRANI［13］提出的一種著名的稀疏回歸方法。作為一種變量選擇方法，LASSO 回歸需要一個懲罰項來約束系數(shù)的大小，并最終將結(jié)構(gòu)風(fēng)險降至最低，防止“過擬合”發(fā)生［14］。篩選的方法主要包括lambda.min 和lambda.1se。因λ 到達一定值之后，繼續(xù)增加自變量個數(shù)并不能很顯著地提高模型性能，而lambda.1se（距離均方誤差一個標準誤時的λ 值）可給出一個具備優(yōu)良性能且自變量個數(shù)最少的模型［15］。

1.4.2 KNN 算法是一種監(jiān)督機器學(xué)習(xí)算法，可用于解決回歸和分類問題［16］。KNN 分類是最基本、最簡單的分類方法之一，在對數(shù)據(jù)分布知之甚少或一無所知的情況下，該方法是分類研究的首選方法之一。其不需要考慮模型構(gòu)建的細節(jié)，且模型中唯一可調(diào)整的參數(shù)是K［17］。其易于理解和實現(xiàn)，但主要缺點是隨著使用中數(shù)據(jù)的大小增長，速度會明顯變慢［16］。

1.4.3 CORTES 等［18］于1995 年提出了SVM 模型。SVM 的常見的核函數(shù)種類有：線性、多項式、高斯和Sigmoid 核函數(shù)。優(yōu)點是泛化錯誤低，可獲得準確和穩(wěn)健的結(jié)果，適用于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)集（如圖像和文本）。缺點是當(dāng)用于大型學(xué)習(xí)任務(wù)時，對內(nèi)存和時間要求較高［19］。此外，對參數(shù)調(diào)節(jié)和核函數(shù)的選擇敏感，變量的權(quán)重在最終模型中難以解釋［20］。

1.4.4 BP 神經(jīng)網(wǎng)絡(luò)是根據(jù)誤差反向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò)，是應(yīng)用較廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。SSA在一定程度上改進了對優(yōu)化搜索空間的探索和利用，有效地避免了局部最優(yōu)問題［7］。在覓食過程中，麻雀被分為發(fā)現(xiàn)者、加入者和預(yù)警者。假設(shè)d 維空間中有N只麻雀，每只麻雀的位置為X=［x1，x2，…，xD］，適應(yīng)度值f=f（x1，x2，…，xD）［7］。該算法主要分為3 部分，通過3 個公式來進行更新［21］。首先，發(fā)現(xiàn)者的位置更新如公式（1）：

式中t 表示當(dāng)前迭代次數(shù)，j=1，2，…，d，Xti，j表示迭代t 時第i 個麻雀的第j 維的值。itermax是最大迭代次數(shù)（常數(shù)），α是一個隨機數(shù)（α ∈（0，1］）。R2（R2∈［0，1］）和ST（ST ∈［0.5，1.0］）分別表示預(yù)警值和安全值。Q 是服從正態(tài)分布的隨機數(shù)。L表示一個1×d 維的矩陣，其內(nèi)部每個元素都為1。

其次，加入者的位置更新如公式（2）：

XP是發(fā)現(xiàn)者占據(jù)的最優(yōu)位置。Xworst表示當(dāng)前全局最差位置。A+=AT（AAT）-1，A 表示 1 × d 的矩陣，其中每個元素隨機分配1或-1，A的轉(zhuǎn)置是AT。當(dāng)i ＞ n/2時，表明第i 個適應(yīng)度值較差的加入者最有可能處于饑餓狀態(tài)。預(yù)警者一般占總種群的10%～20%，這些麻雀的初始位置是在種群中隨機生成的，其位置更新如公式（3）：

式（3）中Xbest為當(dāng)前全局最優(yōu)位置，代表種群中心的位置，并且在它周圍是安全的。β 是服從均值為0方差為1 的正態(tài)分布的隨機數(shù)，作為步長控制參數(shù)。K（K ∈［-1，1］）是一個隨機數(shù)，表示麻雀移動的方向，也是一個步長控制參數(shù)。fi是當(dāng)前麻雀的適應(yīng)度值，fg和fw分別是當(dāng)前全局最佳和最差適應(yīng)度值，ε是常數(shù)［21］。圖1 是算法的流程圖。

1.5 統(tǒng)計方法與軟件

采用SPSS 26.0 軟件進行統(tǒng)計學(xué)分析，以P＜0.05 為差異有統(tǒng)計學(xué)意義。計數(shù)資料采用［例（%）］描述，兩組比較采用χ2檢驗。符合正態(tài)分布的計量資料以（±s）表示，兩組間比較采用兩獨立樣本t 檢驗。非正態(tài)分布的計量資料用M（QR）表示，兩組間比較采用Mann-Whitney 檢驗。采用R 4.2.2 軟件中的glmnet、kknn、e1071 程序包在訓(xùn)練集上建立LASSO 回歸、KNN和SVM 模型。采用caret 程序包的dummyVars 函數(shù)對多分類變量進行啞變量處理。采用MATLAB 2022a 軟件構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)和麻雀搜索SSA-BP 的神經(jīng)網(wǎng)絡(luò)模型。最后在測試集上評價性能，由混淆矩陣計算出的準確度、精確度、靈敏度和特異度來判斷各模型的優(yōu)劣。

2 結(jié)果

2.1 一般資料

124 例研究對象中73 例（58.9%）被診斷為DN。

2.2 T2DM 患者DN 危險因素的單因素分析

無DN 和患DN 患者的性別、治療類型、他汀類藥物類型比較，差異無統(tǒng)計學(xué)意義（P＞0.05）；無DN和患DN 患者的年齡、BMI、糖尿病持續(xù)時間、FBG、HbA1c、LDL、HDL、TG、SBP、DBP 比較，差異有統(tǒng)計學(xué)意義（P＜0.05），見表2。

2.3 LASSO 回歸變量篩選

基于訓(xùn)練集，以是否發(fā)生DN 為因變量，以單因素分析中有統(tǒng)計學(xué)意義的10 個變量為自變量進行LASSO回歸分析。多分類變量在納入模型前先進行啞變量化（10個自變量變?yōu)?3 個候選變量）。選擇10 倍交叉驗證下lambda.1se（lambda.1se=0.068 191 87）為模型最優(yōu)值（圖2），訓(xùn)練集∶測試集=8∶2 時結(jié)果顯示，年齡、糖尿病持續(xù)時間、HbA1c、LDL 和SBP 是與DN 發(fā)生相關(guān)的5 個變量，訓(xùn)練集∶測試集=7∶3 時結(jié)果顯示，年齡、BMI、糖尿病持續(xù)時間、LDL、HDL、SBP 和DBP 是與DN 發(fā)生相關(guān)的7 個變量。

圖2 LASSO 回歸變量篩選Figure 2 LASSO regression screening for variables

2.4 LR 模型的建立

以是否發(fā)生DN 為因變量（賦值：否=0，是=1），以LASSO 回歸篩選出的變量為自變量進行LR 分析。多分類變量進行啞變量處理，因某些分類算法（如SVM、LR 和神經(jīng)網(wǎng)絡(luò)）在未縮放的數(shù)據(jù)上表現(xiàn)不佳［22］，所以計量資料采用標準化公式歸一化處理成（0，1）區(qū)間的變量，進而建立LR 模型。訓(xùn)練集∶測試集=8∶2 時，結(jié)果顯示糖尿病持續(xù) 時間（OR=6.615，95%CI=1.263～42.533）、LDL（OR=3.647，95%CI=1.493～10.511）、SBP（OR=4.884，95%CI=1.863～17.332）是DN 的危險因素（P＜0.05）。LR 模型表達式為Logit（P）=1.861+1.889×糖尿病持續(xù)時間+1.294×LDL+1.586×SBP（R2=0.767）。訓(xùn)練集∶測試集=7∶3 時，糖尿病持續(xù)時間（OR=6.786，95% CI=1.154～54.104）、LDL（OR=5.834，95%CI=2.128～21.033）是DN 的危險因素（P＜0.05），表達式為Logit（P）=-16.041+1.915×糖尿病持續(xù)時間+1.764×LDL（R2=0.739）。

2.5 KNN 模型的建立

以是否發(fā)生DN 為因變量（賦值：否=0，是=1）在訓(xùn)練集上建立KNN 模型。利用Caret 包中train（）函數(shù)的網(wǎng)格搜索法尋找K 的最佳參數(shù)，K 的初始取值范圍為［2，15］。分別在訓(xùn)練集∶測試集=8∶2 和7∶3 時，十折交叉驗證正確率最高時得到的最優(yōu)K 值分別為14和9。

2.6 SVM 模型的建立

以是否患DN 為因變量（賦值：否=0，是=1），LASSO 回歸篩選的變量為自變量（如表1）建立徑向基核函數(shù)支持向量機模型（kernel=＂radial＂）。利用R 軟件中的tune.svm（）函數(shù)的網(wǎng)格搜索法來尋找最優(yōu)參數(shù)，C 與γ 的初始取值范圍分別為［0.001，0.01，0.1，1，5，10，100，1 000］和［0.1，0.5，1，2，3，4］。在訓(xùn)練集∶測試集=8∶2 和7∶3 時，十折交叉驗證錯誤率最低時的選出的最佳參數(shù)分別為C=10、γ=0.1 和C=1、γ=0.1。

2.7 BP 神經(jīng)網(wǎng)絡(luò)模型的建立

考慮到訓(xùn)練時間和模型復(fù)雜度，本研究建立3 層BP 神經(jīng)網(wǎng)絡(luò)模型。將樣本值進行歸一化處理，這有助于提高網(wǎng)絡(luò)的訓(xùn)練速度。在訓(xùn)練集∶測試集=8∶2 時，輸入層節(jié)點數(shù)（n）為5，輸出層節(jié)點數(shù)（m）為2。基于常用的經(jīng)驗公式［23］：［h=+a，a ∈（1，10）］，根號7 為2.6，再加上a，則隱藏層節(jié)點范圍［3.6，12.6］，則取［3，12］。同理在訓(xùn)練集：測試集=7∶3時，n 為7，m 為2，隱藏層節(jié)點范圍則為［4，13］。經(jīng)多次試驗，在訓(xùn)練集：測試集=8∶2 和7∶3 時，最佳隱藏層節(jié)點數(shù)分別為8 和12 時擬合效果最好，因此網(wǎng)絡(luò)拓撲結(jié)構(gòu)分別設(shè)為5-8-2 和7-12-2。隱藏層及輸出層的激勵函數(shù)采用雙曲正切S 型函數(shù)及線性求和函數(shù)：tansig（n）=2/（1+e-2n）-1；purelin（n）=n，訓(xùn)練次數(shù)1 000 次，網(wǎng)絡(luò)訓(xùn)練速率為0.01，訓(xùn)練目標最小誤差為0.000 1，Levenberg-Marquardt 法為訓(xùn)練算法，用梯度下降法更新權(quán)重。

2.8 SSA-BP 神經(jīng)網(wǎng)絡(luò)模型的建立

參數(shù)初始化：SSA 的進化代數(shù)為50，種群規(guī)模為30，安全值ST 為0.6；發(fā)現(xiàn)者比例PD 為0.7，意識到有危險的麻雀的比重SD 為0.2；適應(yīng)度函數(shù)設(shè)計為訓(xùn)練集與測試集整體準確率的平均值，適應(yīng)度函數(shù)值越大，表明模型訓(xùn)練越準確，隨后計算個體適應(yīng)度；更新發(fā)現(xiàn)者、加入者和預(yù)警者的位置；查看位置更新之后的個體適應(yīng)度，并與當(dāng)前最優(yōu)適應(yīng)度值進行比較，達到最終止條件則選擇全局最優(yōu)解；否則，再次進行迭代；將模型輸出的最優(yōu)解作為神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值，代入BP 神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，利用誤差反向傳播調(diào)節(jié)參數(shù)，當(dāng)達到最大迭代次數(shù)（1 000）或目標誤差（0.000 1）的時，訓(xùn)練停止；將SSA 優(yōu)化后的BP 神經(jīng)網(wǎng)絡(luò)模型用于預(yù)測是否患DN。用均方誤差（MSE）表示模型性能，訓(xùn)練集：測試集=8∶2 和7∶3 時，最終模型分別在迭代20 和5次處達到最優(yōu)。模型進化/適應(yīng)度曲線表明模型在不斷優(yōu)化，最終達到最佳的適應(yīng)度值（圖3）。

圖3 SSA-BP 神經(jīng)網(wǎng)絡(luò)模型的進化曲線Figure 3 Evolutionary curves of SSA-BP neural network model

2.9 模型比較

基于測試集驗證上述模型的預(yù)測性能，各模型訓(xùn)練集與測試集的結(jié)果見表3。在訓(xùn)練集∶測試集=8∶2 時，KNN 模型和SVM 模型達到了同樣的性能，其在訓(xùn)練集上優(yōu)于LR 模型，但在測試集上卻不如LR 模型。BP 模型在測試集上的準確率，靈敏度，F(xiàn)1-score 和受試者工作特征曲線下面積（AUC）優(yōu)于LR 模型，KNN 模型和SVM 模型，整體上SSA-BP 模型在訓(xùn)練集和測試集上的性能優(yōu)于BP、LR、KNN、SVM 模型。

表3 機器學(xué)習(xí)模型在不同樣本拆分比例下預(yù)測DN 的準確率、精確率、靈敏度、特異度、F1-score 和AUCTable 3 Accuracy，precision，sensitivity，specificity，F(xiàn)1-score and AUC of machine learning models in predicting DN under varied sample splitting ratios

在訓(xùn)練集∶測試集=7∶3 時，LR 模型和KNN 模型在測試集上結(jié)果相同，但在訓(xùn)練集上KNN 模型性能優(yōu)于LR 模型。LR、KNN、SVM 模型在測試集上具有相同的準確率，但SVM 模型的精確率，特異度和AUC 高于LR 模型和KNN 模型。不管在訓(xùn)練集還是測試集上，LR、KNN、SVM 模型的效能優(yōu)于BP 網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)。SSA-BP 網(wǎng)絡(luò)神經(jīng)模型提高了BP 神經(jīng)網(wǎng)絡(luò)模型的性能，使得測試集上BP 神經(jīng)網(wǎng)絡(luò)模型的準確率從72.22%提升到了91.67%。

對比2 個劃分比例下的模型性能，發(fā)現(xiàn)LR、KNN、SVM 模型在訓(xùn)練集∶測試集=7∶3 時預(yù)測性能較高，而BP 和SSA-BP 則在訓(xùn)練集∶測試集=8∶2 時預(yù)測性能更高。這可能是BP 神經(jīng)網(wǎng)絡(luò)模型在處理大樣本數(shù)據(jù)時有優(yōu)勢，用于訓(xùn)練的樣本越多，模型訓(xùn)練越好（圖4）。

圖4 BP 神經(jīng)網(wǎng)絡(luò)優(yōu)化前后的預(yù)測值和真實值誤差對比圖Figure 4 Comparison of predicted and observed value errors before and after BP neural network optimization

3 討論

目前，DN 仍然是21 世紀全球醫(yī)療保健的重大臨床挑戰(zhàn)和負擔(dān)。一項回顧性研究（含220 例中國T2DM患者）表明，年齡、糖尿病持續(xù)時間和SBP 與DN 發(fā)病風(fēng)險獨立相關(guān)［24］，另一項回顧性調(diào)查（含11 771 例T2DM 患者）顯示，較小年齡、高BMI 和更嚴重高血壓是增加DN 發(fā)病率的獨立危險因素［25］，這與本研究結(jié)果一致。LASSO 回歸結(jié)果顯示，年齡和DN 發(fā)病呈負相關(guān)，說明年齡40～＜60 歲者較年齡＜40 歲者更不易患DN，可能因為2 型糖尿病在年輕人中更為常見，患有2 型糖尿病的年輕人表現(xiàn)出典型的一系列危險因素，如不良的生活習(xí)慣和環(huán)境因素導(dǎo)致的肥胖、胰島素抵抗、高血壓和血脂異常，這些也是DN 的風(fēng)險因素［26］。而與本研究結(jié)果不同的是，國際糖尿病聯(lián)盟數(shù)據(jù)顯示糖尿病患病率隨年齡增長而增加，年齡范圍在65～79 歲人群的患病率為19.9%（1.112 億），達到最高［27］，而RAVINDRAN 等［28］發(fā)現(xiàn)年齡與DN 之間沒有相關(guān)性。

高珍秀［29］證實了HbA1c、SBP 和脈壓的變異性是DN 發(fā)生發(fā)展的關(guān)鍵影響因子。今日研究小組發(fā)現(xiàn)與DN 等微血管并發(fā)癥發(fā)生風(fēng)險增加相關(guān)的因素是高水平HbA1c［30］。有研究表明HbA1c升高是腎小球濾過率快速下降的危險因素［31］。英國前瞻性糖尿病研究［32］表明長期血糖控制不佳是糖尿病發(fā)生微血管并發(fā)癥或進一步惡化主要危險因素，并且該風(fēng)險隨著HbA1c水平的升高呈指數(shù)增加。本研究結(jié)果顯示HbA1c與DN 正相關(guān)，這與前述研究結(jié)果一致。既往表明改善血糖控制對DN 的發(fā)生和進展具有有益的作用［33］，然而，SHIKATA 等［34］的研究表明，強化血糖控制對日本DN 患者并沒有顯示出治療優(yōu)勢。強化血糖控制對腎病的益處目前還存在爭議［35］。

GALL 等［36］對26 名患者（1 名女性）平均隨訪5.2 年，結(jié)果表明SBP（并非DBP）升高會加速T2DM 患者DN的進展。SHI 等［37］開展的一項橫斷面研究（4 219 例患者）結(jié)果顯示，SBP 是DN 的危險因素。有研究單因素Logistic 分析顯示總膽固醇（TC）、TG、LDL 對腎功能進展有影響［38］。今日研究小組的研究表明高血壓和血脂異常與DN 發(fā)生風(fēng)險增加相關(guān)［30］。本研究LASSO 回歸結(jié)果顯示SBP、LDL 與DN 正相關(guān)，LR 模型結(jié)果顯示SBP 和LDL 是DN 的危險因素，與既往研究一致。

研究表明DN 隨時間的推移而發(fā)展，發(fā)病高峰出現(xiàn)在患糖尿病10～20 年后，發(fā)病率為20%～40%［39］。一項來自巴基斯坦隨訪12 年的研究表明糖尿病持續(xù)時間越長，DN 的發(fā)病率越高［40］。JIANG 等［41］以302 例T2D 患者為研究對象開發(fā)了一個DN 預(yù)測模型，發(fā)現(xiàn)典型的T2DM 患者DN 的病程通常超過10 年。SHI 等［37］的研究表明糖尿病病程＞10 年的T2DM 患者患DN 的風(fēng)險較高，其次是病程為5～10 年的患者。本研究LR 模型結(jié)果顯示糖尿病持續(xù)時間是DN 的危險因素，LASSO回歸結(jié)果顯示，糖尿病持續(xù)時間和DN 正相關(guān)，糖尿病持續(xù)時間≥10 年的患者DN 的發(fā)病風(fēng)險較高，與既往研究結(jié)果一致。

本研究分別采用LR、KNN、SVM、BP 神經(jīng)網(wǎng)絡(luò)、SSA-BP 神經(jīng)網(wǎng)絡(luò)建立DN 診斷模型，總體上SSA-BP神經(jīng)網(wǎng)絡(luò)模型性能最佳。傳統(tǒng)LR 分析適用范圍廣，應(yīng)用靈活。對于特定的問題，其性能相當(dāng)于甚至優(yōu)于一些相對復(fù)雜的機器學(xué)習(xí)算法［42］。LYNAM 等［43］在判別糖尿病患者類型（1 型/2 型）時，LR 模型的性能與更復(fù)雜的方法（如神經(jīng)網(wǎng)絡(luò)、KNN 模型、隨機森林、SVM模型）一樣好。于大海等［44］在評估肝硬化上消化道出血患者的預(yù)后時發(fā)現(xiàn)LR 模型的準確率（81.5%）高于決策樹（75.1%），本研究與之相同，當(dāng)訓(xùn)練集∶測試集=8∶2 時，在測試集上LR 模型的準確率（83.33%）高于KNN 和SVM，且本研究LR 模型性能優(yōu)于于大海等研究，可能原因為本研究樣本量雖小但數(shù)據(jù)代表性強于后者。在對妊娠期糖尿病的早期預(yù)測研究中，機器學(xué)習(xí)模型的整體性能與LR 模型相似［45］。DAGHISTANI等［46］基于風(fēng)險因素預(yù)測糖尿病時，隨機森林算法的精確率、靈敏度分別為0.883 和0.880，預(yù)測性能高于LR算法（0.692 和0.703）。本研究LR 算法精確率和靈敏度分別為91.67%、78.57%，優(yōu)于上述研究的LR 模型。有研究表明，一般對于平衡和不平衡數(shù)據(jù)，SVM 模型和LR 模型具有相同的性能，而對于高度不平衡的數(shù)據(jù)集，SVM 模型可能會更好［47］。但與本研究結(jié)果不一致，訓(xùn)練集∶測試集=8∶2 時，測試集上LR 模型的整體預(yù)測性能優(yōu)于SVM 模型。KNN 被稱為惰性算法，因為沒有明顯的訓(xùn)練階段，即使有也非常小［48］。訓(xùn)練集∶測試集=8∶2 時KNN 模型的測試集準確率只達到79.17%，可能是KNN 模型在訓(xùn)練過程中學(xué)習(xí)到的東西并不多，效率較低［49］。本研究及既往研究表明，機器學(xué)習(xí)算法與回歸模型的性能結(jié)果不一致。分析可能的原因有：LR 模型適用于變量與結(jié)果之間具有線性關(guān)系的簡單數(shù)據(jù)，而應(yīng)用于非線性關(guān)系的數(shù)據(jù)性能較差；許多類型的機器學(xué)習(xí)模型和LR 模型可能適合不同的數(shù)據(jù)集，并在不同的數(shù)據(jù)集中表現(xiàn)不同［45］；同時還有樣本量的原因。

近年BP 神經(jīng)網(wǎng)絡(luò)的應(yīng)用越來越廣泛。汪可可等［49］基于BP 神經(jīng)網(wǎng)絡(luò)建立急性腦梗死患者自發(fā)性出血性轉(zhuǎn)化的風(fēng)險預(yù)測模型，效果較好。田娟等［50］應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建兒童甲狀腺疾病預(yù)測模型，結(jié)果模型準確度達到91.43%，誤差較小，相比之下本研究BP 神經(jīng)網(wǎng)絡(luò)僅達到了87.50%的準確率，但靈敏度較高（92.31%）。然而為克服BP 神經(jīng)網(wǎng)絡(luò)全局搜索能力低下等缺陷，許多研究者對其進行了組合優(yōu)化研究，并達到了較好的效果。黃仕鑫等［51］使用遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)，建立預(yù)測T2DM 性周圍神經(jīng)病變的模型，準確率分別達到了98.9%、99.5%，性能優(yōu)于本研究建立的SSA-BP 模型。杭昕璇等［52］利用BP 網(wǎng)絡(luò)、SSA-BP 網(wǎng)絡(luò)對麥冬藥液糖析出過程建立回歸預(yù)測模型，發(fā)現(xiàn)后者預(yù)測精度更高更穩(wěn)定。韋哲等［53］利用思維進化算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)判斷T2DM 患者所處的并發(fā)癥階段，預(yù)測誤差更低。本研究中SSA-BP 神經(jīng)網(wǎng)絡(luò)模型在各評估參數(shù)上具有明顯優(yōu)勢，預(yù)測誤差更小，優(yōu)化算法提高了BP 神經(jīng)網(wǎng)絡(luò)的泛化性。

RODRIGUEZ-ROMERO 等［54］預(yù)測T2DM DN 時（10 251 例）結(jié)果顯示，RF 模型和LR 模型性能最好，準確率均為84.0%，MANIRUZZAMAN 等［12］利用主成分分析進行特征提取，采用線性判別分析、SVM、LR、KNN、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)技術(shù)建立DN預(yù)測模型（133例），結(jié)果高斯核函數(shù)（RBF）SVW 分類準確率最高（88.7%）。DAVID 等［55］基于410 個實例的數(shù)據(jù)集建立糖尿病腎臟病（DKD）預(yù)測模型，結(jié)果KNN 和隨機樹分類器的性能最好（準確率93.658 5%）。本研究構(gòu)建的SSA-BP 神經(jīng)網(wǎng)絡(luò)模型性能優(yōu)于既往研究，可能因為樣本量較小而達到了較好的性能。

神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)中應(yīng)用廣泛，針對其他糖尿病并發(fā)癥或慢病，神經(jīng)網(wǎng)絡(luò)均可找到適合的網(wǎng)絡(luò)結(jié)構(gòu)來進行學(xué)習(xí)，有較好的拓展性。SSA-BP 神經(jīng)網(wǎng)絡(luò)模型無需對輸入數(shù)據(jù)的統(tǒng)計模型做任何先驗假設(shè)，為基于神經(jīng)網(wǎng)絡(luò)的T2DM DN 的準確預(yù)測提供了算法支持和理論依據(jù)。本研究的局限是數(shù)據(jù)樣本量較少，未來可基于大樣本數(shù)據(jù)進行進一步的探索；此外，未進行外部驗證，有研究建議模型最好利用外部數(shù)據(jù)集和領(lǐng)域?qū)＜襾頇z查模型的合理性，像支持向量機或神經(jīng)網(wǎng)絡(luò)等“黑盒模型”，可解釋性差，只能通過外部驗證或借助可解釋機器學(xué)習(xí)模型［17］，未來將繼續(xù)探索其在外部數(shù)據(jù)集上的性能。

作者貢獻：鄒瓊、張楊進行數(shù)據(jù)的下載及整理；鄒瓊、吳曦、陳長生進行文章的構(gòu)思與設(shè)計、論文的修訂；鄒瓊、吳曦、張楊、萬毅、陳長生進行研究的實施與可行性分析；鄒瓊、吳曦、張楊、萬毅進行結(jié)果的分析與解釋并撰寫論文。

本文無利益沖突。