沈夢媛,李 偉,顏學兵,李春陽,周冬梅
根據臨床特征,新型冠狀病毒肺炎(COVID-19)可分為:輕型、普通型、重型和危重型[1]。輕癥患者預后良好,重癥是構成死亡的主要原因。然而,由于快速的病毒復制和細胞因子風暴,該疾病可在短時間內(7~10 d)由輕癥進展為重癥,包括急性呼吸窘迫綜合征(ARDS)和其他多器官并發癥等[2]。這種突然暴發性進展導致了疾病死亡率的增加。目前還沒有針對COVID-19的特效藥物。部分重癥患者最終會出現呼吸困難,而在早期階段患者沒有特異的癥狀[3]。因此,及早確定COVID-19進展的實驗室預測因素至關重要。通過嚴格的監測和早期診斷,及時識別和干預是降低重癥患者病死率的關鍵。
選取2020年1月10日—2月27日在南京鼓樓醫院共享數據平臺可收集到的江蘇多地醫院救治的COVID-19患者,共計342例。數據經脫敏處理,真實可靠。
納入標準:符合國家衛生健康委員會發布的《新型冠狀病毒肺炎診療方案(試行第八版)》[1]診斷標準的確診病例。排除標準:臨床資料不全及精神障礙者。按病情嚴重程度分為輕型、普通型、重型、危重型[4]。各型診斷標準為:輕型為①臨床癥狀輕微;②影像學未見肺炎表現。普通型為①具有發熱、呼吸道癥狀等;②影像學可見肺炎表現。重型為符合下列特征之一,即①出現氣促,呼吸≥30 次/min;②靜息狀態下,指脈血氧飽和度≤93%;③動脈血氧分壓(PaO2)/吸氧濃度(FiO2)≤300 mm Hg;④肺部影像學顯示24~ 48 h內病灶進展>50%。危重型為符合下列特征之一,即①出現呼吸衰竭,且需要機械通氣;②出現休克;③合并其他器官衰竭需要入住ICU治療。輕型和普通型患者為非重癥組,重型和危重型患者為重癥組。
回顧性分析兩組患者的基礎信息包括性別、年齡、體重指數(BMI),既往生活史信息如有無吸煙、飲酒,患病史信息如有無糖尿病、高血壓、慢性肺疾病等;實驗室指標[空腹血糖(FBG)、紅細胞計數(RBC)、血紅蛋白(HGB)、血小板計數(PLT)、白細胞計數、中性粒細胞百分比(NE%)、中性粒細胞百分比/淋巴細胞百分比(NLR)等。
采用 SPSS 23.0軟件進行分析,計量資料符合正態分布的數據采用均數±標準差表示,組間比較采用獨立樣本t檢驗。不符合正態分布的數據采用中位數(四分位數)表示,組間比較采用Mann-WhitneyU檢驗。分類計數資料采用例數(百分比)表示,組間比較采用χ2檢驗。利用logistic回歸分析確定獨立危險因素,對各指標繪制受試者工作特征(ROC)曲線,并計算曲線下面積(AUC)。利用K折交叉驗證后LASSO回歸算法和彈性網回歸算法分別針對預測重癥患者的高風險因子進行篩選,并建立預測模型。最后利用ROC曲線及AUC值對各模型性能進行比較,從而篩選出最佳預測模型。按檢驗水準P<0.05表示差異具有統計學意義。
2.1.1 一般情況比較 分析兩組患者基礎信息、患病史、生活史等發現,重癥組中糖尿病患者比例較高,同時,年齡、BMI也高于非重癥組,差異具有統計學意義(P<0.05),見表1。
2.1.2 實驗室指標比較 重癥組患者的NE%、NLR高于非重癥組患者,淋巴細胞百分比(LY%)、PLT低于非重癥組患者,差異均具有統計學意義 (P<0.05),見表1。

表1 重癥與非重癥COVID-19患者一般情況比較Table 1 Clinical and laboratory data compared between severe and non-severe COVID-19 patients
2.1.3 重癥COVID-19危險因素分析 以是否重癥為因變量,單因素分析結果顯示差異有統計學意義的指標為自變量,進行逐步logistic回歸分析,結果顯示BMI、NLR、FBG為重癥COVID-19的獨立危險因素,見表2。

表2 重癥COVID-19的危險因素逐步logistic回歸分析Table 2 Stepwise logistic regression analysis of risk factors for severe COVID-19
2.1.4 應用ROC曲線評價相關指標對重癥風險預測價值 BMI 預測重癥COVID-19的 ROC曲線的AUC是 0.738,P<0.001,95%可信區間為 0.688~0.784;FBG的 ROC曲線的AUC是 0.839,P<0.001,95%可信區間為 0.796~0.877;NLR的 ROC曲 線 的AUC是 0.818,P<0.001,95%可信區間為 0.773~0.857,見圖1。可見,BMI、FBG、NLR 均能較好地預測重癥COVID-19的發生,其中 FBG較BMI、NLR預測的靈敏度更高。
對于預測重癥COVID-19患者的高風險因子,利用K折交叉驗證后LASSO回歸算法和彈性網回歸算法分別進行篩選,經過對比分析,最終選出以下5項指標:糖尿病、LY%、NLR、PLT、總膽紅素(TBIL)。
2.2.1K折交叉驗證的LASSO 回歸 根據本文數據設定3折交叉驗證,也就是κ= 3。本文采用使均方誤差(MSE)最小值的logλ確定的λ值去擬合模型。在測試集上驗證使用K折交叉驗證之后的 LASSO 模型,模型的誤差為 0.060 033 26,并且通過模型篩選出7個變量,分別是NLR、單核細胞百分比(MO%)、單核細胞數、RBC、HGB、PLT、TBIL,見表3。

表3 K折交叉驗證的 LASSO 回歸結果Table 3 Results of K-fold cross-validation for LASSO regression model
2.2.2 彈性網回歸 結合彈性網模型參數的最優組合為λ= 0.02,α= 0.8,篩選出的特征結果如下,LY%、NLR、PLT、TBIL,見表4。

表4 彈性網回歸結果Table 4 The results of elastic net regression
由于 LASSO 回歸算法在篩選變量時預測變量具有群組效應,也就是當一組數據具有很密切的相關關系時,用 LASSO 回歸只能選出其中一個變量而且不考慮變量被篩選的缺陷,因此可結合彈性網回歸進行變量篩選。
本研究利用重采樣方式,指定參數為 LOOCV,最終得到彈性網模型的最優網絡參數,根據選擇最優模型的原則就是選擇均方根誤差(RMSE)值最小的模型,最終,結合彈性網模型參數的最優組合λ= 0.02,α= 0.8,篩選出的特征結果如下:LY%、NLR、PLT、TBIL。
2.2.3 重癥COVID-19危險因素logistic回歸預測 利用上文篩選出的4個連續特征變量以及1個分類變量糖尿病,采用 logistic 回歸模型對是否為重癥進行預測,結果見表5。
優勢比可以解釋為特征中1個單位的變化導致的結果發生比的變化:一般系數>1,則表明特征的值增加,結果的發生比會增加,反之,結果的發生比降低。可以得到本文的LY%、NLR的系數<1,而糖尿病、TBIL、PLT的系數>1。
2.2.4 多重共線性檢驗 對各個特征進行潛在多重共線性檢驗,查看VIF統計量的值,根據VIF經驗法則,共線性對模型影響不大(VIF統計 量<5),見表5。

表5 logistic 回歸和各變量優勢比結果Table 5 The results of logistic regression and multicollinearity test
2.2.5 驗證模型準確性 將數據按8∶2的比例劃分訓練集和測試集,在訓練集上模型的混淆矩陣,可以看出預測錯誤的概率為0.083 9,見表6。

表6 logistic回歸訓練集混淆矩陣結果(閾值為0.5)Table 6 logistic regression analysis of training set confusion matrix at cutoff value of 0.5
同時給出在測試集上模型的混淆矩陣,其預測錯誤的概率為0.102 9,見表7。

表7 logistic回歸測試集混淆矩陣結果(閾值為0.5)Table 7 logistic regression analysis of testing set confusion matrix at cutoff value of 0.5
2.2.6 應用ROC評價相關模型預測性能 為更好地選擇具體模型,分別加入了交叉驗證后的logistic 模型、基于 BIC 準則的最優子集模型與全模型進行對比,模型的選擇主要是利用 ROC曲線對分類器性能進行比較,上述 ROC 曲線中分別給出了logistic 全(full)模型、基于 BIC 最小模型、基于K折交叉驗證logistic 模型,由于K折交叉驗證后將模型的特征減少至只剩一個變量,即LY%,僅有一個特征的模型,成為糟糕(bad)模型。logistic全模型的AUC值最高,為0.906 332,僅有一個特征的糟糕模型AUC值最小,為0.862 997 7。從各個方面來看,logistic全模型的預測效果更優。因此,從該模型可以得到,重癥COVID-19的高危因素為:糖尿病、LY%、NLR、PLT、TBIL。見圖2。
重癥COVID-19患者病情通常迅速進展,常合并多種并發癥,最終導致患者死亡。因此,明確與病情嚴重程度相關的指標,及時準確判斷病情并采取相應治療可能是降低重癥患者比例、減少COVID-19死亡的關鍵。
既往發現在233例肺炎鏈球菌肺炎患者中,FBG≥10 mmol/L的患者死亡率是FBG<7 mmol/L 患者的3.4倍[3]。在無糖尿病病史的患者中,疾病的嚴重程度與FBG的水平有很強的聯系[4],這與本研究結果相符。COVID-19嚴重程度與高血糖之間的關系可能是雙向的,感染可能帶來應激狀態,引發促炎性細胞因子的增強釋放,可能導致胰島素抵抗[5]。應激也可能誘發應激激素的釋放,使肝糖原溶解,加重影響[6]。這些因素共同作用,可能導致COVID-19重癥患者高血糖的發生。
有研究表明,COVID-19患者中白細胞和中性粒細胞計數增加,而淋巴細胞減少[7]。根據 logistic 模型的結果可以看到,LY%的P值為0.027 5,明顯小于 0.05,表明LY%對于危重癥患者的預測具有顯著影響。同時結合模型中LY%的優勢比其結果小于1,這就表明當LY%減少時,重癥的可能性會增加。淋巴細胞的作用主要為體液免疫、細胞免疫和直接殺傷作用,因此,我們認為LY%的減少與疾病的發展相關。
根據logistic 模型的結果,NLR的P值為 0.819 7,明顯大于 0.1,表明NLR對于危重癥患者的預測不具有顯著影響。但因NLR為復合指標,且優勢比為0.96,接近1,可以看作優勢比≥1,因此,可以認為,NLR越高,重癥的發生率越高。其主要原因可能由于這一指標主要反映了NE%與LY%之間的平衡,在本研究COVID-19患者隊列中,NLR也成為死亡率的獨立預測指標之一,該結果與先前發表的研究一致[8-9]。有研究表明,與非重癥患者相比,重癥患者中較高的炎性細胞因子、趨化因子和NLR與疾病的嚴重程度相關,提示細胞因子風暴與疾病嚴重程度的關 系[10-13]。重癥患者由于免疫功能低下而更容易出現細菌和病毒雙重感染,這也可能是重癥患者中性粒細胞升高的原因之一。有研究發現NLR>19.94的患者死亡率更高[14],表明NLR的升高可作為預測COVID-19患者預后的標志物[15]。上述發現均與本研究結果一致。
本研究發現,BMI也是重癥COVID-19的獨立危險因素,高BMI已被確定為下呼吸道感染預后不佳的重要危險因素。肥胖患者的氣道狹窄與氣道關閉和氣道高反應性相關[16]。COVID-19可能導致潛在的氣道威脅,并導致急性呼吸窘迫綜合征(ARDS)[17]。由于呼吸道阻力增加和胸壁力學增加,呼吸肌力量下降,需氧量增加了3倍以上[18],耗氧量增加會導致需要更多的氧氣支持,甚至呼吸衰竭。
本研究為一項多中心回顧性分析,比較了COVID-19重癥、非重癥患者的相關實驗室指標及既往病史,此外,在分析原有數據的基礎上,通過LASSO回歸聯合彈性網回歸篩選高危因素,基于多因素回歸分析,將多個指標進行整合,構建預測模型,將各高危因素導致重癥的風險進行量化,并通過多重共線性檢驗及ROC曲線對分類器性能的比較,證明該模型預測性能較佳,這對輔助臨床評估患者,選擇更具針對性的防治措施以及臨床工作具有指導意義。
本研究尚有幾個局限性:首先,樣本量較少,尤其是重癥患者,因數據受限,未能進一步闡述糖化血紅蛋白的影響。其次,當收集相應樣本時,處于不同炎癥階段的患者可能也會導致炎性因子風暴指標的變化。 第三,由于各地檢測儀器設備的不同,可能會存在系統誤差。
本次通過回顧性分析發現既往有糖尿病病史的患者中,重癥發生的比例更高,與其他研究的結論一致[19-20]。同時在研究中發現,重癥患者的NE%、NLR、TBIL指標較非重癥患者更高,LY%、PLT較輕癥患者更低。由此,我們認 為,FBG、BMI、NLR、NE%、LY%是 重 癥COVID-19的獨立危險因素。
COVID-19疫情防控任務仍然艱巨,如果能在確診早期判斷和評估出患者轉為重癥的潛在風險,及時予以針對性治療,能降低疾病死亡率。因此,建議應用更多研究以驗證FBG、BMI、NE%、LY%和NLR早期診斷重癥COVID-19患者的臨床價值,用于識別危重患者、改善患者預后。