趙丹丹 甄 莉
1山西醫科大學,太原,030001;2山西醫科大學第一醫院皮膚科,太原,030001
大皰性類天皰瘡(bullous pemphigoid, BP)是一種發病率和死亡率都較高的自身免疫性皮膚病,其預后的影響因素深受國內外學者重視。抗BP180抗體陽性是首個被證實的增加BP患者死亡率的因素[1]。隨后的研究表明高齡[2-16]、性別[9-11,13-15]、患者的一般狀態[6,8,9,15,16]、疾病的嚴重程度[2,5,13,15]、合并神經系統疾病[2,3,5,8,11,13,15,16]、合并心臟病[4-13]等可能是影響BP患者死亡率的危險因素。這些研究多采用Logistic回歸和COX回歸,目前應用隨機森林算法分析影響BP患者預后的因素國內外尚未有報道,隨機森林算法作為機器學習的經典算法之一,在疾病風險預測和診斷方面具有較高的準確性,目前在分子及基因水平等醫學領域得到廣泛應用。因此本研究分別應用Logistic回歸和隨機森林算法構建BP預后模型,探討BP患者預后不良的相關因素,并比較兩種模型的預測效果,為其病情評估、早期預防提供進一步依據。
1.1 研究對象 本研究回顧性分析山西醫科大學第一醫院皮膚科住院部2015年1月1日至2021年4月30日診斷的BP患者,共查詢到122例,根據納入及排除標準,確定研究對象為93例。本研究收集的患者臨床表現及皮膚組織病理均符合BP,即臨床表現為緊張性水皰,尼氏征陰性,皮膚組織病理為表皮下水皰。排除標準:(1)診斷有異議或不確定者;(2)臨床資料缺失的患者;(3)失訪的患者。
1.2 資料收集 收集患者的一般資料、既往史、臨床表現、實驗室指標及治療方案,見表1。

表1 變量賦值表
隨訪:通過電話進行隨訪,了解患者的預后,目前治療情況。
1.3 相關變量定義 身體質量指數(body mass index,BMI):用于評價人體的營養狀況、胖瘦程度或身體發育水平,等于體重(kg)/身高2(m2)。
病變范圍:局限是指分布于一個解剖區域的孤立水皰性病變和/或中度濕疹/蕁麻疹病變;廣泛是指兩個或更多解剖區域的中度至彌漫性水皰病變和/或中度至彌漫性濕疹/蕁麻疹病變。
入院時的一般狀態:通過 Karnofsky評分來評估,Karnofsky評分是衡量患者一般狀況和自主性程度的指標,評分范圍0~100分,得分越高表示病情越好,自主性越強。本研究的一般狀態差指Karnofsky評分≤40分,長期坐輪椅或臥床狀態,自主功能喪失。
診斷延遲:自發病到確診時間>30天。
伴有局部皮膚感染:皮損分泌物細菌和(或)真菌培養結果陽性。
是否合并其他疾病:神經系統疾病包括癡呆、腦卒中、帕金森病、癲癇、多發性硬化癥等;心臟病包括冠狀動脈粥樣硬化性心臟病、心律失常、心力衰竭、先天性心臟病等;泌尿系統疾病包含腎功能不全、腎病綜合征、腎小球腎炎、腎盂腎炎、腎衰竭等;呼吸系統疾病包括慢性阻塞性肺疾病、支氣管哮喘、肺間質病變、肺纖維化等;消化系統疾病包括潰瘍性結腸炎、克羅恩病、肝硬化等;甲狀腺疾病包括甲狀腺功能亢進、甲狀腺功能減退、甲狀腺炎等。
BP的1年死亡率作為衡量BP預后的指標。
1.4 數據填補 原始數據存在缺失值,我們對原始數據的缺失情況進行了探索,存在缺失值的變量分別是n20~n32,為彌補數據的實用性,我們利用基于隨機森林的多重插補方法對數據進行插補。
1.5 統計學方法 采用R4.1.1對數據進行統計分析。利用基于隨機森林的多重插補方法對數據進行缺失值填補,得到完整的數據集,通過套索算法(least absolute shrinkage and selection operator,LASSO),也稱LASSO算法,進行特征選擇。服從正態分布資料則采用(均數±標準差)表示,不服從正態分布資料則采用中位數(P25,P75)表示,分類變量采用百分比/構成比進行表示。我們將經過特征選擇后的數據隨機劃分為訓練集(70%)和測試集(30%),設置隨機種子為123。然后用訓練集分別構建隨機森林模型和Logistic回歸模型(逐步回歸),并用測試集對模型的性能進行評定,在訓練集和測試集使用了相同的分類閾值。檢驗水準α=0.05。
2.1 一般資料 男63例(67.74%),女30例(32.26%),確診時患者的年齡為45~94歲,平均(72.55±10.72)歲,年齡中位數為74歲。93例BP患者,1年內死亡21例,1年死亡率為22.58%。
2.2 LASSO結果 圖1顯示,當變量個數取9的時候,模型的均方誤差最小,故我們保留了9個變量用于后續的模型構建。根據算法輸出的結果,他們分別是年齡、是否吸煙、是否累及黏膜、是否伴有局部皮膚感染、入院時一般狀態差、中性粒細胞絕對值、血清白蛋白、血鈣、是否合并神經系統疾病。

圖1 LASSO特征選擇結果可視化圖
2.3 隨機森林算法的結果 將經過特征選擇后的9個變量作為特征輸入隨機森林模型,利用訓練集的數據訓練模型,在利用訓練集訓練模型之前,對隨機森林的參數進行了調整,包括ntree參數初始設置為500,mtry初始設置為3(分類工作),并挑選使得模型錯分率最小的樹的棵數,再將得到的最佳參數進行建模,以保證模型的靈敏度和特異度最優,模型預測結果最佳的分界值(閾值)是0.41333。設置參數隨機抽取的變量個數mtry=3,ntree=200。用已訓練好的模型對驗證集患者的預后進行預測,準確率為81.84%。隨機森林模型對影響BP患者預后的因素進行了重要性排序(圖2),排名前五位的分別是年齡、是否累及黏膜、是否合并神經系統疾病、血鈣水平、是否伴有局部皮膚感染。

圖2 基于隨機森林純度的特征重要性排序圖
2.4 Logistic回歸的結果 以BP患者1年內是否死亡為應變量,將LASSO算法選出的9個特征變量作為自變量,基于訓練集的數據向前逐步進行變量篩選,逐步回歸分析結果(表2)顯示高齡、血鈣水平降低、合并神經系統疾病是BP患者預后不良的危險因素,病變累及黏膜的患者1年內死亡率更低。其中n6的P值為0.056>0.05,考慮到如果擴大樣本容量,P值可能降低,故將是否累及黏膜也作為影響BP患者預后的一個因素。模型預測結果最佳的分界值(閾值)是0.4837932。我們通過繪制列線圖進一步可視化Logistic回歸模型,如圖3所示。

表2 Logistic逐步回歸的結果

圖3 可視化Logistic回歸的列線圖
2.5 兩種模型的比較 以BP患者1年內是否死亡作為應變量,用所構建的 Logistic 回歸模型、隨機森林模型驗證集數據進行預測,并分別繪制出兩種預測模型訓練集和測試集的受試者工作特征曲線(receiver operating characteristic curve,ROC),具體見表3、圖4,并對隨機森林模型和Logistic回歸模型預測的一致性進行分析(表4、5)。隨機森林模型在訓練集中的ROC曲線下面積為1.000,準確率為1.000,靈敏度為1.000,特異度為1.000,F1值1.00,測試集中ROC曲線下面積為0.763,準確率為0.8148,靈敏度為0.6667,特異度為0.8571,F1值0.62,訓練集和測試集差異較大。Logistic回歸模型在訓練集中的ROC曲線下面積為0.923,準確率為0.8788,靈敏度為0.7500,特異度為0.9074,F1值0.69,測試集中ROC曲線下面積為0.8118,準確率為0.7778,靈敏度為0.5556,特異度為0.8889,F1值0.63,訓練集和測試集差異與隨機森林相比較小。隨機森林模型和Logistic回歸模型取并集后訓練集準確率、靈敏度、特異度均為100%。測試集準確率為(18+5)/27×100%=85.2%,靈敏度=5/7×100%=71.42%, 特異度=18/20×100%=90%,均高于兩模型單獨預測。

表3 隨機森林和Logistic模型在訓練集和測試集的評價指標

圖4 隨機森林和Logistic回歸模型在訓練集和測試集的ROC曲線

表4 隨機森林和Logistic回歸模型在訓練集的分類一致性

表5 隨機森林和Logistic回歸模型在測試集的分類一致性
BP是最常見的自身免疫性大皰性皮膚病,治療首選糖皮質激素,長期使用糖皮質激素有發生免疫抑制的風險,易引起多種并發癥和多臟器功能衰竭而導致患者死亡。據報道BP的全球平均年發病率為每百萬人2.5~42.8例,1年死亡率為23.5%[17]。目前國內外已有的關于BP患者預后影響因素的研究,多采用Logistic回歸和COX回歸,大量的理論和實證研究都證明隨機森林與傳統統計學模型相比,具有更高的預測準確率,且不容易出現過擬合[18]。因此本研究采用隨機森林算法研究影響BP患者預后的因素,并與傳統Logistic回歸相比較,以期為BP的臨床治療及預后提供更好的指導。
兩種模型均表明年齡、是否合并神經系統疾病是影響BP患者預后的重要因素,Logistic回歸顯示年齡每增加1歲,BP患者1年死亡率增加0.127倍,合并神經系統疾病的BP患者死亡危險度是未合并神經系統疾病患者的5.45倍,這與大多數研究結果一致[2-16,19-23]。隨著年齡的增加,患者免疫功能減退,身體機能退化,一般狀況差,且易合并多種系統性疾病如神經系統疾病等,導致其死亡率較高,所以對老年BP患者尤其是合并神經系統疾病的患者臨床上更應謹慎對待。本研究表明是否累及黏膜影響BP患者的死亡率,且Logistic回歸結果顯示回歸系數為負數,表明累及黏膜是BP患者預后的保護因素,這與我們對疾病的認識不相符。造成這種結果的原因可能是若患者病變累及黏膜,臨床上可能會給予更加積極的治療,以迅速控制患者的病情,從而使得死亡率降低。在本研究中,兩種模型均表明血鈣水平影響BP患者的預后,隨著血鈣水平的增高,BP患者的死亡率降低,這在以往的研究中沒有報道,但有研究表明較高的血清25羥基維生素D濃度與較輕的BP相關[24],維生素D可以促進機體對鈣的吸收,血鈣水平可間接反映機體維生素D的水平。本研究中是否伴有局部皮膚感染進入隨機森林模型,皮膚局部感染不僅影響皮損的愈合,嚴重時還可引起菌血癥、膿毒血癥危及患者生命,從而影響BP患者的死亡率。Phoon等研究表明,感染是BP的常見并發癥,同時感染也是BP患者的主要死因[25,26]。入院時一般狀態、診斷延遲未能進入兩種模型的原因不清楚,可能與樣本含量少有關。
隨機森林模型顯示影響BP患者預后的因素排名前五位的分別是年齡、是否累及黏膜、是否合并神經系統疾病、血鈣水平以及是否伴有局部皮膚感染。逐步回歸分析結果顯示高齡、血鈣水平降低、合并神經系統疾病是BP患者預后不良的危險因素,病變累及黏膜的患者1年內死亡率更低。兩種模型的結果基本一致,說明預測結果較可靠。隨機森林模型AUC值、準確率、靈敏度、特異度以及F1值訓練集和測試集的差異較大,Logistic回歸模型與之相比差異較小,模型穩定性更好,若進一步增加樣本含量,隨機森林模型訓練集和測試集之間的差異可能減小。隨機森林模型對變量的數目沒有限制[27,28],且可以提供模型預測中各個變量的重要性排序,Logistic回歸模型簡單易實現,可直觀解釋各個變量的相對危險度,兩個預測模型各有優缺點,臨床上兩個模型取并集共同預測大皰性類天皰瘡患者的預后更具實踐意義。