田斌, 余暉, 任基剛, 汪漢林, 徐井旭, 黃陳翠
目前新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)仍在全球廣泛傳播,COVID-19的篩查和確診主要依靠核酸檢測,胸部CT作為一種重要的診斷手段不容忽視,已成為篩選、診斷和評估新型冠狀病毒肺炎嚴重程度的重要工具[1]。因為COVID-19患者首次聚合酶鏈式反應(reverse transcription poly-merase chain reaction,RT-PCR)檢查的平均時間為(30±13)h[2],因此,胸部CT檢查不僅對COVID-19的診斷起到預警作用[3,4],還可以在等待RT-PCR結果時將可疑患者分流、隔離,為疫情的防控爭取時間。
因此,COVID-19患者的診斷與鑒別診斷非常重要,其早期診斷可避免在等待核酸檢測結果的過程中造成進一步的蔓延和播散。由于傳統的人工閱片方法鑒別診斷COVID-19與社區獲得性肺炎(community acquired pneumonia,CAP)具有局限性,所以將人工智能(artificial intelligence,AI)技術用于COVID-19與CAP的鑒別診斷成為當下研究的熱點。部分學者運用線性支持向量機模型(linearSVM)鑒別診斷COVID-19與CAP,結果表明linearSVM模型可以有效鑒別COVID-19與CAP[5]。然而,機器學習的分類模型種類繁多,給應用的選擇帶來一定困難。此外,目前并不清楚其它分類模型是否也能有效鑒別COVID-19與CAP。因此,本研究通過應用14種常用的機器學習分類模型鑒別COVID-19和CAP,旨在探討鑒別COVID-19與CAP效能最高的機器學習分類模型,為臨床醫師的早期干預提供更充分的影像學依據。
搜集經臨床確診的COVID-19患者86例和CAP患者100例,包括其胸部CT圖像及臨床資料。
COVID-19患者納入標準:①至少兩次核酸檢測陽性的新型冠狀病毒肺炎患者;②患病期間有至少一次胸部CT掃描,圖像含有薄層圖像(層厚≤3 mm),且肺部有炎性CT表現。CAP患者納入標準:①至少兩次核酸檢測為陰性的肺炎患者;②患病期間至少有一次胸部CT檢查,圖像含有薄層圖像(層厚≤3 mm),且肺部有炎性CT表現。排除標準:①胸部CT圖像中有運動偽影致病灶顯示不清;②CT圖像中病灶太小不能識別或肺部無炎性CT征象;③胸部CT無薄層圖像(層厚≤3 mm);④臨床資料、核酸檢測資料丟失者。
研究的機器分類學習流程包括回顧性數據采集、圖像預處理、肺部病變分割、特征提取、特征選擇和特征構建、性能評價,流程見圖1。對患者進行胸部CT檢查,按照胸部CT標準的成像方案進行掃描及重建。

圖1 利用14種機器學習模型對COVID-19與CAP的鑒別診斷流程。
將所有病例的胸部CT圖像以DICOM格式導入深睿科研平臺(https://research.deepwise.com)進行自動分割,分別由兩位經驗豐富的放射科醫生對自動分割的病灶進行修改、確認后提交,以避開血管及肋骨等非病灶區域(圖2~7)。

圖2 經臨床確診的COVID-19病例,藍色線條表示邊界。a~c) 病灶被準確分割,避開了肋骨。 圖3 經臨床確診的COVID-19病例,藍色線條表示邊界。a~c) 密度不均勻的層面被準確分割。 圖4 經臨床確診的COVID-19病例,藍色線條表示邊界。a~c) 密度淺淡的層面被準確分割。 圖5 經臨床確診的CAP病例,藍色線條表示邊界。a~c) 病灶被準確分割,避開了肋骨和胸膜。 圖6 經臨床確診的CAP病例,藍色線條表示邊界。a~c) 病灶被準確分割,避開了血管及支氣管。 圖7 經臨床確診的CAP病例,藍色線條表示邊界。a~c) 密度不均勻的層面被準確分割,并避開了降主動脈。
14種分類模型采用同樣的圖像預處理方式。在本研究中,采用了B樣條插值采樣技術(B-spline interpolation resampling techniques)進行圖像預處理,即將原始薄層圖像重新采樣到1 mm×1 mm×1 mm的分辨率,應用高通或低通小波濾波器(wavelet filter)和拉普拉斯高斯濾波器(laplacian of gaussian filter)對原始圖像進行預處理及圖像變換。
提取原始圖像和預處理后圖像的影像組學特征,包括基于原始圖像或預處理后圖像像素值的一階特征、描述腫瘤形態的形態特征及描述腫瘤內部和表面紋理的灰度共生矩陣(gray level co-occurrence matrix,GLCM)、灰度游程矩陣(gray level run length matrix,GLRLM)、灰度區域大小矩陣(gray level size zone matrix,GLSZM)和灰度相依矩陣(gray level dependence matrix,GLDM)紋理特征。為了消除病變標注所帶來的影響,對組間進行一致性分析,刪除一致性小于0.75的特征,然后對特征進行相關性分析,隨機剔除相關性大于0.9的特征,最后采用Lasso算法用于特征降維和篩選,找出系數不為零的最重要特征用于建模,提升模型表現。
利用線性支持向量機(linear SVM)分類器[6]、增強學習分類器(Ada Boost)[7]、邏輯回歸分類器(logistic Regression)[7-10]、線性支持向量分類器(LinearSVC)[11]、決策樹分類分類器(Decision Tree)[12]、隨機森林分類器(Random Forest)[9,13]、梯度推進分類器(Gradient Boosting)[14,15]、極端梯度增加算法分類器(XGBoost)[16]、伯努利貝葉斯分類器(BernoulliNB)[17]、高斯貝葉斯分類器(GaussianNB)[18]、最臨近規則分類器(K Nearest Neighbors)[19,20]、線性判別分析分類器(LinearDiscriminant Analysis)[9,21]、隨機梯度下降分類器(stochastic gradient descent,SGD)[22]、多層感知機分類器(Multilayer Perceptron)[23]等14種分類器分別建立模型,以上模型均采用5折交叉驗證訓練方法,即將所有數據分為5部分,其中4部分用于模型訓練,1部分用于評估模型的有效性,最后將所有數據用于訓練集和驗證集。完成所有的訓練和驗證之后,用5個測試的平均值來評價模型的性能。為了評估預測模型在訓練集和驗證集中的性能,繪制了受試者工作特征(receiver operating characteristic curve,ROC)曲線,并計算出曲線下面積(area under curve,AUC),以評估分類模型的性能,并將AUC作為評價模型性能的指標。
采用SPSS 16.0軟件分析樣本的人口統計學數據,運用秩和檢驗和χ2檢驗分別評估COVID-19與CAP患者之間的年齡、性別差異。利用Scikit學習軟件包(0.20.3版)建立分類模型,采用Matplotlib(版本3.1.0)繪制ROC曲線。采用SPSS 16.0軟件對一般數據進行統計學分析,對于分類數據,采用χ2檢驗比較組間差異;對于定量數據,采用獨立樣本t檢驗比較組間差異。為了評價預測模型在訓練集和驗證集上的性能,繪制ROC曲線,在訓練集和驗證集上顯示分類性能。以P<0.05為差異有統計學意義。
本研究共納入86例COVID-19患者,其中男34例,女52例,平均年齡(中位數±四分位間距)為(49.00±27.00)歲;同時納入100例CAP患者,其中男52例,女48例,平均年齡(中位數±四分位間距)為(38.00±31.75)歲。COVID-19與CAP兩組患者的性別差異無統計學意義(χ2=2.89,P=0.089),COVID-19組患者的平均年齡大于CAP組(Z=-3.546,P=0.000)。
本研究使用14種機器學習分類模型,所有模型的AUC均大于0.9(表1),Random Forest模型的AUC最高(0.9406,圖8a),GaussianNB模型的AUC最低(0.9037,圖8b)。

圖8 機器學習分類模型的診斷效能。a) Random Forest模型的ROC曲線,其AUC最高(0.9406); b) GaussianNB模型的ROC曲線,其AUC最低(0.9037)。

表1 經科研平臺計算出的14種機器學習模型的AUC
核酸檢測是診斷新冠肺炎的金標準[24],但肺部炎癥不明顯的輕癥患者,核酸檢測往往呈陰性[25,26]。胸部CT作為診斷COVID-19的一種重要補充檢測手段,其可靠性得到廣泛認可[27-31]。由于各種病毒性肺炎的CT表現具有相似性,為了鑒別診斷COVID-19與CAP,國內外學者提出了許多可供鑒別的征象,如磨玻璃影、肺內實變、光暈征、氣泡征、小葉間隔增厚、支氣管充氣征、胸膜下線、條索影、血管增粗、胸腔積液等[25,32-35]。然而有學者研究發現,甲型(H1N1)流感病毒感染引起的肺炎表現類似于COVID-19的胸部CT表現,如外周分布、磨玻璃影、實變、胸膜下線、支氣管充氣征等征象在兩種病變間差異無統計學意義[36]。另外有報道指出,單純的肺部CT篩查可能導致COVID-19誤診為柯薩奇病毒肺炎[37]。傳統的人工閱片方式受閱片者工作經驗和工作年限等因素的影響,不可避免地帶有閱片者的主觀性。相關文獻報道,4位美國放射科醫生鑒別診斷219例COVID-19與205例CAP的敏感度分別為93%、83%、73%和73%,3位中國放射科醫生鑒別診斷219例COVID-19與205例CAP的敏感度分別為72%、72%和94%,特異度分別為94%、88%、24%[38],這說明傳統的人工閱片方法具有局限性。
因此,有學者使用人工智能(AI)的方法鑒別診斷COVID-19與CAP,結果表明AI可有效鑒別COVID-19與CAP[39,40]。還有學者使用COVNet模型(一種深度學習模型)鑒別診斷COVID-19與CAP[3],結果表明深度學習技術可有效鑒別COVID-19與CAP,但深度學習需要大量的樣本數據來進行模型訓練,大量的數據不容易獲得,而且比較費時。所以本研究采用對數據量要求較小的傳統機器學習方法,以胸部CT圖像的影像組學信息為特征的分類模型來識別和鑒別COVID-19與CAP。目前,基于機器學習的肺部CT作為鑒別COVID-19與CAP的一種可靠方法和工具,已得到許多學者的研究證實[3,4,41]。
然而,以往研究多使用LinearSVM或單一的分類模型來鑒別COVID-19與CAP,雖然表現出了優越的效能[25],但沒有提出效能最優的分類模型。因為機器學習的分類模型有許多種,因此本研究基于傳統的機器學習方法,利用14種機器學習分類模型鑒別COVID-19與CAP,通過AUC來評估分類模型的診斷效能,并取得了很好的結果(AUC均大于0.9)。通過對14種機器學習分類模型的橫向對比研究發現,在鑒別診斷COVID-19與CAP方面,Random Forest分類模型的性能最優(AUC=0.9406)。研究表明,組合分類器比單一分類器的分類效果更好,Random Forest是一種利用多個分類樹對數據進行判別與分類的組合分類方法,該分類模型可用于判斷特征的重要程度以及他們之間是否會相互影響,適用于數據集較多的情況,相對于其他算法有較大的優勢。Random Forest還具有數據的隨機性和特征選取的隨機性,使得隨機森林不容易陷入過度擬合,同時也使得隨機森林具有很好的抗噪聲能力[42],這可能是該模型在本研究中表現出優越效能的原因。
本研究中COVID-19組患者的年齡大于CAP組,兩組之間差異有統計學意義,這可能是因為COVID-19好發于中老年人,尤其是患有慢性病的老年人[43,44]。
本研究存在以下局限性:①手動修改科研平臺自動分割的病灶,存在一定的不穩定因素,但本研究通過組間一致性分析剔除了不穩定的特征,盡量避免了不穩定特征對結果的影響;②本研究僅使用14種分類模型,而其他機器學習分類模型是否能夠有效鑒別COVID-19與CAP,有待進一步研究與開發。因此需要更多大樣本、多中心的研究為鑒別診斷COVID-19與CAP提供依據。
綜上所述,14種機器學習分類模型均可有效鑒別COVID-19與CAP,具有較高的鑒別診斷效能(AUC值均>0.9),效能最高的模型是Random Forest(AUC=0.9406),能夠在早期診斷COVID-19方面發揮優勢。