孟偉,袁藝琳
1.北京林業大學 信息學院,北京100083
2.國家林業草原林業智能信息處理工程技術研究中心,北京100083
自2019 年底起,由嚴重急性呼吸綜合癥冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)引起的新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)持續爆發,并迅速傳播至全球,疫情的發展引起了世界的關注[1]。新冠肺炎的臨床初步表現為乏力、咳嗽和發熱,與普通感冒特征相似。除此之外,更有患者沒有任何癥狀,屬于無癥狀患者,加大了診斷的難度[2-3]。目前主流的檢測方法大多基于實時熒光定量PCR(real-time quantitative polymerase chain reaction,RT-PCR),但是該方法存在一些缺點。例如,從采集到檢測出結果耗時較長,與新冠狀肺炎病毒傳播的速度相比,這是一個相對較長的過程。除了檢測的效率低下以外,核酸檢測還存在陽性率較低的問題,由于其嚴重依賴樣本采集,存在的問題包括數量和位置不足(鼻腔、喉嚨或痰液)[4-5],檢出率僅有30%~50%[6]。因此,快速且準確地檢測出感染者是一項非常困難的任務。
研究表明,新冠肺炎早期影像表現為多灶性小斑片狀陰影和間質性肺異常[7-8],進展期病變范圍和數量均會增加,可能會發展為多發性毛玻璃渾濁(ground glass opacity,GGO)[9-11],在重癥病例中,可能發生雙肺彌漫性實變,很少出現胸腔積液。鑒于X 射線圖像和CT(computed tomography)掃描圖像的影像特點,這兩種方法已用于檢測COVID-19[12-13]。因此,除了核酸檢測以外,還可以由放射科醫生觀察患者的X 射線圖像和CT 掃描圖像進行診斷。然而,這些影片的診斷需要具備專業知識的放射科醫生,工作量十分巨大。為了緩解人工檢測新冠肺炎病毒的低效性,研究人員在不斷探索新的方法。近年來,深度學習技術在計算機輔助診斷領域受到了廣泛應用[14],Bar等[15]將深度學習應用于胸部病理檢測,在心肌肥厚的診斷中實現了87%的準確率。Wu等[16]提出了一種基于對比增強超聲成像的肝病分類診斷系統,采用深度學習方法對良性和惡性肝臟局灶病變進行分類,該方法在準確率、召回率和特異性指標上明顯高于其他方法。Burlina等[17]采用了深度卷積神經網絡對不同的肌炎進行分類,探究了3 種不同的分類方式,實驗結果表明,使用深度學習方法對炎癥性肌肉疾病進行自動分類更加有效。Shin等[18]評估了5 種主流的卷積神經網絡(convolutional neural network,CNN)模型在兩種不同的計算機輔助診斷應用上的性能:胸腹淋巴結檢測和間質性肺疾病分類,為該疾病提供了一種完全自動化的診斷方法。Sirinukunwattana等[19]提出了一種空間約束卷積神經網絡,對癌組織的組織病理學圖像進行檢測以及對細胞核進行分類。相比其他方法,所提出的網絡在檢測和分類上都取得了更高的F1-score。
然而深度學習方法具有兩方面的局限性:一方面,深度學習模型的訓練過程依賴于大量數據,具有數據饑餓型的特點;另一方面,模型的訓練過程耗時長,由于需要解決的問題變得不斷復雜,模型所需要的參數數量也在不斷增加,這將導致模型參數過多且不容易優化。
和其他成像領域相比,帶標簽的醫學影像數據集一般比較小。遷移學習能夠彌補醫學圖像數據集數量不足的缺陷,并且降低過擬合的風險。Girshick等[20]是將遷移學習與預訓練的CNN相結合用于圖像分類的最早貢獻者之一。Nobrega等[21]采用在ImageNet[22]上預訓練的模型處理肺結節圖像,并使用傳統分類器對返回的深層特征進行分類。實驗結果表明,預訓練模型和分類器的最佳組合是CNN-ResNet50 和支持向量機徑向基函數(support vector machine-radial basis function,SVM-RBF),達到了88.41%的準確率和93.19%的AUC(area under curve)。Behzadi-Khormouji等[23]采用了基于問題的遷移學習模型檢測兒童胸部X 射線中的實變,該模型取得了94.67%的準確率,優于之前的其他模型。
由于現有的研究方向比較分散,本文將針對遷移學習技術介紹當前的研究現狀,根據模型類型展開分類探討,并介紹具有代表性的基于遷移學習技術的診斷模型,分別從數據集來源、數據預處理方式、基于遷移學習的診斷模型、模型可視化、評價指標以及模型性能6 個層面展開剖析與對比,最后提出當前面臨的技術問題以及未來的技術發展走向,以供后來學者研究參考。
X 射線設備是大多數醫療保健系統中的標準設備,因此胸部X 射線成像技術在許多臨床站點更容易獲得和訪問。目前常用的COVID-19 檢測開源X 射線數據集有以下5 個,這5 個數據集的采集來源比較可靠,標簽規范且完整。相比其他數據集,這些影像數據在質量上相對較好。表1 列出了這些數據集的分布情況、開源網址和數據格式,圖1 為部分數據集分布情況的餅圖。

圖1 部分胸部X 射線數據集分布餅圖Fig.1 Pie chart of partial chest X-ray dataset distribution

表1 胸部X 射線數據集Table 1 Chest X-ray datasets
(1)COVID-chestxray[24]
該數據集是一個GitHub 網站上開源的COVID-19 胸部X 光和CT 圖像數據集,其中主要包括COVID-19 陽性、嚴重急性呼吸綜合癥(severe acute respiratory syndrome,SARS)、中東呼吸綜合癥(middle east respiratory syndrome,MARS)和急性呼吸窘迫綜合癥(acute respiratory distress syndrome,ARDS)。目前,該數據庫保持定期更新,主要用于多分類模型。
(2)Pneumonia-chestxray[25]
該數據集包含5 863 張胸部X 光圖像,分為肺炎和正常兩個類別。由兩位專家進行標簽化,第三位專家負責審查,以減小標注誤差。研究人員通常使用該數據集進行數據增強,解決數據集過小和類別不平衡問題。
(3)COVID-19 Radiography Database[26]
該數據集是Kaggle 上的一個開源數據集,在第二次更新中,此數據庫增加到3 616 個COVID-19 陽性病例、10 192個正常、6 012個肺部不透明(非COVID肺部感染)和1 345 個病毒性肺炎圖像。目前,此數據庫還在持續更新中。
(4)COVID-19 Pneumonia Normal Chest Xray PA Dataset[27]
該數據集是從不同來源檢索到的COVID-19 的X 射線樣本,這些樣本包括2 313 個COVID-19 陽性、2 313個正常和2 313個肺炎圖像,樣本分布比較均勻。
(5)COVIDx-CXR-3 Dataset[28]
該數據集是Github 網站上一個開源COVID-19 X 射線圖像數據,目前還在不斷更新中,最新版包含來自16 648 名患者的29 986 張圖像。據作者所知,這是公開可用的COVID-19 陽性病例數量最多的數據集。
CT 是一種較為先進的數字放射成像,與胸部X射線圖像相比,CT 掃描圖像能夠得到患者胸部的精確圖像,器官、骨骼和組織更加清晰并且攜帶更多的信息,使其成為診斷肺部狀況的有效方法。目前常用的COVID-19 檢測的CT 數據集有以下6 個,這些數據集質量較好,具有潛在的研究價值。表2 列出了5 個數據集的分布情況、開源網址和數據格式。圖2為部分CT 數據集分布情況的餅圖。

圖2 部分CT 數據集分布餅圖Fig.2 Pie chart of partial CT dataset distribution

表2 CT 數據集Table 2 CT dataset
(1)COVID19-CT[29]
該數據集是一個公開的COVID-19 CT 數據集,作者從醫學預印本上提取出這些圖像,其中包含349張陽性CT 掃描和463 張正常或包含其他類型疾病的CT 掃描,該數據集在早期圖像分類中最為常見。
(2)CC-CCII[30]
該數據集是由中國胸部CT 圖像調查協會構建的大型COVID-19數據集,共有617 775張CT圖像,由4 154名患者所提供。圖像種類包括COVID-19陽性、普通肺炎和正常。其中普通肺炎又包含病毒性肺炎、細菌性肺炎和支原體肺炎。這是目前針對COVID-19 建立的大型CT 切片數據集之一。
(3)SARS-CoV-2 CT[31]
該數據集包含了210 名不同患者的4 173 次CT掃描,其中2 168 次是由80 名感染了SARS-CoV-2 患者的CT 掃描構成,并且都經過了RT-PCR 測試進行確認,具有一定的可靠性。
(4)COVID-CT-set[32]
該數據集共有63 849 張CT 掃描圖像,其中有15 589 張表現為COVID-19 陽性,其余48 260 張表現為正常,由95 名COVID-19 患者和282 名正常受試者的CT 掃描組成。該數據集的新穎之處在于其使用16 位灰度數據格式,而不是將圖像轉換為8 位數據,從而保持數據的完整性。
(5)MosMedData[33]
該數據集包含了1 110 名匿名患者的胸部CT 掃描圖像,根據患COVID-19 不同嚴重程度分為了5類,分別為CT-0 到CT-4,其中CT-0 表示正常或無病毒性肺炎,CT-1 到CT-4 表示COVID-19 陽性且毛玻璃樣混濁、肺實質受累的程度從小于等于25%到超過75%。該數據集適合用于將CT 判別為COVID-19 陽性后,再進行細粒度分類。
(6)BIMCV COVID-19+[34]
該數據集包含了COVID-19 患者的胸部X 射線圖像和CXR(CR、DR)圖像,其中CR(computed radiography)圖像7 377 張,DR(digital radiography)圖像9 463 張和CT 圖像6 687 張。此外,還提供了大量信息,包括患者的人口統計信息、投影類型和采集參數等。
將圖像分類算法直接應用于原始數據集通常是不可行的,例如,醫學數據圖像質量受設備和顯示系統的影響,質量會受到一定的損壞;數據集分布不平衡問題,將導致遷移學習效果下降。因此,在應用算法之前解決上述問題非常重要。本章將討論常用的數據預處理方法,如圖像重采樣、對比度和亮度調整、旋轉或翻轉、放縮或剪切和生成式對抗網絡(generative adversarial networks,GAN)[35],這些方法是構建檢測COVID-19 模型的首要步驟。
圖像重采樣是圖像預處理最常用的方法之一,通常情況下,神經網絡的輸入必須是固定長度的圖像,但在COVID-19 數據集中,圖像大小并不統一,因此在進行輸入之前需要對圖像進行上采樣或下采樣,即調整圖像大小。
由于有的數據集來自不同的設備或不同的采集場景,實驗所用到的CT 掃描圖像和胸部X 射線圖像具有整體明暗程度不一和對比度低的特點,通常需要對圖像進行自適應對比度和亮度調整,從而得到質量更高的圖像。
類別不平衡問題是圖像處理和計算機視覺中的常見問題,在醫學領域表現更為明顯。由于醫療數據涉及患者的隱私,特定疾病的圖像數量要少于其他類別的圖像數量。因此,在訓練模型之前對數據集進行數據增強處理尤為重要。COVID-19 為近年新發現的疾病,數據集往往較小,且COVID-19 陽性數據的占比也較小。通常對該類數據集進行數據增強操作,通過創建具有較少對象的類來修復類別不平衡。實現數據增強常見的方法包括有監督的幾何變換以及無監督的GAN。有監督的幾何變換包含對圖像進行水平和垂直翻轉、剪切變換、隨機旋轉等操作[36]。圖3 展示了幾種常見的幾何變換。無監督的GAN 可以對數據集中的少量數據樣本進行擴充,是解決圖像類別不平衡的常用方法[35]。圖4 展示了由GAN 網絡生成的人工COVID-19 胸部X 光圖像[37]。結合當前研究,在以上這些預處理方法中,使用尺寸調整的研究比例較高,而使用GAN 的研究比例較低。Gifani等[38]對COVID19-CT 數據集采用了較原始尺寸10%的隨機水平和垂直移動,20%的隨機旋轉和水平翻轉。Sheykhivand等[37]采用了GAN 技術對數據進行預處理,獲取更多的COVID-19 陽性數據樣本。除此之外,一些研究人員還采用了自適應濾波器[39]和仿射變換[40]的方法。

圖3 常見幾何變換Fig.3 Common geometric transformation

圖4 由GAN 網絡生成的COVID-19 胸部X 光圖像Fig.4 Chest X-ray image of COVID-19 generated by GAN network
深度學習方法可以直接從任務中提取并學習相關特征,協助研究人員解決目前的復雜問題。訓練模型需要大量數據,在訓練數據不足的情況下,很難建立最佳的模型。模型中的參數數量隨著網絡的加深而增加,網絡越深,計算越復雜,對訓練數據的要求也越高。由分析可知,COVID-19 數據集屬于小型數據集,因此可以利用遷移學習方法來彌補COVID-19 數據集數量不足的缺陷,以取得更好的效果。
遷移學習是一種機器學習方法,將模型在源域中學習到的知識應用到目標域,因此能夠減少收集額外訓練數據的需求和工作量。Girshick等[20]是將遷移學習與預訓練CNN 一起用于圖像分類,從相對較小的數據集學習,并用于目標檢測的最早貢獻之一。遷移學習通常加載ImageNet 上的預訓練模型,有關遷移學習的研究表明,從ImageNet 等大數據集學習到的特征可以高度轉移到各種圖像識別任務中,并且經過充分微調的預訓練CNN 可能比從頭開始訓練更加有效[41]。同時,采用預訓練模型有很多好處,例如,所需的訓練時間更短,對硬件的要求降低,計算量也更低。根據預訓練數據的來源,可以將遷移學習分為跨域和跨模型兩種遷移學習[36]。在醫學應用中,基于跨域的遷移學習使用的是在自然圖像上的預訓練模型,如ImageNet 數據集,而基于跨模型的遷移學習使用的是在醫學圖像上的預訓練模型,如嚴重急性呼吸綜合征(SARS)圖像數據集。圖5 展示了基于跨域和跨模型兩種方法,模型對從上述圖像中所學到的知識進行遷移的方法分為特征提取器和微調網絡兩種方法。其中使用較多的方法是特征提取器方法,通過更改預訓練模型的最后一層,其他層的參數被凍結,只有最后一層的參數針對新任務進行訓練[42]。如果目標任務與原始任務相似,那么使用該方法能夠達到更好的效果。在目標任務的數據有限的情況下,這種方法能夠有效減少訓練過程中的參數數量并避免過擬合;當目標任務擁有足夠多的數據集,則可以訓練整個網絡[43],使用預先訓練的模型而不是隨機初始化權重的模型,這樣能夠提高模型的收斂速度[41],這種方法并不會凍結卷積神經網絡,而是在訓練過程中更新權重,稱為微調網絡方法。本節將對基于遷移學習的COVID-19 診斷的典型模型進行分類討論。

圖5 遷移學習的兩種方法Fig.5 Two approaches of transfer learning
傳統遷移學習通常只采用預訓練網絡,不疊加其他網絡和模型,對模型進行簡單的微調。Rahaman等[44]在一個包含860 張胸部X 光射線的小型數據集上,對比了15 種不同的預訓練CNN 模型。由于數據集較小,采用了數據增強方法擴充數據集,對比了使用數據增強前后模型的準確率和損失率,增強后準確率得到了明顯提升且損失率下降,可以有效對抗過擬合。根據比較得出,VGG19 的各類指標均為最佳,準確率為89.3%,精確率為90.0%,召回率為89.0%,F1-score 為90.0%。該研究僅使用了傳統的遷移學習模型,由于該數據集較小,淺層網絡比深層網絡表現得更好。隨著網絡深度加深,網絡出現了梯度消失問題,使得網絡的性能下降。基于此數據集,淺層網絡能夠達到較好效果,但這可能導致模型的泛化能力較差,該研究忽略了對模型進行外部驗證,而外部驗證對于檢測模型的穩定性至關重要,缺乏外部驗證的模型可能最終也無法在臨床實踐中應用。
在傳統遷移學習的基礎上,加入一些優化方法,分類效果可以得到明顯提升。Zhang等[45]將預訓練網絡DenseNet 與優化方法相結合,首先采用數據增強方法擴充訓練集大小,然后訓練DenseNet 網絡。與其他遷移學習方法不同的是,該研究提出了一種優化框架,即對網絡的凍結層、中間層和新層分配了不同的學習因子。凍結層的學習因子設為0,即不更新;中間層具有預訓練模型的權重,將其設為1 并緩慢更新;由于新層具有隨機初始化的權值,分配的學習因子為10,以便進行快速學習。該策略使得不同的層采用不同的學習速度,提高了模型的性能。優化后的遷移學習算法的召回率、特異性、精確率、準確率、F1-score 和馬修斯相關系數分別為96.35%、96.25%、96.29%、96.30%、96.30%和92.64%。此外,該研究使用了預計算的方法,將凍結層后的特征圖保存到硬盤,以減少隨機存取存儲器(random access memory,RAM)存儲,加快了算法的速度。然而,該研究沒有驗證凍結層、中間層和新層的最佳值,并且只采用了一種學習因子的組合,沒有測試其他的組合值以尋找最優的組合配置。
集成學習是一種融合兩個或多個基礎學習器特征的學習策略,能夠減少預測誤差中的方差,因此該框架比單一模型具有更強的魯棒性。傳統的集成框架,如平均概率得分、多數投票等,在對COVID-19 進行分類的任務中被大量研究者所采用。
Gifani等[38]對CT 掃描數據集進行二分類時,由于其使用的數據集較小,首先采用了數據增強技術擴充數據集。然后對15 個主流的預訓練網絡進行了微調,采用多數投票準則對不同網絡進行了集成。作者通過大量實驗評估了不同網絡結構下集成的有效性,共使用了3、5、7、9、11、13 和15 種不同體系結構的集合。通過實驗得出,結合5 種遷移學習模型的集成 模型,即EfficientNetB0、EfficientNetB3、Efficient-NetB5、Inception-ResNet-v2 和Exception,相較于其他模型取得了最佳效果,并且優于單個模型,準確率達到了85.0%,精確率達到了85.7%,召回率達到了85.4%。
Kumar等[46]采用了多數投票的集成學習策略對胸部X 射線圖像進行二分類和多分類,其中集成的模型包括EfficientNet、GoogLeNet、Xception。通過實驗結果得出,該集成模型的分類效果優于單個網絡,能夠增強學習系統的泛化能力。
Rajaraman等[47]在對肺部X 光的多任務分類中,首先對多個預訓練模型進行了剪枝操作,減少可訓練參數的數量,以減輕計算的負擔。然后選擇性能最好的剪枝模型構建集成模型,采用了最大投票、簡單平均、加權平均和模型疊加等集成方法進行預測。結果表明,加權平均策略的精度最高,能夠達到99.01%的準確率。
集成學習通過考慮預測的多樣性,提高了組合模型的性能。但是上述的簡單融合方案,如多數投票準則和加權平均準則,沒有考慮到基于測試時不同分類器所獲得的決策得分,根據不同的得分為分類器分配不同的權重。傳統的加權平均方法大多傾向于預先定義分類器權重,是一個靜態的計算過程,沒有考慮到模型對每個樣本預測的置信度。Kundu等[48]采用了四種預訓練模型,分別是VGG11、Goog-LeNet、SqueezeNet v1.1 和Wide ResNet-50-2,提出了一種基于模糊積分的集成方法。該方法不是為每個分類器分配一個固定的權重,而是在訓練的過程中動態分配權重,能夠進一步細化預測。根據各個分類器獲取互補信息的概率分數,動態調整各模型的權值,比傳統的靜態加權平均具有更強的魯棒性。
Paul等[49]采用了VGG16、ResNet18 和Dense-Net161 三種預訓練模型,通過Grad-CAM(gradientweighted class activation mapping)可視化各個模型所關注的胸部X 射線區域,觀察到這三個模型能夠注意到胸部的不同病理區域,因此通過集成能夠產生更好的結果。該文提出了一種基于倒鐘形曲線的模型集成,模型的權重根據倒鐘形曲線函數進行分配,有助于懲罰更大范圍的低置信度值,從而提高模型的性能。
以上集成模型分別采用了多種不同的模型進行集成,然而訓練多個預訓練神經網絡進行模型平均的計算成本較高,快照集成是在不增加訓練成本的情況下集成多個網絡,采用余弦退火循環調度學習率,在訓練過程中定期保存模型參數,實現集成的效果。Samson等[50]對COVID-19 的胸部X 射線診斷過程中,采用了一種改進的快照集成技術,提出用加權平均代替所有模型的平均概率,且將計數器的數量規定在一定的范圍內,因此可以得到更加精確的改進權重。該方法適用于訓練數據有限和數據分布不均勻的情況,從而使模型具有良好的魯棒性。
除了上述遷移學習方法以外,許多研究人員采用混合模型,將遷移學習與其他模型相結合,提出了許多新框架,以此提高模型的泛化能力。Sheykhivand等[37]提出了一種遷移學習混合模型,將GAN、深度遷移學習、長短期記憶(long short-term memory,LSTM)網絡相結合使用。首先使用GAN 網絡生成圖像,平衡各個類的數據。然后改進了預訓練網絡Inception V4,將兩個LSTM 網絡嵌入其中。結果表明,較其他遷移學習模型,該混合模型在各個指標上都有明顯提升。修改后的預訓練網絡與LSTM 網絡相結合能夠減小網絡的震蕩,提高模型訓練的速度,加速模型的收斂,同時也提升了該算法的精度。該實驗為了驗證所提出網絡的魯棒性,將不同信噪比(4 dB 到20 dB)的高斯白噪聲添加到原始胸部X 射線圖像上,對算法進行了觀測噪聲測試,觀察該模型分類的準確率。實驗結果表明,在添加了不同信噪比的高斯白噪聲后,分類準確率仍然能夠達到80%以上,證明了所提出模型對噪聲具有較強的魯棒性。但是該研究由于數據集數量不足,混合了6 個不同的數據集,混合的數據集過多可能會存在偏差,模型訓練結果的可信度會降低。例如,有的醫療設備會對X射線圖像進行文本注釋,而另一些設備不會注釋,這就產生了兩種不同的背景信息,如果這兩種數據集融合在一起且恰好類別不同,網絡會學習背景信息,產生與任務無關的特征,而分類器將關注最容易區分類別的特征,而不是真正的特征。在研究過程中數據集的選擇也是影響結果的關鍵因素,盡量避免混合數據集或選擇偏差較小的數據集進行混合,以提高結果的可信度。
Niu等[51]使用了遠域遷移學習方法(distant domain transfer learning,DDTL),提出了一個新的遷移學習框架,該框架包含兩部分:縮小尺寸的ResUnet 分割模型和距離特征融合(distant feature fusion,DFF)。傳統的遷移學習算法假設源域和目標域存在一定的共享信息,然而在實際應用中這種假設不總是成立。例如醫學圖像和自然圖像領域的特征聯系比較松散,很容易導致負遷移。在該項研究中,采用了跨模型的遷移學習,使用沒有標簽的Office-31、Caltech-256 和胸部X 射線圖像數據集作為源數據,并使用一小部分帶標簽的COVID-19 肺部CT 作為目標數據,使源域數據與目標域數據聯系更加緊密,有效處理訓練數據與測試數據之間的分布偏移。此外,該研究引入了新的特征選擇方法DFF,并沒有使用傳統遷移學習中的預訓練網絡框架,而是采用了卷積自動編碼器和解碼器的形式。并且達到了96%的分類準確率,這比非遷移學習算法的分類準確率高0.13,比傳統的遷移學習算法高0.08。該算法有兩方面的改進:第一,不需要有標簽的源域數據,只需要少量的帶標簽的目標域數據,該模型在目標域上就能夠達到較高的分類準確率;第二,它解決了傳統遷移學習算法產生的最具挑戰性的問題之一,即負遷移問題。但是該算法仍存在一些不足,例如,大多數遠域遷移學習算法往往是針對特定情況的,同樣的算法難以運用到其他的領域。并且提取遠距離特征的過程計算量較大,目前基于特征的遠域遷移學習算法可解釋性較差。
Perumal等[52]將機器學習方法與遷移學習方法相結合,使用機器學習方法手動提取特征。首先對所有圖像進行預處理,采用直方圖均衡化和維納濾波器方法增強對比度和去除圖像噪聲,并提高圖像質量。然后對COVID-19 胸部X 射線圖像構建灰度共生矩陣,提取出Haralick 特征,該特征可以確定相鄰像素點之間的強度關系,將其輸入ResNet50、VGG16和InceptionV3 預訓練模型進行分類。最后使用Grad-CAM 生成熱力圖,對網絡進行可視化。實驗結果表明,基于VGG16的遷移學習模型相較于ResNet50和InceptionV3 獲得了最佳表現,該模型的準確率達到了93%,精確率達到了91%,召回率達到了90%。但Haralick 特征的提取通常需要人工干預,而手工提取特征經常導致特征冗余,造成參數量和計算量的急劇增加。并且作者沒有設置對比實驗說明手動提取的Haralick 特征比卷積神經網絡自動提取的特征更加有效。
Um等[53]提出了一個由深度卷積神經網絡、特征增強機制和雙向LSTM(bidirectional LSTM,BiLSTM)組成的統一架構,將預訓練的CNN模型,如ResNet50、SqueezeNet、GoogLeNet 和DenseNet201與特征增強機制和BiLSTM 相結合來評估模型的性能。該框架沒有使用傳統的數據增強策略,例如基于幾何變化的數據增強,而是采用基于重構獨立分量分析(reconstruction independent component analysis,RICA)[54]特征增強機制,通過特征空間逼近真實分布,所生成的特征是相互獨立的,并且保證了特征的多樣性。該方法生成的特征與上述生成的Haralick 特征相比較,該低維增強特征更緊湊,可以顯著消除干擾信息或冗余。最后使用主成分分析(principal components analysis,PCA)投影和t分布-隨機近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)特征可視化方法解釋該模型。所提出的方法在三個公開數據集上進行了測試,并與最新的模型相比較,實現了97%的準確率,比目前關于三分類的最佳模型高出0.1。
Jokandan等[55]提出了一種基于不確定性感知的遷移學習方法,首先采用4 個預訓練網絡VGG16、ResNet50、DenseNet121、InceptionResNetV2,從胸部X 射線和CT 圖像中提取深度特征。為了證明提取特征的有效性,該文引入了Grad-CAM 的概念,對模型的決策進行了可視化,所描繪的熱力圖突出顯示了分類決策輸入的最顯著區域。然后對網絡進行微調,為了避免在將特征傳遞給分類模型之前丟失,在最后一層卷積層中舍棄了池化操作,并且將最后一層全連接層用不同的機器學習分類器替換,包括KNN(K-nearest neighbors)、linear SVM(linear support vector machine)、RF(random forest)等。實驗結果表明,SVM 和神經網絡模型在準確率、召回率、特異性和受試者工作特征曲線(receiver operating characteristic curve,ROC)方面取得了最佳結果。該文引入了認知不確定性來解釋模型分類結果的不確定性,認知不確定性與模型的泛化能力密切相關。由于所使用的新冠肺炎數據集較小,訓練數據不足,導致模型對于沒有見過的數據會有很低的置信度。模型在進行高風險應用和處理小型稀疏數據時,定量分析其決策的不確定性非常有必要。
神經網絡體系結構通常被稱為黑匣子,將圖片輸入網絡之后,無法直觀地體現產生輸出的工作機制。為此,許多研究人員采用多種方法對預測結果進行可視化,并通過生成熱力圖來標識胸部X 射線的關鍵區域。常用的可視化方法包括類激活圖(class activation map,CAM)[56]、基于梯度的類激活圖(Grad-CAM、Grad-CAM++)[57]、分層相關性傳播(layer-wise relevance propagation,LRP)[58]和局部可解釋模型-不可知解釋(local interpretable model-agnostic explanation,LIME)[59]。以上方法能夠直觀地展示分類結果。例如,類激活圖將具有不同亮度的特征權重生成二維熱圖,亮度與特征的重要性相對應。該熱圖被疊加在輸入圖像上,以定位突出的區域。在基于CT 掃描圖像的COVID-19 診斷模型中,只有少數研究采用了CAM 和Grad-CAM 對模型進行可視化解釋,更多則是將其應用于胸部X 射線圖像。圖6 顯示了當輸入圖像被分類為COVID-19 時,Grad-CAM 定位突出區域的可視化結果。

圖6 Grad-CAM 可視化結果Fig.6 Results of Grad-CAM visualization
分類任務中,模型常見的評價指標包括準確率(Accuracy,ACC)、精確率(Precision,PRE)、特異性(Specificity,SPE)、召回率(Recall)、F1-score、ROC曲線和AUC 指標。
在分類模型中,準確率是衡量分類器性能質量的最常見、最基本和最簡單的標準,但其主要缺點是無法區分“假陰性”和“假陽性”,該標準認為所有的錯誤都是相同的。因此,高準確率并不能反映模型的實際性能。由分析可知,有的COVID-19 數據集具有高度不平衡性,此時準確率就會失效,因此引入了精確率、召回率和特異性等綜合指標來對模型的性能進行全面的評判。準確率、精確率、特異性、召回率計算分別如式(1)~(4)所示:
其中,TP(true positive)是指樣本被正確分類為陽性;TN(true negative)是指樣本被正確分類為陰性;FP(false positive)是指樣本被錯誤分類為陽性;FN(false negative)是指樣本被錯誤分類為陰性。
召回率和精確率均為單一指標,一般情況下,召回率越高,精確率越低;精確率越高,召回率越低,兩者是相互制約的關系。根據不同的分類情況,引入了F1-score,F1-score 是精確率和召回率的調和平均值,它綜合考慮了這兩種指標,F1-score 的計算公式如式(5)所示:
ROC 曲線又稱為受試者工作特征曲線,1-specificity 為橫坐標,表示假陽性率,sensitivity 為縱坐標,表示真陽性率。由于ROC 曲線無法進行定量比較,又引入了AUC。AUC 表示在此坐標軸中曲線的面積。相比ROC 曲線,AUC 值作為一個數量值,更具有可比較性,可以進行定量的分析,因此大多研究者也采用該值作為評價模型的標準。
模型性能的好壞由多方面的因素所決定,如數據集的大小、所采用的模型以及模型的特點等。表3從數據集大小、分類類型、性能評價、所采用模型和模型特點,對當前基于遷移學習的COVID-19 檢測診斷模型進行分析和比較。

表3 不同模型分析和比較Table 3 Analysis and comparison of different models

表3(續)
對所采用數據集的類別進行分析,采用CT 數據集和胸部X 光數據集的分類模型比例大致相等。由于CT 圖像中往往包含更多的細節,早期研究者更多采用CT 圖像作為數據集,但是CT 掃描圖像采集時間較長、采集的成本較高。而胸部X 射線成像技術在許多臨床站點更加成熟也更便宜,因此后期使用胸部X 射線的研究也開始逐步增多。從采用的數據集的大小可以看出,目前關于COVID-19 的CT 掃描圖像和胸部X 射線圖像數據集大多屬于小型數據集,因此許多研究采用了有監督的幾何變換,即對圖像進行水平和垂直翻轉、剪切變換、隨機翻轉等操作,以增大各類圖像的占比。從數據集的類別占比可以得出,大多數據集具有類別不平衡的特點。和其他成像領域相比較,醫學圖像領域的數據集大多封存于醫院的專有數據庫中,由于涉及患者的隱私,可能會阻礙數據的公開和獲取。因此COVID-19 陽性病例圖像數量占比普遍較小,大多研究采用無監督的GAN 生成COVID-19 類別的圖像,以增大COVID-19圖像的占比。
大多研究采用的骨架網絡為VGG、ResNet、DenseNet 和Inception 等當前比較流行的預訓練模型,對胸部X 射線圖像和CT 圖像的特征進行有效提取,最后對圖像進行分類。所采用的遷移學習模型通常有兩種遷移策略:第一種策略通過預訓練模型進行特征提取,不改變預訓練模型的初始框架和所有學習的權重。骨架網絡僅充當特征提取器,將提取到的特征送到執行分類任務的新網絡中。該方法避免了從頭開始訓練深層網絡所帶來的計算成本。第二種策略較第一種策略更為復雜,首先對骨架網絡進行特定修改,這些修改可能包括架構調整和參數調整。只保留從先前任務中挖掘的特征,而將新的可訓練參數插入網絡。這些新參數需要使用大量的數據進行訓練,才能發揮優勢。
基于遷移學習的診斷模型分類類型包含二分類、三分類和四分類,具體將胸部X 射線圖像和CT圖像根據健康、病毒性肺炎、細菌性肺炎和COVID-19 陽性進行分類。大部分研究的分類類型僅包含二分類,只將圖像區分為感染COVID-19 或正常。只有少部分研究會細化到三分類或四分類,三分類將圖像區分為感染COVID-19、健康、患有其他肺炎;而四分類則是將其他肺炎再細分為感染病毒性肺炎或細菌性肺炎。選擇二分類雖然可以加快模型的診斷速度,但是并不能診斷患者是否患有普通肺炎,不便于對患者進行后續治療。
在上述研究中,采用的評價指標主要包括準確率、精確率、特異性、召回率,少數研究加入了F1-score和AUC 指標。大部分研究性能能達到90%以上,少部分在85%左右。由于該分類任務屬于醫療診斷,在保證準確率的條件下,應盡可能提升召回率,更高的召回率表示模型將COVID-19 陽性病例劃分為無COVID-19 癥狀病例的情況更少,即假陰性率更少。然而由于數據集的大小和質量,以及分類類型的不同,無法對不同研究的模型僅從性能評價上進行單一比較。
大多情況下,從頭開始訓練一個深度學習模型需要較高計算能力的硬件和較大的數據集,才能保證訓練的效果,而使用有限的訓練樣本學習大量的參數往往會導致過擬合。此外,從頭開始訓練模型也是相當耗時的。遷移學習的預訓練模型可以在小型數據集上更快地收斂。由于COVID-19 病例的迅速增加,SARS-CoV-2 核酸檢測試劑短缺且效率低下,將醫學圖像與遷移學習結合有助于在COVID-19快速傳播期間提供更快、更準確的結果。雖然遷移學習在COVID-19 的診斷中表現出了良好的性能,但仍然存在一些局限性,對此本文針對數據集、多模態數據、噪聲處理、分類類型、集成模型、不確定性量化六方面,提出了當前存在的問題以及未來的發展方向。
當前的數據集種類較多,大部分研究采用公開的數據集,少部分研究采用私有的數據集。公開數據集普遍較小,容易產生過擬合問題。而私有的數據集所訓練的模型,由于研究中所使用的數據集不公開,這些工作很難被復制和采用。
上述問題都將導致最終的自動診斷系統無法應用于臨床診斷,因此創建一個公開的數量和質量都較高的統一數據集,供研究者使用是非常必要的。擴大數據集的規模能提升模型的魯棒性,提高數據集的質量能夠提高模型的性能,并且數據集統一有利于對不同模型進行比較。另一個問題是數據集的標注問題,采用人工標注的方法不僅耗時,且標注的數據帶有主觀性,未來的研究可以將遷移學習與自監督學習或無監督學習協同集成,消除數據集的限制。
通過數據增強產生的人工圖像來自同一個訓練數據集,其提高特征的多樣性和豐富性的能力是有限的。例如采用有監督的幾何變換,隨機旋轉圖像可以生成代表同一類新像素值的圖像,但如果圖像不是方形圖像,可能會丟失信息;采用無監督的GAN進行數據的擴充時,如何避免對抗網絡訓練過程中的非收斂性是一個非常具有挑戰性的問題,而梯度消失和梯度爆炸使得對抗性網絡的訓練過程非常困難。
在這種情況下,采用多模態研究可能是提高模型性能的一個更有效的方法,與單模態分析相比,多模態數據集往往能達到更高的性能[60]。例如在COVID-19 的檢測中,大多數研究僅使用一個單一的順序架構,多模態研究通過采用兩個平行的特征提取器,一個提取CT 掃描圖像的特征,另一個提取X射線圖像的特征,將這兩個特征在分類前進行組合,從而進一步提高模型的性能,這也是一個很有價值的研究方向。
X 射線通過給人體傳播一定的輻射,被人體不同的組織吸收后,最終呈現在膠片上。在這個過程中,一些輻射發生散射后會在X 射線圖像上產生噪聲,主要有椒鹽噪聲和泊松噪聲。這些噪聲會給后續特征提取帶來干擾,因此處理這些噪聲數據非常重要。
而上述研究中只有極少數研究對噪聲進行了處理,大部分研究所使用的數據集都是清晰X 射線。為了將模型運用于現實場景中,當采用帶噪聲的數據集時可以使用合適的濾波器來消除此類噪聲,以提高噪聲數據集的準確率。
隨著類別數量的增加,對圖像的分類變得更加困難。相比之下,二分類情況更容易處理,因此當前大部分研究側重于對圖像進行二分類,即分為COVID-19 或正常,這導致多分類研究存在空白。
由于新冠肺炎與其他肺炎在圖像特點具有相似的表現,未來研究可以考慮選擇多類肺炎以及COVID-19 圖像,對分類的類型進行細化,加入多分類問題,這也便于醫生對患有其他類型肺炎的患者進行后續治療。X 射線也能用于檢測COVID-19,但它不能提供感染肺部的細節。CT 掃描則是一種更復雜的技術,圖像往往包含更多的細節,在預測疾病感染嚴重程度方面非常敏感,后續研究可以對確診COVID-19 的圖像進行嚴重程度分級,如果是重癥患者便于醫生立即采取相應的治療方案,最大程度挽救患者的生命。
最初將遷移學習應用于COVID-19 的診斷時,大部分研究所采用的模型都是單一的預訓練網絡,或者對預訓練網絡進行簡單調整后再將數據集放入進行訓練,訓練出的模型效果不佳。集成學習通過并行訓練多個神經網絡來解決分類任務,可以解決由深度學習網絡產生的高方差問題,并且集成模型的效果優于單一網絡。
希望研究者在未來的研究中能夠提供更高性能的集成網絡。除此之外,還可以將實驗結果和醫學圖像以及患者的臨床表現相結合,以便更加全面地診斷COVID-19,對于已確診的患者增加風險分析和生存預測,這將預測感染是否會威脅患者的生命,從而有針對性地對患者制定診療計劃。
深度學習模型需要考慮以下兩種不確定性:一是由于數據本身包含噪聲所產生的偶然不確定性,是數據分布的固有屬性,因此它是不可約的;二是由于模型訓練不佳產生的認知不確定性[56],通過收集更多的數據能夠減少這種不確定性。但是COVID-19的數據集比較匱乏,目前大多模型并沒有對新病例給出一個置信度,錯誤的診斷可能會導致疫情持續傳播,如果模型在輸出結果的同時,輸出了一個較低的置信度,就需要專家介入對其進行診斷,這樣可以從很大程度上減少誤判的概率,因此對模型進行不確定性量化非常有必要[61]。評估不確定性模型當前普遍存在的挑戰有缺乏理論基礎、對不完整數據的敏感性低、計算量大等。
深度學習領域常用的不確定性評估方法有貝葉斯深度學習[62]、蒙特卡洛[63]、馬爾可夫鏈蒙特卡洛[64]。貝葉斯的核心在于求解后驗分布,然而在深層網絡中,后驗分布很難求解,只能通過近似的方法解決后驗分布的求解問題。貝葉斯深度學習將貝葉斯概率論與深度學習相結合,為應對復雜問題中的不確定性建模與推斷提供了強大的工具。其對過擬合問題具有較強的魯棒性,可應用于小型數據集。蒙特卡洛(Monte-Carlo,MC)方法可以近似后驗推斷,但是集成到深度架構中時,存在計算緩慢且計算成本較高的缺點。為了解決上述問題,引入了MC dropout[65],其原理是在訓練和測試階段都使用dropout作為正則項計算預測的不確定性。然而該方法在樣本集中的情況下,所預測的不確定性較低;在樣本稀疏的情況下,不確定性會明顯增大。馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)是另一種近似后驗分布的有效方法,所采樣的方法都是無偏的。但其需要迭代的次數過多,達到期望分布的收斂時間較長。基于上述問題,提出了隨機梯度馬爾可夫鏈蒙特卡洛(stochastic gradient MCMC,SG-MCMC)[66],它只需要估計小批量數據的梯度,因此可以較快收斂到真正的后驗分布。
在未來的研究中,需要對各種不確定性量化的方法加強理論分析。在采用半監督學習自動生成數據標簽時,可以將不確定性量化方法與之結合。此外,還可以將其應用于數字醫療領域,量化其不確定性,并將其部署到真實的臨床環境中,這也是一個值得研究的方向。
本文研究了幾種基于遷移學習檢測COVID-19的診斷模型,并闡明了這些模型的特點。首先,表1和表2 分別展示了公開的X 射線和胸部CT 數據集,詳細描述了數據集來源、分布、占比等。然后討論了數據預處理的方法,最常見的方法是尺寸調整,使用GAN 方法的研究占比較小。接著按照模型分類闡述了各個模型的特點,以及常用的模型評估方法。一些研究結合了可視化技術(即CAM、Grad-CAM、Grad-CAM++、LIME 和LRP),以突出與預測結果密切相關的關鍵區域,最常用的可視化技術是基于CT掃描和X 射線模型的Grad-CAM。最后整理和總結了當前領域面臨的問題并提供了未來的研究方向。希望本綜述能為研究人員和放射科醫生提供指導。