俞益洲, 石德君, 馬杰超, 周 振
(1.香港大學計算機科學系,香港 999077;2.深睿人工智能研究院,北京 100080)
人工智能(artificial intelligence, AI)是一門旨在模擬、延伸和擴展人類智能,集理論、方法和應用研發于一體的新興技術學科[1]。隨著AI的迅速發展,醫學影像分析與處理已成為醫學信息中發展最快的領域之一,而物體分類、檢測、分割和生成等作為AI圖像處理的關鍵問題,在醫學應用中具有重要意義。
圖像分類是計算機視覺中最基本的任務之一,是由模型自動輸出給定圖像的類別標簽,建模核心是提取圖像特征和構建分類器。傳統圖像分類方法系采用人工設計特征,如共生矩陣(GLCM)、Gabor過濾器及局部二值模式(LBP)等[2],計算復雜、低效,且分類精度往往不高。卷積神經網絡(convolutional neural network, CNN)能挖掘海量數據中隱含的統計模式,自動學習對分類任務最有區分力的圖像特征[3]。隨著網絡深度增加,CNN模型精度越來越高,深度學習(deep learning, DL)由此得名。基于自然圖像構建的圖像分類網絡是最早遷移到醫學影像分析中的DL模型,如分類異常胸片和正常胸片。醫學影像分類使用的DL模型在時間線上與計算機視覺中類似[4]。
由于醫學影像標注數據稀缺,研究者往往使用遷移學習,即利用預訓練模型進行權重初始化。遷移學習在醫學影像分類任務中的優勢得到了研究證實[5],證實遷移學習在醫學影像分類任務中的優勢。目前多個大型疾病診斷分類模型均采用遷移學習,分類精度達到??漆t師水平[6-7]。
可解釋性問題是DL一直以來面臨的挑戰,即CNN模型提取哪些特征以實現高分類精度[8]。將CNN模型用于醫學影像領域時,可解釋性問題尤為突出——模型預測可能與醫師判斷相左,而醫師需要知道原因。有學者采用可視化研究,對CNN分類機制進行探索[9-10];借助類別激活圖(class activation maps, CAM)展示模型在預測分類時關注了輸入圖像的哪些區域。類似的可視化技術還被用于其他醫學影像的DL分類任務[11]。
MRI和CT三維圖像分類任務研究催生了3D CNN模型。Mohammed等[12]搭建3D CNN模型對三維MRI進行阿爾茲海默病(Alzheimer's disease, AD)分類,針對不同分類任務,模型F1為0.75~0.94。Shen等[13]提出3D深度層級語義網絡模型預測CT中肺結節的特征和惡性程度,同時輸出低級語義特征(毛刺、實性、鈣化等)和高級惡性分數,協助醫師解讀模型的預測結果,在LIDC數據集上的良惡性分類準確率達到84.2%。
計算機視覺目標檢測旨在對圖像中的目標進行定位和識別,其中的算法不僅需要給出被檢測目標類別(如CT切片上某塊區域是否包含肺結節),還要在圖像中給出其位置和范圍。
在醫學影像分析領域,目標檢測主要體現為病灶檢測。目前病灶檢測算法主要有單階段方法和雙階段方法。單階段方法[如YOLO(you only look once)和SSD(single shot detection)等[14-15]]的主要思想是于欲檢測圖像特征圖的不同位置均勻進行密集抽樣,再對抽樣特征進行定位邊界回歸和病灶類別分類,整個過程只需一步,速度較快。雙階段方法(如RCNN系列[16-17])的主要思想則是通過區域生成網絡(region proposal network,RPN)產生一系列候選框,再對其進行再次定位邊界回歸和病灶類別分類,共經兩次定位邊界回歸,其準確率較高。
基于YOLO系列的網絡結構一般將圖像分成多個區域,并查看每個區域是否包含物體及其具體位置。Afshari等[18]提出一種基于YOLO的深度網絡結構,用于檢測對PET圖像中的多個器官(腦、心臟等),平均準確率為75%~98%,召回率為94%~100%。Almasni等[19]使用YOLO網絡對乳腺腫塊進行自動檢測,定位準確率99.7%,并能區分良性和惡性病變,總準確率為97%。
基于SSD系列的網絡直接采用CNN,以不同尺度特征圖進行檢測,在一定程度上克服了YOLO檢測小物體效果較差的問題。與一般意義上基于自然圖像的物體檢測相比較,醫學影像分析有其特殊性和側重點,其維度通道一般基于醫學數據類型而改變,例如PET-CT數據一般情況下為二維單通道灰度圖,而MRI數據多為三維四通道灰度圖。Ma等[20]提出一種基于分組卷積網絡的單級SSD檢測框架,針對輸入圖像的多層面性質,自動學習不同輸入層面之間的權重關系,并在肺結節檢測數據集LUNA16上取得了較高得分。Datong等[21]則針對醫學影像分辨率低、背景復雜的特點提出基于單級SSD的冠狀動脈鈣離子的檢測算法。Zhang等[22]使用特征金字塔結構改進模型,將底層特征映射與上層反卷積特征映射連接起來,使各層之間的關系更加明確,在胃鏡檢測息肉中的準確率達到90.4%,并極大降低息肉的漏診率。
RCNN系列網絡是目前基于DL目標檢測的代表模型。Lu等[23]以基于RCNN的網絡在MRI上檢測盆腔淋巴結,414例直腸癌ROC的AUC達 0.912。Liu等[24]將RCNN用于檢測結腸炎,針對二維層面生成一系列候選框,再行類別分類和定位回歸。為自動檢測領域肺結節,Zhu等[25]將RCNN網絡改進成基于3D的網絡,能夠有效學習結節特征,并在LIDC上得到92%的敏感度。Yan等[26]以三維網絡建模上下層的聯系,提出一種利用3D信息的檢測算法,對CT中的多種病灶進行通用檢測。
器官和亞結構分割是定量分析醫學影像的基礎,比如面積和體積,往往也是計算機輔助診斷(computer aided diagnosis, CAD)流程的第一步;常見評價指標有像素水平的分類準確率,區域水平的Dice系數、IoU及Hausdorff距離等[27]。
U-net是最知名的CNN分割模型之一[28],奪得2015 ISBI顯微鏡圖片細胞分割挑戰的冠軍,IoU達92%。現已有多個U-net的變種模型,尤其是為適應三維醫學影像的3D U-net[29]、V-net[30]及AnatomyNet[31]等。V-net在3D U-net基礎上加入殘差模塊,結合基于Dice的損失函數,在MRI膀胱分割中Dice達到0.87[30];AnatomyNet則在頭部CT 19個器官分割任務上取得了最優Dice表現[31]。
全卷積網絡(fully convolutional networks, FCN)是語義分割領域的經典模型,系很多后續經典分割模型的原型,也被用于醫學影像領域,以經典分類模型作為編碼主干,以反卷積替代全連接層,將特征圖分辨率恢復到原始圖像大小,從而實現逐像素分類[32]。Jiang等[33]利用基于AlexNet的FCN進行視網膜血管分割,于4個公開數據集上取得最優表現。Gibson等[34]以3D DenseVNet在腹部CT圖像中對9個器官進行分割,以FCN為基本框架,同時在主干中使用Dense連接實現特征重用,提升參數使用效率,對不同器官的分割Dice達到0.63~0.96。Tetteh 等[35]提出cross-hair過濾器來近似3D卷積核,參數量隨卷積核尺寸呈線性增加,而非指數增加,結合模擬數據預訓練,大幅提升了模型在三維血管造影圖像中血管分割的效果。Cao等[36]提出一種雙路分割網絡模型提升魯棒性,在公開數據集LIDC上取得了82.74%的Dice得分。Alom等[37]觀察循環神經網絡(recurrent neural network, RNN)對CNN分割網絡的效用,相比U-Net和ResU-Net,其分割效果在眼底圖片、皮膚癌和肺結節3個標準數據集上均有所提升。
圖像生成旨在從A圖像自動生成偽B圖像,A圖像可為隨機噪聲,也可為來自不同域的圖像(如自然圖像中A和B來自不同風格的圖像,在醫學影像中A和B可分別代表MRI和CT),一般由生成對抗網絡(generative adversarial nets, GAN)來實現;后者是一種特殊神經網絡模型,模型可分為生成器和判別器兩個部分,生成器負責從A圖像生成逼近真實B圖像的偽B圖像,判別器負責區分B圖像和偽B圖像,兩個模型交替訓練,最終判別器無法區分生成器生成的偽B圖像與真實的B圖像,說明生成器已達到 “以假亂真”的水平。
在醫學影像中,成像算法面臨的一大挑戰是利用低輻射劑量獲得高分辨率圖像,這其中涉及噪聲和偽影處理。GAN在醫學圖像領域受到廣泛關注。為了產生更逼真的圖像,Nie等[38]采用對抗性訓練策略和圖像梯度差分損失函數。Bi等[39]提出一種新的合成多通道GAN方法模擬合成PET數據,以解決PET數據再低分辨率和低信噪比方面的問題。
相比 GAN,條件對抗網絡(conditional generative adversarial nets, CGAN)生成器的輸入不再是一個隨機噪聲,而是以一張真實圖像和一個控制條件去生成偽圖像,即CGAN生成器的任務不僅在于騙過生成器,還要讓生成圖像滿足某種特定條件。Yi等[40]基于CGAN方法在低劑量CT上進行去噪處理,得到了較好的分辨率和損失率。Sanchez等[41]使用對抗學習的方法,從低分辨率圖像生成高分辨率MRI,并通過修改不同對抗損失函數來提高生成圖像的質量,顯示了CGAN在三維醫學影像超分辨率成像方面的潛力。
循環對抗生成網絡(cycle generative adversarial nets,CycleGAN)本質上是兩個鏡像對稱的GAN模型構成的環形網絡,共享兩個生成器,各帶一個判別器。Kang等[42]通過學習常規劑量冠狀動脈CTA而生成低劑量CTA的映射,并去除低劑量階段圖像的噪聲。You等[43]提出一種基于半監督的圖像恢復算法,將殘差學習方式用于CycleGAN,在低分辨率CT圖像中準確恢復了高分辨率CT圖像。Ravi等[44]提出一種基于具有物理激勵循環一致性的對抗性深度神經網絡,來解決內窺鏡采集過程中圖像像素低的問題,平均意見得分研究也證實了這種定量的圖像質量評估能力。
醫學影像分析領域研究大量借用計算機視覺研發DL技術,包括分類、檢測、分割,來提升醫學影像解讀的效率和精度。目前DL模型在多項多種影像模態相關任務中已接近甚至超越人類專家的水平。使用GAN等圖像生成技術可提升醫學影像質量,實現不同影像模態的轉換,減少輻射劑量及采集次數。同時,借助醫學影像的特性及特定臨床任務進行DL技術創新,可實現對計算機視覺領域的反哺,比如提供大量遷移學習研究實例,對二維模型進行三維改造和探索多種DL模塊的協同作用等[4]。AI在醫學影像分析中的研究將有望切實提升醫師工作效率和工作質量。