田潔綜述 馬曉海,趙蕾審校
心血管疾病死亡率在西方國家疾病譜中居于首位[1-2]。在我國,心血管疾病死亡病例占居民疾病死亡構成比的40%以上,高于腫瘤及其他疾病[3]。及時診斷心血管疾病對患者預后至關重要。用于診斷和隨訪心血管疾病的影像學方法很多,其中心臟磁共振(CMR)是評價心血管系統結構和功能的常用方法之一。CMR能提供精確的心臟結構和功能、心肌運動和組織學特征等信息。心功能評價指標包括射血分數(EF)、心室舒張末期容積(VEDV)、心室收縮末期容積(VESV)和心室心肌質量(VMW)等。心功能分析需要人工分割左心室的短軸電影序列圖像,主要是輪廓的分割,包括心內膜和心外膜的分割。這是一項耗時的工作,左心室的分割平均需要30 min以上[1, 4]。目前雖然一些商用軟件可以自動分割,但也需要人工輔助校正勾畫輪廓,因此疲勞誤差難以避免。
隨著計算機算法的進步、計算能力的提高和可用數據的大量增多,近幾年深度學習(deep learning,DL)作為機器學習(machine learning,ML)的一個分支迅速發展,尤其在計算機視覺領域。在醫學中,基于放射信息系統(radiology information system,RIS)、醫學圖像存檔和傳輸系統(picture archiving and communication system,PACS)中大量病例,DL可從圖像中提取信息,本文將對DL在CMR左心室圖像分割中的應用進展作一綜述。
1.1 深度學習的意義 深度學習(DL)是機器學習(ML)的一種特殊算法,機器學習是人工智能(AI)的一個子集。人工智能(AI)概念在20世紀60年代提出,是指研發用于模擬、延伸和拓展人類智能的理論、方法、技術及應用系統的學科,是融合了計算機科學、統計學、腦神經科學等前沿學科的綜合性學科[5]。在醫學應用中,機器學習的方式包括監督式學習和非監督式學習,監督式學習主要用于有明確標簽的數據,例如疾病分類、預后判斷等有明確診斷和結局的一類數據。無監督學習即由無明確標簽組成的數據,例如圖像的紋理、灰度等。在醫學應用中,機器學習通常輸入從圖像中提取的重要特征集,使用統計的、數據驅動的規則設計成特定算法程序,轉化為特定的輸出。例如,心臟輪廓的特征包括組織信號的對比差異、噪聲特征、紋理和運動等,當特征數據收集完整,可使用訓練集對機器學習算法進行訓練,之后可以對訓練中未見過的數據進行預測,但預測結果受訓練數據的影響較大。
而在自動提取數據特征方面,DL具有良好的優勢。DL不是一組預先設計好的程序指令,是一種表示學習的形式,能夠從數據集中直接學習識別與區分不同的數據特征,避免了人工區分。這種數據驅動的方法能夠定義更抽象的特征,更具信息性和可泛化性[6]。例如心臟磁共振左心室內外膜的定位,DL算法可以學習到能夠預測出心臟內外膜最有用的圖像特征[7]。DL的迅速發展由3種因素組成,分別是大量的數據、高效的處理器(CPU)和更迭的學習算法[8]。在深度學習網絡中,最常用于研究分析圖像的算法是卷積神經網絡(convolutional neural network,CNN)[9]。
CNN由多層具有特定意義的算法構成,包括一系列層,每進行一層更高級的學習時,將每層的圖像輸入映射到下一層的起始點,進行端對端的傳輸 。在“隱藏”層面包括一系列的卷積和池化分別進行特征提取和聚合,在最后輸出結果之前,完全鏈接層進行高級推理。CNNs通常是監督學習方式,進行端—端訓練[7]、學習標注好的數據。以往的算法,如人工神經網絡(ANNs)計算層面通常被限制在3層,并只對有明確標簽的數據進行特定的訓練[10]。CNN由多層具有特定意義的算法構成, 與以往的算法相比具有2個特點:(1)CNNs計算層面更“深”,有10~30層,計算量大時甚至超過1 000層;(2)算法更復雜,由多個神經元復雜連接,多重非線性變換無限逼近復雜函數,最后給出原始數據特征[11]。
1.2 DL在醫學影像學中的價值 DL具有對特征集進行端—端學習、處理復雜多模態數據、計算性能優越等優勢[10]。DL已應用于醫學影像學中多個臨床領域,包括乳腺癌的影像學檢測,肝轉移的CT分割,腦腫瘤MR分割,利用高分辨率胸部CT進行間質性肺病的分類,癌癥組織病理學閱讀等[12-17]。在心血管影像中,DL應用包括減少心臟影像圖像重建時間、準確快速進行心血管圖像分割、計算與識別、心臟疾病診斷、預后評估及危險分層[18-21]。
目前一些商用軟件可以自動分割,但仍存在人工校正的情況。DL的引入可以顯著提升心內、外膜的分割精度。大體上,90%以上的DL算法Dice相關系數(Dice metric)即表面重疊(surface overlap)達0.95以上[22]。
2.1 基于像素分割方法 DL算法通常對于一般磁共振心臟短軸的電影圖像使用基于像素分割左心室心內外膜的方法,即利用標記像素的灰度級[1],設定灰度閾值將心肌與心室腔、周圍組織分開[23]。大多基于像素分割的DL算法是基于U-Net結構[24], Bai等[25]用全卷積神經網絡自動分析心臟磁共振,數據庫選自英國生物庫,數據集達4 875例,能夠在幾秒內應用像素的方法分割心臟磁共振短軸圖像,結果表明自動分析結果與人工分析相當。Vigneault 等[26]為了提高分割的準確性,使用Ω-Net神經網絡在分割之前規范心臟磁共振圖像的方向,選用2017MICCAI ACDC數據集,實現全自動、多層面對心臟磁共振圖像進行定位、校正方向和分割,提高分割效率和精確度,結果表明,這個算法可用于雙心室的分割。Poudel等[27]研究用回歸全卷積神經網絡對多層左心室心臟磁共振圖像分割,利用空間依賴性還原心臟立體結構,數據來源于2009MICCAI的不同病理圖像,分組進行訓練、調整和測試,該訓練提高了在心尖部分割的準確性。Zheng等[28]應用空間傳播的方式結合CNN算法,提高了分割的性能,尤其是在比較難分割的心尖層面圖像。Tao等[29]用CNN對多廠商、多中心CMR數據自動識別、分割左心室輪廓,當CNN使用可變性增加的訓練數據集時,數據集之外的測試性能也得到了改善。還有一些研究將CNN算法與其他機器學習算法相結合,Oktay等[30]應用T-L結構,在分析圖像中納入心臟結構等先驗知識,約束神經網絡訓練過程,并引導神經網絡得出更有結構學意義的結果,避免了輸入圖像信息的不足與不一致的情況。Avendi等[4]使用卷積神經網絡與可變形模型結合,使得在有限的訓練數據中提高分割的精確度,尤其是在基底層和心尖層的圖像分割。該模型與數據庫中的左心室分割結果對比,Dice相關系數高達0.94。
2.2 基于回歸方法 DL算法分割圖像的另一種方法是基于回歸分類方法,不同于傳統的像素分類方法,是使用算法模擬主要分割圖像領域固有的物理特性[31-32],能提高當心肌組織與周圍組織對比度較差時的分割精確度[33]。
Tan等[34]于2016年利用回歸分類方法對接近于圓形的左心室進行心室輪廓的分割,利用左心室物理結構的特點,即心內膜和心外膜有一個共同的圓心和極坐標原理,用2種回歸神經網絡CNN分別自動定位和計算心內膜到左心室圓心的半徑,分割舒張末期和收縮末期左心室的心內膜。該試驗分別進行了訓練和測試,訓練集選自醫學圖像計算和2011MICCAI挑的100例數據,測試集選自2009MICCAI挑戰的45個數據。結果平均Dice相關系數達0.88,平均垂直指數2.3 mm,每層精確度達97.9%,單張精確度達100%,結果表明,CNN利用回歸方法可以用于在舒張末期和收縮末期自動分割左心室內膜,并且可以用于不同高度的訓練集和測試集。局限性在于收縮末期和心尖層面精確度會降低。2017年,Tan等[32]利用回歸分類方法進行心室輪廓的分割并計算心功能評價指標,依次進行了訓練和測試各100例,結果與臨床數據對照發現,射血分數(EF)無明顯差異,其他評價指標EDV、ESV和VMN存在一定的高估。Du 等[33]采用回歸方法分割CMR短軸電影圖像雙心室的心內外膜,納入145例患者圖像,結果為左心室心臟內外膜輪廓Dice相關系數達90%以上,右心室Dice指數為0.88,稍差于左心室。總之,結果表明采用回歸方法分割雙心室與人工分割表現一致。
DL還通過全自動分割2D和3D電影圖像的心內、外膜,實現心臟影像的自動測量,同時進行射血分數計算[1]和區域運動的評估。醫生通常選取2個時期即舒張末期(end diastole,ED)和收縮末期(end systole,ES),計算心功能參數,包括心室容積、心肌質量(VMN)和射血分數(EF)。心室容積只需將各層左心室心內膜面積進行整合,而VMN是計算左心室各層心肌質量之和。射血分數是VEDV與VESV的差值與VEDV的比值,這些心功能評價指標可以對心臟疾病作一個初步篩選。Ruijsink等[35]基于深度學習模型自動測量左、右心室容積、心肌應變(myocardial strain)等心功能評價指標,結果表明與手動測量無明顯差異。
3.1 高質量數據的獲取不易 深度學習需要大量的數據進行訓練保證模型的穩定性及準確性。與其他系統相比,心血管系統影像數據的獲取成本高,時間長,可用于分析的數據量較少。尤其是心臟磁共振,掃描層面多,序列復雜,由于心臟運動特點,不可避免地存在一些低質量的圖像,且受醫療水平、患者地區分布差異的影響及不同機器掃描參數不同,心血管圖像高質量數據獲取不易。轉移學習能把之前機器學習模型知識轉移到新的模型上,有望顯著地降低深度學習所需的大量數據資源[36-37]。
3.2 數據標注工作量大 深度學習目前以監督式學習為主,需要手工標注圖像。建立模型需要標注大量的數據,盡可能包括所有的心臟結構形狀,提高模型分割圖像的準確性與穩定性。手工標注不僅工作量大,準確性也高度依賴標注者的水平。為了提高標簽的可信度,往往會采取多個不同水平層次的標注者同時標注,工作量會進一步加大。因此,可采用半監督式學習,對一部分帶標簽的數據進行監督式學習,對剩下的未帶標簽的數據進行分類。此外,標注者大多是在第三方軟件上標注,不利于標注者之間數據的流通,開發基于內網的數據標注工具,不僅方便管理,還可兼顧患者隱私保護[36]。
3.3 深度學習的可解釋性未知 深度學習存在可解釋性不足的問題。因為深度學習模型學習的是大量神經網絡結構的參數,預測過程是相應參數下的計算過程,這個學習和預測的過程是不透明的,和用戶也缺乏交互性[36]。例如,模型經過大量圖像數據的訓練診斷心肌疾病,但不能解釋它是通過什么圖像特征得出的結論。這需要進一步研究深度學習的可解釋性。
3.4 模型預測結果有待驗證 模型訓練大部分是通過學習有限的心臟疾病種類圖像數據,且缺乏與疾病病理相聯系,無法預測出臨床上多樣的疾病類型。Tao等[29]雖然增加不同病理的訓練集,但所選測試的數據都是回顧性的,若應用前瞻性臨床應用,必須對其性能進行評估,尤其是在心血管異常和成像偽影范圍更廣的數據集上?,F在已發起了一個合作框架[17],通過結合臨床專業知識和自動分割方法的客觀性,建立共同的心臟磁共振圖像識別共識,相信未來進入臨床能提高醫生工作效率。
3.5 模型的泛化能力有待提高 大部分研究機構都是基于自己的數據庫進行模型的訓練和驗證。數據集小會導致分割準確性差,在學習集之外的心臟形狀(如先天性心臟病、術后重建等)分割效率不高。Tao等[29]用CNN對多廠商、多中心CMR數據自動識別、分割左心室輪廓,提高了模型的泛化性。
總之,隨著社會老齡化和城市化進程加快,居民不健康生活方式流行,心血管疾病患者將快速增長,心臟磁共振檢查數量必將增多,醫師工作負荷進一步加重。盡管深度學習技術仍有很多方面需要完善,但在深度學習技術的輔助下,準確分割心臟磁共振影像可以減輕醫師負擔,將精力更多專注在臨床問題上,最終使廣大醫生和患者受益。