王宗敏,福 林,高云玥
內蒙古醫科大學附屬醫院超聲診斷科,內蒙古 呼和浩特010000
在臨床中,由于受醫療條件的限制,患者經常面臨診斷時間過長、診斷結果主觀性過強等問題。以深度學習為代表的新一代人工智能技術給醫學領域帶來了革命性的變化,被廣泛應用于醫學影像的分析中。有研究表明,與傳統技術相比,深度學習在某些任務中表現更佳,甚至優于影像醫師[1]。深度學習可以直接從數據中自動學習圖像特征信息,從而在圖像分析上取得了顯著的突破;而在臨床實踐中,醫生為了實現更精準的診斷,往往需要同時參考不同模態、不同類型的影像數據進行全方位、多參數的綜合分析和判斷。因此,為充分利用不同模態影像技術之間的互補性,需要從單模態深度學習向多模態深度學習進行轉化。
每一種信息的來源都可以稱作一種模態,在人工智能輔助診斷的背景下,對于模態一詞的定義為:模態是對由一種特定類型技術采集的具有相同表達形式的數據的總稱[2],多模態即是由兩種或兩種以上不同模態的數據信息組成,醫學影像領域中常常指來源于不同的成像原理或設備。單個模態數據僅能提供有限的信息用于模型決策,而不同模態的數據信息是不盡相同的,能對其他模態信息進行補充,從而做出更加綜合的分析和判斷。以往的人工智能醫學影像輔助診斷系統通常是單模態的,只分析了疾病單一類型的影像數據,具有較大的局限性,無法評估疾病的全局狀況,而運用多模態融合技術進行綜合分析各種類型的醫學影像信息,從全局來考慮病變的完整信息,才是目前人工智能輔助診斷病情的關鍵[3]。
基于深度學習的多模態融合技術具備同時接受不同模態信息輸入的能力,在學習過程中,在充分提取和利用各個模態的有用信息的同時,挖掘出各個模態之間的互補性并進行多模態有效信息的相互融合,實現了較單模態網絡更優異的性能。多模態融合方法是多模態深度學習技術的核心內容,分為模型無關的方法和基于模型的方法,前者不依賴于特定的深度學習方法,后者則是利用深度學習方法解決多模態融合問題,本文主要介紹后者,常用方法包括多核學習方法、圖像模型方法和神經網絡方法。多核學習方法是內核支持向量機方法的拓展,即允許使用不同的核對應數據的不同視圖[4];圖像模型方法是通過圖像分割、拼接及預測對圖形進行融合,從而產生模態融合結果;神經網絡方法因其較強的學習能力和分類性能,是目前應用最為廣泛的方法之一[5],通過大量神經元節點相互連接,構建多層結構,然后訓練連接權重從而實現了從低級特征到高級特征的逐層學習,其在多模態融合中的優勢是具有較好的可擴展性,分層方式有利于不同模態進行嵌入,且具有大數據的學習能力,缺點是隨著模態不斷增加,模型的可解釋性變差。卷積神經網絡(CNN)是一種包含卷積計算且具有深度結構的神經網絡方法,是許多神經網絡方法的基礎,例如Le Net、Alex Net、VGG Net、Google Net、Res Net、Dense Net等都是基于CNN發展而來的[6-11]。此外,有研究者提出了U-Net架構,被廣泛應用于醫學圖像領域,后來擴展到三維空間中,包括3D U-Net、VNet和W-Net,直接用于三維圖像處理[12]。在實踐中選擇何種融合方法,要根據具體問題和研究內容選擇合適的多模態融合方法。基于神經網絡方法的多模態融合模型是研究者們采用的主流方案,本文主要介紹基于神經網絡融合方法在醫學領域的研究進展。
基于深度學習方法的多模態融合是運用多個深度神經網絡來完成多模態學習任務,其中已經有大量將深度學習方法應用于醫學領域的成功案例,如疾病檢測、疾病分割、疾病分類、疾病預后預測等。
對病灶的前期表現進行檢測是疾病確診的一個重要步驟,也是后續分類的基礎。近年來,多模態深度學習的快速發展在疾病識別與檢測領域取得了不錯的成果,例如針對乳腺癌的輔助診斷中,有學者利用CNN Dense Net 121多模態融合網絡提取常規灰階(B型)超聲圖像和超聲彈性圖像(RTE)特征并融合用于檢測并診斷乳腺良惡性腫瘤,研究表明多模態融合模型鑒別乳腺良惡性腫瘤效能優于單模態模型,有助于輔助醫生診斷乳腺結節病癥,進一步提高了臨床診斷的準確率[13];也有學者利用ResNet-18網絡模型以4種類型的超聲(即B型、多普勒、剪切波彈性成像和應變彈性成像)作為端對端分類結果的輸入輸出聯合診斷乳腺癌,B型超聲反映病灶結構信息,多普勒超聲可以檢測腫瘤區域增加的血流信息,彈性成像反映組織的硬度,4種類型超聲圖像的組合大大增加了多模態信息的權重,進一步提高了診斷性能[14]。為了充分利用不同模態影像之間的互補性,提高疾病檢測和診斷的性能,需要從單模態深度學習轉向更多種模態的深度學習中。
脊椎的自動識別在脊柱臨床診斷中是非常需要的,有學者提出一種多模態脊椎識別的方法,使用一種稱為轉換深度卷積網絡的新型深度學習結構,這種新結構可以無監督地融合MRI和CT的圖像特征,自動對自適應、高分辨力和位姿不變圖像特征進行識別,增強了特征的判別性,已成功通過多模態數據集的腰椎和全脊柱掃描測試,具有較高的準確性和穩定性[15]。這對于脊柱疾病的臨床實踐提供了自動識別與檢測功能,顯示出了多模態深度學習在脊柱疾病上的應用潛力。
目前癲癇疾病的診斷主要通過患者腦電圖中的癲癇波,不僅耗時且依賴于醫生的臨床經驗。為克服這些局限性,有研究從MRI功能像出發,采用多模態融合的深度神經網絡方法用于顳葉內外側癲癇的診斷與鑒別[16]。這也是在文獻報道中首次提出利用深度學習的方法診斷癲癇,具有一定的臨床意義。
多模態正電子發射斷層掃描和計算機斷層掃描成像(PET/CT)技術對疾病診斷提供了關鍵信息,分別從不同方面表征病變,前者提供病變詳細的代謝和功能信息,后者則提供病變的解剖和病理信息,因此PET/CT影像既具有較強的病灶與周圍正常組織區分能力,又具備較好的清晰度,為下一步的臨床決策提供了更加充分的參考意見。目前PET/CT已被廣泛應用于臨床疾病的檢測診斷中,有學者提出一種基于PET/CT雙模態深度無監督自編碼網絡框架的肺結節診斷方法,將候選肺結節的PET/CT圖像作為輸入,并對高層圖像信息進行學習,最后采用線性組合的方式將學習到的不同模態特征融合后作為整個框架的輸出,這種方法有效提高了肺結節的診斷性能[17];有學者提出基于三維深度卷積神經網絡的深度學習結合PET/CT成像,構建了一種新的潛在工具,顯示了對惡性胸膜間皮瘤診斷的靈活性[18];有學者基于PET/CT可以捕捉多發性骨髓瘤病灶異常分子表達及解剖變化,提出采用V-Net和W-Net兩種CNN對病變進行檢測,通過自動結合了PET和CT的特征,對多發性骨髓瘤患者的全身病變進行三維檢測,初步結果表明,W-Net在病灶識別和檢測方面取得了最佳效果[19],這項研究對于開發一種用于多發性骨髓瘤疾病自動化管理的工具邁進了一步。可以看出,與單純使用PET/CT進行病灶檢測相比,多模態融合方法的準確率更高;但對于PET/CT圖像的檢測是利用二維或三維CNN進行訓練任務,而PET/CT屬于三維影像,需要空間信息更加準確,未來的研究方向應該在三維網絡模型上設計。
從以上研究成果可以看出多模態深度學習檢測和診斷病變的潛力,CNN是檢測的主要模型,它可以捕獲到相鄰像素之間的關系,從而獲得圖像特征信息,這也是檢測任務的基礎。雖然各類深度學習方法均已顯示出較好的檢測效果,但如果想獲取更加穩定的自動檢測方法,仍需要通過大量的訓練實現。如何能夠有效利用多模態影像信息,提高檢測的穩定性和準確率,是未來需要繼續探索的課題。
圖像分割是對圖像感興趣區域進行分割,醫學圖像分割可以通過識別內部或輪廓區域找到特定器官、組織的感興趣區域,如病變或腫瘤區域等,對目標區域進行分割在圖像各類任務分析中有著舉足輕重的作用。隨著人工智能的發展,深度學習方法在醫學影像圖像分割任務中產生了突破性的成果,其中CNN已經被成功應用于腦[20-21]、肝[22-24]、肺[25]、乳腺[26-27]等區域腫瘤的分割,與傳統方法相比,這些基于深度學習的方法取得了卓越的性能,且對于醫學圖像分割中常見挑戰具有良好的魯棒性,因此將其應用于多模態影像分割領域也越來越受到研究者的關注。
MRI和CT是臨床診斷中最常用的兩種醫學圖像,二者之間的跨通道醫學圖像結合在醫學成像領域受到越來越多的關注,深度學習已經被應用于MRI/CT多模態圖像中,如將MRI 與CT技術聯合使用對病灶進行分割,有學者提出利用CNN在CT掃描中檢測出鼻咽癌,利用多模態MRI融合網絡分割出鼻咽癌區域,再采用自適應閾值算法在CT圖像上劃分代謝活性不同的鼻咽癌子區域,最后生成鼻咽癌的三維曲面模型,實現了多模態技術的聯合使用對鼻咽癌區域和子區域進行可靠的分割,為判斷患者間的異質性提供了依據[28]。有研究提出一種新的基于深度學習的多模態U形網絡圖像分割模型MM-unet,充分利用了MRI圖像與CT圖像間信息互補的特點,提升了對前列腺癌分割的精度,且與UNet模型相比,MM-unet模型方法能夠獲得高出3個百分點的精確度,其分割效果具有明顯優勢[29]。
多模態MRI主要以組織分辨率高、多方位成像,可以清晰了解病灶特征及周邊結構的解剖關系,幫助醫生更好的區別特性,在疾病分割中,能夠發揮出更理想的效果。有研究引入小樣本分割模型,基于U-Net的原型網絡模型用以對多模態MRI腦腫瘤圖像進行分割[30];PEI等人首先提出了一種三維上下文編碼的CNN,該方法考慮了多模態MRI圖像子區域中腫瘤位置的不確定性,實現了對腦腫瘤的分割;此外,還將此網絡應用于腫瘤片段中,實現了僅利用MRI結構數據對腦腫瘤的分類;最后,又使用深度學習和機器學習的混合方法,實現了對腦腫瘤總體生存進行預測。該研究不僅表現出極強的腫瘤分割能力和生存預測能力,且對于腫瘤的分類結果在“計算精準醫學放射學-病理學挑戰2019腦腫瘤分類”的測試階段排名第2[31],對于多模態影像應用于深度學習產生了突破性的進展,實現了深度學習對疾病從分割、分類到預后預測的多方面涉足,對于多模態深度學習的發展具有積極意義。此外,有學者提出一種新的基于熵和形狀感知的多模態心臟圖像分割網絡,從多序列MRI數據集及MRI到CT的跨模態數據集驗證了該方法的性能[32]。
在其它醫學影像領域,也有研究對多模態深度學習應用于疾病分割做出探索。既往有研究提出使用二維U-Net分割肝臟血管,并將其整合到腹腔鏡超聲與CT配準管道中,腹腔鏡超聲可顯示包括血管在內的亞表面結構,而針對腹腔鏡超聲中不可見的等回聲區域,可由CT圖像進行信息補充,結合兩種模態可以提供血管與病灶的空間關系,結果證明此方法是可行的[33]。有學者提出基于編碼器-解碼器的3D-UNet的深度全卷積網絡對非小細胞肺部腫瘤的PET-CT圖像進行分割,優于現有的基于圖的分割方法,也優于單模態PET或CT的深度學習方法[34];而有學者設計了一個基于CNN的MRI、CT、PET的多模態圖像分割系統,實現了對軟組織肉瘤病變的分割任務,同時也證明了對于腫瘤分割任務,在網絡內部進行圖像融合通常比在網絡輸出處進行圖像融合效果好,為多模態圖像的分析和應用提供了經驗性指導[35]。
綜上,深度學習技術在醫學影像分割任務上是有效的,但多模態圖像的分割是一個高要求且極具挑戰性的問題。相比于單模態分割,多模態分割需要將模態之間的信息進行融合,并有效利用模態之間的互補信息,多種模態圖像的互補信息如何融合、在何處融合是未來研究的重點,需要進一步探索。目前的研究都是基于特定問題而設計特定的網絡架構,因此開發針對非特定問題的網絡架構可能也是未來研究的重要方向。
深度學習作為一種新興起的分類模型,比傳統分類方法更方便、更客觀,越來越受到研究者們的重視,對醫學影像的分類可以實現疾病精確分類,為臨床醫生的后期治療提供有效的建議。由于僅僅依靠患者自我報告的癥狀,醫生很難對神經精神疾病做出有信心的預測,且對這些疾病的神經和生物學機制很難有所突破。有學者開發出第一個將基因組信息與功能和結構MRI圖像相結合的深度模型對精神分裂癥進行分類,實現了多模態影像和基因組數據與分類器相結合,提高了預測的可靠性[36];有學者則提出了一種基于CNN分別對阿爾茲海默病患的MRI和PET圖像進行3D卷積操作提取各自模態的特征信息并進行融合,最后用全連接神經網絡將提取的多模態特征信息進行分類預測,實驗結果表明該研究在準確率和曲線下面積的性能評價中都取得了優越的結果[37]。
超聲檢查是一種無創、廉價、可重復性好的醫學影像技術。隨著超聲新技術的出現,以多種超聲成像為基礎的多模態超聲技術聯合深度學習在臨床的應用越來越廣泛,有研究通過基于CNN在B超和超聲造影聯合圖像中對肝細胞癌進行識別發現,在B超圖像中,肝細胞癌在更晚期階段才表現為一個界限清楚的區域,而惡性腫瘤所特有的復雜血管結構在超聲造影圖像中更加突出,多模態組合分類器最終實現了97%以上的分類精度,總體上優于該領域目前報告的分類性能[38]。有學者鑒于B超和RTE在前列腺癌的臨床診斷中的重要應用價值,B超檢測組織的形態學改變,RTE提供生物力學信息,提出一種集成的深度網絡學習和融合多模態超聲圖像特征的模型對前列腺疾病進行分類,實驗結果表明了多模態特征模型對前列腺疾病的鑒別具有互補性和協同性,優于單模態特征模型,深度網絡優于淺層網絡[39]。但目前深度學習實現性能的改進在很大程度上依賴于大樣本的訓練數據集,然而在醫學超聲領域可供使用的公開數據集是有限的,這也就成為了深度學習在醫學超聲圖像應用中的瓶頸。針對這一問題,目前最為常用的方法是遷移學習,即進行跨數據集學習。此外,模型的可靠性需要大量樣本進行驗證,而模型進行大量的訓練是一個非常耗費時間的過程,未來需要加強對深度學習的深入研究及進行更多的實驗探索,以提高該技術在臨床應用的實用性。
為了更好地分析疾病的發展,研究者們將多模態深度學習應用于更多部位腫瘤或病變的分類中。有學者融入注意力機制、Res Net以及雙線性融合3種算法搭建出有效且更具實用價值的細粒度多模態骨癌影像分類網絡模型[40]。有學者將Image Net上預訓練CNN網絡模型參數遷移到PET/CT腎癌分類任務中,取得了精確的分類結果[41]。有學者使用二維CNN U-Net模型對多模態MRI腮腺腫瘤圖像進行分類,可以對腮腺腺淋巴瘤和多形性腺瘤進行區分,但尚不能對惡性腫瘤進行分類[42]。有研究圍繞多模態醫學影像進行了兩組疾病分類實驗,其一是在腦腫瘤MRI影像分類中,利用4種同源多模態MRI影像進行融合,并使用直方圖均衡化技術優化了腫瘤增強環節,有著更高的分類指標,其二是對于心血管疾病的早篩研究中,將同源多模態超聲影像數據和異源模態的電子病例數據進行了5個模態的特征提取與融合,提高了分類的準確度,同時驗證了多模態影像結合的有效性[43]。有學者基于CNN對淋巴瘤的全身惡性病灶PET/CT圖像進行分類,結果表明該方法對良惡性病變具有良好的區分能力[44],因此利用深度網絡對疾病進行分類不應局限于病灶本身,還要考慮全身病變,這也為未來深度學習在多模態影像的研究中提供了方向。
近年來,各種深度學習技術廣泛用于作為分類器,而與醫學影像的結合也正成為重要的交叉學科研究方向,但在多模態圖像融合到網絡中時,現有的研究的融合是在決策或者特征級別實現的,還沒有在分類器級別完成融合信息的研究。有些研究是利用二維方法進行特征結構的提取,缺乏基于三維立體特征信息,然而這些信息對于病灶的分類分期具有重要意義;深度學習方法在一定程度上受訓練數據數量和質量的影響,所以缺乏大規模的訓練數據仍然是主要問題,因此多模態深度學習在疾病分類任務上具有巨大的提升空間。
在疾病診療過程中離不開預測疾病的發展情況和結局的探討,腫瘤生長預測是一個生物物理過程,長期以來一直是通過數學建模解決的[45]。隨著深度學習方法的不斷發展,研究發現多模態深度學習對預后的評估相比于傳統方法的局限性更具參考價值。有學者提出利用3D CNN的多通道架構對包括對比增強T1 MRI、彌散張量成像、靜息態功能MRI自動提取隱含和高級特征,以此來預測高級別膠質瘤患者的總生存時間,其準確率優于所有競爭方法[46]。有研究提取患有骨原性肉瘤兒童的多模態MRI特異性特征,利用多模態MRI來預測患兒對新輔助化療的腫瘤反應,最終該模型預測腫瘤壞死的準確率高達95%以上[47]。
有研究將各種超聲圖像模式和臨床背景記錄整合到多模態深度學習網絡中,用于預測原發性甲狀腺癌患者的淋巴結轉移狀態,實驗結果表明多模態深度學習網絡在進行預測時更多依賴于超聲圖像模式,而不是臨床記錄的數據模式。該研究有助于醫生對原發性甲狀腺癌淋巴結轉移的診斷做出前瞻性預測,對減少原發性甲狀腺癌過度診斷和過度治療具有重要意義[48]。
有學者提出了一種具有深度預處理器的偽體積CNN,用于預測局部區域復發、遠處轉移的頭頸部鱗癌患者在十年的隨訪時間內的總生存率,該模型在PETCT數據集上進行訓練,為多部位、多模式的腫瘤預后預測提供了一種有效的方法[49]。有學者提出一種通過在比例風險模型中使用深度CNN優化成像特征來建立晚期直腸癌患者生存回歸模型的方法,該方法已經在模擬成像數據集和FDG-PET/CT數據集的基礎上進行了驗證,表現出了具有競爭力的預測性能[50]。因此,在多模態圖像上應用先進的深度學習算法,與單一模態建模相比,在疾病預后方面顯示出更好的結果,這也為患者的個性化治療提供了巨大的潛力。
上述研究可以看出已有大量將深度學習應用于疾病預后預測的成功案例,對于腫瘤或某些慢性病的進展檢測和管理起著重要的提示作用。由此可見,深度學習方法具有巨大的潛能,結合多模態影像的優勢,可以系統地對影像醫師的報告結果進行優化,大大提高了影像報告結果的臨床實用性,為臨床研究的下一步進展提供了新的思路。多模態深度學習技術的發展對判斷疾病預后具有廣闊的應用前景。
在臨床工作中,深度學習作為影像醫師的“第二雙眼睛”,極大的提高了影像醫師的工作效率,但同時,目前還沒有充足的證據證明深度學習能夠取代影像醫師,且這項技術在實際臨床應用中存在風險,因此想要提高該技術在臨床實踐中的實用性,需要加強對深度學習的實驗探索和深入研究。
利用深度學習方法對醫學影像圖像進行分析,對病變部位進行更加準確的檢測和分析,具有重大價值和意義。本文總結了對應用深度學習技術的多模態影像進行分析的相關研究,并從疾病檢測、疾病分割、疾病分類、疾病預后預測四個方面進行了歸納。本文進一步證實了多模態醫學影像數據的潛在價值,考慮到醫學影像數據多模態的特點,這對于輔助影像醫生提高決策診斷有著重大而深遠的意義。
但是,將深度學習方法應用于多模態影像,進行疾病診斷還存在許多尚未解決的問題:(1)多模態研究的最大挑戰就是缺失數據,由于醫學數據存在共享不暢的特點,在實際應用中很難擁有所需的全部種類的多模態數據信息。因此,本文期待未來可以出現更多大量的、公開的、不同研究任務的數據集,以及需要開發出其他技術手段對數據集進行擴展或在數據集規模受限的條件下進行技術創新實現有效的多模態學習;同時,醫院信息平臺的建設需要越來越標準化、規范化,這對于數據的規范化處理與存儲也有著重要的意義;(2)對于多模態數據融合的研究仍然存在不足,在現有架構的高性能設備上訓練的多模態數據融合模型可能不能很好地學習增大體積的多模態數據的特征結構。因此,需要嘗試融合各種不同的影像技術,挖掘出不同模態影像數據之間的相關性和獨立性,并充分發揮多模態影像數據的互補作用,從而提高疾病診斷的準確度和精確度。未來,深度學習在多模態數據融合方面可能需要設計出具有更強大計算體系的學習框架;(3)目前關于多模態深度學習的研究所針對的疾病并不全面,對于某些復雜、罕見疾病的研究尚淺,未來需要探索更多疾病對于基于深度學習的多模態融合技術的應用價值;(4)要有敬畏之心。雖然人工智能在醫學很多任務中已經達到、甚至超越了人類的水平,多模態醫學影像數據對于疾病的自動化診斷有著無限的潛能,但是我們仍然需要提高警惕,人工智能輔助診斷仍然存在著諸多問題,尤其是在可解釋性方面。在醫學領域,它始終只能是輔助醫務人員并提供參考性意見的工具。