龍潔 王培涵
(口腔疾病防治全國重點實驗室·國家口腔醫學中心·國家口腔疾病臨床醫學研究中心·四川大學華西口腔醫院口腔頜面外科,四川 成都 610041)
人工智能(Artificial intelligence,AI)是具備模仿及超越人類智慧認知能力的所有機器或技術集成[1-2],目前基于深度學習(Deep learning)的人工智能技術在醫學領域有了積極地應用與實踐,其智能圖像處理能力在多器官的組織結構及相關病變的臨床輔助診療中表現出優異的性能[3-6]。口腔醫學領域中,不同機構及研究團隊已成功將AI技術應用于牙體及牙周疾病、頜骨疾病和腫瘤及區域淋巴結轉移的診斷,初步建立了不同的自動智能診療系統[7-8]。腮腺是唾液腺腫瘤好發的腺體,腮腺腫瘤是口腔頜面外科的常見病和多發病[9],其中良性腫瘤發生率相對較高,臨床上針對不同性質的腮腺腫瘤治療方法各有不同,精確的術前診斷以及合理病灶切除范圍對于腮腺腫瘤的治療及預后存在至關重要的影響。然而,諸多因素造成腮腺區不同腫瘤的臨床癥狀有時并不典型,因此,對腮腺腫瘤的精準診療仍存在一定的臨床挑戰。本文圍繞深度學習技術在腮腺腫瘤智能診療的應用和前景開展討論分析,以期進一步推進人工智能技術與口腔臨床醫學的結合及應用。
深度學習技術近年在各學科引入計算機視覺研究領域,以腦神經元結構為參照,深度學習神經網絡按照一定的智能要求進行組合搭建形成了人工神經網絡(Artificial neural network,ANN)[1],神經網絡通過不斷的智能學習進行關鍵數據更新,形成了具備自適應深度特征提取結構的深度學習神經網絡[2]。深度學習神經網絡可以彌補人工篩選的不足,使模型訓練結果更具科學性,同時可對專業人員肉眼難以識別的圖像細節特征進行提取并進行組合學習,實現對數據的深度挖掘,這是其相比傳統機器學習技術的優勢所在。卷積神經網絡技術(Convolutional neural networks,CNNs)目前應用最為廣泛,卷積操作可對圖像數據進行由低層到高層的關鍵特征提取,通過加入池化層進一步精煉圖像細節,有效減少了模型的訓練數據集。CNNs因其高效的智能圖像處理及自動提取能力在醫學領域得到廣泛應用。將各種模態影像圖像與深度學習技術相結合所建立的人工智能診療系統已經在臨床工作中體現了較高的應用價值,減輕了專業人員的工作強度,實現了部分疾病的智能精準診療,依靠基于深度學習的數據驅動分析算法有效支持了臨床醫生的治療決策。
1.1 腮腺影像圖像單一網絡分割模型的應用 腮腺組織及其占位性病變影像圖像的精確分割對于腮腺疾病的智能診斷和手術切除區域確定等合理診療規劃的制定非常關鍵。目前臨床上進行腮腺及病變組織的手動圖像分割費時費力,需要專業人員具備豐富的頜面外科及影像學專業技術儲備。此外,頭頸部組織器官相當復雜,其影像圖像形態不規則,邊界重疊,受口腔義齒或者包括接骨板在內的金屬植入物產生的金屬偽影嚴重影響圖像清晰度,對頭頸部影像圖像中的關鍵組織結構手動分割相當困難。諸多實踐已經證實應用深度學習技術對腮腺影像圖像的智能分割可有效減少人力的投入并顯著提高分割精度。深度學習早期多采用單一網絡分割模型,諸多研究者聚焦腮腺的圖像分割做了積極地嘗試。斯坦福大學研究團隊[10]在2016年利用CNNs對頭頸部重要器官組織的CT圖像進行了模型分割訓練,該網絡主要由卷積層、最大池化層和全連接層三部分構成,模型提取了CT圖像中包含感興趣組織及其周圍背景的切片,通過卷積操作捕獲局部圖像特征用于網絡訓練,提取目標器官的光滑體素中最大的連通分量,去除該分量的空腔實現了對感興趣組織的圖像分割,該模型算法的腮腺圖像分割任務經五折交叉驗證后的平均DSC(Dice coefficient)為(77.3±5.8)%,該早期模型的算法結果對腮腺分割雖不很理想,但該工作顯示了深度學習技術在頭頸部圖像器官分割方面具備應用前景。Tong等[11]提出全卷積神經網絡(Fully convolutional neural network,FCNN)與形狀先驗模型(Shape representation model,SRM))相結合的頭頸部器官圖像分割方法有效提高了分割精度,該方法首先使用SRM在訓練數據集中學習目標組織的潛在形狀,然后使用預先訓練好的固定參數SRM約束FCNN訓練。該模型在患者頭頸部CT圖像上腮腺分割任務DSC大于83%,顯示了圖像分割技術的優化會較好的提高深度學習的智能效果。類似的研究和實踐國內外近年逐步均有報道,取得了較好的圖像分割及疾病智能診斷效果。
1.2 腮腺影像圖像集成網絡分割模型的應用 腮腺區域是頭頸部組織解剖結構較為復雜的區域,因此盡管深度學習網絡在腮腺影像圖像處理及分割取得了可接受的智能效果[12],但單一學習網絡受到的干擾因素較多,有時圖像分割效果并不理想。為進一步提高腮腺分割的效率,優化影像圖像的智能處理性能,近年來應用集成網絡模型進行深度學習逐漸受到重視。集成網絡模型可將多個單一模型組合在一起進行深度學習,其對圖像的分析處理及對疾病的智能診斷優于單個學習模型。與單一網絡相比,集成框架能夠更加匹配智能診斷任務,易于發現不規則樣本,提高學習分割網絡的性能和魯棒性。Peng等[13]建立了一種改進的U-Net結構用于深度學習訓練,其腮腺CT圖像分割中的DSC系數達到93.43%,該團隊建立的Organ-Net在U-Net基礎上進行了改進,整合一系列單一用途的技術形成復合網絡模型,減少了無效樣本,有效的解決了像素不平衡問題。廣島大學Kawahara等[14]提出將逐步網絡(Stepwise-net)用于頭頸部的關鍵圖像分割,該模型基于2個U-net模型在腮腺分割任務中實現了81%的平均DSC。南方醫科大學Zhong等[15]選擇ResNet18作為分類訓練模型,將三級ResNet18聯合,采用Boosting方法對訓練數據進行調整,保留每一級網絡輸入正負樣本均衡,該模型的計算結果顯示其對腮腺影像圖像的分割優于單一網絡。
除CT以外,磁共振(Magnetic resonance imaging,MRI)圖像也可作為腮腺及其占位性病變分割的圖像數據來源。Tong等[16]開發了一種新方法用于頭頸部CT和MRI成像上的全自動組織分割,其技術使用形狀約束生成對抗網絡進一步提高了SRM方法[11]的分割精度,該模型利用判別網絡糾正預測結果與標簽間的誤差以減少假陽性結果的出現,約束預測形狀,該技術建立的SC-GAN模型通過結合GAN和Dense-Net網絡結構在CT和MRI圖像中均實現了較高的精確度分割。
對腮腺超聲圖像的處理也有積極的嘗試。Zhang等[17]在腮腺腫瘤超聲圖像上的分割也應用了深度學習集成網絡,該團隊提出了一種基于收縮金字塔框架和融合注意力轉換器CNN塊的金字塔卷積變壓器用于腮腺腫瘤分割。在該架構中,收縮金字塔框架通過整合圖像的多尺度依賴關系,有效地捕獲像素密集的腮腺腫瘤圖像特征,該模型在腮腺腫瘤圖像分割工作中實現了91.51%的Dice相似系數,顯示了較好的智能圖像處理能力。
1.3 腮腺影像多模態醫學圖像分割模型的應用 MRI成像時間長且費用較貴,相對于CT圖像數據,MRI數據的獲取更為困難, 不同團隊與機構均積極探索研發更好的算法以嘗試解決深度學習中MRI數據不足的瓶頸。Kieselmann等[18]開發的深度學習系統不同于傳統的數據增強和遷移學習方法,該研究注釋了大量CT圖像,通過Cycle-GAN[19]網絡合成MRI圖像后,將CT圖像的標簽與合成的MRI圖像一起輸入2D U-Net進行深度學習網絡訓練,最后將訓練好的網絡應用于真實MRI圖像,實現了在MRI圖像上進行分割腮腺的任務。該模型的創新思想是將足量帶注釋的CT數據集用以豐富數量有限或沒有數據注釋的MRI數據集,該模型將圖形配準、遷移模型以及跨模態學習等技術相結合,有效解決了訓練集數據較少的技術瓶頸。
近年來基于深度學習的腮腺腫瘤AI診斷陸續有實際臨床應用和探索,不同機構基于各種模態的影像學資料開展智能診斷系統的研發。在醫工合作的大背景下,研究人員均聚焦更好的算法和算力推動深度學習技術在口腔臨床智慧醫療的進展。Yuan等[20]成功將ResNet-50應用于腮腺腫瘤CT圖像的分類,其建立模型分類準確率達到90%,提示深度學習技術可對CT圖像中腮腺腫瘤智能診斷發揮關鍵作用。新疆大學Zhang等[21]通過對腮腺CT數據進行深度可分離卷積操作并在卷積完成后加入非線性層對經典CNN進行優化用于對腮腺良惡性腫瘤的診斷,其模型對腮腺腫瘤智能診斷準確率高達 97.78%。武漢大學Shen等[22]聚焦于基于深度學習的腮腺腫瘤術前診斷方法的應用,該團隊基于3D DenseNet-121研發了用于腮腺腫瘤良惡性鑒別的二元分類器,將模型的腮腺腫瘤智能診斷性能與臨床醫生進行了比較,并通過測量臨床醫生在模型輔助下的診斷正確性變化來評估模型的智能功效,證實了該模型的診斷準確性達95.5%,其自動診斷能力相當于執業臨床醫生水平。上述相關工作成果顯示在基于CT圖像深度學習的輔助下,AI模型對腮腺良惡性腫瘤自動診斷的能力值得信賴。
基于MRI圖像的深度學習與以智能診斷腮腺腫瘤的結果同樣非常可靠,Chang等[23]研發出的全自動腮腺腫瘤診斷系統采用遷移學習對U-Net模型進行訓練,使用二維卷積神經網絡U-Net對腮腺腫瘤MRI圖像進行分類,證實該模型可對沃辛瘤和多形性腺瘤進行高精確度診斷。復旦大學Xia等[24]優化設計了ResNet-18模型對不同模態的腮腺腫瘤MRI圖像進行分類,該模型將三個不同模態的腫瘤圖像和t1加權的無病變腮腺圖像共四個通道輸入到一張圖像中,模型對腮腺腫瘤診斷準確率較高,該工作提示隨著通道數的增加,模型的精度也逐漸提高,使用多通道圖像輸入可提高模型自動識別腫瘤特征的智能性。此外,實際臨床的醫工合作中,合理融合不同模態可增強網絡深度,多模態圖像融合有助于更豐富的關鍵信息獲取,進而提升診斷的可靠性[25]。
建立深度學習智能疾病診斷模型需要足夠多的帶標簽數據,臨床實踐中有時并不容易獲取更多的數據,為了減少標簽數量有限的影響,Matsuo等[26]建立了加入異常檢測和L2約束的損失了softmax的改良VGG-16模型,運用非醫學數據進行數據增強預防小數據集的過擬合,計算結果顯示該模型優于傳統深度學習方法和放射科醫生的診斷水平,為數據量小且分布不平衡深度學習模型的建立提供了較好的解決思路。
本研究團隊近年來應用深度學習技術在腮腺腫瘤的智能診療方向做了積極地探索。收集并分析了多例腮腺腫瘤患者的增強CT圖像數據,建立了帶有標簽的腮腺腫瘤增強CT圖像分割和分類標注數據集,在該數據集的基礎上,分別建立了基于U-Net的腮腺腫瘤增強CT圖像自動分割模型和基于ResNet-18的腮腺腫瘤增強CT圖像自動分類模型,完成了包括腮腺增強CT數據集建立、自動分割及分類模型構建在內的腮腺腫瘤增強CT圖像分析及智能診斷軟件的研發。本研究模型算法通過增加卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)和Dice系數差異函數(Dice loss)以緩解腮腺腫瘤區域與非腫瘤區域圖像面積的不平衡,使網絡聚焦于感興趣區并抑制網絡對不重要圖像特征的關注,提高模型對腫瘤定位的精準性從而優化網絡的智能分割性能。該智能診斷軟件可實現快速分割,表現出了較高的自動分割準確性,可有效鑒別常見腮腺腫瘤及其良惡性,在與有5年以上工作經驗的口腔頜面外科醫師手動分割及人工鑒別診斷水平的對比中展示出了明顯的優勢,有效的減少了人工圖像分割的工作量,提高了腮腺占位性病變智能診斷的準確率。
放射治療是頭頸部腫瘤的重要治療手段,然而,不合理的放射治療計劃可能對頭頸部多個復雜的解剖結構及器官造成不同程度的損傷,從而引發相關病理性變化,對射線敏感性組織或器官進行放射劑量保護非常關鍵。腮腺位于面側份,經常居于頭頸部腫瘤放療區域內,其腺體在射線作用后容易發生組織學及功能改變,因此頭頸部腫瘤放療時合理設計放療計劃對盡可能保護腮腺正常腺體的功能至關重要。基于深度學習的圖像引導放射治療可使臨床放療計劃的精確性增高[27]。Barateau團隊[28]發現錐形束計算機斷層掃描圖像可用于頭頸部腫瘤放療每日放射劑量的監測,以評估腮腺結構變化并指導放射劑量的調整,該工作通過對比基于生成對抗網絡的深度學習方法執行劑量計算的準確性與現有的其他劑量計算方法來評估深度學習方法的放射自適應性能,表明深度學習方法可以在頭頸部腫瘤放射治療過程中監測腮腺的放射劑量并可及時進行治療計劃的調整。杜克大學Li等[29]研發了一種基于深度學習的AI技術,該技術采用cGAN 的AI系統可以生成頭頸部放射治療計劃,并可智能控制具有可接受的放射劑量,這種AI系統在放療預先決策和實時規劃中具有較好的臨床應用潛力。
對放射后組織器官的并發癥預測有助于臨床決策及規劃個性化治療。賓西法尼亞大學Men等[30]提出了一種三維剩余卷積神經網絡(3D residual CNN,3D rCNN)和放射治療數據相結合的腮腺功能受損導致口干癥的混合預測模型,該工作將CT圖像、三維放射劑量分布以及腮腺和頜下腺輪廓同時輸入,以口干癥的預測作為輸出進行模型訓練,結果顯示模型表現出較好的智能預測性能,提示放射劑量分布是預測口干癥的關鍵因素,與傳統的邏輯回歸預測模型相比,該智能模型表現出較好的放射后口干癥的預測準確率,驗證了該AI模型可用于指導放射治療并降低放射并發癥的發生。Fanizzi等[31]將深度學習應用到放射組學中,利用通過預先訓練的AlexNet從治療前腮腺CT圖像中提取放射組特征、從輻射劑量圖中提取劑量特征并收集放射治療開始前的臨床特征,綜合三種數據預測口咽癌患者放射治療后3個月的口干癥風險。支持向量機分類器首先在上述三個子集上進行訓練,綜合所有特征類型后進行聯合訓練,結果顯示在放射學特征獨立試驗中模型的智能預測準確性較好,表明利用預先訓練的深度學習網絡僅用作特征提取器時并不需要訓練階段,可以大大減少計算時間,且深度學習技術結合放射組學所建立起的模型在小樣本的數據集可獲得較高的泛化性。
基于深度學習的人工智能技術在腮腺腫瘤智能診治領域中取得的較大進展,包括筆者在內的國內外諸多醫療機構及團隊圍繞該領域開展了技術攻關,一些已報道的智能腮腺腫瘤自動疾病診療系統性能穩定,診斷精確,能夠模擬甚至高于經驗豐富專業人員的診斷水平,充分顯示了智慧醫療的潛力及良好前景。然而,大數據集的建立是形成可靠智能深度學習模型的關鍵,出于對患者信息的保護和醫學數據處理的困難,易導致深度學習所需的數據集較小且缺乏平衡,腮腺及相關腫瘤性病變的深度學習也面臨這一瓶頸。因此,盡管深度學習模型性能在不斷提高,但想要建立強魯棒性和泛化能力的系統仍必須獲得大規模多模態高質量標注數據集的支持,如何在標注數據集數量不足的情況下建立高性能深度學習模型在未來的智能化系統構建中極為關鍵。目前聚焦的關注點主要包括提倡更有效的醫工結合,構建高質量數據集以及努力提高算法及算力,這將進一步推動人工智能技術的深入研究及臨床應用實踐。