倪銘,袁慧書
近年來,深度學習(deep learning,DL)作為機器學習的一部分在醫學各個領域引起了廣泛關注[1-2]。DL 在圖像識別和分類、語音識別和自然語言處理等多個領域被大量應用[3],其目的在于模仿人類大腦的思考方式,進行有意義的數據轉換和學習來幫助人類完成某些工作[4]。雖然MRI 在診斷骨關節損傷方面具有很高的敏感度和特異度[5-6],但骨關節損傷診斷的準確度仍有待提高[7]。隨著研究的不斷深入,骨關節系統的DL 研究也逐漸增多,越來越多的方法和模型被相繼提出,但基于MRI的DL研究在骨關節運動損傷方面的應用仍然非常局限,目前研究主要集中在膝關節運動損傷中,而對于其他關節的研究相對少見。本文通過分析國內外相關文獻,總結當前領域研究進展和存在的問題,以期對此領域的研究和發展起到指導和推動作用。
由于骨關節解剖結構復雜,進行DL 研究時常常因為圖像信息過多而導致模型訓練效果較差,而預先對圖像進行分割能夠減少圖像內的無用信息并保留有用信息。目前,對于膝關節結構分割的文獻報道相對較多,相關技術正逐步發展、完善,但分割其他關節結構的報道相對較少。
Zhou 等[8]提出通過高效卷積編解碼網絡聯合3D 全連接條件隨機場和3D 簡單變形模型的方法分割膝關節,該方法對股骨、脛骨、肌肉組織的Dice 相似系數(dice similariy coefficient,DSC)高于0.9,股骨軟骨、脛骨軟骨、髕骨及軟骨、半月板、髕韌帶、股四頭肌腱、髕下脂肪墊的DSC 在0.8~0.9。該研究初步實現了對膝關節所有解剖結構的分割,并取得了與人工分割較高的一致性。Gaj等[9]使用U-Net對膝關節進行分割,通過條件生成對抗網絡(conditional generative adversarial nets,CGAN)對U-Net 分割的結果進行批判,直到CGAN 無法區分人工和模型分割結果時停止,該方法對膝關節軟骨和半月板分割的平均DSC 為0.88。該研究通過反復的自我糾錯來提升模型性能,完成了對半月板和軟骨的分割,其學習方式與人類更加接近。Satyananda等[10]提出了4D-LOGISMOS算法用于膝關節軟骨分割。該研究首次提出匹配不同時間相同區域信息的方法來提升分割性能,對軟骨分割的誤差顯著減少。Liu[11]提出一種名為SUSAN的方法對不同數據集的膝關節進行分割,結果表明SUSAN 能夠和全監督的U-Net 性能相媲美,但SUSAN 僅需要一組注釋的訓練集就能夠為不同的MRI數據集提供快速、準確的分割,在不同組織對比度的圖像中都具有適用性。Zhang等[12]使用4 種不同序列結合支持向量機和判別隨機場分割正常膝關節軟骨,分割髕骨、脛骨和股骨軟骨的DSC 在0.84~0.86,并且發現兩個模型的效果優于單一模型。Byra等[13]使用轉移學習改良U-Net 后分割半月板,兩名醫生開發的模型DSC分別為0.86和0.83,模型的分割性能與人工分割準確度相似。
此外,Wang 等[14]設計了一種結合脈沖耦合神經網絡和全卷積神經網絡的方法來分割肩關節骨性結構,模型分割3 個測試集的準確度分別為0.96、0.96 和0.94。Medina 等[15]使用兩個GoogleNet (模型A 和模型B)用于選擇MRI 矢狀位的“Y”視圖和分割肩袖,分別進行內部和外部驗證,模型A 在內部和外部驗證中挑選“Y”視圖的準確度均為0.99,模型B在兩個驗證集中分割肩袖的DSC都大于0.93。
韌帶損傷是運動損傷常見的表現之一,膝關節前交叉韌帶(anterior cruciate ligaments,ACL)損傷在臨床中最常見,其次為踝關節韌帶損傷[16-17]。由于關節解剖結構復雜、認識不足等原因常常導致韌帶損傷被忽視。所以開發DL 用于韌帶損傷的識別和診斷有助于醫生快速和準確地評估韌帶病變,減少漏診或誤診。
Bien等[18]使用MRNet來識別ACL損傷并進行內部驗證,同時使用?tajduhar 等[19]公開的數據集進行外部驗證。在內部驗證集中區分正常和異常ACL 的AUC 為0.94,識別ACL 撕裂的AUC 為0.97,在外部驗證集中直接使用MRNet 識別ACL 撕裂的AUC 為0.82,再次訓練模型后AUC 提升至0.91。該研究表明MRNet可以用于識別ACL損傷和撕裂,但該模型用于其他數據集時需要對模型進行再訓練。Chang 等[20]在冠狀位圖像勾畫ROI 后比較了3 種識別ACL 撕裂的方法,分別是對原始圖像直接使用ResNet 識別、使用U-Net 裁剪后使用ResNet 識別、在前一方法的基礎上同時裁剪出不包含ACL 的圖片進行學習,3 種方法的準確度分別為0.68、0.72、0.77。同時該研究比較了輸入單幅、三幅和五幅裁剪圖像時模型的效果,相應準確度分別為0.77、0.87、0.92,提示可能隨著輸入信息的增加模型性能會逐步提高。
Namiri等[21]在研究中比較了3D卷積神經網絡(convolutional neural networks,CNN)和2D-CNN檢測ACL損傷的差異,二者在ACL 損傷識別的準確度分別為0.89 和0.92,Kappa 系數為0.83。3D-CNN的卷積層允許學習3D特征,比2D-CNN結構更加復雜,但也更容易出現過擬合,該研究由于3D-CNN 與ImgNet不兼容導致性能不如2D-CNN。Liu 等[22]設計了用于自動識別ACL 撕裂的系統,使用LeNet-5 篩選包含ACL 結構的圖像后通過YOLO裁剪ACL局部圖像,最后使用DenseNet診斷ACL撕裂,該方法對ACL 撕裂識別的敏感度和特異度均為0.96,AUC 為0.98。Zhang 等[23]通過3D-DenseNet 區分正常和異常ACL,結果發現3D-DenseNet診斷效果好于VGG16和ResNet。
運動損傷也常見于踝關節、肩關節、肘關節等部位[24],但目前缺少對ACL 以外韌帶損傷的相關研究。在未來需要逐步對更多韌帶進行研究,來輔助醫生更加精準和快速地診斷韌帶損傷。
半月板和盂唇都由纖維軟骨組織構成,對于維持關節的正常功能具有重要作用,準確地識別損傷對于治療方案的制定和患者的預后非常重要。目前對于膝關節半月板的研究相對較少,并且尚未見到關節盂唇損傷相關的研究。
Pedoia 等[25]使用圖像擴增方法將訓練集擴大了10 倍,采用2D-U-Net分割半月板后使用3D-CNN識別半月板損傷,得到的結果與人口統計學信息共同輸入到隨機森林后獲得最終預測結論。該方法對區分正常和異常半月板的敏感度、特異度分別為0.90、0.82,AUC 為0.89。同時,研究在3D-CNN 中結合WORMS 評分將半月板損傷分為正常、輕中度和重度三類,相應的準確度分別為0.81、0.78 和0.75。該研究把影像與臨床信息結合來對半月板損傷進行判斷,分析方式與醫生更加接近,使用的圖像擴增技術對于解決組間不平衡問題也是一種很好的思路。Couteaux 等[26]通過VGG 對正常與損傷半月板進行區分后使用Mask R-CNN 判斷半月板前后方向的撕裂,通過淺層的ConvNet判斷半月板上下方向的撕裂,將3種模型的結果按照不同權重加權后最終的AUC 為0.91。該研究不僅對正常與損傷的半月板進行識別,也對撕裂的方向進行了區分,為臨床提供了更多的信息,應用價值也更大。
近年來,盂唇損傷逐漸引起了臨床醫生的重視[27]。盂唇包括肩關節盂唇和髖關節盂唇,由于盂唇血供不豐富,一旦出現損傷難以愈合,所以準確地診斷盂唇損傷非常重要。目前對于盂唇損傷的研究仍是空白,如何通過DL 對盂唇進行定位和診斷還需要進一步研究。
膝關節軟骨損傷若不能及時處理往往會過早發展為嚴重的骨關節病[28],早期準確診斷軟骨病變非常重要。雖然有許多MRI新技術被應用于軟骨損傷的診斷中[29-30],但軟骨損傷仍然經常被忽視。開發基于MRI的軟骨損傷DL檢測方法有利于提高早期診斷準確度。目前軟骨損傷的研究主要集中在膝關節軟骨,對于其他軟骨的研究尚未見報道。
Liu等[31]提出了一種全自動的膝關節軟骨損傷診斷系統,該系統由兩個二維深層CNN構成,其中第一個CNN對軟骨和骨進行分割,第二個CNN 用于評估軟骨損傷。模型分割股骨和脛骨軟骨的DSC 分別為0.81 和0.82,軟骨病變檢測準確度也能夠與影像醫生相媲美(AUC>0.91)。該研究初步實現了膝關節軟骨病變的識別,在不同年資醫生中都表現出了穩定的診斷性能。楊貴昌等[32]通過多激活卷積神經網絡對軟骨損傷I~Ⅳ級診斷的AUC分別為0.92、0.89、0.95和0.97。司莉萍等[33]在轉移學習的基礎上使用Ⅴ型網絡和Inception 網絡分別對膝關節軟骨進行分割和診斷。該方法對骨性結構分割的DSC 高于0.91,對于軟骨的DSC 高于0.75,Inception 網絡識別軟骨損傷的AUC 為0.99。Pedoia 等[25]在研究中使用2D-U-Net 和3D-CNN 對檢測軟骨損傷,模型的敏感度和特異度均為0.80,AUC為0.88。
肌腱損傷以肩袖損傷最常見,傳統影像學對于大多數肌腱損傷的診斷并不困難,但DL 可以節省時間、提高工作效率,并能夠作為AI 軟件的一部分來對關節損傷進行全面評估。Shim 等[34]使用3D-CNN 識別肩袖損傷,將肩袖分為正常、部分撕裂、小撕裂、中等撕裂、大撕裂5 類,采用Voxception ResNet 對3D-CNN 進行訓練。模型識別正常和異常的準確度為0.93,識別多分類的TOP-1準確度為0.69。
雖然DL 是影像學研究的熱門方向,但基于MRI 的骨關節運動損傷DL 研究仍處在起步階段,大多數研究主要關注膝關節損傷,而對于其他關節的研究非常少見,而且當前DL 研究仍然存在許多不足。
骨關節運動損傷通常要結合多個圖像和多個序列進行綜合診斷,而目前常用的DL 模型大多是針對簡單的數據進行學習,還沒有成熟的模型能夠對多種序列和多幅圖像同時進行學習[35],所以嘗試開發一種新的模型來學習復雜數據對骨關節運動損傷的DL 研究可能起到巨大的推動作用。雖然目前有研究結果表明隨著輸入信息量的增加模型的性能也會提升,但不代表輸入過多的信息也能提升模型的性能,結構復雜的模型是否比結構簡單的模型能獲得更多收益也需要進一步探討,復雜的模型訓練時間和識別時間會相應增加,如何平衡模型性能和收益也是需要考慮的問題之一。
目前,研究中全監督學習仍然為主要的監督學習方式,但全監督學習需要投入大量的精力,對大樣本的逐一標記限制了任務數量,也限制了DL的長期潛力。DL由全監督學習向半監督學習甚至無監督學習轉變是有必要的,半監督學習和無監督學習能夠減輕研究者的工作量,減少人為因素導致的結果不準確,但目前半監督和無監督學習的準確度不如全監督學習,如何讓半監督學習和無監督學習達到與全監督學習相似的效果也是需要進一步研究的內容之一。雖然在各個領域深度學習的研究非常多,但實際應用于臨床的研究卻非常少見[36],一部分原因可能與國內缺少包含多中心數據的數據庫有關,由于不同機構的掃描方法和設備不同,導致模型不能在不同機構中使用,所以今后逐步建立我國相關研究數據庫也是非常必要的。多數研究對圖像進行裁剪或分割后進行損傷識別,但對于骨關節系統的部分病變按照結構邊緣分割是很困難的,當ACL 完全斷裂并攣縮后正常形態丟失,此時描述其輪廓非常困難,而裁剪出一定大小的圖片勢必會包含某些額外信息,這些信息同時包含了有用信息和無用信息,所以裁剪方法和保留圖像大小也會影響模型性能,這也需要今后更多的研究去探討。
總之,雖然目前骨關節運動損傷的DL 研究仍處于起步階段,但隨著研究不斷的發展和深入,DL的潛力和價值也會被逐漸挖掘出來,DL 有望逐步發展成為今后影像科醫師的得力助手。
作者利益沖突聲明:全體作者均聲明無利益沖突。