胡偉藝,蘇嫻彥,柯曉婷,陳焱鋒,賴清泉
半月板是位于脛骨和股骨關節面之間的兩片纖維軟骨結構,在膝關節的結構和功能中起著重要的作用,半月板損傷會導致膝關節加速和不可逆的退行性改變。半月板手術是全球最常見的骨科手術之一。半月板損傷可分為變性和撕裂,兩者在臨床治療手段的選擇和預后方面具有較大差異,且由于半月板的血液分布特點[1-2],也導致不同區域的半月板損傷在治療手段和預后的差異,因而明確診斷半月板的損傷類型和部位至關重要。
MRI具有無創、無輻射性、高軟組織分辨率等特點,其流體敏感序列對半月板撕裂的檢測能夠準確反映半月板撕裂的位置、撕裂類型、半月板形態等?;谒C萃分析,對比關節鏡檢查,MRI 診斷內側半月板撕裂的敏感度為89%、特異度為88%,診斷外側半月板撕裂的敏感度為78%、特異度為95%[3],是半月板損傷的首選檢查,目前在很大程度上取代了關節鏡的診斷。
當前,基于人工智能的疾病檢測是一個方興未艾的領域,人工智能看似無限的可能性引起了放射學家的極大興趣,不同類別的計算機算法已被應用于執行廣泛的放射學診斷任務。深度學習方法能夠自動學習特征層,非常適合于對醫學圖像及其診斷之間的復雜關系進行建模。用于疾病檢測和圖像判讀的深度學習算法的興趣主要在于通過降低3%~5%的人為錯誤率來提高圖像判讀的診斷性能,以及加快圖像判讀和報告生成[4]。利用卷積神經網絡(convolutional neural network,CNN)進行深度學習的發展是放射學領域最新的、最重要的技術進步之一。CNN 是人工智能的一個快速發展的子集,非常適合解決基于圖像的問題[5-7],它能夠以與人類相似甚至更高的精度自動識別和定位圖像中的對象[5],提高疾病檢測的效率和準確率。
近年來,隨著對人工智能在醫學領域應用的認識提高和臨床實踐的開展,利用深度學習方法檢測半月板撕裂的研究也在逐漸增多。根據神經網絡預訓練的特點,可將相關研究分為利用遷移學習[6-7]方法的研究和利用定制神經網絡的研究。
ImageNet大規模視覺識別是對數百個對象類別和數百萬張圖像進行對象類別分類和檢測的基準[8]。Bien等[9]將AlexNet[10]部分的權重初始化為在ImageNet 數據庫上優化的值,然后微調這些權重以適應目標MRI 數據集,開發了基于聚合2D CNN 的全自動深度學習模型“MRNet”。該研究以3 名骨肌組放射診斷醫生的診斷共識為標準,利用MRNet 從1370 例膝關節冠狀位T1 加權、矢狀位T2 伴脂肪飽和、軸向質子密度加權成像(proton density weighted imaging,PDWI)伴脂肪飽和MRI 圖像檢測前交叉韌帶損傷、半月板撕裂以及除外前述兩者的其他異常,并將該模型的性能與普通放射科醫生及骨科醫生比較。但是該模型的主要優勢在于前交叉韌帶撕裂的診斷,其檢測半月板撕裂的敏感度為71%,特異度為74%,準確率為73%,明顯低于參與研究的普通放射科醫生。此外,在該模型的輔助下,普通放射科醫生及骨科醫生檢測半月板撕裂的表現并沒有得到統計學上的顯著改善,這或許是受到小組規模的限制。
Bien等[9]的研究結果顯示相應模型檢測半月板撕裂的性能相對較低。創建一個深度學習模型,并從頭開始訓練整個系統是實現人工智能的一種方法。然而,一般的CNN是由數百萬個節點和權重組成的,通常數量越多,CNN的性能越好,這意味著只有大型數據集才能支持其訓練過程。但是在基于醫學成像的深度學習應用中獲取明確的大量成像數據是一個極端的挑戰。而改進CNN體系結構或者聯合兩種及以上CNN以提高模型性能可能是另一種行之有效且便捷的方法。Qiu等[11]根據兩種不同結構的CNN 的特點和遷移學習的思想,將不同結構的淺層CNN1 和深層CNN2 并聯組成新的深度學習模型“CNNf”。CNNf 通過綜合CNN1 捕獲的簡單低層特征和CNN2 捕獲的復雜高層特征檢測MRI 圖像中的半月板損傷。以骨肌組放射科醫生的診斷為標準,CNNf 的性能要優于CNN1 和CNN2,其準確率為94%,敏感度為91%,特異度為95%,AUC為0.97。因此該研究表明改進神經網絡結構從而提高其性能的方法具有一定的可行性,但尚需要更多的數據驗證和幫助模型獲得更好的泛化性能并減少過擬合問題。
Couteaux等[12]利用在外部數據集上進行了預訓練的Mask-RCNN(mask region-based convolutional neural network)[13]模型對1128 例矢狀位脂肪抑制的膝關節MRI 圖像進行半月板定位和撕裂檢測的訓練,而后將Mask-RCNN 級聯成一個淺層ConvNet[13]對撕裂半月板進行撕裂方向分類訓練和驗證,最后利用這一方法對外部提供的700 例病例進行驗證??紤]到由于半月板前后角損傷的不平衡和可用于訓練的前半月板撕裂數量較少[14],因此該研究將一個及以上網絡檢測到半月板前角撕裂時認為半月板撕裂,而當絕大多數網絡檢測到半月板后角撕裂時將半月板后角歸類為撕裂。該模型在半月板角的定位、撕裂的檢測以及撕裂方向的診斷三項任務中的AUC 均為0.91。
1.2.1 撕裂方向的研究
與Couteaux 等[12]的方法類似,Roblot 等[15]也基于RCNN 從矢狀位2D MRI 切片中檢測半月板撕裂。該研究包括三個步驟:首先檢測兩個半月板角的位置;其次確定有無撕裂;最后確定撕裂的方向。將該算法應用于700 例病例圖像組成的測試數據集進行外部驗證,得到該算法檢測半月板位置的AUC為0.92,檢測半月板撕裂的AUC 為0.94,檢測撕裂方向的AUC為0.83,最終加權AUC為0.90。該實驗還嘗試合并三個步驟,但模型表現出的性能并沒有優于上述方法。Couteaux等[12]和Roblot 等[15]方法的優點是都對半月板撕裂的方向做了分類,共同不足是使用的MRI 圖像僅包含單個序列的矢狀位兩幅圖像,而膝關節的MRI 檢查通常包含幾十幅圖像。此外,研究只分析正常半月板和異常3級高信號強度的半月板,沒有1級或2級異常高信號強度半月板,限制了模型的適用性。
1.2.2 內外側半月板研究
由于外側半月板活動度相對較大而不容易損傷,其損傷的概率約為內側半月板的三分之一,因而可獲取的用于模型預訓練的外側半月板損傷MRI 圖像數據集較少。加上內外側半月板形態學的差異等,似乎很有必要將內外側半月板損傷的研究加以區分。Rizk等[16]以骨肌組放射科醫生的診斷作為參考標準,開發了一種基于CNN 的深度學習模型,用以檢測冠狀面和矢狀面PDWI 脂肪抑制序列的半月板撕裂以及移位。在內部測試數據集上,CNN 檢測內側半月板撕裂的敏感度為89%,特異度為84%,準確度為87%,AUC 為0.93;檢測外側半月板撕裂的敏感度為67%,特異度為88%,準確度為82%,AUC 為0.84。對于半月板撕裂移位檢測,內側半月板的敏感度為80%,特異度為85%,準確度為83%,AUC 為0.91;外側半月板的敏感度為57%,特異度為95%,準確度為93%,AUC為0.95。當直接使用Bien等[9]之前發表的MRNet數據集進行外部驗證時,在不區分內側和外側半月板撕裂的情況下,該模型的總體性能下降,敏感度為77%,特異度為84%,準確度為81%,AUC為0.83。經過微調后,性能分別提高到81%、87%、84%和0.89??梢?,該模型被應用到外部數據時仍需要微調。Fritz 等[17]以關節鏡手術結果為參考標準,利用全自動深度CNN (deep CNN,DCNN)評估在冠狀面和矢狀面脂肪抑制的液體敏感MRI 圖像上檢測和區分內外側半月板撕裂的性能,并與兩名骨肌組的放射科醫生做對比。該DCNN 模型首先在一個包含20 520 項符合預處理標準的MRI 研究數據庫中進行訓練和驗證,而后該模型被應用于100 例具有關節鏡手術結果的半月板MRI 數據集進行驗證。最終該DCNN 模型對內側半月板的敏感度為84%,特異度為88%,AUC為0.78,對于外側半月板撕裂,DCNN的敏感度為58%,特異度為92%,AUC 為0.78。相比之下,DCNN 檢測內外側半月板撕裂的特異度和準確率與骨肌組的放射科醫生相似,但敏感度低于后者。Rizk等[16]的研究中也存在類似問題。研究者認為這可能與研究的統計能力較低有關,因為只有24 名患者有外側半月板撕裂。值得注意的是,放射科醫生和DCNN對外側半月板撕裂檢測的敏感度總體上都相當低。而系統評價也報告了檢測外側半月板撕裂的敏感度為78%,遠低于內側半月板撕裂檢測的89%的敏感度[3]??紤]到兩位放射科醫生都是專業的骨肌組醫生并表現出良好的讀者間一致性,這可能是由于一些外側半月板撕裂在MRI 上看不到,因此可能也被DCNN遺漏,這一假設得到了DCNN與放射科醫生大量假陰性評估的支持。為了保持與DCNN 的一致性,該研究選擇對兩位放射科醫生隱瞞患者的臨床病史、術中發現及膝關節手術的適應證。但這與臨床常規相悖,提供給DCNN 模型患者的臨床信息以還原放射科醫生的工作日常將會使研究結果更具有代表性。此外,對于半月板的評估,DCNN僅使用了冠狀位短時翻轉恢復(short time inversion recovery)序列和矢狀位脂肪抑制的增強成像序列,而放射科醫生使用了全套膝關節MRI 序列,這可能對放射科醫生的診斷性能產生了積極影響。
1.2.3 感興趣區分割研究
研究表明,與半月板損傷診斷相關的特定特征局限于膝關節MRI 圖像中心的小尺寸范圍內[18-19]。關注疾病解剖結構的特定特征對于提高模型的診斷能力至關重要。Pedoia等[20]使用2D的分割網絡自動分割半月板,使用3D CNN自動檢測半月板損傷并進行嚴重程度分期,證明了基于CNN 的半月板撕裂全自動檢測在PDWI三維MRI圖像重建中的可行性。以放射科醫生為參考標準,CNN 檢測半月板撕裂的敏感度為82%,特異度為90%,AUC 為0.89。在半月板損傷嚴重程度分期中,對于完整的半月板,準確率達到了81%,對于輕到中度的撕裂,準確率達到了78%,對于嚴重的撕裂,準確率達到了75%。該深度學習方法考慮了年齡和性別等人口統計學因素,遺憾的是文章中并沒有給出有無人口統計學因素對結果的影響。Astuto等[21]則利用3D分割網絡分割膝關節骨、軟骨、半月板和韌帶,基于3D CNN 模型來檢測3D MRI 圖像中的感興趣區域以及軟骨、骨髓、半月板和前交叉韌帶的分級異常,并利用外部數據對比受訓人員在有無使用CNN 模型幫助時與經驗豐富的放射科醫生的一致性。其中,在檢測半月板有無損傷的二分類中,該模型的敏感度和特異度均為85%,AUC 為0.93;若將半月板分為正常、撕裂和完全毀損,敏感度分別為85%、74%、85%。在CNN模型的幫助下,受訓人員與經驗豐富的放射科醫生的一致性顯著提高。Pedoia等[20]和Astuto等[21]均對半月板的撕裂程度做了分級,為基于多組織分區和多類別分類的完整膝關節評估提供了一個全自動的復合模型。但是,他們所應用的數據集主要包括不同時期的骨關節炎和前交叉韌帶損傷的患者,可重復性較低。
有研究認為,由于MRI 數據中損傷半月板的外觀不均勻,以及與鄰近組織的對比度不足,因此難以將其分割[22]。此外,有些方法僅對二維平面進行操作,而這種方法的主要局限在于,經過訓練的2D CNN不能考慮整個MRI體積,因此可能會丟失3D 空間中的重要特征相關性。對此,Tack 等[23]同時設計了全面方法(將完整的3D MRI 數據輸入3D CNN 訓練)、BB-crop(將3D MRI 數據裁剪到兩個半月板的感興趣區域輸入3D CNN訓練)、BB-loss (在第一種方法的基礎上添加邊界框)等三種方法對具有2339 例矢狀面雙回波穩態(double-echo steady state,DESS)序列三維圖像(DESS 數據庫)和2396 例矢狀面快速自旋回波(turbo spin echo,TSE)加權序列膝關節MRI 圖像(IW TSE 數據庫)的數據庫進行驗證。研究區分了內外側半月板以及半月板前角、后角和體部的撕裂。結果顯示,在DESS數據庫中,BB-loss的表現最好,內側半月板前角、體部和后角的AUC 值分別為0.94、0.93、0.93,外側半月板為0.96、0.94、0.91。在IW TSE數據庫中,BB-loss與BB-crop表現出了相似的性能,內側半月板前角、體部和后角的AUC 值分別為0.84、0.88、0.86,外側為0.95、0.91、0.90。因此可以認為,使用完整的3D MRI數據并添加邊界框的BB-loss方法具有較穩定的高性能,并具有可重復性。此外,該研究對半月板的解剖劃分更為精細,這對撕裂的定位提供了更多臨床意義。
1.2.4 多模態研究
不同模式的合理融合是增強深度網絡的一種潛在手段,多模態融合可以捕獲更豐富的病理信息,提高診斷質量[24]??紤]到Transformer 模型的網絡架構需要大規模的數據集來實現更好的性能而醫學成像數據集相對較小,使得單純的Transformer 難以應用于醫學圖像分析,于是Dai 等[25]提出“TransMed”模型用于多模態醫學圖像分類。TransMed結合了CNN 和Transformer 的優點,能夠有效捕獲低級特征和跨模態的高級信息。該模型的AUC、敏感度和特異度分別為0.95、88%和83%,性能與MRNet[12]比較有著較大的改善,這表明Transformer可以提高模型的診斷能力,為后續的研究提供有力的參考。
綜上所述,眾多研究模型表現出的優秀性能表明目前深度學習算法檢測MRI 圖像中半月板撕裂已經取得了較大的進展,包括半月板有無撕裂、撕裂位置、方向和分級。但受制于現有技術、研究方法、數據集等的影響,現有研究仍不足以大量臨床推廣。
首先,為了在臨床實踐中評估深度學習算法的診斷性能,使用一個獨立的參考標準是非常重要的。目前僅有Rizk等[16]使用了關節鏡手術結果作為參考標準,而大部分研究的對比標準是具有較多經驗的骨肌組放射科醫生的診斷結果,使得研究的可信度有限。使用膝關節鏡手術結果作為金標準可能有助于評估該模型能否通過提取MRI 圖像中的隱藏特征來超越人類的診斷能力。因此,盡可能提高數據集的準確性和權威性,有助于提高深度學習模型的性能。
其次,目前的半月板MRI 深度學習研究以內部驗證的單中心回顧性研究為主,不論是使用公共數據集或是醫院內部數據,當利用包含不同場強、脈沖序列和患者間異質性的外部數據進行驗證時,其性能下降,因此單中心研究結果的穩定性值得懷疑。為了提高深度學習模型的泛化能力,可以調整在大數據集上訓練的性能良好的深度學習網絡,并在特定問題的較小數據集上微調該網絡,即遷移學習[9-10]。遷移學習的有效性和成功性取決于數據集之間的相似性。針對數據集不足的情況,也有學者提出探索半監督的深度學習技術[26]。但或許公共數據集的建立和納入標準等相關制度的完善才能更有效地解決此類問題。
再者,醫學圖像并不是檢測病變的唯一方式,單一的影像檢查也可能存在假性結果。已經公開發表的深度學習檢測半月板撕裂的研究都是基于MRI 圖像進行判讀,而沒有考慮性別、年齡等人口統計學以及臨床癥狀和體征對研究模型性能的影響。近期發表的一篇綜述[27]表明:體質量指數、運動、職業、年齡、性別、種族、骨關節炎等都與半月板損傷有關,吸煙史、損傷部位、急慢性損傷等影響半月板損傷的預后。那么,綜合被檢者的流行病學指標、臨床癥狀和體征以及其他的一些影像檢查等,高度還原影像醫生在判讀半月板損傷時的考量,使半月板損傷檢測的深度學習研究由單模態向多模態轉變,判讀半月板撕裂的有無和預后評估以及預測有高危因素的健康半月板在未來發生損傷的風險,或許有助于深度學習模型性能和臨床意義的提高。
然后,關于不同序列或方位的MRI 圖像對于人工智能模型性能影響的研究尚未見報道。人工智能模型與放射科醫生在進行半月板損傷診斷時擁有的患者信息、圖像數據的不平衡等也會影響結果的可比性。
此外,影響患者臨床治療方法的往往是異常的特征,如損傷位置、形態、大小等。雖然現有的基于深度學習的半月板MRI 圖像已經從二元異常分類向嚴重程度分類的研究邁進[23-24],但是,當前的研究仍僅限于半月板主體的損傷,而關于半月板特殊部位的損傷如半月板根部損傷、Ramp 損傷等尚未見報道。因此,準確描述半月板損傷的解剖學位置、形態學改變等,也將是未來研究的一個方向。
最后,當前關于放射科醫生在有無人工智能支持的情況下判讀半月板MRI 圖像的性能差異的研究仍較少。為了了解基于深度學習的MRI 半月板損傷診斷帶來的潛在效益,需要更多的研究使用現實的研究設計,模擬放射科醫生的日常工作,并將其應用到實踐環境中,但現有大部分研究都集中在將深度學習算法與人工判讀結果進行比較。
總之,現有的半月板深度學習研究已經取得了較為可觀的成果,但仍然存在許多不足,這也為未來的研究指明了方向:基于深度學習方法診斷MRI 圖像中半月板損傷的研究將是多維度、多中心、精標準的。瑕不掩瑜,隨著人工智能技術的不斷發展,深度學習方法可能很快就會從技術研究轉向臨床實踐,在半月板損傷等關節疾病的成像、診斷、治療、預后和隨訪中發揮重要作用。放射科醫生的工作模式也將從檢測異常轉向人工智能的監督和質量控制。
作者利益沖突聲明:全體作者均聲明無利益沖突。