鄭慶源,楊 瑞,王 磊,陳志遠,劉修恒
(武漢大學人民醫院泌尿外科,湖北 武漢,430060)
腹腔鏡手術被越來越多地應用在各手術科室,如泌尿外科、普通外科、婦科等[1]。腹腔鏡手術相較傳統開放手術不僅具有顯著的微創效果,而且具有感染風險小、術后康復快、住院時間短等優點[2]。由于計算機性能與硬件的提高,腹腔鏡手術視頻資料以一種數據形式靈活儲存在服務器中,可供醫生回顧查看與分享。隨著大數據時代的來臨,許多數據被用以發現、分析與解決問題[3],豐富的腹腔鏡視覺數據也不例外。而人工智能是最擅長通過數據分析解決問題的技術,因此可能推動臨床上腹腔鏡手術的發展。近年腹腔鏡手術依靠人工智能技術取得了巨大的進步,本文現就人工智能技術在腹腔鏡手術中的研究應用與進展作一綜述。
人工智能是模擬人類大腦進行運算操作與處理的智能技術[4]。可通過使用高效的算法及從大量數據中學習到的特征訓練所需模型參與到臨床實踐中。其超越人類水平的診斷、決策與計算能力,有助于減少診斷與治療的錯誤,并促進個性化醫療[5]。
機器學習是人工智能的一個分支。經典的機器學習方法需要從大量數據中手動測量后獲得一組生物標志物或特征,接著依賴這些標志物或特征訓練出強大的分類器,因此這些分類器的性能依賴于所選取的標志物或特征[6]。這些標志物或特征往往是人工事先定義好的,想要取得更深層次的特征難度較大。
深度學習較機器學習最大的區別在于可應用較深的神經網絡架構主動提取數據特征。這種具有深度的神經網絡是端到端的訓練模式,因其不是從手工提取的特征中進行學習再輸出所識別的類別,而是從輸入信號中直接學習。因此,神經網絡不僅可充當分類器,還可充當特征提取器[7]。
隨著深度學習的興起,視覺領域近年也得到了迅速發展。基于卷積神經網絡(convolutional neural networks,CNN)的圖像識別技術與傳統的圖像識別技術相比具有明顯優勢[8]。CNN是一種比較適合醫學成像數據的深度學習架構,其架構中不同層之間的連接,類似于哺乳動物視覺皮層的組織。典型的CNN架構包括卷積層、池化層、全連接層,被證實可成功提取特征并進行對應的神經網絡訓練[9]。
目前人工智能已在多個醫學領域展示了它的能力,包括分類、分割及檢測任務。現就人工智能在腹腔鏡手術中現階段的研究與應用展開敘述。
2.1 手術器械的分割與檢測 手術器械的分割與檢測追蹤是計算機輔助手術系統的重要組成部分。由于受到腹腔內特殊的背景影響,如高光反射、模糊、手術器械的運動偽影等,這是一項較為困難的挑戰。而許多學者借助CNN成功解決了該問題,這也是目前研究最為廣泛的一個方向。
Yu等[10]提出了一種基于U-Net體系結構的外科器械分割模型,其性能優于經典的U-Net模型,交并比高達0.8645。Shvets等[11]利用四種分割模型進行手術器械的分割,分別為U-Net、TernausNet-11、TernausNet-16與LinkNet-34模型。其中TernausNet-16以0.8630的交并比、0.9001的Dice系數獲得最佳性能。Hasan等[12]提出的U-NetPlus體系結構用于腹腔鏡圖像中分割手術器械,結果顯示,其體系較最先進的TernausNet框架更好。
YOLOv3檢測模型是目前性能較好的目標對象檢測算法之一,名稱意為“You only look once”(你只需看一次)。Yamazaki等[13]基于YOLOv3檢測模型,從52個腹腔鏡胃切除術視頻中提取了10 716張圖像用于模型訓練,成功開發并驗證了一種新的自動化系統,用于檢測腹腔鏡胃切除術中的手術器械。
2.2 手術階段識別 識別腹腔鏡手術過程中不同的階段是重要的研究課題,具有各種作用,如用于技能評估、教學場景的自動選擇、實時工作流程的識別,也可向手術室外的臨床工作人員提供有關手術進度的信息。但目前對手術階段識別屬于手動執行的操作,容易出現錯誤與延誤。
Hashimoto等[14]分析了88例腹腔鏡袖狀胃切除的手術視頻,視頻被分為七個步驟:(1)端口放置;(2)肝臟牽引;(3)肝活檢;(4)胃結腸韌帶解剖;(5)胃吻合;(6)裝袋標本;(7)釘線的最終檢查。在識別測試集中操作步驟的準確度為82%,最大值為85.6%。這表明腹腔鏡手術視頻可用作術中臨床決策支持、風險預測或結果研究的定量數據源。
Kitaguchi等[15]研發了一種基于腹腔鏡乙狀結腸切除手術視頻的自動手術階段識別的深度學習模型。他們使用的數據集包含71個腹腔鏡乙狀結腸切除術案例,均被手動分為11個手術階段(階段0~10)。手術階段自動識別準確率為91.9%,其中體外動作、沖洗手術動作自動識別準確率分別為89.4%與82.5%。他們的結果證明該系統可以較高的精度進行自動手術階段與目標手術動作的識別。
此外,Twinanda等[16]還提出了一種稱為EndoNet的新型CNN架構,在腹腔鏡膽囊切除術的數據集中,成功將其應用于手術階段的檢測。
2.3 手術操作的分類 手術操作是外科手術進行的一般活動,涉及一個或多個器械。在外科手術完成后,利用計算機輔助對外科手術操作進行術后分析可給術者帶來一定優勢。外科手術操作在手術程序中是最關鍵的組成部分,比如在尋找特定的手術階段時,它們可被視為主要目標。因此利用CNN對手術操作的分類可輔助術者進行手術分析。
Munzer等[17]在16個手術操作的類別(建立腹部通路、注射、切割、鈍性分離、燒灼組織、引流灌洗、凝固、抽吸、針定位、針穿刺、打結、固定線結、剪線、懸吊、內窺鏡取物袋置入及取出)中,應用靜態與動態內容描述符進行評估與識別。前者只考慮單個圖像,而后者考慮場景中的運動。結果表明,靜態描述符獲得了最高的整體性能,但動態描述符對于特定類別的手術操作具有更大的區別性。
Leibetseder等[18]基于8個手術操作(引流灌洗、縫合、冷切割、高頻切割、鈍性分離、子宮懸吊、凝固及注射)進行神經網絡訓練識別,證明這些類別本身具有明顯的特征。其中縫合操作似乎是截至目前最容易預測的,精度高達0.968。
Petscharnig等[19]基于CNN研究了婦科手術視頻鏡頭的單幀分類模型。他們從頭開始訓練兩種不同的CNN架構AlexNet與GoogLeNet,用于手術動作、解剖結構分類。他們使用GoogLeNet,分別實現了0.782、0.617的召回率;使用AlexNet,分別實現了0.469、0.615的召回率。此外他們還從AlexNet中提取高級特征,并將其用于訓練SVM分類器,對解剖結構、手術動作進行分類的召回率為0.697與0.515。
2.4 手術解剖關系的分類與分割 術中自動定位與突出顯示關鍵的解剖結構可防止術中損傷,提高手術安全性。外科醫生借助該手段可了解關鍵解剖結構的確切位置,并在術中更好地處理這些結構。
Zadeh等[20]使用了Mask R-CNN的深度學習方法進行研究。他們對461張腹腔鏡圖像手動標注了子宮、卵巢與手術器械三種類別。隨后將數據集拆分為361張圖像以訓練Mask R-CNN模型,并使用100張圖像評估其性能。結果顯示子宮、卵巢與手術器械的識別準確率分別為84.5%、29.6%與54.5%。雖然訓練數據量有限,但他們證明了在婦科中應用基于深度學習的語義分割的初步結果是非常有潛力的。
如2.3所述,Leibetseder等[18]對各種解剖結構(結腸、肝臟、卵巢、輸卵管、子宮)進行了分割。其中最容易分類的器官是肝臟,準確率為99%。Petscharnig等[19]利用AlexNet、GoogLeNet對解剖結構進行了分類,召回率分別為0.615與0.617。
Tokuyasu等[21]利用76個腹腔鏡膽囊切除術視頻中獲得的約2 000張膽囊三角區域圖像,使用YOLOv3檢測模型進行了定量與主觀評估。每個解剖結構的平均精度值如下:膽總管為0.320,膽囊管為0.074,左內側肝段下緣為0.314,Rouviere溝為0.101。結果證明,他們的研究雖然性能不佳,但成功幫助手術團隊更容易識別這四個解剖位置。這可能有助于降低膽管損傷率,從而提高腹腔鏡膽囊切除術的安全性。
2.5 手術時間的預測 在如今醫療資源緊張的大環境下,為確保手術順利進行,必須精確分配手術室的時間及手術人員的時間。因此手術室的使用計劃不能一成不變,較術前估計時間更長的手術可能導致后續手術被推遲甚至取消,從而給患者、手術團隊帶來不便。外科手術的過程通常是不可預測的,因此很難事先估計腹腔鏡手術的持續時間。這種不確定性使得安排外科手術成為一項艱巨的任務。為解決這一問題,CNN基于其強大的能力,現已被用于直接從腹腔鏡視頻數據中預測手術時間。
Bodenstedt等[22]對80段各種類型的腹腔鏡視頻進行了評估,連續實時預測手術時間的誤差為36.7 min,半場誤差約為28 min。
Twinanda等[23]提出了一種稱為RSDNet的深度學習模型,可通過僅使用腹腔鏡視頻中的視覺信息自動估計剩余手術時間。關于膽囊切除術所預測的剩余時間誤差為15.6 min,該性能優于Bodenstedt等的研究。
2.6 紗布檢測 術中遺留紗布雖然是極少見的情況,但一旦發現,無論對患者還是醫生、醫院都會帶來極其嚴重的后果。目前手術室通過標準化紗布計數來進行管理,但這種流程始終屬于人為操作,仍然可能存在人為錯誤。此外,紗布由于浸潤血液后難以與組織區分,導致有意外滯留的情況發生。
3.1 可用數據集嚴重匱乏 一個可靠的預測結論是需要基于足夠的數據,而數據也是人工智能進行模擬學習最核心、最關鍵的部分。然而由于醫學數據的隱私問題,許多數據集不能公開使用。這也導致可用的腹腔鏡手術的數據集嚴重匱乏,進而使得訓練模型的精度、泛化能力難以得到提升。目前學者們為解決數據集不足的問題,提出了許多解決方法,如數據增強[25]等策略。標注好的數據集更少,因為對圖像進行人工標注費時費力。Fuentes-Hurtado等[26]介紹了一種快速標注手術數據集的方法,可用于進行語義分割,結果接近于完全監督方法,而創建標注的工作量顯著減少。通過這些策略,可緩解訓練高精度模型所需的數據要求。
3.2 倫理要求 隨著社會的發展,醫學倫理道德問題也越來越被重視。倫理規則和道德價值觀因地區而異,不同的民族、國家會持有不同的規范[27]。有些人工智能是經過編程的,人工智能系統的動作完全由程序員的選擇決定。而另一些人工智能,尤其機器學習或深度學習,允許系統本身進行調整,以便提高正確應對不確定情況的能力。雖然深度學習算法具有非常強大的學習能力,但我們通常無法完全理解其得出正確答案的方法。因此,目前大多數基于人工智能的研究都需要得到相應的倫理委員會的批準,在充分尊重、保護患者,得到其知情同意的前提下,方可開展系列研究[28]。
3.3 模型的優化 目前有許多深度學習模型,包括分類模型、分割模型、檢測模型已被公開證實具有有效性、可靠性。但對于特殊的醫學數據,如CT、MRI或腹腔鏡視頻資料等,與自然圖像有很大區別,進行對應訓練所得到的結果也通常不理想。因此,要想直接使用這些模型應用于醫學數據中并不可靠。往往需要對這些現有的模型進行改善與優化,才能達到我們期望的水平。目前來看,這涉及到跨學科專業的研究,無疑也是對臨床醫生的一項巨大挑戰。
3.4 模型的可解釋性 雖然人工智能中簡單的機器學習模型(如決策樹或線性回歸等)人們可完全理解,但隨著技術的進步,理解變得越來越困難,現在許多深度學習模型已無法理解,這種情況會導致意想不到的結果與不確定的行為,即所謂的黑盒結果。這個問題也適于其他醫學問題,其中很多具有確切作用的機制往往知之甚少(如藥物治療)。但如果確切的作用方式不清楚,那么人工智能是否可以用于影響深遠的決策問題仍然未解決。目前研究者們也正在努力研發可解釋的人工智能,以提高算法的透明度。可解釋人工智能的目標是產生可更容易地解釋其提出的模型,如通過顯示其可能依賴的特征來生成預測,最終目標是提高透明度,從而增加人類對其預測的信任與理解。如決策樹就有很大的透明度,因為可審查與評估每個決策節點[29]。
人工智能技術已被應用于腹腔鏡手術中,尤其在手術器械與解剖結構的分類分割中,應用較為廣泛。可以看到,很多方向應用人工智能技術后得到的結果雖然能起到一定效果,但模型精度還需要進一步提高。借助人工智能技術,豐富的腹腔鏡手術數據資料得以被用于手術教學、改善醫療環境、優化醫療資源等。盡管人工智能在腹腔鏡手術中的應用存在著巨大潛力,但我們也需要承認其局限性。數據缺乏、倫理問題及模型的優化、可解釋性已是不得不加以重視對待的問題。各種形式的人工智能技術已展現出超越人類的表現,但缺乏更高層次的背景知識,無法像人腦那樣建立關聯[30]。因此未來人工智能的發展離不開醫生,醫生的工作也會與人工智能緊密相連。
綜上所述,人工智能技術在腹腔鏡手術中的研究與應用具有非常可觀的前景,但以目前的研究來看,還有很多問題需要解決。
申明:本文作者均對署名無爭議。