宋飛飛 徐建 屠晨坤 李萌萌
摘 要 隨著“大數據”的快速增長,包括醫學圖像在內的各個領域開啟了人工智能(AI)的新時代。本文從醫學圖像的特點出發,探討了影響人工智能在醫學圖像發展的因素,主要包括源數據的可靠性、圖像注釋準確性、患者共享數據的有效性等,根據這些因素總結了解決方法,使得人工智能可以自動對復雜的醫學圖像進行定量評估,從而提高診斷準確率,增加患者的生存期。
關鍵詞 人工智能;機器學習;數據共享;圖像注釋
人工智能(AI)關注的是一種方法的發展,當人類表現出同樣的行為時,它能使計算機以智能的方式運行,人工智能是這一研究領域的通用術語。人工智能更準確的定義是機器學習,機器學習是算法根據反饋回來的數據不斷學習以修正參數。
近幾年,人工智能技術在分析非醫學圖像方面取得成功,使得深度學習方法在臨床圖像和其他醫學數據分析中得到了快速的發展,計算機視覺系統可以在專家醫師的水平上執行一些臨床圖像解釋任務。雖然,一些專家聲稱,人工智能不太可能取代人類放射學專家。然而,從長遠來看,基于人工智能的計算機工具,在某些特定的或重復性的任務上,部分取代人類的醫療專業知識,例如放射治療中的計算目標、在圖像中檢測疾病指標或測量縱向疾病等工作[1]。
1機器學習
人工智能在醫學成像領域研究的目的是創造工具來提高患者的治愈率。人工智能工具通常采用成像決策支持系統,為專業人員提供可操作的建議。人工智能在醫學成像研究中有很多機會,從圖像采集設備到人工智能的應用,有以下建議:
(1)新的圖像重建和增強方法。從成像設備產生的源數據到生成可解釋的圖像,可以在使用更小劑量的靜脈造影劑、更低的輻射劑量、更短的掃描和重建時間來生成高質量的圖像。
(2)使用自動標記和注釋方法。為了快速生成機器學習研究的訓練數據,使用自動標記和注釋方法,這些標記方法通常使用機器學習算法來處理圖像報告或電子病歷中的信息。
(3)開發新的機器學習方法。由于大多數的深度學習算法都是針對自然圖像的照片和視頻進行的,因此,需要針對臨床成像數據的復雜性開發新的機器學習算法,這些算法通常是高分辨率、3D、4D、多模態和多通道的。
(4)聚合臨床成像數據。由于臨床數據涉及患者的隱私,因此需要使用方法來促進臨床成像數據的聚合,以便訓練機器學習算法。
1.1 數據需求
影響醫學成像中機器學習的一個重要因素是缺少用于訓練機器學習算法的標準和可訪問的成像數據。AI的開發需要高質量、有標記和可公開的數據。雖然全世界的醫療保健組織控制著可用于訓練機器學習算法的大量數據,但大多數成像數據無法用于研究。可訪問的成像數據通常是不可用的,因為它們沒有經過適當的注釋,且與基本診斷關聯較少,研究人員無有效的圖像數據集可供使用。為了解決這些問題,需要更有效的方法來收集數據以識別和進行圖像管理,以便使用可查找、可訪問、可互操作和可重用的科學數據管理和管理原則[2]。
少數成像數據集已在多個成像領域公開。例如,有幾個數據集可以用于神經影像學研究。然而,這些公共數據集太小,無法支持具有臨床意義的機器學習實驗,且這些數據主要由健康個體或精神病患者的功能性MRI數據組成。可用的這些數據和資料往往來自一個機構,并不反映現實環境中遇到的各種成像設備和臨床情境。研究人員在尋找和獲取有效的醫學成像數據集方面面臨很大的困難。
1.2 評定數據質量
復雜的成像設備(如CT、MRI、PET/SPECT、US和光學掃描儀)生成的臨床圖像是由傳感器測量的“原始”或源數據重建的。測量的數據是間接的,與細胞和分子的數據存在一定誤差,這些測量數據與基礎結構之間的關系通常是非線性和復雜的,將傳感器測量的數據有效的轉換為便于臨床醫生使用的重建層析圖像是一個新興的廣泛研究領域。深度學習方法可以非常有效地直接從源數據重建圖像[3],例如,傳感器測量的數據可以更好地實現MRI重建,使用部分劑量對應物的全對比劑劑量來預測圖像增強,或低輻射劑量掃描得到的高質量圖像。
2以病人為媒介的數據共享的方法和標準
在過去的十年中,我們已經克服了許多挑戰,即基于云的臨床圖像共享和不同設施的護理團隊之間的報告。但是,研究機構之間共享記錄的后勤、運營和監管方面需要大量資源。以研究計劃匯總數據的嘗試仍然有限,且無法滿足人工智能研究的需求:從異構來源獲取的大型數據集,具有不同的患者的代表性,雖然國家迫切需要鼓勵共享研究數據,但在組合來自多個來源的數據集時,數據訪問和可用性仍存在挑戰。
以患者為媒介的數據共享可能改變共享制度,可大幅增加機器學習可用數據的數量、類型和種類。病人更多地參與到護理中來,積極參與到先進的醫學研究中以推進醫學研究。RSNA圖像共享網絡展示了患者共享他們的成像檢查所有權,并根據需要交換它們。首先使用由醫療保健企業開發的基于簡單對象訪問協議的標準,然后進行更新,以整合快速醫療保健互操作性資源[4]。
3圖像標注和注釋
大多數醫療保健組織維護圖像存檔和通信系統(PACS),可以存儲數百萬臨床影像研究及其相關報告。但是存儲在PACS中的成像研究數據不適于大多數機器學習研究,因為它們不包含機器學習的注釋。因此,醫學影像中人工智能研究的第二個必要課題是開發臨床影像的快速標記和注釋方法,這種形式的標記對執行分類任務的機器學習系統的開發有幫助,例如影像學研究是否顯示結核病或肺結節的存在。我們將“注釋”定義為提供關于圖像特定部分的信息,例如:某個像素是否是腫瘤的一部分。注釋是非常有用的訓練,EMR可以為診斷圖像提供標簽。從EMR中提取標簽的方法通常被稱為“電子表型”,因為它們根據EMR的內容來識別具有特定疾病、臨床狀況或結果的患者[5]。
對于圖像分割或檢測任務,專家必須通過大量標記圖像和標注感興趣的結構來創建訓練和驗證數據。需要減少人類專家注釋負擔的新工具。例如,一些算法可以半自動跟蹤圖像上的結構,因此人工注釋器只需要修改機器生成的軌跡,而不需要從頭生成每個注釋[6]。可以用最少注釋的數據集以半監督的方式訓練深度學習方法,以獲得結構的合理近似,從而迭代地減少人工跟蹤結構的工作量。
4結論結束語
機器學習算法將在未來十年改變醫學成像實踐。大多數成像研究實驗室都在使用機器學習方法來解決計算機視覺問題,然而,機器學習研究仍處于早期階段。本文概述幾個關鍵的研究主題,并描述了加快醫學成像的機器學習研究進展的路線圖。這些臨床數據需要快速創建帶標簽或帶注釋,需開發針對臨床成像數據的新型預訓練模型體系結構,以及減少機構間數據交換成本,以患者服務為目標,患者肯定會受益于即將產生的創新像技術。
參考文獻
[1] Tibshirani R. Regression Shrinkage and Selection via the Lasso[J]. R Stat Soc Series B Stat Methodol,1996,58(1):267–288.
[2] Wilkinson MD,Dumontier M,Aalbersberg IJJ,et al. The FAIR guiding principles for scientific data management and stewardship[J]. Sci Data ,2016(3):160018.
[3] Wang G,Ye JC,Mueller K,et al. Image reconstruction is a new frontier of machine learning[J]. IEEE Trans Med Imaging ,2018,37(6):1289–1296.
[4] Mendelson DS,Erickson BJ,Choy G. Image sharing: evolving solutions in the age of interoperability[J]. Am Coll Radiol ,2014,11(12):1260–1269.
[5] Rasmussen LV,Thompson WK,Pacheco JA,et al. Design patterns for the development of electronic health record-driven phenotype extraction algorithms[J]. Biomed Inform ,2014(51):280–286.
[6] Hoogi A,Beaulieu CF,Cunha GM,et al. Adaptive local window for level set segmentation of CT and MRI liver lesions[J]. Med Image Anal ,2017(37):46–55.
[7] Weston AD,Korfiatis P,Kline TL,et al. Automated Abdominal Segmentation of CT Scans for Body Composition Analysis Using Deep Learning[J].Radiology ,2019,290(3):669–679.
作者簡介
宋飛飛(1986-),女;畢業院校:南京航空航天大學,職稱:講師,現就職單位:南京醫科大學康達學院,研究方向:醫學影像圖像處理。