杜明月,李學廣,左珊如,陳紫淇,周軍華,厲 浩,賀權源
(湖南師范大學 醫學院 模式動物與干細胞生物學湖南省重點實驗室,湖南 長沙 410013)
參考文獻:應為正式發表的論文或書籍。
目前,人工智能(artificial intelligence,AI)已被廣泛應用于各種主要癌(如乳腺癌、宮頸癌、卵巢癌、腦癌、肺癌、皮膚癌、胃癌和肝癌等)的風險預測、篩查、診斷、治療及預后的各環節。它不但極大減輕了醫生的工作負擔,顯著提高了癌診斷的準確度,還降低了疾病治療成本,使新一代癌診療變得智能化和個性化,具有重大的理論和臨床應用價值。該領域發展日新月異,近年來不斷有重大成果問世。本文擬總結近3年來該領域的最新進展和成果,并對未來該領域所面臨的挑戰和發展趨勢做出分析和預測。
AI的主要目標是通過算法和計算機系統模擬人的認知分析能力,解決各類復雜現實問題。人工智能目前主要有3個研究領域: 1)方法學研究,即以數學和計算機科學為基礎的理論及算法研究; 2)應用研究,即把方法學研究成果應用在各個不同領域中的研究;3)倫理學研究,研究人工智能與人類智能及社會之間的倫理關系。三者互相影響、協同發展。AI的方法學研究的主要領域是機器學習(machine learning,ML)。ML的算法則紛繁復雜,其主要分支包含集成算法、降維算法、貝葉斯算法、聚類算法、決策樹算法和人工神經網絡(artificial neural network,ANN)等。其中ANN在近二十年來取得了突破性進展,實現了深度學習(deep learning,DL)。DL在影像數據、序列數據和高維數據的處理等方面較其他機器學習算法有明顯優勢,在專家系統的構建、語音和圖像識別、自然語言處理、啟發式問題解決、邏輯推理和數學優化上有廣泛和重要的應用。
依據AI使用的數據類型和擬解決的臨床問題,可大致把AI在癌診療中的應用分為如下幾類: 1)病理圖像處理; 2)生物標志物發現; 3)臨床決策支持; 4)制藥和轉化醫學。現分述如下:
在癌診療的各個環節都會產生大量的數字病理影像數據,這些數據是癌診斷和治療的重要依據。數字病理影像的主要來源于:1)細胞及組織的染色涂/切片;2)放射醫學影像,如計算機體層成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)、數字X線成像 (digital radiography,DR); 3)臨床醫學影像(如陰道鏡照片,皮膚照片等)。傳統的醫學影像分析主要依靠病理醫師人工依據腫瘤細胞和組織的復雜的病理學形態進行解讀,這對醫師的專業水平與臨床經驗要求極高,診斷過程耗時費力,且易受到地域、儀器精度等主客觀因素影響。隨著卷積神經網絡(convolutional neural network,CNN)在臨床病理的廣泛應用,AI在病理影像處理的優異表現得到了廣泛認可,已經成為了AI在臨床醫學應用最為成功的領域,可以實現快速癌診斷和疾病分層。近年來,通過不斷提高影像數據的質量和增加其數量,優化深度學習算法,DL模型在各類癌(如皮膚癌,肺癌)的識別和診斷的準確度可以達到或者超過專業醫師的水平[1,2]。與此同時,AI病理影像處理還拓展到了腫瘤的轉移能力預測[3]、患者術后預后結局預測[4]、手術的輔助決策及用藥[5]和免疫治療反應預測等領域[6]。
癌生物標志物(cancer biomarkers)是在血液、其他體液或組織當中發現的與臨床表型相關,能客觀反映癌病理過程、或治療效果的關鍵指標。根據具體應用,生物標志物主要有三種類型:預測型、預后型和診斷型。從類型上可分為遺傳、轉錄組、表觀遺傳學、蛋白質組學和代謝組學生物標志物。癌生物標志物的發現是開發新型癌療法的關鍵,也是精準醫療臨床實踐中的關鍵要素。新的生物標志物的測定,離不開對各組學數據進行挖掘。很多機器學習算法很早就成為了各類組學數據分析流的核心,如動態規劃、聚類算法、貝葉斯算法、主成分分析(principal component analysis,PCA)。近年來利用人工智能整合各組學數據發現新癌標志物也取得較大進展。如多組學圖形集成算法,該算法集成了癌患者樣本提取的DNA甲基化、基因表達水平、細胞內蛋白質的相互作用以及基因突變等數據。用這些數據訓練的深度學習模型可預測導致癌發展的模式和分子原理,從而發現165個新的癌基因[7]。DrBioRight是一種手機語言識別程序,醫師通過與其簡單對話就可以進行組學數據的分析和探索,大大降低數據分析的門檻,加速了生物標志物的發現[8]。同時,深度學習也在液體活檢領域取得突破。如用33 種不同類型癌的18 116 例腫瘤樣本的基因組圖譜訓練的機器學習模型,通過分析血液中微生物DNA類型就可以判斷受試者(包括早期癌患者)是否患有癌以及癌類型癌[9]。一種名為DELFI的機器學習算法通過LASSO logistic regression比較血液中循環的癌細胞脫落的 DNA 碎片(cell-free deoxyribonucleic acid,cfDNA) 片段的大小、數量以及在基因組區域的分布,準確區分肺癌患者和非肺癌患者,發現新的癌標志物[10]。
目前,癌臨床治療決策已有一些公用的指南規范。如美國國立綜合癌網絡(national comprehensive cancer network,NCCN)的癌治療指南(NCCN guildline),M.D.Anderson 中心的癌治療算法(cancer treatment algorithms)等,它們依據不同癌的類型和特點,設計了類似決策樹的流程,提供了一般性的癌診療的決策意見。雖然這些指南每年都在更新,內容也在不斷充實,但醫師當面臨復雜的臨床情況時,這類指南仍顯不足。開發應用AI模型,綜合各類大數據,輔助醫師進行預后的預測,選擇治療手段是AI醫學研究的熱點。如運用AI模型對癌患者各類臨床數據進行整合,預測卵巢癌患者對鉑基類藥物的應答[11],對肝癌患者術后生存情況進行預測,減少肝癌術后腫瘤復發率等[12]。雖然這些研究給出AI輔助臨床決策的范例,但其有效性和可靠性仍然需要進一步驗證。事實上,目前要實現可移植好、可靠性高、覆蓋面廣的癌個性化AI決策支持系統仍有一定困難。其中一個著名的例子就是2011年啟動的IBM的沃森腫瘤學(Watson for Oncology)項目,其目標是開發能對數十種癌進行個性化診療的專家系統。IBM與多家頂級癌中心合作,在花費了數年及數億美元后,該系統仍不能提供安全和準確的診療預測結果[13]。其主要的原因為目前癌臨床數據的完備性、可靠性和健壯性還相對較低,而大大制約了AI臨床決策系統的開發。
雖然AI的各類算法在藥物開發中早有應用,但直到2016年深度學習引入制藥行業后,AI對制藥行業的顛覆性潛力才逐漸被意識到。由于幾乎所有分子皆可用序列/類語言的形式精確表示,自然語言處理(natural language processing,NPL)技術中的RNN、transformer等便自然而然地遷移到制藥領域中來了。此外,化合物分子也可以圖的形式來表示(原子看作頂點,化學鍵當成邊),因此,把圖論和卷積論相結合圖卷積神經網絡也成為了一種分析藥物強大工具[14]。如2020年采用ANN技術開發的Alpha Fold2在蛋白質結構預測上獲得了驚人的進步,其蛋白質結構預測的能力已經達到了與實驗方法相媲美的程度。這不但說明AI技術完全有能力準確預測各類分子的結構,同時也意味著AI技術具備從頭設計分子和精確模擬藥物與靶標之間的相互作用的潛力[15]。以利用藥物數據庫為訓練集,訓練有向消息傳遞神經網絡模型(directed-message passing neural network),并用其對天然化合物數據庫中約1億種分子進行評分,最終發現了8種抗生素,其中2個具有廣譜抗菌效果。這一研究充分展示了AI(特別是神經網絡技術)加速藥物開發的潛力[16]。除了藥物開發,AI在優化癌治療用藥策略上也取得了顯著進步。如comboFM人工智能算法可以精確預測不同抗癌藥物的組合是否可以對癌細胞形成聯合殺傷作用,從而提出更好的解決耐藥性的策略,減少單個藥物的用藥劑量,減輕藥物對患者的毒副作用[17];以及一種名為“DrugCell”的可見神經網絡系統,該系統可為不同腫瘤的患者推薦最佳藥物組合,提供優化的聯合用藥方案[18]。
雖然AI在癌臨床診療領域的應用成果頗豐,但仍存在一些固有的問題急需解決。首先,幾乎在所有AI應用領域都存在數據缺乏,且質量不高的問題。這一方面是由于臨床數據所固有的分散性、異質性、低完備性和隱私性,其收集、分類、整合和標準化的難度非常之大;另一方面是由于臨床數據含有大量人工解讀結果。由于醫生的經驗差異、診療手段的變遷而包含隱性、無法矯正的數據偏差,其本身含有一定錯誤,這可能嚴重制約AI模型的預測的準確性,很難保證模型預測效果的可遷移性和可重復性。其次, 需要解決“黑盒”問題,即需要提高AI模型工作流程的透明度和預測結果的可解釋性。只有讓醫生了解預測結果背后的邏輯和證據,才能最終使AI被醫學界認可。另外,目前業界還沒有建立對AI模型進行客觀評價的標準,缺乏貫穿開發、測試、應用全流程的AI模型研發的平臺和機制,很多發表的AI模型只得到了非常有限的檢驗反饋。最后,對于希望回答復雜診療問題的人工智能寬應用,如何整合各類數據和模型,獲得可靠的預后預測結果,提出有效的個性化精準治療方案還有很長的路要走。
總體來看,醫學AI系統在癌診斷領域的應用已經取得了長足的進步,正在向更為復雜的癌預后和轉化領域滲透。AI輔助抗癌藥物的研發可能處于高速發展的前夜。多種癌新技術(如單細胞測序技術,免疫療法、液態活檢)為AI的應用提供新的研究數據和場景。一些新數據類型如衛星圖像數據[19]、互聯網搜索記錄[20]和可穿戴設備[21]也被引入到癌的群體風險預測和預防中,為AI在癌防控中的應用提出了新的探索方向。
為突破現有的數據限制,有研究者提出了一些倡議來簡化和統一數據收集過程以實現數據標準化[22]。2021年有人提出了一種名為Swarm Learning的臨床數據合作和共享模式。其基于標準化AI引擎、分布式機器學習和區塊鏈許可技術實現不同醫療機構之間醫療數據的去中心化整合。作為一個去中心化的學習系統,其有望取代目前跨機構醫學研究中的中心化數據共享模式,為每個參與者提供一個平等的參與環境,幫助相關人員在全球范圍內更容易獲得豐富的醫學經驗[23]。這些前瞻性研究為解決本領域關鍵挑戰提供新的解決方案(圖1)。

圖1 人工智能在癌診療中的關鍵挑戰及未來趨勢Fig 1 The key challenges and future directions of AI applications in cancer diagnosis and treatment
然而,由于限制因素在短期內無法得到根本性改善,在可預測的10~20年, 人工智能在癌診療中的應用將集中在有較為完備的數據,針對特定癌和具體的診療問題,并與臨床證據緊密聯系,因而能獲得較好的應用效果的窄任務。因此,謹慎選擇、并專注于一些窄任務,由數據科學家和醫學工作者建立研究聯盟,以突破訓練數據集的數量和質量的瓶頸,將是未來5~10年的主要研究模式。