編譯 陸默

機器學習可以對癌癥照片、腫瘤病理切片和基因組進行分析。如今,科學家正準備將這些信息整合到癌癥超級模型中。
每個癌癥患者都在思考的一個問題是:我還能活多久?基因組學家邁克爾·斯奈德(Michael Snyder)希望他能找到答案。
目前,所有醫生能做的就是將患有類似癌癥的患者分組,然后對他們和其他組患者的相同藥物反應或預后進行評估,但目前的分組方法粗略而不完善,而且往往都只是基于人工收集的數據。
斯坦福大學基因組學和個體化醫學中心主任斯奈德指出:“病理學家根據解讀圖像的結果來診斷病情的準確率通常只有60%。”2013年,他和當時的研究生余坤興(Kun-Hsing Yu,音譯)開始琢磨,人工智能是否能夠為醫生提供更準確的預測。
余將組織學圖像連同病理學家確定的診斷一起輸入機器學習算法,訓練它區分肺癌和正常組織,以及兩種不同類型肺癌之間的區別。然后輸入相關患者的生存數據,讓系統了解這些信息與圖像之間的關系。最后,他在模型中補充了一些新的病理切片資料,并向AI提出了一個至關重要的問題:患者的存活時間。
計算機可以預測患者的生存期高于或低于某些特定癌癥的平均存活時間,這是病理學家很難做到的。計算機預測“效果出奇的好。”如今任哈佛醫學院講師的余說道。
但是斯奈德和余認為他們還可以做更多的事。斯奈德的實驗室也在研究生物組學,所以他們決定向計算機提供的學習資料不僅只有組織病理切片資料,還提供了腫瘤轉錄組資料。結合這些數據,該計算機模型對患者生存做出的預測甚至比單獨使用圖像或轉錄組資料更好,準確率超過了80%。如今的病理學家通常根據組織顯微照片的視覺評估來進行生存情況預測,通過顯微照片對腫瘤進行評估分級,包括腫瘤的大小和嚴重程度,以及腫瘤進一步生長和擴散的可能性。但這種腫瘤分級方法并不總能準確預測生存情況。
斯奈德和余并不是唯一認識到人工智能在分析癌癥相關數據集(包括圖像、生物組學以及兩者結合的數據集)方面威力的研究人員。盡管這些方法進入臨床前還有很長的路要走,但快速做出準確診斷,預測哪些治療方法對哪些患者最有效,甚至更準確地預測生存情況,人工智能顯然在這些方面做得更好。
倫敦癌癥研究所的計算生物學家安德里亞·索托里瓦(Andrea Sottoriva)表示,目前其中一些應用仍然還處于“科幻小說”的階段,索托里瓦正在用人工智能預測癌癥的演變以及選擇合適藥物治療特定腫瘤方面的研究。
在癌癥發展到一定程度之前,發現和治療癌癥是提高患者生存的關鍵。例如,早期發現宮頸癌可使患者生存5年的情況超過90%,醫生可以采取冷凍或切除位子宮頸轉化區頂端4毫米處癌前細胞等治療手段。然而一旦癌癥轉移,5年存活率就會下降到56%甚至更低。
癌癥早期治療在發達國家是很常見的做法,那里的婦女定期接受巴氏涂片檢查宮頸細胞異常,并檢測導致癌癥的人類乳頭瘤病毒。但發展中國家卻很少見這樣的癌癥篩選法。美國國家癌癥研究所流行病學家馬克·希夫曼(Mark Schiffman)指出一種更便宜的測試方法,即醫護人員在女性子宮頸上涂上醋酸,以尋找可能表明癌癥的白色區域,但“這種方法非常不準確”,結果導致一些健康女性被誤診為癌癥而接受治療,而另一些人的癌前細胞卻可能漏檢,導致癌癥發展后需要采取更激進的治療方法,如化療、放療或子宮切除術。
希夫曼和其他研究小組一直在嘗試尋找某種途徑,以讓醋酸篩選的結果更加準確,例如,利用白光以外的其他光譜成像,希夫曼的團隊從美國和哥斯達黎加的不同來源收集了數千張宮頸照片,其中包括醫療專業人員用陰道鏡或手機拍攝的照片。但是他已經準備放棄這種嘗試了。“我們無法讓它像其他測試方法那樣靈敏、準確或重現真實情況。”
2017年底,比爾和梅林達·蓋茨基金會旗下的非營利組織全球友好(Global Good)組織也開始用希夫曼收集的圖像嘗試機器學習,他們想知道,在醫生無法提供確切診斷的情況下,計算機是否能夠進行準確預測。
希夫曼與Global Good和其他合作者一起,利用一種叫作卷積神經網絡的機器學習方法來分析宮頸圖像。算法目標是識別圖像中的一些特征,例如,并排像素的相似度或差異度,以得出準確診斷。一開始,機器的準確性并不比巧合好多少。在分析了越來越多的圖像后,機器會對這些圖像的相似或差異特征進行權衡,以幫助尋找最佳答案。“這是一個反復權衡的過程,直到它盡可能地接近答案。”希夫曼解釋說道。
研究小組從哥斯達黎加9 000多名婦女的宮頸圖像開始的這項研究歷時7年多時間。希夫曼還從這些婦女更準確的篩查測試結果中,以及18年來有關癌癥前期或癌癥診斷的跟蹤隨訪的信息中收集了大量數據。研究人員使用了其中70%的完整數據集來訓練模型,然后用剩下30%的圖像數據測試機器性能。機器學習預測在區分健康組織、癌癥前期和癌癥之間區別的出色表現令希夫曼難以置信,機器學習預測的準確率達到了91%,相比之下,人類視覺檢查的準確率僅為69%。希夫曼說:“我所知道的任何方法都做不到這樣的精確度。”之前他認為機器也難免會出差錯。
有了擅長識別癌癥前期和癌癥的人工智能新工具,希夫曼希望開發低成本的宮頸癌篩查測試技術,將手機式相機與基于機器的圖像分析結合起來。首先,他要利用世界各地數以萬計的手機子宮頸圖像來訓練其算法。
希夫曼并不是唯一關注智能手機進行癌癥診斷的人。皮膚損傷可能會癌變,也可能是良性的,因為它就在表面,任何人都可以給它拍照。斯坦福大學的研究人員建立了一個包含近13萬張皮膚病變照片的數據庫,并利用它來訓練卷積神經網絡,區分良性腫塊和三種不同惡性病變之間的區別。機器學習的診斷準確率通常至少可達到91%,機器算法的表現明顯優于對同批照片進行評估的21名皮膚科醫生的診斷結果。
建立癌癥預測模型的主要挑戰是要獲取足夠多高質量的數據。斯坦福大學的研究小組在整理從斯坦福醫學院獲得和從網上收集到的皮膚癌圖片時發現,這些圖片的拍攝角度、縮放比例和光線明暗參差不齊,研究人員還必須將圖片標簽翻譯成各種語言,然后與皮膚科醫生合作,將這些皮膚病變分為2 000多個不同種類。
當然,大多數癌癥診斷需要的不僅僅是智能手機攝像頭,觀察腫瘤中單個細胞還需要用到顯微鏡。余說,科學家希望盡可能多地收集到有關某個患者的臨床治療和治療效果的相關信息,以及基因組等分子數據,但這很難獲得。“我們很少能找到這樣的一個病人,他擁有我們所想要的所有數據。”
正如斯奈德和余所發現的那樣,結合組學數據可提供關于某種特定癌癥所涉及的分子通路的信息,有助于識別癌癥類型、生存率或治療效果的可能反應。在最初基于圖像的研究中,研究人員手中有2 186張肺組織切片圖片,來自人類病理學家對疾病的分類,以及患者存活時間數據。研究人員使用計算機算法從這些圖像中提取了近10 000個特征,比如細胞形狀或大小,他們用這些特征訓練了幾種機器學習算法。
一種很有效的方法叫做“隨機森林”,它可以生成數百種決策樹,然后這些“決策樹”對答案進行投票,根據票數多少做出決策,多者勝出。該算法在區分健康組織和兩種癌癥類型方面的準確率超過75%,而且在預測存活率方面比單純基于癌癥分期的模型更準確。“這已經超出了目前病理學診斷的水平,”余說。
在后續研究中,研究人員運行經過訓練的圖像分析算法系統,對538名肺癌患者的組織病理學切片資料進行分析,然后又輸入了這些患者的轉錄組和蛋白質組數據,要求“隨機森林”對患者進行癌癥分級。15個基因的表達水平預測癌癥分級的準確率為80%,這些基因參與了DNA復制、細胞周期性調控和p53信號傳遞等過程,眾所周知,這些過程在癌癥生物學中扮演了重要角色。研究小組還確定了15種與細胞發育和癌癥信號有關的蛋白質(并非由15個基因編碼的蛋白質),其預測癌癥分級的準確率為81%。雖然研究人員沒有將這一結果與人類醫生的診斷進行比較,但一項病理學研究發現,79%的肺腺癌診斷結果與人類醫生的診斷結果是一致的,表明機器和人類的診斷結果一樣準確,但機器更強大,它們將目標瞄準了促進癌癥發展的特定基因表達因子。
最后,研究人員要求計算機根據基因表達、癌癥分級和患者年齡來預測生存率。有了所有這些數據,該模型的
鏈 接
人工智能診斷癌癥
科學家一直在使用圖像(圖像包括照片或病理切片)和生物組學這兩種主要形式的臨床數據來預測癌癥的結果。將越來越復雜的機器學習方法應用于這些數據集,可以得到準確的診斷和預后,甚至可以推斷腫瘤的進化,如今科學家發現可以通過圖像預測組學數據。通過這兩個數據源的結合,研究人員可以更好地預測癌癥患者的生存期。基礎生物學實驗室里目前正在開發的算法,最終能夠幫助醫生更好地選擇治療方案和預測患者生存期。準確率達80%以上,能夠將患者正確分為長期生存者和短期生存者,勝過人類病理學家、單獨使用轉錄物組或圖像技術。

受斯奈德和余的研究成果啟發,紐約大學醫學院的亞里士多德·齊里戈斯(Aristotelis Tsirigos)和他的同事將1 634張健康或癌變肺組織的病理切片圖像資料與遺傳學聯系起來。僅憑這些圖像資料,他們設計開發的卷積神經網絡就能將腺癌與鱗狀細胞癌區分,準確率約為97%。然后,研究小組將10個最常見肺腺癌突變基因的算法數據輸入計算機,計算機學會了從病理切片中預測其中6個突變的存在,準確率從73%到86%不等。“測試效果非常好,作為最初成果,這還是非常令人興奮的。”索托里瓦說道,雖然他沒有參加這項研究。
當然,醫生和科學家不需要通過成像來識別突變,其他一些測試方法更直接、更準確,基因測序可提供近乎完美的癌癥基因組讀數。齊里戈斯解釋說,這項研究旨在證明基因和圖像特征之間的關系是可以預測的。現在,他正在努力結合組織病理學和分子信息來預測患者的預后,正如余和斯奈德的團隊所做的那樣。齊里戈斯說,只要輸入正確的數據,這些方法應該適用于任何癌癥類型。
即使沒有圖像資料,組學數據本身也很有用。例如,索托里瓦和他的同事正在利用基因組學來了解腫瘤的進化。一個腫瘤通常由多個細胞系組成,這些細胞系都來自于同一個原始癌細胞。為有效治療癌癥,理解這種異質性和腫瘤進化的方式是很重要的。如果只對腫瘤的一部分進行局部治療,癌癥還會復發。“這是一個生死攸關的問題。”愛丁堡大學計算機科學家、腫瘤進化研究合作者吉多·桑吉內蒂(Guido Sanguinetti)說道。
通過對單個腫瘤的多個部分進行采樣,研究人員可以推斷出癌癥的進化路徑,這類似于對現代人類基因組進行采樣以追溯種群起源的做法。來自不同患者的腫瘤,即使是同一種癌癥,其進化樹也往往大相徑庭。桑吉內蒂、索托里瓦和他的同事認為,如果能夠找到癌癥傾向于遵循的共同途徑,腫瘤學家就可以利用這些信息對可能有類似疾病發展過程或對藥物有類似反應的患者進行分類。
為找到共同的進化樹,研究人員使用了一種叫作轉移學習的機器學習形式。桑吉內蒂解釋說,該算法同時觀察患者基因組中的所有進化樹,尋找它們之間的共享信息,以找到適合整個患者群體的解決方案。他們將這一機器學習工具稱為REVOLVER,意思是“癌癥的反復進化”。在最初測試中,他們發明虛構腫瘤進化樹,將基于虛構腫瘤進化樹的REVOLVER基因組數據輸入到機器,然后它真的“吐出”了與虛構腫瘤進化相匹配的種系進化樹。

為了驗證該工具對常見癌癥進化的預測,研究人員將目標轉向結直腸癌的惡性轉化,當已知驅動基因的良性腺瘤積累突變時就會發生這種惡性轉化。研究人員輸入了9個良性腺瘤和10個惡性腫瘤的基因組REVOLVER,結果是:該模型繪制了匹配良性腺瘤向惡性腫瘤轉化的進化樹。
然后,研究小組對腫瘤樣本進行了分析,這些樣本的進化過程尚不明確。在99名非小細胞肺癌患者的基因組中,REVOLVER根據腫瘤累積的突變序列確定了10名患者的潛在癌細胞集群。其中一些癌細胞集群的生存時間不足150天,而另一些則生存了更長時間。同樣,REVOLVER在50個乳腺癌腫瘤中發現了6個癌細胞集群,每個集群之間的生存時間有長有短,索托里瓦說:“之前我們都沒想到能發現這樣的癌細胞集群,這些結果告訴我們,癌癥的進化是可以預測的。”
索托里瓦說,藥物治療可建立在這些可預測模式上。人工智能是強大的工具,可以幫助識別與臨床有關的模式。此外,通過從模型的輸入中選擇剔除特定數據片段,并觀察其準確性是否會有所下降,生物信息學家可以弄清楚計算機是根據哪些特征來區分癌癥類型的,索托里瓦說道。
就目前來說,人工智能在癌癥研究中的應用僅僅是開始。未來的算法可能不僅包括組學和圖像,還包括治療結果、治療進展以及科學家可以得到的任何其他數據。
“歸根結底,處理像癌癥這樣的復雜疾病時,我們需要完整的信息。”斯奈德說。