溫硯中 韓樾夏 孫劍飛
生物醫學是綜合生命科學、生物學和醫學等多個領域的前沿交叉科學,致力于運用工程技術手段探索和解決生命科學與醫學相關問題,繼而推動人類生命健康的發展。在生物醫學研究中,科研工作者往往需要對復雜且多樣的生物醫學數據進行解讀和分析,從中提取有價值的信息以理解復雜的生物醫學問題,進而促進科學發現或推動臨床診療的進步。作為生物醫學領域的知識載體,這些數據或包含了大量疾病、藥物、蛋白質、基因等多層次的生物醫學關聯規律,或蘊含著助力科學探索的潛能,掌握這些信息對生物醫學相關研究向前發展至關重要。然而,隨著生物科學技術以及計算機技術的發展,大量的生物醫學數據快速產生并積累,如PB到EB級別的基因組學、蛋白質組學等生命科學組學數據,磁共振成像、CT成像等醫學影像數據,收錄超3600萬篇文獻的MEDLINE生物醫學文獻數據庫等,生物醫學進入了大數據時代。隨著生物醫學大數據的日益擴張,如何高效利用和挖掘這些多樣化數據以驅動臨床診療和科學實踐成為生物醫學研究的方向之一。
生物醫學研究致力于洞察生命科學規律,促進精準醫學發展。在推動臨床診療和科學發現的發展中,預測和分析通常扮演著重要的角色。科學家一方面需要通過知悉領域數據來預測前沿趨勢或錨定突破方向;另一方面需要采用高效的技術方法分析數據以支撐科學結論或決策。隨著生物醫學進入大數據時代,科學家對數據的高效利用愈發關鍵,故此可以將生物醫學研究發展面臨的問題歸為基于生物醫學大數據的高效預測和高效分析。
高效預測
預測可以理解為通過對已有的生物醫學大數據進行充分“查閱”并“歸納”,總結出當前尚未被發現或被關注的信息,如潛在的藥物靶點、潛在生物學信號通路、新型化合物結構等。預測重在基于現有的數據挖掘出新的有價值的科研線索。早在1986年,芝加哥大學教授斯旺森(Swanson)就曾基于生物醫學文獻數據預測出鎂元素缺乏和偏頭痛之間存在潛在關聯,進而提出假說并由實驗驗證。傳統的預測方法大多依賴于人工投入,科研人員需要先廣泛搜集目標數據,然后手動分析和總結數據中有價值的信息,最后歸納得出預測性結論。但當下是生物醫學大數據時代,傳統方法不僅會消耗科研人員大量的時間精力,而且難以適應迅速增長的數據量以及不斷涌現的復雜數據。因此需要更加高效的新方法來幫助預測任務的實現。

高效分析
分析通常指對生理信號、醫學圖像等具有表征意義的生物醫學數據進行特征識別,從而揭示數據所反映的一系列生物醫學現象。如臨床醫學中通過對肺部CT成像進行仔細觀察和分析來確定患者肺部健康與否,從而給出診斷結論。傳統的類似醫學圖像分析任務主要基于長期醫學或科研實踐中積累的專業經驗和經典案例,在實際分析中已經是成熟且可靠的方法。但隨著數據采集技術的不斷升級,傳統的人工分析方法在面臨大量的數據處理任務時可能遇到效率低下的困境。因此,自動化且高質量的分析方法顯得尤為必要,以期節省科研人員的時間精力,加速生物醫學研究進程。
近十多年以來,人工智能技術(a r t i f icial intelligence, AI)得到迅猛發展。在AI技術的加持下,計算機能夠高效處理和分析大量的生物醫學數據。通過機器學習、深度學習等人工智能技術,計算機可以自動學習和總結數據中蘊含的規律和知識,訓練出AI模型用于高效預測和分析工作,進而代替人工完成復雜任務或前瞻性預測,輔助臨床診療和科學實驗的推進。經過多年的沉淀,AI已經深入影響到生物醫學領域。從模型的角度看,AI模型經歷了機器學習(machine learning, ML),深度學習(deep learning, DL),預訓練模型(pretrained language model, PLM)和大模型(large language model, LLM)4個階段[1]。

機器學習
機器學習是實現人工智能的一種方法,主要基于統計學和計算機科學,可以通過構建數學模型和算法使計算機對大量生物醫學數據進行自動學習,不斷迭代訓練來優化其用于預測或決策的性能。由于傳統機器學習方法大多依賴于標注數據,因此根據數據是否被標注,機器學習可以分為有監督學習、無監督學習和半監督學習。
有監督學習是指使用有明確標簽的數據來訓練模型學習數據中的規律和模式。例如可以根據過往病人的飲食習慣、血糖、血脂等記錄以及是否患有糖尿病的標簽,訓練AI學會“根據病人記錄判斷其是否會發作糖尿病”。有監督學習的目標是讓計算機基于帶有標簽的輸入輸出對,學習一個從輸入到輸出的映射關系,使其能夠在未知數據中更好地進行預測或分類。常見的有監督學習算法包括決策樹、樸素貝葉斯、支持向量機等。
無監督學習主要針對未標注數據學習其潛在規律和模式。不同于有監督學習,無監督學習不需要依賴已知的數據標簽,而是通過算法來自行發現數據的內在結構和特征。例如在面對大量的基因數據時,可以使用無監督學習讓計算機自動將功能相似的基因聚集在一起,幫助科學家理解基因的生物學功能而無須對基因功能預先標注。因此,無監督學習的目標是學習數據內在的結構和模式,以適應對未知數據的判斷。常見的無監督學習算法包括聚類、主成分分析等。
半監督學習是有監督學習和無監督學習相結合的方法,旨在使用少量的標注數據和大量的未標注數據進行學習。其核心思想在于,首先使用小部分的標注數據基于有監督學習訓練模型學習輸入到輸出的映射關系,然后使用大量的未標注數據去調優模型,提高模型的泛化能力。半監督學習一定程度上避免了數據和資源的浪費,同時也解決了有監督學習下的模型泛化能力不強和無監督學習下的模型不精確等問題。常見的半監督學習算法包括轉導支持向量機、生成模型算法、自訓練算法等。
深度學習
深度學習是機器學習的一種技術,主要用到了人工神經網絡(artificial neural network, ANN)的新手段。傳統機器學習方法一般需要人工構造特征,而通過多層次的神經網絡模型,深度學習可以自動地從大量的數據中提取特征并學習隱藏在數據中的復雜模式,尤其可以節省人工構造生物醫學數據特征的過程。根據不同的方法和策略,深度學習包括單神經網絡、多任務學習、混合模型、遷移學習等多種模式。
單神經網絡模式是指在數據建模時僅使用一種神經網絡模型。常見的神經網絡包括卷積神經網絡(convolutional neural network, CNN)和循環神經網絡(recurrent neural network, RNN)。CNN主要由輸入層、嵌入層、卷積層、池化層、全連接層和輸出層等構件組成,其核心思想在于利用多層次卷積操作來處理數據。類似人腦在面對視覺信息時對不同特征的識別,卷積操作是層層遞進,由低向高的過程,最后實現對數據特征的提取,如識別圖像。CNN在生物醫學中常被用于醫學圖像分析處理,如圖像分類、目標檢測等。RNN更擅長處理序列型數據。在對序列數據建模時,RNN引入了隱藏狀態設置來建立前后數據之間的依賴關系,因而可以有效利用長距離之前的信息,達到“記憶”的效果。這使得RNN能夠隨著時間推移捕捉數據中的長期依賴關系,可用于處理生物醫學中的時序數據,如心電圖、腦電圖等,輔助疾病狀態的識別和預測。
多任務學習采用了歸納學習的思想。在面對某一任務可以分解為多項子任務的場景時,可以訓練模型同時適應多個子任務,模型在子任務之間通過“共享經驗”來整合學習成果,例如訓練AI自動從生物醫學文本中識別基因、蛋白質、疾病。首先在3個對應不同概念的數據集上訓練AI分別識別基因、蛋白質、疾病,通過在3個任務間共享特征來使模型達到“經驗共享”的效果,從而實現模型對3種概念的同時識別。通過共享特征的學習,多任務學習模式可以充分利用多個數據集,有助于提升模型的泛化能力并減少數據和計算資源的消耗。
混合模型是指對于同一任務使用多種模型共同參與,旨在充分利用不同模型對同一任務的不同優勢,從而構建性能更強的模型。如在基于醫學圖像的臨床診斷中,可以將深度學習和傳統機器學習模型相結合。首先基于CNN分析醫學圖像并提取特征,然后運用傳統的機器學習算法(如支持向量機)根據醫學圖像的特征進行疾病分類,實現自動診斷。
遷移學習是一種將一個領域或任務中學到的知識或模式應用在另一個相關領域以解決目標問題的方法[2]。其核心思想在于模型學習到的特征或模式具有泛用性,可以跨任務或跨領域使用。遷移學習通常需要在源域數據中(如大量的生物醫學文本)對模型進行預訓練,然后將其轉移至目標任務場景(如生物醫學關系抽取任務)進行微調。微調旨在使用小場景中的少量數據更新源模型的參數,使其更好地適應目標任務。在復雜的生物醫學研究中,遷移學習的使用可以極大地節省研究人員從頭至尾訓練新模型的時間精力。
預訓練模型與大模型
預訓練模型是遷移學習應用的經典代表,也是更為高效的解決方案。預訓練模型是指在大規模未被標記的數據上進行訓練的語言模型。預訓練過程中,模型能夠自動學習數據中的上下文信息、結構特征以及豐富的知識表示。通過將預訓練中捕獲的知識儲存在巨大的參數中,針對特定任務場景進行微調,這些被儲存的知識可以使各種下游任務受益。當下生物醫學領域較為流行的預訓練模型包括BioBERT、MedBERT、BioGPT、PubMedGPT等。生物醫學預訓練模型能夠使計算機更好地理解生物醫學文本,在將文本映射為向量表示的同時能夠保留其生物醫學語義,為生物醫學領域的命名實體識別、關系抽取等自然語言處理任務提供了有力的基礎。
預訓練模型的使用極大地減少了對特定任務的訓練數據需求。對于特定任務,使用相對較少的標注數據對預訓練模型進行微調即可使模型適應具體任務,一定程度上也緩解了生物醫學領域標記數據缺失問題,減少了數據構建成本。
大模型則是“知識儲備”更大的預訓練模型。與傳統預訓練模型相比,大模型使用的訓練數據更多、訓練方法更優,模型的參數量更大,可處理的任務更加復雜。2023年,以ChatGPT為代表的人工智能大語言模型(large language model, LLM)在各行各業的測試中取得了全新的突破,展現出了大模型作為新一代人工智能載體的潛力。
大模型最先在內容生成和對話方面表現出潛力。如ChatGPT這樣的大模型其訓練數據涵蓋了多個領域,幾乎可以回答或解決各種常規問題。在經過龐大且豐富的數據預訓練后,大模型具備了強大的自然語言理解能力和學習能力,能夠以對話的形式按照給定指令執行任務。如輸入一段文本讓其提取生物醫學關系。由于訓練語料的開放性,大模型幾乎可以執行各種任務,但對于專業性極強的領域(如生物醫學),通用大模型可能效果不足。為了應對生物醫學領域的任務(如生物醫學數據自動標注),一方面可以通過提示工程的手段,向大模型提示若干生物醫學數據標注示例(如從一段生物醫學文本中識別疾病、基因等實體),讓大模型領會生物醫學數據標注的“任務要領”,以此來適應目標任務,完成大模型的領域遷移應用;另一方面可以基于生物醫學領域的語料數據訓練一個生物醫學大模型來適應領域任務,如基于生物醫學文獻訓練的大模型PMC-LLaMA[3]。前者可以通過設計優質的提示來提升模型表現,后者一般需要投入較大成本才能實現,對數據質量和硬件都有一定的要求。
大模型背后豐富的訓練數據使其具有龐大的“知識儲備”。但大模型在回答問題時,答案很大程度上取決于訓練所使用的數據。對于訓練數據之外的問題,模型雖然能夠根據“已經掌握的知識”給出答案,但答案可能并不可靠。因此,在面對快速更新的生物醫學問題時,大模型需要被“投喂”新生物醫學知識。微調便是一種向模型補充新知識的方法,但大模型參數量巨大,微調成本一般較高。

大模型的又一優勢在于能根據給定的上下文信息進行學習,并結合問題生成相應的解釋,因此可以通過引入外部知識作為新知識補充。可實時更新的外部知識庫(如生物醫學文獻數據庫等)可以用作上下文相關信息來優化模型表現。這種方式下,大模型首先會根據問題特點在知識庫中進行相關知識檢索,通過對相關知識和目標問題進行分析,從而生成更好的回答[4]。故此,大模型結合外部知識庫的模式在應對知識更新較快的生物醫學場景時具有極大的潛能。
不斷迭代發展的AI展現出了強大的自動學習和推理能力。對于學科復雜的生物醫學領域,AI的應用極大地減輕了科學家處理海量生物醫學數據的負擔,越來越多的研究團隊基于AI技術對數據進行分析利用,如較為成熟的組學數據分析、醫學圖像分析、文獻挖掘等。
AI應用于組學數據分析
隨著高通量基因測序技術的不斷進步,基因測序產生的大量組學數據需要分析。組學數據分析對疾病分類、藥物作用預測、基因表達過程預測等研究突破至關重要。AI技術的應用為高效的組學數據分析提供了有力支撐。
在AI技術的幫助下,科學家可以根據基因轉錄組學數據推斷藥物-靶標之間的相互作用。研究者整理了藥物相關的基因表達數據庫,基于含有2000個組成單元的DNN模型進行訓練,并對數據進行了約200倍的降維。經過訓練后的DNN模型能夠識別出患者樣本間的差異,進而預測藥物-靶標的作用差異,展現了AI在基于基因組數據預測藥物靶標作用中的潛力[5]。
除了基因組數據,蛋白質功能和結構也是科學家關注的方向之一,基于蛋白質序列預測蛋白質功能和結構對推動生物學發展具有關鍵意義。在此背景下,DeepMind基于大規模蛋白質序列和結構數據訓練了蛋白質結構預測模型AlphaFold2。在無參照結構的情況下,AlphaFold2模型能夠準確預測蛋白質結構,并在第14次蛋白質結構預測關鍵評估(CASP14)中取得了優異的成績。
AI應用于生物醫學文獻挖掘
生物醫學文獻挖掘旨在基于海量文獻獲取有用信息指導科學研究。現今可以通過AI技術從海量生物醫學文獻中自動識別、提取潛在的科研線索來輔助科研實踐,如經典的潛在藥物發現研究等。
藥物發現旨在識別潛在的治療疾病的新藥物。SemaTyP是一項基于知識圖譜和機器學習方法發現候選藥物的工作[6]。該工作首先使用關系抽取工具從生物醫學文獻中提取生物醫學關系三元組構建知識圖譜(SemKG),通過對知識圖譜中“藥物—靶點—疾病”的路徑信息進行建模,訓練AI模型預測藥物、靶點、疾病之間的關系。結果表明,SemaTyP成功預測出了疾病對應的潛在藥物和相應靶點。已知睪酮和ap22408可用于治療骨質疏松癥,而在SemaTyP的預測結果中,這兩種藥物分別位列第一和第三。此外,SemaTyP還預測出了尚未發現的藥物靶點,例如阿司匹林可能通過作用于淋巴細胞來治療心血管疾病;特立蘭卡可能通過作用于肌動蛋白來治療心律失常等,預測結論均對后續藥物靶點研究具有啟發意義。
AI應用于醫學圖像分析
組學數據分析和文獻挖掘分析對生物醫學科學研究具有指導意義。而在臨床醫學中,醫學圖像則是臨床診斷和疾病治療的重要依據,同時醫學圖像分析也是AI在生物醫學領域的重要應用之一。常見的醫學圖像包括X射線、磁共振成像、超聲成像等,這些圖像直觀地反映了人體內部結構、組織和病理變化狀態等。AI技術的應用促進了對醫學圖像的自動分析,極大地提高了診斷效率。
以黃斑為中心的視網膜眼底圖像可用于篩查潛在的威脅視力的疾病,包括糖尿病視網膜病變和青光眼等。為了輔助臨床自動篩選異常的眼底視網膜圖像,研究者基于深度學習技術開發了AI模型。通過對10萬多張圖像超30萬個讀數和外部數據集的出血、硬性滲出物、黃斑裂孔等12個指標進行測試,并與眼科專業的檢查結果進行對比,AI模型成功實現了對黃斑中心視網膜眼底圖像的準確分類,推動了臨床視網膜眼底圖像的自動篩查應用[7]。
除了自動分析醫學圖像輔助診斷,為了應對精準醫療的需求,AI還可基于影像信息預測疾病可能病程、指導診療過程。研究人員基于14 036張手部X光影像,使用深度學習技術開發了一個手部X光片骨齡預測模型[8]。在200例測試集樣本中,該AI模型的預測結果與放射科專家預測結果平均差值為0歲,平均絕對誤差為0.50歲,均方根差為0.63歲,表現出了在預測骨齡應用中與專家水平相當的性能。
當前,新一代人工智能技術,特別是以大模型為核心的新方法,正在以更加智能的方式推進生物醫學研究。這些技術在自動診斷、醫學問答、藥物研發等領域展現出巨大潛力。然而,AI技術的應用不僅為生物醫學研究帶來機遇,同時也引入了新的挑戰。
從數據角度看,AI技術在處理和分析海量數據方面具有優勢,而AI的成功應用往往依賴于高質量數據。在生物醫學領域,數據具有專業性強、多樣且復雜的特點。因此,高質量數據的獲取需要多方努力。在數據收集方面,應研發或升級數據采集工具以提高數據的可靠性;在數據標注方面,需加強標注人員的專業知識培訓和標注工具的精準度;對于多源數據整合,需要持續開發有效的整合和標準化策略,以提升AI性能。
AI模型的可解釋性對生物醫學決策至關重要。雖然先進的AI算法在處理生物醫學問題中展現出高準確性和強預測能力,但其黑盒運作機制使AI模型在解釋方面存在不足。未來,通過增強AI模型決策過程的可視化,可以幫助科研人員理解和信任AI;AI研究人員和生物醫學科學家還可通過雙向深入參與,以確保AI技術與科學應用的緊密耦合。此外,研發更加透明和可解釋的AI模型,以進一步增強AI的可信度也尤為必要。目前,可解釋AI的相關研究正逐漸開展,隨著研究的不斷深入,生物醫學領域的AI可解釋時代終會到來。
[1]羅錦釗, 孫玉龍, 錢增志, 等. 人工智能大模型綜述及展望. 無線電工程, 2023, 53(11): 2461-2472.
[2]Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.
[3]Wu C, Zhang X, Zhang Y, et al. Pmc-llama: further finetuning llama on medical papers. arXiv preprint arXiv: 2304. 2023, 14454.
[4]Gao Y, Xiong Y, Gao X, et al. Retrieval-augmented generation for large language models: A Survey. arXiv preprint arXiv: 2312. 2023, 10997.
[5]Xie L, He S, Song X, et al. Deep learning-based transcriptome data classification for drug-target interaction prediction. BMC Genomics. 2018, 19: 93-102.
[6]Sang S, Yang Z, Wang L, et al. SemaTyP: a knowledge graph based literature mining method for drug discovery. BMC Bioinformatics, 2018, 19: 1-11.
[7]Son J, Shin J Y, Kim H D, et al. Development and validation of deep learning models for screening multiple abnormal findings in retinal fundus images. Ophthalmology, 2020, 127(1): 85-94.
[8]Larson D B, Chen M C, Lungren M P, et al. Performance of a deeplearning neural network model in assessing skeletal maturity on pediatric hand radiographs. Radiology, 2018, 287(1): 313-322.
關鍵詞:人工智能 生物醫學大數據 自動分析 預測 ■