邱 越,邢 卓,孫筱松,何宇騰
(中南大學(xué)湘雅醫(yī)學(xué)院,湖南 長(zhǎng)沙 410012)
近年來(lái),對(duì)基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組和脂質(zhì)組的大規(guī)模研究積累了大量數(shù)據(jù),使在分子水平上研究疾病成為可能。多組學(xué)數(shù)據(jù)分析旨在結(jié)合多個(gè)組學(xué)數(shù)據(jù)進(jìn)行分析,以確定生物過(guò)程的機(jī)制。多組學(xué)數(shù)據(jù)的綜合分析可以幫助科學(xué)家了解基因調(diào)控的條件或患者特異性機(jī)制。在這篇綜述中,我們討論了將各種類(lèi)型的組學(xué)數(shù)據(jù)組合在一起并使用各種機(jī)器學(xué)習(xí)模型進(jìn)行分析的挑戰(zhàn)、方法及其應(yīng)用。
多組學(xué)通過(guò)跨越不同的組織層(例如,來(lái)自DNA、RNA、蛋白質(zhì)、代謝物等)來(lái)識(shí)別與生物過(guò)程相關(guān)的分子標(biāo)記。多組學(xué)數(shù)據(jù)分析面臨數(shù)據(jù)降維、數(shù)據(jù)異質(zhì)性與整合的挑戰(zhàn)。
在多組學(xué)數(shù)據(jù)的綜合分析中,經(jīng)常會(huì)遇到樣本數(shù)量少,但要研究的變量數(shù)量多,造成樣本數(shù)量不足以獲得統(tǒng)計(jì)顯著結(jié)果的情況。例如,在根據(jù)DNA甲基化、miRNA表達(dá)和基因表達(dá)測(cè)量(變量)對(duì)卵巢癌患者(樣本)進(jìn)行分層時(shí),變量的數(shù)量可能大大高于樣本的數(shù)量(只有幾百個(gè)患者,但有數(shù)千個(gè)變量),出現(xiàn)了維度問(wèn)題。維度問(wèn)題會(huì)使大多數(shù)機(jī)器學(xué)習(xí)方法容易過(guò)擬合,即在訓(xùn)練數(shù)據(jù)上非常準(zhǔn)確而對(duì)測(cè)試數(shù)據(jù)的泛化能力較差。通過(guò)降低數(shù)據(jù)的維度并保持相同數(shù)量的樣本,可以應(yīng)用統(tǒng)計(jì)技術(shù)和機(jī)器學(xué)習(xí)來(lái)提取有用的信息。特征提取或特征選擇是常用的數(shù)據(jù)降維方法。特征提取將數(shù)據(jù)從高維空間投影到低維空間,而特征選擇通過(guò)僅識(shí)別原始特征的相關(guān)子集來(lái)降低維數(shù)。
對(duì)于多組學(xué)數(shù)據(jù)分析,數(shù)據(jù)異質(zhì)性是另一個(gè)挑戰(zhàn),因?yàn)檫@些數(shù)據(jù)是由不同的技術(shù)(如測(cè)序與MS、微陣列與MS)和平臺(tái)(如靶向與非靶向、高分辨率與單細(xì)胞)。組學(xué)數(shù)據(jù)以多種形式存在,包括序列(如RNA-Seq、轉(zhuǎn)座酶可接近的染色質(zhì)測(cè)序)、圖表(如代謝途徑、調(diào)控網(wǎng)絡(luò))、幾何信息(如結(jié)合位點(diǎn)、蛋白質(zhì)折疊)和空間成分(如細(xì)胞室)。生物變量可以連續(xù)或離散地測(cè)量或分類(lèi)[1]。ROHART等人[2]開(kāi)發(fā)了一個(gè)名為MixOmics的程序,用于數(shù)據(jù)探索、縮小和可視化多組學(xué)數(shù)據(jù)。然而,由于這些數(shù)據(jù)的異質(zhì)性和多態(tài)性,將這些不同的數(shù)據(jù)類(lèi)型整合到一個(gè)單一的預(yù)測(cè)模型中是一項(xiàng)挑戰(zhàn)。
機(jī)器學(xué)習(xí)是人工智能的主要領(lǐng)域之一,它是一種算法框架,可提供對(duì)數(shù)據(jù)的智能處理,同時(shí)促進(jìn)推理并提供確定函數(shù)關(guān)系的初始設(shè)置。機(jī)器學(xué)習(xí)的主要優(yōu)勢(shì)是無(wú)需人工干預(yù)即可學(xué)習(xí)和制定算法的能力。此外,機(jī)器學(xué)習(xí)的準(zhǔn)確性隨著訓(xùn)練數(shù)據(jù)的增加而增加。在機(jī)器學(xué)習(xí)的數(shù)據(jù)分析過(guò)程中,首先需要選擇對(duì)預(yù)測(cè)輸出貢獻(xiàn)最大的特征變量;其次,通過(guò)機(jī)器學(xué)習(xí)的不同方法對(duì)選定的特征進(jìn)行分析,整合所有特征形成預(yù)測(cè)模型。
機(jī)器學(xué)習(xí)在多組學(xué)數(shù)據(jù)分析中的主要應(yīng)用有以下四個(gè)部分:①患者分層以發(fā)現(xiàn)人類(lèi)疾病的各種亞型并發(fā)現(xiàn)不同的治療/預(yù)后結(jié)果;②通過(guò)生物標(biāo)志物發(fā)現(xiàn),研究各種疾病狀態(tài)下組學(xué)特征的檢測(cè);③通過(guò)通路分析,發(fā)現(xiàn)各組之間的關(guān)系,例如基因或蛋白質(zhì)在正常和疾病狀態(tài)下的各自狀態(tài);④通過(guò)藥物再利用和發(fā)現(xiàn),以確定新藥或原來(lái)為其他疾病開(kāi)發(fā)的現(xiàn)有有效藥物用于其他疾病研究的療效。
基于機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)分析允許將患者分類(lèi)為疾病的各種亞型。LIST等人[3]結(jié)合甲基化和基因表達(dá)數(shù)據(jù)構(gòu)建分類(lèi)模型,對(duì)乳腺癌亞型進(jìn)行分類(lèi),并將其與基于金標(biāo)準(zhǔn)PAM50的模型進(jìn)行比較。TAKAHASHI等人[4]開(kāi)發(fā)了一種使用多組學(xué)數(shù)據(jù)準(zhǔn)確預(yù)測(cè)肺癌患者生存率的新方法,他們通過(guò)無(wú)監(jiān)督學(xué)習(xí)技術(shù),使用來(lái)自癌癥基因組圖譜(TCGA)的六類(lèi)多組學(xué)數(shù)據(jù)集,探索了多組學(xué)分析在準(zhǔn)確預(yù)測(cè)各種亞型肺癌患者預(yù)后方面的新潛力。
通過(guò)基于機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)分析可以發(fā)現(xiàn)新的生物標(biāo)志物。FORTINO等人[5]使用綜合轉(zhuǎn)錄組學(xué)分析和通過(guò)機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)共89個(gè)生物標(biāo)志物,破譯了疾病相關(guān)的特征基因。XU等人[6]系統(tǒng)地描述了一種通過(guò)常用機(jī)器學(xué)習(xí)方法從蛋白質(zhì)組學(xué)數(shù)據(jù)中發(fā)現(xiàn)蛋白質(zhì)生物標(biāo)志物的策略。
為了通過(guò)基于機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)分析發(fā)現(xiàn)個(gè)體組學(xué)之間的關(guān)系,F(xiàn)RIDLEY等人[7]提出了一種整合模型,將通路分析和隨機(jī)搜索變量選擇結(jié)合到貝葉斯分層模型中,該模型同時(shí)識(shí)別對(duì)表型的直接和間接基因組影響。
通過(guò)基于機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)分析,OH等人[8]提出目前的藥物基因組學(xué)數(shù)據(jù)分析可以向兩個(gè)方向擴(kuò)展,以拓寬對(duì)藥物反應(yīng)的理解。第一個(gè)方向是進(jìn)行通路水平分析,很難在個(gè)體基因水平上分析藥物反應(yīng)的生物學(xué)變異性,難以解釋和解釋基因-藥物關(guān)聯(lián)。因此,藥物基因組學(xué)研究的重點(diǎn)正在轉(zhuǎn)變?yōu)樵谏锿緩剿缴涎芯慷喾N基因產(chǎn)物。第二個(gè)方向是進(jìn)行多組學(xué)水平的分析,XU等人[9]通過(guò)整合多種遺傳和表觀遺傳(基因表達(dá)、拷貝數(shù)變異和DNA甲基化)改變的組合效應(yīng),確定了個(gè)體抗癌藥物反應(yīng)的亞途徑特征。多組學(xué)數(shù)據(jù)整合分析有助于開(kāi)展精準(zhǔn)醫(yī)學(xué)研究,揭示復(fù)雜的生物學(xué)機(jī)制。
多組學(xué)數(shù)據(jù)是使用多個(gè)平臺(tái)生成的數(shù)據(jù),因此在數(shù)據(jù)存儲(chǔ)和格式上存在顯著差異,并且大多數(shù)多組學(xué)集成和分析工具要求數(shù)據(jù)為特定格式,因此需要對(duì)個(gè)體組學(xué)數(shù)據(jù)進(jìn)行預(yù)處理。由于大多數(shù)多組學(xué)數(shù)據(jù)分析的集成方法計(jì)算量大,并且受到維數(shù)災(zāi)難的影響,因此需要減少輸入數(shù)據(jù)集的大小。然而,由于缺乏通用標(biāo)準(zhǔn),決定適當(dāng)?shù)倪^(guò)濾標(biāo)準(zhǔn)具有挑戰(zhàn)性。隨著高通量測(cè)序技術(shù)的進(jìn)步和多種組學(xué)數(shù)據(jù)的出現(xiàn),收集各種組學(xué)數(shù)據(jù)變得越來(lái)越具有成本效益,并將變得越來(lái)越有用。在本文中,概述了機(jī)器學(xué)習(xí)模型、相關(guān)工具和基于機(jī)器學(xué)習(xí)的人類(lèi)相關(guān)疾病多組學(xué)數(shù)據(jù)分析的最新成果,并強(qiáng)調(diào)了當(dāng)前的挑戰(zhàn)和成就,基于機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)分析在疾病中的應(yīng)用。