關(guān)于GSEA在全基因組表達譜芯片數(shù)據(jù)分析中的應用探討

2020-05-08 09:31:35方燕鄭曉雪

健康之家 2020年13期

方燕鄭曉雪

【摘要】近年來，對多組學層進行綜合分析的要求日益突出，從而產(chǎn)生了一些多組學富集工具。每種方法在通用性方面都有缺點和局限性。在此，基于GSEA程序包以幫助在多個組學層上計算基于基因集富集分析的組合途徑富集，該軟件包查詢8個不同的路徑數(shù)據(jù)庫，并依賴基因集富集分析算法進行單組學富集分析。最后，將這些分數(shù)相結(jié)合，以創(chuàng)建可靠的復合多組學途徑富集措施。

【關(guān)鍵詞】基因集富集分析;數(shù)據(jù)分析;全基因組表達譜芯片

1基因集富集分析（GSEA）的相關(guān)概述

某種治療的分子反應或深入了解臨床表型時，基因集或途徑富集技術(shù)是從高維分子組學數(shù)據(jù)推斷機械生物學信息的首選工具。通過不同的統(tǒng)計技術(shù)，如過度代表性分析（ORA）或GSEA，能夠識別特定的基因集或特定治療或疾病引發(fā)的分子反應/信號途徑。這些集合可能代表特定的分子功能，如基因本體論（GO）、生物學過程或?qū)嶒炑苌幕蚣x。這些基因集可在數(shù)據(jù)庫或分子特征數(shù)據(jù)庫（MSigDB）中公開。目前，已經(jīng)開發(fā)了100種算法來豐富基因集分析，每一個都有自身的優(yōu)點和缺點。原則上，這些方法可以分為兩類：一是純基因集富集，其中算法只關(guān)注一個簡單的特征列表;二是基于拓撲的富集，其中算法包括來自路徑或網(wǎng)絡數(shù)據(jù)庫的附加信息，例如，哪些基因或蛋白質(zhì)是直接連接以及它們是如何連接的相互影響。在其最新版本中，GSEA適用于11種不同生物體（包括人、小鼠或大鼠）的轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組數(shù)據(jù)的組合[1]。

2工作流—收集路徑定義、特征提取和映射

在過去的幾十年里，已經(jīng)建立了幾個路徑數(shù)據(jù)庫。其中一些是同行評審和人工策劃的，另一些則遵循基于社區(qū)的方法來開發(fā)和確定路徑。然而，這些數(shù)據(jù)庫通常包含自己的格式，提供了路徑定義，這使得一個分析工作流中包含多個數(shù)據(jù)庫變得很麻煩。“graphite”和“R”軟件包旨在彌合這一差距，因為其能夠從8個公開可用的數(shù)據(jù)庫中提供路徑定義——數(shù)量為2。這些數(shù)據(jù)庫中目前可用的人類路徑定義列于括號中：KEGG（311）、Biocarta（247）、Reactome（2208）、NCI/自然路徑交互數(shù)據(jù)庫（212）、HumanCyc（48682）、Panther、smpdb（48668）和PharmGKB（66）。在GSEA工作流程的第一步中，應用Graphite軟件包從多達8個公眾中檢索路徑定義數(shù)據(jù)庫。在數(shù)據(jù)庫中，路徑特征（節(jié)點）用不同的ID編碼格式。例如，KEGG數(shù)據(jù)庫使用Entrez基因ID作為轉(zhuǎn)錄物和蛋白質(zhì)，而KEGG化合物則使用IDs用于代謝產(chǎn)物。相反，Reactome數(shù)據(jù)庫通過Uniprot標識符存儲轉(zhuǎn)錄和蛋白質(zhì)，而ChEBI ID則用于代謝產(chǎn)物。進一步的代謝物ID格式是CAS編號和Pubchem ID。為了解決這個問題，特別是在一次分析中使用多個路徑數(shù)據(jù)庫時，為所有三個支持的omics層實現(xiàn)了一個ID映射。為了提高可用性，將這個全面的代謝物映射數(shù)據(jù)集封裝在一個獨立的AnnotationHub包中，稱為代謝物idmapping（Canzler，2020）。在其當前版本中，該軟件包包含超過110萬種化合物，并從四個不同的數(shù)據(jù)庫中收集和集成：Comptox儀表盤12、HMDB3和ChEBI4。

3基因集富集分析的應用

測定的的組學數(shù)據(jù)是計算基因集富集分數(shù)所必需的，為上一步從外部數(shù)據(jù)庫中提取特定路徑特征中定義的每個omics層加載這些數(shù)據(jù)。在計算富集分數(shù)之前，必須進行差異表達分析，以便所有的組學特征都具有相關(guān)的倍數(shù)變化和P值。預處理步驟必須在外部完成，不屬于多個SEA的一部分包裝[2]。第二步，GSEA通過在每個omics層上分別應用fgsea Rpackage來計算富集分數(shù)。最初形式的GSEA算法首次被描述為闡明2型糖尿病的機理基礎(chǔ)，更新和最常用的版本是由Subramanian等人提出的。測量的組學特征用于差異表達測試，以得出褶皺變化和相關(guān)P值。這兩個值都用于計算所謂的局部統(tǒng)計，即基于折疊變化方向和對數(shù)轉(zhuǎn)換P值的排序基因列表。在接下來的步驟中，GSEA算法測試基因集是聚集在這些有序基因載體的頂部還是底部。這里使用的fgsea版本是一個高效但精確的實現(xiàn)了突出的GSEA算法。它的性能是通過實施累積的GSEA統(tǒng)計計算來實現(xiàn)的，允許在不同基因集大小之間重用樣本。在多GSEA工作流程的第二部分之后，每個下載的路徑都被分配了基于SEA的富集分數(shù)、P值和調(diào)整后的P值分開。

參考文獻：

[1]劉虎，吳思浛，包楚陽，等.基因集富集分析探討HER2基因?qū)ξ赴┐x的影響[J].安徽醫(yī)科大學學報，2020，5（9）：1339-1342.

[2]廖存，廖錫文，韋瑞麗，等.基于全基因組RNA測序數(shù)據(jù)和基因集富集分析方法對直腸癌發(fā)病機制的初步探討[J].結(jié)直腸肛門外科，2019，25（4）：422-426.