999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

代謝組學數據分析的統計學方法*

2014-03-10 02:42:17柯朝甫張濤武曉巖李
中國衛生統計 2014年2期
關鍵詞:分類生物分析

柯朝甫張 濤武曉巖李 康Δ

代謝組學數據分析的統計學方法*

柯朝甫1張 濤2武曉巖1李 康1Δ

代謝組學是近年發展快速的一門學科,目前在醫學、植物學、微生物學、毒理學、藥物研發等諸多領域中得到了廣泛的應用[1-5]。代謝組學研究產生大量的數據,這些數據具有高維、小樣本、高噪聲等復雜特征。如何從復雜的代謝組學數據中提取出有價值的信息,篩選出潛在的生物標志物成為近年來代謝組學研究的熱點和難點。據此,本文針對目前代謝組學數據分析中的常用統計學方法及其研究進展進行介紹。

代謝組學數據的特點

代謝組學是系統生物學領域中繼基因組學和蛋白質組學之后新近發展起來的一門學科,它通過檢測生物體在受到外源刺激或基因修飾后其體內代謝物質的變化來探索整個生物體的代謝機制[6]。其研究對象為生物體內所有內源性小分子代謝物(分子量 <1000Da),研究手段為高通量檢測技術和數據處理方法,最終目標是數據建模和生物標志物的篩選。生物樣品如血漿、尿液、組織等,經過GC/MS、NMR、LC/MS等高通量儀器檢測后,得到大量的圖譜數據,使用XCMS[7]等軟件對這些圖譜數據進行轉換,獲得用于統計分析的標準格式的數據。歸納起來,代謝組學數據具有以下特點:

(1)高噪聲:生物體內含有大量維持自身正常功能的內源性小分子,具有特定研究意義的生物標志物只是其中很少一部分,絕大部分代謝物和研究目的無關。

(2)高維、小樣本:代謝物的數目遠大于樣品個數,不適合使用傳統的統計學方法進行分析,多變量分析容易出現過擬合和維數災難問題[8]。

(3)高變異性:一是不同代謝物質的理化性質差異巨大,其濃度含量動態范圍寬達7~9個數量級[9],二是生物個體間存在各種來源的變異,如年齡、性別都可能影響代謝產物的變化,三是儀器測量受各種因素影響,容易出現隨機測量誤差和系統誤差,這使得識別有重要作用的生物標志物可能極其困難。

(4)相互作用關系復雜:各種代謝物質可能不僅具有簡單的相加效應,而且可能具有交互作用,從而增加了識別這些具有復雜關系的生物標志物的難度。

(5)相關性和冗余性:各種代謝物并非獨立存在,而是相互之間具有不同程度的相關性,同時由于碎片、加合物和同位素的存在使得數據結構存在很大的冗余性,這就需要采用合理的統計分析策略來揭示隱藏其中的復雜數據關系。

(6)分布的不規則和稀疏性:代謝組學數據分布不規則,而且數據具有稀疏性(即有很多值為零),因此,傳統的一些線性和參數分析方法此時可能失效。

數據的預處理

代謝組學數據分析的目的是希望從中挖掘出生物相關信息,然而,代謝組學數據的變異來源很多,不僅包括生物變異,還包括環境影響和操作性誤差等方面。處理手段主要包括歸一化(standardization)、標準化(normalization),即中心化(centering)和尺度化(scaling),以及數據轉換(transformation)[10]。歸一化是針對樣品的操作,由于生物個體間較大的代謝物濃度差異或樣品采集過程中的差異(如取不同時間的尿樣),為了消除或減輕這種不均一性,一般使用代謝物的相對濃度,即每個代謝物除以樣品的總濃度,以此來校正個體差異或其他因素對代謝物絕對濃度的影響。標準化是對不同樣品代謝物的操作,即統計學意義上的變量標準化。標準化的目的是消除不同代謝物濃度數量級的差別,但同時也可能會過分夸大低濃度組分的重要性,即低濃度代謝物的變異系數可能更大。數據轉換是指對數據進行非線性變換,如log轉換和power轉換等。數據轉換的目的是將一些偏態分布的數據轉換成對稱分布的數據,并消除異方差性的影響,以滿足一些線性分析技術的要求。不同的預處理方法會對統計分析結果產生不同的影響(見表1),在實際應用中,我們應該根據具體的研究目的、數據類型以及要選用的統計分析方法綜合考慮,選擇適當的預處理方式。例如,Robert A.van den Berg等(2006)通過實際代謝組學數據的分析發現,選用不同預處理方法在很大程度上影響著主成分分析(PCA)的結果,自動尺度化(autoscaling)和全距尺度化(range scaling)在對代謝組學數據進行探索性分析時表現更優,其PCA分析后的結果在生物學上能夠得到更合理的解釋[11]。

表1 常見的數據預處理方法

單變量分析方法

單變量分析方法簡便、直觀和容易理解,在代謝組學研究中通常用來快速考察各個代謝物在不同類別之間的差異。代謝組學數據在一般情況下難以滿足參數檢驗的條件,使用較多的是非參數檢驗的方法,如W ilcoxon秩和檢驗或Kruskal-Wallis檢驗,t'檢驗也是一種比較好的統計檢驗方法。

由于代謝組學數據具有高維的特點,所以在進行單變量分析時,會面臨多重假設檢驗的問題。如果我們不對每次假設檢驗的檢驗水準α進行校正,則總體犯一類錯誤的概率會明顯增加。一種解決方法是采用Bonferion校正,即用原檢驗水準除以假設檢驗的次數m作為每次假設檢驗新的檢驗水準(α/m)。由于Bonferion校正的方法過于保守,會明顯降低檢驗效能,所以在實際中更為流行的一種做法是使用陽性發現錯誤率(false discovery rate,FDR)。這種方法可用于估計多重假設檢驗的陽性結果中,可能包含多少假陽性結果。FDR方法不僅能夠將假陽性的比例控制在規定的范圍內,而且較之傳統的方法在檢驗效能上也得到顯著的提高[12]。實際中也可以使用局部FDR(用fdr表示),其定義為某一次檢驗差異顯著時,其結果為假陽性的概率。局部FDR的使用,使得我們能夠估計出任意變量為假陽性的概率,通常情況下有FDR≤fdr[13]。

除了進行傳統的單變量假設檢驗分析,代謝組學分析中通常也計算代謝物濃度在兩組間的改變倍數值(fold change),如計算某個代謝物濃度在兩組中的均值之比,判斷該代謝物在兩組之間的高低表達。計算ROC曲線下面積(AUC)也是一種經常使用的方法[14]。

多變量分析

代謝組學產生的是高維的數據,單變量分析不能揭示變量間復雜的相互作用關系,因此多變量統計分析在代謝組學數據分析中具有重要的作用。總體來說,代謝組學數據多變量統計分析方法大致可以分為兩類:一類為非監督的學習方法,即在不給定樣本標簽的情況下對訓練樣本進行學習,如PCA、非線性映射(NLM)等;另一類為有監督的學習方法,即在給定樣本標簽的情況下對訓練樣本進行學習,如偏最小二乘判別分析(PLS-DA)、基于正交信號校正的偏最小二乘判別分析(OPLS-DA)、人工神經網絡(ANN)、支持向量機(SVM)等。其中,PCA、PLS-DA和OPLS-DA是目前代謝組學領域中使用最為普遍的多變量統計分析方法。

PCA是從原始變量之間的相互關系入手,根據變異最大化的原則將其線性變換到幾個獨立的綜合指標上(即主成分),取2~3個主成分作圖,直觀地描述不同組別之間的代謝模式差別和聚類結果,并通過載荷圖尋找對組間分類有貢獻的原始變量作為生物標志物。通常情況下,由于代謝組學數據具有高維、小樣本的特性,同時有噪聲變量的干擾,PCA的分類結果往往不夠理想。盡管如此,PCA作為代謝組學數據的預分析和質量控制步驟,通常用于觀察是否具有組間分類趨勢和數據離群點[15]。在組間分類趨勢明顯時,說明其中一定有能夠分類的標志物。PCA還可以用于分析質控樣品是否聚集在一起,如果很分散或具有一定的變化趨勢,則說明檢測質量存在一定的問題。Zhang Zhiyu等(2010)通過PCA成功區分了骨肉瘤患者和正常人,并發現良性骨腫瘤患者中有兩例是異常值[16]。Kishore K.Pasikanti等(2009)利用PCA對尿液膀胱癌代謝組學數據進行分析后觀察到質控樣品在PCA得分圖上緊密聚集,從而驗證了儀器檢測的穩定性和代謝組學數據的可靠性[17]。

PLS-DA是目前代謝組學數據分析中最常使用的一種分類方法,它在降維的同時結合了回歸模型,并利用一定的判別閾值對回歸結果進行判別分析。Zhang Tao等(2013)運用PLS-DA技術分析尿液卵巢癌代謝組學數據,成功將卵巢癌患者和良性卵巢腫瘤患者以及子宮肌瘤患者相互鑒別,并鑒定出組氨酸、色氨酸、核苷酸等多種具有判別能力的卵巢癌生物標志物[18]。PLS的思想是,通過最大化自變量數據和應變量數據集之間的協方差來構建正交得分向量(潛變量或主成分),從而擬合自變量數據和應變量數據之間的線性關系[19]。PLS的降維方法與PCA的不同之處在于PLS既分解自變量X矩陣也分解應變量Y矩陣,并在分解時利用其協方差信息,從而使降維效果較PCA能夠更高效地提取組間變異信息[20]。當因變量Y為二分類情況下,通常一類編碼為1,另一類編碼為0或-1;當因變量Y為多分類時,則需將其化為啞變量。通常,評價PLS-DA模型擬合效果使用R2X、R2Y和Q2Y這三個指標,這些指標越接近1表示PLS-DA模型擬合數據效果越好。其中,R2X和R2Y分別表示PLSDA分類模型所能夠解釋X和Y矩陣信息的百分比,Q2Y則為通過交叉驗證計算得出,用以評價PLS-DA模型的預測能力,Q2Y越大代表模型預測效果較好。實際中,PLS-DA得分圖常用來直觀地展示模型的分類效果,圖中兩組樣品分離程度越大,說明分類效果越顯著。代謝組學數據分析中另一種常用的方法是OPLS-DA,它是PLS-DA的擴展,即首先使用正交信號校正技術,將X矩陣信息分解成與Y相關和不相關的兩類信息,然后過濾掉與分類無關的信息,相關的信息主要集中在第一個預測成分。Johan Trygg等認為該方法可以在不降低模型預測能力的前提下,有效減少模型的復雜性和增強模型的解釋能力[21]。與PLSDA模型相同,可以用R2X、R2Y、Q2Y和OPLS-DA得分圖來評價模型的分類效果。Carolyn M.Slupsky等(2010)使用OPLS-DA發現卵巢癌患者、乳腺癌患者、正常人這三者之間的尿液代謝輪廓顯著不同,從而推斷尿液代謝組學可能為癌癥的特異性診斷提供重要依據[22]。

由于代謝組學數據具有高維、小樣本的特性,使用有監督學習方法進行分析時很容易產生過擬合的現象。為此,需要使用置換檢驗考察PLS-DA在無差異情況下的建模效果[23]。該方法在固定X矩陣的前提下,隨機置換Y分類標簽n次,每次隨機置換后建立新的PLS-DA模型,并計算相應的R2Y和Q2Y;然后,與真實標簽模型得到的結果進行比較,用圖形直觀表達是否有過擬合現象。

由于樣本量的不足,通常采用上述的交叉驗證和置換檢驗方法作為模型驗證方法。而實際中,在樣本量允許的情況下,最為有效的模型驗證方法即將整個數據集嚴格按照時間順序劃分為內部訓練數據和外部測試數據兩部分,利用內部訓練數據建立模型,再對外部測試數據進行預測,客觀地評價模型的有效性和適用性。

生物標志物的篩選

代謝組學分析的最終目標是希望從中篩選出潛在的生物相關標志物,從而探索其中的生物代謝機制,因此需要借助一定的特征篩選方法進行變量篩選。對于高維代謝組學數據的特征篩選,研究的目的是從中找出對樣本分類能力最強或較強的一個或若干個變量。特征篩選方法主要分為三類:過濾法、封裝法和嵌入法[24]。過濾法主要是采用單變量篩選方法對變量進行篩選,優點是簡單而快捷,能夠快速的降維,如t'檢驗、W ilcoxon秩和檢驗、SAM等方法。封裝法是一種多變量特征篩選策略,通常是以判別模型分類準確性作為優化函數的前向選擇、后向選擇和浮動搜索特征變量的算法,它通常是按照“節省原則”進行特征篩選,最終模型可能僅保留其中很少部分的重要變量,如遺傳算法等。嵌入法的基本思想是將變量選擇與分類模型的建立融合在一起,變量的重要性評價依靠特定分類模型的算法實現,在建立模型的同時,可以給出各變量重要性的得分值,如PLS-DA方法的VIP統計量等。為了更加客觀、全面地評價每個變量的重要性,代謝組學研究中一般采取將上述方法結合起來的方式進行變量篩選。比較常見的一種策略是先進行單變量分析,再結合多變量模型中變量重要性評分作為篩選標準,如挑選fdr≤0.05和VIP>1.5的變量作為潛在生物標志物。用篩選的潛在生物標志物對外部測試數據集進行預測,評價其預測效果。最后,可以通過研究生物標志物的生物學功能和代謝通路,分析不同生物標志物之間的相互作用和關系,從而為探索生物代謝機制提供重要線索和信息。Yang Jinglei等(2013)即在代謝組學分析中使用fdr≤0.2和VIP>1.5的雙重標準來篩選精神分裂癥的特異生物標志物,所篩選出的差異代謝物其AUC在訓練數據中達94.5%,外部測試數據中達0.895[25]。

展 望

由于代謝組學數據變量多、關系復雜的特性,數據分析任務極為艱巨。目前常用的統計學方法在一定程度上為進行代謝組學數據分析提供了有效的工具,但仍然存在諸多不足。如在代謝組學研究中,生物樣品之間的變異性往往較大,目前最流行的PLS-DA或OPLS-DA數據分析方法在差異小、噪聲大時,模型使用效果不夠理想。另外,PLS-DA和OPLS-DA均是基于線性回歸的方法,但是代謝組學數據通常不是簡單的線性關系,因此,PLS-DA和OPLS-DA模型擬合數據的結果可能會不夠好。基于這些問題,一些學者開始嘗試將一些新的高維數據分析方法和思想應用于代謝組學數據分析中,如Lin Xiaohui等(2011)提出一種將支持向量機、隨機森林和遺傳算法結合起來進行變量篩選的分析思路,通過比較證實其較單個分析方法能夠發掘出更多的信息,尤其適合分析復雜生物數據[26];Elon Correa和Royston Goodacre(2011)提出了一種新型的遺傳算法—貝葉斯網絡方法(GA-BN),這種方法在有效篩選變量并提高分類效果的同時,還能研究變量間的相互作用和關系[27]。毫無疑問,這些新方法的提出將會為代謝組學數據分析提供新的思路和契機。隨著各種代謝組學檢測儀器的快速發展,更有效的代謝組學數據分析技術亟待開發,值得更多的生物統計學者關注和研究。

1.Dunn WB,Ellis DI.Metabolom ics:Current analytical platforms and methodologies.TrAC Trends in Analytical Chem istry,2005,24(4):285-294.

2.許國旺,路鑫,楊勝利.代謝組學研究進展.中國醫學科學院學報,2007,29(6):701-711.

3.Spratlin JL,Serkova NJ,Eckhardt SG.Clinical applications of metabolomics in oncology:a review.Clin Cancer Res,2009,15(2):431-440.

4.W ishart DS.Applications ofmetabolom ics in drug discovery and development.Drugs R D,2008,9(5):307-322.

5.Taylor J,King RD,Altmann T,et al.Application of metabolom ics to plant genotype discrim ination using statistics and machine learning. Bioinformatics,2002,18(2):241-248.

6.Nicholson JK,Lindon JC,Holmes E.'Metabonom ics′:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data. Xenobiotica,1999,29(11):1181-1189.

7.Smith CA,Want EJ,O′Maille G,etal.XCMS:processingmass spectrometry data formetabolite profiling using nonlinear peak alignment,matching,and identification.Analytical Chemistry,2006,78(3):779-787.

8.Sima C,Dougherty ER.What should be expected from feature selection in small-sample settings.Bioinformatics,2006,22(19):2430-2436.

9.Dunn WB,Ellis DI.Metabolom ics:Current analytical platforms and methodologies.Trac-Trend Anal Chem,2005,24(4):285-294.

10.Goodacre R,Broadhurst D,Sm ilde A,et al.Proposed m inimum reporting standards for data analysis inmetabolom ics.Metabolom ics,2007,3(3):231-241.

11.Van den Berg RA,Hoefsloot HCJ,Westerhuis JA,etal.Centering,scaling,and transformations:improving the biological information content ofmetabolom ics data.BMC Genom ics,2006,7:142-156.

12.Benjam ini Y,Hochberg Y.Controlling the false discovery rate:a practical and powerful approach to multiple testing.JR Statist Soc B,1995,57(1):289-300.

13.劉晉,張濤,李康.多重假設檢驗中FDR的控制與估計方法.中國衛生統計,2012,29(2):305-308.

14.Broadhurst DI,Kella DB.Statistical strategies for avoiding false discoveries in metabolom ics and related experiments.Metabolom ics,2006,2(4):171-196.

15.Trygg J,Holmes E,Lundstedt T.Chemometrics inmetabonom ics.JProteome Res,2007,6(2):469-479.

16.Zhang Z,Qiu Y,Hua Y,etal.Serum and urinarymetabonom ic study of human osteosarcoma.JProteome Res,2010,9(9):4861-4868.

17.Pasikanti KK,Esuvaranathan K,Ho PC,et al.Noninvasive urinary metabonomic diagnosis of human bladder cancer.J Proteome Res,2009,9(6):2988-2995.

18.Zhang T,Wu XY,Ke CF,et al.Identification of Potential Biomarkers for Ovarian Cancer by Urinary Metabolom ic Profiling.JProteome Res,2013,12(1):505-516.

19.蔣紅衛,夏結來.偏最小二乘回歸及其應用.第四軍醫大學學報,2003,24(3):280-283.

20.Boulesteix AL,Strimmer K.Partial least squares:a versatile tool for the analysis of high-dimensional genom ic data.Brief Bioinform.2007,8(1):32-44.

21.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16(3):119-128.

22.Slupsky CM,Steed H,Wells TH,et al.Urine metabolite analysis offers potential early diagnosis of ovarian and breast cancers.Clin Cancer Res,2010,16(23):5835-5841.

23.Westerhuis JA,Hoefsloot HCJ,Sm it S,et al.Assessment of PLSDA cross validation.Metabolom ics,2008,4(1):81-89.

24.Yvan S,Iaki I,Pedro L.A review of feature selection techniques in bioinformatics.Bioinformatics,2007,23(13):273-281.

25.Yang J,Chen T,Sun L,et al.Potentialmetabolite markers of schizophrenia.Molecular Psychiatry,2013,18(1):67-78.

26.Lin XH,Wang QC,Yin PY,etal.A method for handlingmetabonomics data from liquid chromatography/mass spectrometry:combinational use of support vector machine recursive feature elimination,genetic algorithm and random forest for feature selection.Metabolomics,2011,7(4):549-558.

27.Correa E,Goodacre R.A genetic algorithm-Bayesian network approach for the a nalysis ofmetabolom ics and spectroscopic data:application to the rapid identification of Bacillus spores and classification of Bacillus species.BMC Bioinformatics,2011,12(1):33-49.

(責任編輯:郭海強)

*國家自然科學基金資助(81172767);高等學校博士學科專項基金(20122307110004)

1哈爾濱醫科大學衛生統計學教研室(150081)

2山東大學衛生統計學教研室

Δ通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

猜你喜歡
分類生物分析
生物多樣性
天天愛科學(2022年9期)2022-09-15 01:12:54
生物多樣性
天天愛科學(2022年4期)2022-05-23 12:41:48
上上生物
當代水產(2022年3期)2022-04-26 14:26:56
分類算一算
隱蔽失效適航要求符合性驗證分析
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
分類討論求坐標
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 精品成人免费自拍视频| 91精品最新国内在线播放| 国产91在线免费视频| 国产精品太粉嫩高中在线观看| 热re99久久精品国99热| 国产亚洲欧美日韩在线一区二区三区| 免费午夜无码18禁无码影院| 无码福利日韩神码福利片| 熟妇人妻无乱码中文字幕真矢织江| 99久久性生片| 呦女亚洲一区精品| 456亚洲人成高清在线| 国产欧美视频一区二区三区| 找国产毛片看| 久久国产毛片| 日韩第九页| 亚洲乱码精品久久久久..| 激情無極限的亚洲一区免费| 狠狠久久综合伊人不卡| 亚洲天堂777| 自慰网址在线观看| 国产人成在线视频| 91精品国产丝袜| 国产福利小视频高清在线观看| 国产精品七七在线播放| 免费人成黄页在线观看国产| 国产成人综合亚洲网址| 久久天天躁狠狠躁夜夜躁| 国产在线啪| 日日噜噜夜夜狠狠视频| 亚洲一区无码在线| 久久黄色小视频| 一级毛片在线播放免费| 欧美日一级片| av在线手机播放| 精品国产一区二区三区在线观看 | 国产aaaaa一级毛片| 日本免费福利视频| 国产精品午夜电影| 亚洲第一色网站| 97国产在线观看| а∨天堂一区中文字幕| 国产91透明丝袜美腿在线| 久久夜夜视频| 久久精品国产在热久久2019| 伊人国产无码高清视频| 国产欧美日韩91| 久久久久久久久亚洲精品| 伊人成人在线视频| 青青草综合网| 五月天在线网站| 99久视频| 欧美亚洲日韩不卡在线在线观看| 欧美国产精品不卡在线观看| 91视频青青草| 91精品久久久久久无码人妻| 在线欧美日韩国产| 人妖无码第一页| 日韩欧美视频第一区在线观看| 国产99热| 熟妇人妻无乱码中文字幕真矢织江| 国产地址二永久伊甸园| 成年av福利永久免费观看| 欧美成人一级| 成人av手机在线观看| 无码一区中文字幕| 国产精品一区在线麻豆| 久久精品国产一区二区小说| 激情综合网址| 国产SUV精品一区二区| 91av国产在线| 欧美狠狠干| 54pao国产成人免费视频| 激情無極限的亚洲一区免费| 国产偷国产偷在线高清| 一级毛片中文字幕| 亚洲中文字幕国产av| 黄片在线永久| 国产精品专区第1页| 国产国语一级毛片| 亚洲香蕉久久| 欧美国产综合视频|