哈爾濱醫科大學衛生統計學教研室(150081) 李俊南 侯 艷 李 康
核正交偏最小二乘在代謝組學數據分析中的應用*
哈爾濱醫科大學衛生統計學教研室(150081) 李俊南 侯 艷 李 康Δ
目的探索核正交偏最小二乘方法的特點及其在代謝組學數據分析中的應用。方法通過模擬實驗和真實代謝組學數據,評價核正交偏最小二乘方法的模型預測能力及其可視化效果。結果模擬數據分析表明,當數據間存在線性關系時,KOPLS與傳統的線性OPLS具有相同的效果;當數據間存在非線性關系時,KOPLS具有相對更高的預測能力,得分圖的可視化效果更好。實際數據分析結果顯示,應用KOPLS能夠提高模型預測能力和改善可視化效果。結論對于高維非線性關系的代謝組學數據更適合使用KOPLS方法。
核正交偏最小二乘 非線性 代謝組學
偏最小二乘(partial least squares,PLS)是當前在計量化學和代謝組學領域中有監督分析的常用方法。偏最小二乘利用潛變量的概念,描述自變量矩陣X和因變量矩陣Y之間的關系,可以用于處理高維數據[1]。正交偏最小二乘(orthogonal projections to latent structures,OPLS)是繼PLS回歸之后發展的一種處理高維數據的方法。該方法利用正交信號校正(orthogonal signal correction,OSC)的思想,把與Y無關的正交變量從預測結果中分離出來。從預測的角度看,當只有一個因變量時,PLS和OPLS方法的預測效果相等,由于預測得分和載荷矩陣與正交變量沒有關系,所以OPLS方法增強了模型的解釋性[2]。
在計量化學和生物學系統中,X和Y之間有可能是非線性的關系,此時利用OPLS或者PLS分析數據,會使結果變差。Rosipal和Trejo首次將核函數引入到偏最小二乘回歸中,用來處理非線性問題[3]。Mattias等人2008年提出了核正交偏最小二乘方法[4],這種方法繼承了OPLS方法的基本思想,進一步在特征空間內分離預測成分和正交成分,提高預測能力和分類可視化效果[5]。本文在簡單介紹KOPLS方法和原理的基礎上,通過模擬試驗和實際數據,說明KOPLS方法在高維數據及代謝組數據分析中的適用性。
1.基本原理
核正交偏最小二乘(KOPLS)將原始的X空間的數據映射到一個高維特征空間F{x∈X→Φ(x)∈F},并在特征空間里使用線性OPLS方法解決原始空間的非線性關系。核點積定義為k(x,y)=〈φ(x),φ(y)〉,需要計算全部的Ki,j=k(xi,xj)(其中xi,xj分別代表自變量矩陣的第i行和第j行),通過使用合適的核函數,可以避免確定X映射到特征空間的映射函數,同時不用在特征空間內計算“點積”,其計算非常方便。KOPLS的建模過程見圖1。常見的核函數有線性核函數(式1)、多項式核函數(式2)和徑向基核函數(通常被稱為高斯核函數)(式3)。

實際中最常用的方法是高斯核函數[5]。例如,給定xi和xj

那么核矩陣K的元素ki,j可以計算為

應用高斯核函數的重點是參數σ的選擇,其影響模型的預測能力。在實際中,我們根據研究目的選擇核參數。
KOPLS模型包括一系列的預測成分Tp和一系列的正交成分To,去除正交成分后,把變異都集中在一個預測成分中,模型解釋簡單。KOPLS方法把Y預測成分和Y正交成分進行分離并沒有影響預測能力,這種方法還可以識別數據中的異常現象,如儀器零點漂移、批次的不同或者其他的生物變異等,而通過其他方法可能難以識別這些現象。例如,如果兩類數據可以通過KOPLS得分圖的正交成分分開,則說明其與有意義的差異變量無關,可能是由于批次不同等非差異變量引起的。

圖1 KOPLS的建模過程示意圖
2.計算方法
(1)核矩陣中心化
對于數量級差別較大的數據,在建模之前需要對數據進行標準化和對核矩陣K進行中心化,式(4)描述了核矩陣的中心化過程。

其中,In是n維單位矩陣,En代表一個(n×1)的向量,它的元素等于1。
(2)建立KOPLS模型
K表示核矩陣,Ao表示正交成分個數,Ki表示被第i個正交成分抽取之后的核矩陣,Qi表示Ki被A個預測成分抽取之后的核矩陣。具體步驟如下:
①通過特征向量YTKY分解估計預測Y權重向量Cp;
②把Y映射到CP上,得到Y預測得分矩陣Up∶Up?YCp;
③計算X預測得分矩陣Tp∶Tp?KUp;
④循環迭代i從1到Ao;
計算Y正交得分向量toi∶toi?QiTpCo;
通過to,t抽取Ki,形成Ki+1;
更新預測得分矩陣:Tp?Ki+1Up;
循環結束;
實驗目的:通過模擬線性和非線性相關關系的數據,探索KOPLS方法的特點及適用條件,并與常用的OPLS方法進行比較。模型的預測能力通過7折交叉驗證得到的Q2統計量衡量,Q2越大說明數據中含有生物標志物的可能性越大,其診斷效果越好,同時存在過擬合的風險較小,可視化效果通過繪制主成分得分圖進行判斷。KOPLS方法通過R語言編程實現。
模擬實驗1:設有兩組數據,其中有20個差異變量,在兩個不同的分組中分別服從X1~N(0,1)和X2~N(1.0,1)的正態分布,產生線性相關關系的數據,同時加入500個無差異變量作為干擾變量,干擾變量在兩類中均服從X~N(0,1)的正態分布,并分為25組,每組20個變量的相關系數均等于0.8,分別利用KOPLS和OPLS進行分析,首先對數據進行標準化,KOPLS使用高斯函數,得出每種方法的Q2值,以及繪制得分圖來觀察兩種方法的可視化效果,上述實驗重復1000次,得出平均Q2值,見圖2。

圖2 KOPLS(a)和OPLS(b)方法的Q2值
從圖2中可以看到KOPLS去除4個正交成分時,Q2最大,Q2=0.905,OPLS去除4個正交成分時,Q2最大,Q2=0.892,通過繪制兩種方法的得分圖(圖3),我們可以看到兩種方法都能將兩類明顯的區分開。說明當數據間存在線性相關關系時,KOPLS方法與OPLS方法的結果基本相同。
模擬試驗2:產生非線性相關關系的數據,為此先產生正態分布數據,然后通過x=5(exp(-X)-4exp(-2X)+3exp(-3X))變換得到模擬數據。模擬設定在第一類中有20個差異變量,均獨立服從XK~N(1.8,1),在第二類中20個變量均服從XK~N(0,1)的正態分布,加入與模擬試驗1設置相同的干擾變量。對上述模擬數據分別利用KOPLS方法和OPLS方法進行分析,分別計算每種方法的Q2值,以及繪制得分圖來觀察兩種方法的分類能力和可視化效果,上述方法重復實驗1000次,得出平均Q2值,KOPLS方法使用高斯核函數,核參數σ=20,兩種方法的Q2結果見圖4。
從圖中可以看到,KOPLS去除1個正交成分時最大,Q2=0.612,當進行OPLS分析時,其Q2為負值,去除一個正交成分后,通過繪制兩種方法的得分圖(見圖5),我們可以看到KOPLS很明顯的將兩類區分開,而OPLS方法卻區分的不夠好,說明KOPLS在因變量與自變量成復雜的非線性關系時,具有較好的模型擬合和預測效果,而且可視化效果更佳。

圖3 KOPLS(a)和OPLS(b)的預測成分和第一個正交成分的得分圖

圖4 KOPLS(a)和OPLS(b)方法的Q2值

圖5 KOPLS(a)和OPLS(b)的預測成分和第一個正交成分的得分圖
選取課題組研究的卵巢癌代謝組數據,共包含170例樣本,其中卵巢癌患者80例,卵巢囊腫患者90例,分析變量(物質濃度峰)共665個。
對上述數據,分別利用KOPLS和OPLS方法對數據進行分析。進行KOPLS分析時,由于變量的數量級變化較大,首先對數據進行標準化,然后建立KOPLS模型。KOPLS使用高斯核函數(σ=20),通過7折交叉驗證選擇最大的Q2值,去除3個正交成分時,Q2最大,Q2=0.314。對數據進行OPLS分析,當去除3個正交成分時,Q2最大,Q2=0.206(見表1)。從預測成分和第一個正交成分的得分圖中(見圖6),可以看到OPLS沒有將兩類很好的分離,而KOPLS的分離效果相對較好。總之,本例使用KOPLS的預測效果和可視化效果都優于OPLS。

表1 KOPLS和OPLS兩種方法的Q2值比較

圖6 KOPLS方法(a)和OPLS方法(b)的預測成分和第一個正交成分得分圖
本研究模擬實驗表明,當數據間存在線性關系時,應用KOPLS和OPLS兩種方法的Q2值和分類可視化效果基本相同,可以任選其中一種方法進行分析。在因變量Y與自變量X之間存在復雜非線性關系情況下,與OPLS模型相比,KOPLS模型的預測能力(Q2)穩健,同時能夠保持更合適的可視化效果。通過對實際卵巢癌代謝組學數據的分析,同樣顯示出KOPLS比OPLS得到的結果更好,說明KOPLS方法可以應用在高維代謝組學數據的分析中。
1.Nguyen D,Rocke DM.Tumor classification by partial least squares using microarray gene expression data.Bioinformatics,2002,18:39-50.
2.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.
3.Rosipal R,Trejo LJ.Kernel Partial Least Squares Regression in Reproducing Kernel Hilbert Space.Journal of Machine Learning Research,2001,2:97-123.
4.Rantalainen M,Bylesjo M.Kernel-based orthogonal projections to latent structures(K-OPLS).Journal of Chemometrics,2007,21:376-385.
5.Czekaj T,Wen W,Beata W.About kernel latent variable approachs and SVM.Journal of Chemometrics,2005,19:341-354.
6.Fonville M,Coen M.Non-linear modeling of 1HNMR metabonomic data using kernel-based orthogonal projections to latent structures optim ized by simulated annealing.AnalyticaChimica Acta,2011,705:72-80.
7.Bylesjo M,Rantalainen M.KOPLS package:Kernel-based orthogonal projections to latent structures for prediction and interpretation in feature space.Bioinformatics,2008,9:106-112.
8.Tao W,Ming Y.Application of Metabolomics in Traditional Chinese Medicine Differentiation of Deficiency and Excess Syndromes in Patients with Diabetes Mellitus.Evidence-Based Complementary and Alternative Medicine,2012.
(責任編輯:郭海強)
The Application of Kernal Orthogonal Projection to Latent Structures(KOPLS)in Metabolomics Data Analysis
Li Junnan,Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150081),Harbin)
ObjectiveTo explore the characteristics of kernel orthogonal projections to latent structures(KOPLS)method and its application in metabolomics data analysis.MethodsWe use simulated experiment and actual metabolism data to evaluate the prediction ability,classification ability and visualization effect of the KOPLS method.ResultsSimulation experiment and actual metabolomics data analysis proved that when there is a linear relationship between data,the KOPLS has the same effect with traditional linear OPLS methodS.The KOPLS method in dealing with nonlinear relations has higher predictive ability and better classification effect,at the same time,the score of the figure of visual effect is good.ConclusionIt can be applied to high-dimensional omics data analysis better.
Kernel orthogonal projections to latent structures;Non-linear;Metabonomics
*高等學校博士學科專項基金(20122307110004);國家自然科學基金資助(81172767)
△通信作者:李康,likang@ems.hrbmu.edu.cn