哈爾濱醫科大學衛生統計學教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康
OPLS方法的原理及其在代謝組學數據判別分析中的應用*
哈爾濱醫科大學衛生統計學教研室(150086) 李俊南 侯 艷 孫鳳宇 李 康△
目的探討orthogonal projection to latent structures(OPLS)方法的原理、特點及其在代謝組學高維數據分析中的應用。方法通過R語言編程實現OPLS方法,利用模擬試驗探索OPLS的特性及適用條件,并通過實際數據進行驗證。結果利用一個OPLS預測主成分的模型擬合效果與利用偏最小二乘(PLS)多個主成分的模型擬合效果相同,同時具有較好的判別能力,其得分圖的可視化效果優于PLS。結論OPLS能夠有效去除自變量矩陣X中與因變量Y無關的信息,使模型變得簡單、易于解釋,同時具有較好的可視化效果,可有效地用于代謝組學數據分析中。
orthogonal projection to latent structures(OPLS) 模型擬合 可視化 代謝組學
在代謝組學研究中,由色譜和質譜產生的高維數據可以應用偏最小二乘方法(partial least squares,PLS)進行分析,解決降維、分類可視化和特征篩選等問題[1-2]。然而,由于代謝組學數據中的很多代謝物質(包括物質的碎片)具有較高的相關性,且與分類無關,利用PLS法無法將分類的信息集中在前2~3個主成分中,結果使分類及可視化效果不好。Orthogonal projections to latent structures(OPLS)是一種新型的多元統計數據分析方法,它由Johan Trygg等人于2002年首次提出[3]。近十年來,這種方法在理論和應用方面都得到了迅速的發展,并在計量化學中有了大量的應用。OPLS是一種多因變量對多自變量的回歸建模方法,其最大特點是可以去除自變量X中與分類變量Y無關的數據變異,使分類信息主要集中在一個主成分中,模型變得簡單和易于解釋,其判別效果及主成分得分圖的可視化效果更加明顯[4]。本文在簡單介紹OPLS的基本思想和原理的基礎上,通過模擬實驗探索OPLS方法的適用條件,并利用實際數據進行驗證。
1.基本原理
OPLS從給定的數據集X中移除系統正交變量,并把這些正交變量和非正交變量區分開來,可以對這些正交變量單獨進行分析。OPLS方法利用響應變量Y中的信息把X分成三部分[4-5],即

其中,TP表示X的預測得分矩陣表示X的預測載荷矩陣表示預測部分,TO表示X與Y的正交成分(稱為OPLS成分)的得分矩陣表示對應的載荷矩陣表示與Y正交的部分,E為殘差矩陣。
OPLS方法的實現通過兩步完成:
第一步,與Y正交的變量從X數據矩陣中剔除,即

其中T0是與Y正交成分的得分矩陣是與其對應的載荷矩陣。
第二步,對XP進行偏最小二乘分析。對于新的樣本,需要先通過正交成分進行校正,再進行預測。
2.計算方法
文中僅介紹具有一個Y變量的OPLS算法[3],將原始變量進行中心化和標準化后,進行下列算法:
(1)wT=YTX/(YTY),計算X矩陣的權重向量;
(2)w=w/‖w‖,對權重向量進行歸一化;
(3)t=Xw/(wTw),估計X矩陣的得分向量t;
(4)cT=tTY/(tTt),計算Y矩陣的載荷;
(5)u=Yc/(cTc),產生Y矩陣的得分向量;
(6)pT=tTX/(tTt),計算X矩陣的載荷;
(7)w⊥=p-[wTp/(wTw)]w,計算正交權重向量,這里p向量可以是任意與w維數相同的向量;
(8)w⊥=w⊥/‖w⊥‖,對正交權重向量進行歸一化;
(12)保存T⊥=[T⊥t⊥],P⊥=[P⊥,p⊥]以及W⊥=[W⊥w⊥],需要求下一個正交成分返回到步驟(3),令X=Eopls,否則繼續13步;
(13)對于新的樣本(預測樣本)通過校正模型的W⊥和P⊥來進行校正。
3.正交成分個數的確定
OPLS使用特征值判別方法和交叉驗證方法[3],計算出正交成分和預測成分。特征值計算方法為

如果在X中沒有正交變量,則λ接近0。λ值為正交成分個數的選取提供了重要的參考依據。
第二種方法使用k折交叉驗證的方法,即將樣本數據等分成k個部分選擇使判別精度Q2最大的正交成分個數[6],其計算公式為

其中,Ym為每個樣品的真實標簽為k折交叉驗證時測試樣本中每個樣品的預測值為測試樣本中所有樣品的平均值,預測殘差平方和定量地衡量了樣品預測值偏離真實標簽的程度。聯合使用特征值法和交叉驗證方法是確定正交成分個數的最好的途徑。
實驗目的:通過模擬不同相關結構的高維數據,探索OPLS方法的特點及適用條件,并與目前在計量化學中經常使用的PLS方法進行比較。模型的擬合能力用相當于傳統的多元線性回歸的決定系數,計算使用的是全部樣本數據。判別能力通過交叉驗證得到的Q2(也記為Q2)統計量衡量,可視化效果通過主成分得分的散點圖進行判斷。OPLS的實現使用R語言編程[7]。
模擬實驗1:根據代謝組學數據特點,通常呈偏態分布,并且包含有極端值,為此產生指數分布數據X。設有二分類的數據,其中有20個差異變量,在兩個不同的分組中分別服從X~E(0.1)和X~E(0.3)的指數分布,加入1000個白噪聲,噪聲服從X~N(0,1)的正態分布,產生兩個模擬數據集,第一個數據集噪聲之間的相關性為0,第二個數據集中,將1000個噪聲分為20組,每組50個噪聲之間的相關系數設為0.1。重復試驗1000次,結果顯示:當噪聲變量相關系數為0,利用PLS進行分析時,第一個主成分的Q2最大(Q2利用OPLS進行分析時,去除2個正交成分后的當噪聲變量相關系數為0.1時,利用PLS進行分析,第一個主成分的利用OPLS進行分析時,去除1個正交成分后的Q2最大當噪聲之間的相關系數為0,比較兩種方法的得分圖可以看出PLS的可視化效果與OPLS的可視化效果幾乎相同(圖1)。當噪聲之間的相關系數為0.1時,得分圖與圖1相類似。說明在噪聲變量間不相關或相關程度比較低的情況下,PLS利用一個主成分就能達到最大的Q2值,同時可視化效果較好,此時兩種方法都可使用。
模擬實驗2:模擬設定中有20個差異變量,在第一類中服從X~E(0.1)的指數分布;在第二類中20個變量服從X~E(0.19)的指數分布。加入1000個無差異變量作為干擾變量,噪聲變量服從X~N(0,1)正態分布,并分為20組,每組50個變量的相關系數分別設為0.95和0.85,并同時設定相關系數為0,0.1,0.85,0.95四種非等相關結構構成的噪聲,產生三個模擬數據。對上述模擬數據分別利用OPLS和PLS進行分析,計算出三種算法的值,以及各主成分的得分,通過繪制得分圖的散點圖進行可視化效果分析。上述方法重復試驗1000次,得出平均和Q2值,結果見表1。
由表1可知,當相關系數ρ=0.95時,利用PLS進行分析,當取第一個主成分時,Q2值最大(Q2=-0.068),此時對于OPLS分析,去除5個正交成分后,Q2值最大通過比較兩種方法的結果,可以看出OPLS方法利用1個預測成分能得到較高的Q2值,并使模型變得更加簡單和容易解釋。而PLS方法則完全失效,其Q2值均為負值。當相關系數ρ=0.85時,利用PLS進行分析時,其Q2值為負,利用OPLS進行分析時,去除6個正交成分時,Q2值最大,此時當同時設定4種非等相關結構時,利用PLS進行分析,當選擇3個主成分時,Q2值最大0.878,利用OPLS進行分析時,去除4個正交成分時,Q2值最大,此時

圖1 PLS方法前兩個主成分得分圖(A)和OPLS方法一個預測成分和第一個正交成分得分圖(B)

表1 不同噪聲相關系數時OPLS與PLS兩種分析方法結果比較

圖2 ρ=0.95時PLS方法前兩個主成分得分圖(A)和OPLS方法一個預測成分與第一個正交成分得分圖(B)
進而,通過計算各成分的得分,繪制了兩種方法的得分圖。圖2表示當相關系數ρ=0.95時,PLS中前兩個主成分的得分圖和前三個主成分的三維得分圖,從圖中我們可以看到PLS不能將兩類完全分開,而利用OPLS方法,其得分圖可以將兩類完全分開(見圖3),說明在此模擬研究條件下OPLS方法得分圖的可視化效果明顯優于PLS方法,可有效解決PLS的得分圖不能將兩類區分的問題。當相關系數ρ=0.85時,得分圖與ρ=0.95時趨勢相同。當同時設定4種非等相關結構時,得分圖見圖4,從圖4(A)中可以看到利用PLS的前兩個成分沒有將兩類完全區分開,利用OPLS的一個預測成分和4個正交成分中的第一個正交成分能夠將兩類完全分來(圖4(B)),并且OPLS方法的判別能力高于PLS方法,證明在此種情況下,OPLS仍具有一定的優勢。

圖3 ρ=0.95時OPLS一個預測成分和第一個正交成分得分圖
采用2009年9月至2010年5月期間在哈爾濱醫科大學附屬腫瘤醫院收集的76例卵巢癌患者血漿樣品和92例子宮肌瘤患者的血漿樣品,經過UPLC-MS-Q-TOF儀器檢測分析和預處理后得到代謝組學數據,共獲得1499個峰(變量),分類變量為Y,卵巢癌為1,子宮肌瘤為0。
1.利用PLS對數據進行分析
利用PLS方法進行分析,當取7個主成分時,Q2值最大,等于0.624,此時計算PLS主成分得分,得到前兩個成分的得分圖,見圖6,從圖中可見,PLS的前兩個成分在標識的區域中兩種樣本混在一起,其可視化效果不夠理想。利用前三個成分繪制三維得分圖,其區分效果有一定提高,但不夠明顯。

圖4 同時設定4種非等相關結構時PLS前兩個主成分得分圖(A)與OPLS一個預測成分和第一個正交成分得分圖(B)

圖5 PLS方法前兩個主成分得分圖(A)和前三個主成分三維得分圖(B)

圖6 每個OPLS成分的λ的直方圖

圖7 OPLS一個預測成分和第一個正交成分得分

圖8 置換檢驗圖(A)和Q2置換檢驗圖(B)
2.利用OPLS法對數據進行分析
從特征值方法看到取6~8個成分時λ值都比較小(圖6),利用交叉驗證方法得出,去除6個正交成分時的Q2值最大(Q2=0.622),因此本例選擇去除6個正交成分,此時結果表明,利用一個預測成分和6個正交成分中的第一個正交成分的得分圖可以明顯地區分對照組和病例組,可視化效果明顯(圖7)。為證明OPLS方法結果的真實性,我們進行置換檢驗,隨機打亂Y變量標簽1000次,得到每次值與Q2值,其頻數分布圖見圖8,圖8(A)中橫坐標為0.72的點為正確標簽下的值,圖8(B)橫坐標為0.622的點為正確標簽下的Q2值,從兩圖中可以看到打亂標簽后的值和Q2值明顯小于正確標簽下的和Q2值,說明OPLS方法得出的結果是真實的。兩種方法的值與Q2值比較見表2。

表2 卵巢癌代謝組學數據兩種分析方法的結果比較
1.代謝組學數據具有高維、小樣本的特性,其中既有對分類起作用的差異變量,同時包含大量相關的無差異變量,如果利用PLS進行分析,則由于相關變量的影響,使差異變量分散在多個主成分上,當主成分個數大于3時,無法更好地進行可視化(只能選擇三個貢獻大的主成分)。OPLS方法則能夠移除X變量中與Y變量不相關的變量,使有差異的變量集中在第一個主成分中,模型變得簡單和易于解釋,更好地實現結果的可視化。
2.通常情況下,當無差異變量相關程度不高時,PLS方法能得到較好的效果,此時應用OPLS方法分析結果差別不大,我們可以任選PLS或者OPLS中的一種方法對數據進行分析。理論上講,從判別角度看,由于PLS可以利用多個主成分,而OPLS僅使用了一個主成分,可能有些較弱的差異變量被當作正交成分被剔除,使實際判別效果略為變差。實際中,由于代謝組學中很多物質是同一種代謝物產生的碎片,這些碎片通常具有高度相關性,同時很多物質間由于代謝通路的關系也具有較高的相關性,因此在模擬實驗中設置了變量高相關的情況。當無差異變量相關程度較高時,利用OPLS方法的效果優于PLS。
3.本文用兩種方法對卵巢癌代謝組學數據進行了分析,利用兩種分析方法對實際數據進行分析,結果顯示OPLS方法可視化效果優于PLS方法,同時具有較高的判別能力,與模擬試驗的結果相一致。在實際應用中,我們可以根據數據變量之間是否相關,綜合考慮可視化效果和判別能力(Q2)進行方法的選擇。
4.PLS和OPLS方法都只適合線性相關結構的數據分析,如果變量間存在非線性關系,使用這兩種方法分析的效果可能會明顯變差,這時可以考慮利用處理非線性數據的核方法[8]。
1.Barker M,RayensW.Partial least squares for discrimination.Journal of Chemometrics,2003,17(3):166-173.
2.蔣紅衛,夏結來,李園,于莉莉.偏最小二乘判別分析在基因微陣列分型中的應用.中國衛生統計,2007,24(4):372-374.
3.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.
4.Bylesjo M,Rantalainen M,Cloarec O,etal.OPLS discriminant analysis:combining the strengths of PLS-DA and SIMCA classification.Journal of Chemometrics,2006,20:341-351.
5.Tapp HS,Kemsley EK.Notes on the practical utility of OPLS.Trends in Analytical Chemistry,2009,28(11):1322-1327.
6.Wold S.Cross-Validatory estimation of the Number of Components in Factor and Principal ComponentsModels.TEchnometrics,1978,20:397-405.
7.The R project for Statistical Computing[http://www.rproject.org/].
8.Czekaj T,Wu W,Walczak B.About Kernel latent variable approaches and SVM.Journal of Chemometrics,2005,19:341-354.
(責任編輯:丁海龍)
The Theoretical Properties of Orthogonal Projection to Latent Structures(OPLS)and its Application in M etabolom ics Data Analysis
Li Junnan,HouYan,Sun Fengyu,et al.(DepartmentofMedicalStatistics,HarbinMedicalUniversity(150081),Harbin)
ObjectiveTo explore the theoretical properties and characteristics of orthogonal projection to latent structures(OPLS)and the application inmetabolomics data aswell.MethodsWe independently program OPLS algorithms using R and explore the OPLSmethod to the real conditionsw ith simulation studies and validated the utility to the real example.ResultsThemodel fitting effect w ith single OPLS principal component is identical to that w ith multiple components obtained from PLSmethod.Meanwhile,OPLS has excellent external prediction ability as well as a better visualization effect compared w ith PLS.ConclusionOPLS can effectively remove information unrelated to the response,which improved,its explanatory ability and visualization effect.Thismethod can effectively be used in metabolom ics data.
Orthogonal Projection to Latent Structures;Model Fitting;Metabonom ics;Visualization
*:高等學校博士學科專項基金(項目編號:20122307110004);國家自然科學基金資助(項目編號:81172767)
△通信作者:李康,likang@ems.hrbmu.edu.cn