999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

核正交偏最小二乘在代謝組學數據分析中的應用*

2015-03-09 06:52:06哈爾濱醫科大學衛生統計學教研室150081李俊南
中國衛生統計 2015年1期
關鍵詞:可視化效果方法

哈爾濱醫科大學衛生統計學教研室(150081) 李俊南 侯 艷 李 康

核正交偏最小二乘在代謝組學數據分析中的應用*

哈爾濱醫科大學衛生統計學教研室(150081) 李俊南 侯 艷 李 康Δ

目的探索核正交偏最小二乘方法的特點及其在代謝組學數據分析中的應用。方法通過模擬實驗和真實代謝組學數據,評價核正交偏最小二乘方法的模型預測能力及其可視化效果。結果模擬數據分析表明,當數據間存在線性關系時,KOPLS與傳統的線性OPLS具有相同的效果;當數據間存在非線性關系時,KOPLS具有相對更高的預測能力,得分圖的可視化效果更好。實際數據分析結果顯示,應用KOPLS能夠提高模型預測能力和改善可視化效果。結論對于高維非線性關系的代謝組學數據更適合使用KOPLS方法。

核正交偏最小二乘 非線性 代謝組學

偏最小二乘(partial least squares,PLS)是當前在計量化學和代謝組學領域中有監督分析的常用方法。偏最小二乘利用潛變量的概念,描述自變量矩陣X和因變量矩陣Y之間的關系,可以用于處理高維數據[1]。正交偏最小二乘(orthogonal projections to latent structures,OPLS)是繼PLS回歸之后發展的一種處理高維數據的方法。該方法利用正交信號校正(orthogonal signal correction,OSC)的思想,把與Y無關的正交變量從預測結果中分離出來。從預測的角度看,當只有一個因變量時,PLS和OPLS方法的預測效果相等,由于預測得分和載荷矩陣與正交變量沒有關系,所以OPLS方法增強了模型的解釋性[2]。

在計量化學和生物學系統中,X和Y之間有可能是非線性的關系,此時利用OPLS或者PLS分析數據,會使結果變差。Rosipal和Trejo首次將核函數引入到偏最小二乘回歸中,用來處理非線性問題[3]。Mattias等人2008年提出了核正交偏最小二乘方法[4],這種方法繼承了OPLS方法的基本思想,進一步在特征空間內分離預測成分和正交成分,提高預測能力和分類可視化效果[5]。本文在簡單介紹KOPLS方法和原理的基礎上,通過模擬試驗和實際數據,說明KOPLS方法在高維數據及代謝組數據分析中的適用性。

原理與方法

1.基本原理

核正交偏最小二乘(KOPLS)將原始的X空間的數據映射到一個高維特征空間F{x∈X→Φ(x)∈F},并在特征空間里使用線性OPLS方法解決原始空間的非線性關系。核點積定義為k(x,y)=〈φ(x),φ(y)〉,需要計算全部的Ki,j=k(xi,xj)(其中xi,xj分別代表自變量矩陣的第i行和第j行),通過使用合適的核函數,可以避免確定X映射到特征空間的映射函數,同時不用在特征空間內計算“點積”,其計算非常方便。KOPLS的建模過程見圖1。常見的核函數有線性核函數(式1)、多項式核函數(式2)和徑向基核函數(通常被稱為高斯核函數)(式3)。

實際中最常用的方法是高斯核函數[5]。例如,給定xi和xj

那么核矩陣K的元素ki,j可以計算為

應用高斯核函數的重點是參數σ的選擇,其影響模型的預測能力。在實際中,我們根據研究目的選擇核參數。

KOPLS模型包括一系列的預測成分Tp和一系列的正交成分To,去除正交成分后,把變異都集中在一個預測成分中,模型解釋簡單。KOPLS方法把Y預測成分和Y正交成分進行分離并沒有影響預測能力,這種方法還可以識別數據中的異常現象,如儀器零點漂移、批次的不同或者其他的生物變異等,而通過其他方法可能難以識別這些現象。例如,如果兩類數據可以通過KOPLS得分圖的正交成分分開,則說明其與有意義的差異變量無關,可能是由于批次不同等非差異變量引起的。

圖1 KOPLS的建模過程示意圖

2.計算方法

(1)核矩陣中心化

對于數量級差別較大的數據,在建模之前需要對數據進行標準化和對核矩陣K進行中心化,式(4)描述了核矩陣的中心化過程。

其中,In是n維單位矩陣,En代表一個(n×1)的向量,它的元素等于1。

(2)建立KOPLS模型

K表示核矩陣,Ao表示正交成分個數,Ki表示被第i個正交成分抽取之后的核矩陣,Qi表示Ki被A個預測成分抽取之后的核矩陣。具體步驟如下:

①通過特征向量YTKY分解估計預測Y權重向量Cp;

②把Y映射到CP上,得到Y預測得分矩陣Up∶Up?YCp;

③計算X預測得分矩陣Tp∶Tp?KUp;

④循環迭代i從1到Ao;

計算Y正交得分向量toi∶toi?QiTpCo;

通過to,t抽取Ki,形成Ki+1;

更新預測得分矩陣:Tp?Ki+1Up;

循環結束;

模擬試驗

實驗目的:通過模擬線性和非線性相關關系的數據,探索KOPLS方法的特點及適用條件,并與常用的OPLS方法進行比較。模型的預測能力通過7折交叉驗證得到的Q2統計量衡量,Q2越大說明數據中含有生物標志物的可能性越大,其診斷效果越好,同時存在過擬合的風險較小,可視化效果通過繪制主成分得分圖進行判斷。KOPLS方法通過R語言編程實現。

模擬實驗1:設有兩組數據,其中有20個差異變量,在兩個不同的分組中分別服從X1~N(0,1)和X2~N(1.0,1)的正態分布,產生線性相關關系的數據,同時加入500個無差異變量作為干擾變量,干擾變量在兩類中均服從X~N(0,1)的正態分布,并分為25組,每組20個變量的相關系數均等于0.8,分別利用KOPLS和OPLS進行分析,首先對數據進行標準化,KOPLS使用高斯函數,得出每種方法的Q2值,以及繪制得分圖來觀察兩種方法的可視化效果,上述實驗重復1000次,得出平均Q2值,見圖2。

圖2 KOPLS(a)和OPLS(b)方法的Q2值

從圖2中可以看到KOPLS去除4個正交成分時,Q2最大,Q2=0.905,OPLS去除4個正交成分時,Q2最大,Q2=0.892,通過繪制兩種方法的得分圖(圖3),我們可以看到兩種方法都能將兩類明顯的區分開。說明當數據間存在線性相關關系時,KOPLS方法與OPLS方法的結果基本相同。

模擬試驗2:產生非線性相關關系的數據,為此先產生正態分布數據,然后通過x=5(exp(-X)-4exp(-2X)+3exp(-3X))變換得到模擬數據。模擬設定在第一類中有20個差異變量,均獨立服從XK~N(1.8,1),在第二類中20個變量均服從XK~N(0,1)的正態分布,加入與模擬試驗1設置相同的干擾變量。對上述模擬數據分別利用KOPLS方法和OPLS方法進行分析,分別計算每種方法的Q2值,以及繪制得分圖來觀察兩種方法的分類能力和可視化效果,上述方法重復實驗1000次,得出平均Q2值,KOPLS方法使用高斯核函數,核參數σ=20,兩種方法的Q2結果見圖4。

從圖中可以看到,KOPLS去除1個正交成分時最大,Q2=0.612,當進行OPLS分析時,其Q2為負值,去除一個正交成分后,通過繪制兩種方法的得分圖(見圖5),我們可以看到KOPLS很明顯的將兩類區分開,而OPLS方法卻區分的不夠好,說明KOPLS在因變量與自變量成復雜的非線性關系時,具有較好的模型擬合和預測效果,而且可視化效果更佳。

圖3 KOPLS(a)和OPLS(b)的預測成分和第一個正交成分的得分圖

圖4 KOPLS(a)和OPLS(b)方法的Q2值

圖5 KOPLS(a)和OPLS(b)的預測成分和第一個正交成分的得分圖

實例分析

選取課題組研究的卵巢癌代謝組數據,共包含170例樣本,其中卵巢癌患者80例,卵巢囊腫患者90例,分析變量(物質濃度峰)共665個。

對上述數據,分別利用KOPLS和OPLS方法對數據進行分析。進行KOPLS分析時,由于變量的數量級變化較大,首先對數據進行標準化,然后建立KOPLS模型。KOPLS使用高斯核函數(σ=20),通過7折交叉驗證選擇最大的Q2值,去除3個正交成分時,Q2最大,Q2=0.314。對數據進行OPLS分析,當去除3個正交成分時,Q2最大,Q2=0.206(見表1)。從預測成分和第一個正交成分的得分圖中(見圖6),可以看到OPLS沒有將兩類很好的分離,而KOPLS的分離效果相對較好。總之,本例使用KOPLS的預測效果和可視化效果都優于OPLS。

表1 KOPLS和OPLS兩種方法的Q2值比較

圖6 KOPLS方法(a)和OPLS方法(b)的預測成分和第一個正交成分得分圖

討 論

本研究模擬實驗表明,當數據間存在線性關系時,應用KOPLS和OPLS兩種方法的Q2值和分類可視化效果基本相同,可以任選其中一種方法進行分析。在因變量Y與自變量X之間存在復雜非線性關系情況下,與OPLS模型相比,KOPLS模型的預測能力(Q2)穩健,同時能夠保持更合適的可視化效果。通過對實際卵巢癌代謝組學數據的分析,同樣顯示出KOPLS比OPLS得到的結果更好,說明KOPLS方法可以應用在高維代謝組學數據的分析中。

1.Nguyen D,Rocke DM.Tumor classification by partial least squares using microarray gene expression data.Bioinformatics,2002,18:39-50.

2.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.

3.Rosipal R,Trejo LJ.Kernel Partial Least Squares Regression in Reproducing Kernel Hilbert Space.Journal of Machine Learning Research,2001,2:97-123.

4.Rantalainen M,Bylesjo M.Kernel-based orthogonal projections to latent structures(K-OPLS).Journal of Chemometrics,2007,21:376-385.

5.Czekaj T,Wen W,Beata W.About kernel latent variable approachs and SVM.Journal of Chemometrics,2005,19:341-354.

6.Fonville M,Coen M.Non-linear modeling of 1HNMR metabonomic data using kernel-based orthogonal projections to latent structures optim ized by simulated annealing.AnalyticaChimica Acta,2011,705:72-80.

7.Bylesjo M,Rantalainen M.KOPLS package:Kernel-based orthogonal projections to latent structures for prediction and interpretation in feature space.Bioinformatics,2008,9:106-112.

8.Tao W,Ming Y.Application of Metabolomics in Traditional Chinese Medicine Differentiation of Deficiency and Excess Syndromes in Patients with Diabetes Mellitus.Evidence-Based Complementary and Alternative Medicine,2012.

(責任編輯:郭海強)

The Application of Kernal Orthogonal Projection to Latent Structures(KOPLS)in Metabolomics Data Analysis

Li Junnan,Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150081),Harbin)

ObjectiveTo explore the characteristics of kernel orthogonal projections to latent structures(KOPLS)method and its application in metabolomics data analysis.MethodsWe use simulated experiment and actual metabolism data to evaluate the prediction ability,classification ability and visualization effect of the KOPLS method.ResultsSimulation experiment and actual metabolomics data analysis proved that when there is a linear relationship between data,the KOPLS has the same effect with traditional linear OPLS methodS.The KOPLS method in dealing with nonlinear relations has higher predictive ability and better classification effect,at the same time,the score of the figure of visual effect is good.ConclusionIt can be applied to high-dimensional omics data analysis better.

Kernel orthogonal projections to latent structures;Non-linear;Metabonomics

*高等學校博士學科專項基金(20122307110004);國家自然科學基金資助(81172767)

△通信作者:李康,likang@ems.hrbmu.edu.cn

猜你喜歡
可視化效果方法
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
按摩效果確有理論依據
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产综合网站| 九色在线观看视频| 亚洲激情区| 国产成人AV综合久久| 综合色在线| 91精品啪在线观看国产60岁| 无码一区18禁| 欧美三级视频网站| 中文字幕1区2区| 亚洲欧美日韩成人在线| 成人国产精品网站在线看| 亚瑟天堂久久一区二区影院| 99re在线免费视频| 综合天天色| 国内精自视频品线一二区| 特级欧美视频aaaaaa| 久久精品只有这里有| 在线看免费无码av天堂的| 亚洲人成色在线观看| 伊人天堂网| 欧美h在线观看| 9966国产精品视频| 国产精品成人免费综合| 亚洲天堂网在线观看视频| 欧美www在线观看| 人妻中文字幕无码久久一区| 天堂中文在线资源| 日韩午夜福利在线观看| 日本a级免费| 色呦呦手机在线精品| 亚洲日韩高清在线亚洲专区| 暴力调教一区二区三区| AV色爱天堂网| 国产白浆视频| 国产无码精品在线播放| 国产精品13页| 91免费国产在线观看尤物| 日本久久免费| 亚洲欧美色中文字幕| 国产成+人+综合+亚洲欧美| 青青青视频免费一区二区| 青青操视频免费观看| 天堂在线视频精品| 国产精品毛片一区视频播| 狠狠色丁香婷婷综合| 谁有在线观看日韩亚洲最新视频| 欧美啪啪网| 亚洲最新网址| 成人免费网站在线观看| 日本中文字幕久久网站| 99久久国产自偷自偷免费一区| 99久久国产综合精品2020| 成人福利在线看| 99九九成人免费视频精品| 久久久久久久久18禁秘| 国产二级毛片| 色久综合在线| 不卡无码网| 一级全黄毛片| 欧美在线黄| 97狠狠操| 青草精品视频| a天堂视频在线| 午夜福利在线观看入口| 国产色婷婷| 国产人妖视频一区在线观看| 黄色不卡视频| 亚洲欧洲天堂色AV| 亚洲国产系列| 亚洲免费毛片| 女人天堂av免费| 亚洲一区二区三区中文字幕5566| 天天综合网站| 亚洲成在人线av品善网好看| 40岁成熟女人牲交片免费| 国产专区综合另类日韩一区| 国产黄在线观看| 亚洲欧美另类中文字幕| 热99re99首页精品亚洲五月天| 一级片免费网站| 国产在线精品网址你懂的| 久久综合AV免费观看|