999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

壓縮感知理論在小樣本量蛋白質組學變量篩選研究中的應用*

2019-11-12 12:24:12哈爾濱醫科大學衛生統計學教研室150081
中國衛生統計 2019年5期
關鍵詞:理論差異方法

哈爾濱醫科大學衛生統計學教研室(150081)

張 薇 張秋菊 王玉鵬 謝 彪 孫 琳 高 兵 葉 倩 田 偉 侯小文 劉美娜△

【提 要】 目的 探索基于壓縮感知理論變量篩選方法在小樣本量蛋白質組學研究中應用的效果和特點,為小樣本量的蛋白質組學的變量篩選提供更靈敏、可靠的方法。方法 模擬實驗比較基于CS理論的變量篩選方法與偏最小二乘(PLS)及隨機森林(RF)篩選變量的能力,通過靈敏度、特異度及平衡準確度評價其變量篩選效果;利用CS變量篩選方法篩選非小細胞肺癌兩亞型組(腺癌和鱗狀細胞癌)的差異蛋白。結果 模擬實驗表明,CS理論的變量篩選方法在樣本量較小時具有較好的變量篩選效果,靈敏度、特異度及平衡準確度均較高;利用基于CS理論的變量篩選方法篩選,獲得肺腺癌和鱗狀細胞癌間差異表達蛋白22種,被證明是肺腺癌和鱗狀細胞癌間有差異的蛋白為:Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C、PKP1、P63、MCT1。結論 基于CS理論的變量篩選方法在樣本量特別少時,篩選變量的效果優于PLS和RF,更適用于小樣本蛋白質組學數據變量篩選研究。

目前使用的蛋白質組學定量技術多以質譜為基礎,主要分成兩類:第一種是穩定同位素標記的定量蛋白質組學(如iTRAQ、TMT);第二種是非標記的定量蛋白質組學技術即label-free。通過質譜技術獲得高維的蛋白質組學數據,可利用單變量或多變量等統計學分析方法篩選患者和健康對照之間的差異蛋白質。由于蛋白質之間的相互作用,單變量特征篩選方法(如t檢驗、ANOVA等)會忽略變量之間的相關性,損失重要的生物學信息,同時存在多重比較問題;目前常用的多變量特征篩選方法有偏最小二乘(PLS)、隨機森林(RF)等,能夠考慮到變量之間的多重相關性,但蛋白質組學的檢測費用昂貴,尤其是當研究某些罕見疾病時,樣本量通常很小 (有時樣本量不足10),此時PLS、RF等方法篩選差異變量的能力可能受到限制[1]。因此本研究介紹一種基于壓縮感知(compressive sensing,CS)理論變量篩選方法,通過模擬實驗,比較基于CS的變量篩選方法和PLS、RF在小樣本蛋白質組學數據變量篩選研究中的效果;并將該方法應用于實際數據,進行肺腺癌和鱗狀細胞癌差異蛋白篩選。

CS原理與方法

1.CS理論簡介

Candés和Donoho在相關研究的基礎上于2006年正式提出了壓縮感知的概念,為信號采集技術帶來了革命性的突破[2]。CS理論的主要原理是只要信號在某個變換域是稀疏的,就可以用一個與變換基無關的測量矩陣將稀疏的高維變換域信號投影到低維空間,通過優化求解從低維空間以高概率重構出原信號,極大地降低了存儲空間和計算復雜度。

CS理論將信號采樣與壓縮相結合,在信號處理領域應用廣泛。Wang A等人將可配置的節能壓縮感知結構應用于人體傳感網絡,解決了人體傳感網絡應用中無線電通訊部分耗能大的問題[3];在雷達信號處理方面,Tivive FHC等人提出了一種基于多重測量向量壓縮感知模型的復值信號壓縮感知方法,并將其應用于壓縮傳感穿墻雷達成像問題[4];在醫學上壓縮感知理論用于核磁共振成像,降低噪聲信號干擾[5],也用于CT斷層掃描以縮短掃描時間,降低輻射劑量[6]。

2.基于CS理論的變量篩選方法

(1)基于CS理論變量篩選的基本思想

CS的主要思想是從線性測量y=Aω中重構未知向量ω,在高維蛋白質組學中,A∈Rn×d是由包含n個樣本和d個變量的高維蛋白質組學質譜數據構成的測量矩陣,y∈Rn為由n個樣本的應變量測量值組成的向量,通過測量矩陣A和測量值y重構向量ω。

現階段CS的重構算法大致可以分為以下幾類:第一類是貪婪迭代算法,該類算法基本原則就是通過迭代的方式尋找稀疏向量的支撐集,并使用受限支撐最小二乘估計來重構信號,計算速度快但是需要的測量數據多且精度低;第二類是凸優化算法,這類方法通過將非凸問題轉化為凸問題求解找到信號的逼近,其中最常用的方法為基追蹤算法,該類算法計算速度慢,但需要的測量數據少且精度高;第三類算法是基于貝葉斯框架提出的重構算法,該類算法考慮到了信號的時間相關性,特別是當信號具有較強的時間相關性時,能夠提供比其他重構算法更優越的重構精度[7]。本研究的目的是利用CS理論篩選兩組之間差異表達的蛋白質,未涉及時間相關性問題,且蛋白質組學研究中樣本量通常是非常小的,所以選擇凸優化基追蹤算法作為本研究的CS重構方法。

CS方法的先驗信息是假設向量ω是稀疏的,即其中大部分元素值為0,或者特別小,當樣本量n遠小于變量數d時,用基追蹤方法求y=Aω的最稀疏解ω:

(1)

隨著CS及其相關領域研究的發展,新的算法如核范數最小化、1-bit壓縮感知等相繼被提出,這些方法在理論研究和真實數據研究方面效果都非常好。其中1-bit壓縮感知將測量值y進行分類化,研究應變量為二分類的問題,只保留其符號信息:

yi=sign(〈ai,ω〉),i=1,…,n

(2)

其中a1,…,an∈Rd是測量矩陣A∈Rn×d每一個樣本的各變量值組成的向量。

(2)基于CS理論篩選變量的步驟

原始數據的樣本量為n,每個樣本預處理后蛋白質組學質譜數據xi∈Rd,i=1,…,n由其d個變量相應的強度值組成的向量進行歸一化、平滑化及標準化得到,已知每個樣本的分類標簽yi∈{-1,+1},i=1,…,n?;贑S的變量篩選方法實際上就是要重構出能夠將兩組正確分開的稀疏向量ω,并找到其中非零元素所在位置的集合。

①對原始質譜數據進行預處理,包括歸一化、平滑化及標準化,得到預處理后蛋白質組學數據xi∈Rd,i=1,…,n;

(3)

上述過程可以用Matlab軟件實現。

模擬實驗

構建具有相關性的差異變量,加入一定數目的噪聲變量,設置不同的樣本數,考察基于壓縮感知理論變量篩選方法的篩選效果,同時與常用方法PLS及RF進行比較,因為這兩種方法是目前高維組學進行變量篩選常用的方法,篩選出的變量有重要性排序[8],在與本研究的變量篩選方法利用平衡準確度比較篩選變量的效果時更有可比性。

1.模擬實驗條件設置

設置模擬數據的總樣本數分別為N=6,8,10,12,18,24,30,病例組和對照組的樣本量相等;樣本中總變量數為1000,差異變量比例設為3%、5%、8%、10%;變量之間的相關性設為0.2、0.4、0.6、0.8。不同差異變量比例及變量之間相關性進行組合,抽取符合多元正態分布的數據組成模擬數據,每種情況重復100次,分別利用基于CS的變量篩選方法、PLS和RF進行變量篩選,計算每種方法在各種差異變量比例與變量相關性組合的情況下篩選變量的平均平衡準確度(平衡準確度=(靈敏度+特異度)/2)。

2.模擬實驗結果

不同差異變量比例與相關系數的組合有很多,以p=50為例,不同相關系數條件下三種方法篩選變量的效果比較(圖1)和以r=0.4為例,不同差異變量比例條件下三種方法篩選變量的效果比較(圖2)如圖所示。結果顯示:在樣本量較小時,基于CS理論的變量篩選方法篩選變量的效果均為三種方法中最優,其次為PLS,RF最差,不同差異變量比例以及相關系數條件下均得到同樣結果;尤其是當樣本量N≤12時,基于CS理論的變量篩選方法優勢更為明顯;隨著樣本量增加,其變量篩選效果與PLS越來越接近。

圖1 p=50為例,不同相關系數條件下三種方法篩選變量的效果比較

圖2 r=0.4為例,不同差異變量比例條件下三種方法篩選變量的效果比較

實例應用

實例數據分析中,使用的是ProteomeXchange數據庫中的PXD002622數據集,用于非小細胞肺癌的兩種亞型(腺癌和鱗狀細胞癌)間的差異蛋白質篩選研究。其中腺癌(ADC)和鱗狀細胞癌(SCC)患者各3例,采集患者組織學樣本,利用TMT標記定量蛋白質組學技術及MaxQuant軟件,鑒定出51001個多肽和7241個蛋白質。將基于CS理論的變量篩選方法應用于上述數據,閾值設為0.09,篩選出22個ADC和SCC之間的差異蛋白質,表1為其相對應的蛋白質名稱。

表1 篩選出的22個差異蛋白質鑒定結果

P63是一種腫瘤蛋白,在Terry J等[9]的研究中,用單個生物標志物區分ADC和SCC時,P63是最有意義的(靈敏度為84%,特異度為85%);PKP1為血小板親和蛋白1,Schwarz J等[10]認為它是SCC中的特異表達標志物,其表達水平與癌癥的惡性程度成反比;Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C是常用的腫瘤免疫組織化學標記物,在本研究中ADC和SCC之間的表達差異與Terry J等[9,11-13]研究的結果一致;MCT1為單羧酸轉運蛋白1,是一類跨膜轉運蛋白,涉及多種生物學功能,包括促進營養物質吸收、影響代謝動態平衡、調節胞內pH值以及參與藥物輸送等,Stewart PA等[14]認為MCT1可能是腺癌和鱗狀細胞癌的潛在診斷標志物及藥物治療靶向蛋白。

討論與結論

本方法不僅能應用于蛋白質組學數據,對于具有相似數據結構的其他具有小樣本量(尤其是N≤12當時)的高維組學數據(如轉錄組學、代謝組學等)的差異變量篩選也具有一定的應用意義,為小樣本量高維組學數據的研究提供了新思路。

本研究基于CS理論的變量篩選方法的核心是解決一個有約束的最優化問題,本文的約束條件使用的是L2范數,實際上也可以根據分析需要,使用L1范數或L1范數與L2范數結合的約束條件對本方法進行優化。

本文模擬小樣本量蛋白質組學變量篩選研究,在樣本量小時(尤其是當N≤12時),基于CS的變量篩選方法篩選差異變量的能力優于PLS和RF,隨著樣本量增加,其變量篩選效果逼近PLS,在不同的差異變量比例及相關系數條件下結果一致。模擬實驗為了驗證小樣本量時三種變量篩選方法的效果,設置的最大樣本量為30,所以當繼續增大樣本量時本方法與PLS的優劣還需要進一步研究。

本文用基于CS理論的變量篩選方法分析了非小細胞肺癌數據,篩選出的差異蛋白集合中變量數目少,同時又包含了Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C、PKP1、P63、MCT1等已經被驗證是ADC與SCC之間差異表達的蛋白質。其中Cytokeratin 6系列是常用的腫瘤免疫組織化學標記物;PKP1為血小板親和蛋白,與表皮的形態形成有關;P63是腫瘤蛋白63,由一段結合轉錄激活劑或抑制劑的特異DNA序列翻譯而來;MCT1為單羧酸轉運蛋白1,是一類跨膜轉運蛋白,涉及多種生物學功能,包括促進營養物質吸收、影響代謝動態平衡、調節胞內pH值以及參與藥物輸送等。

猜你喜歡
理論差異方法
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
堅持理論創新
當代陜西(2022年5期)2022-04-19 12:10:18
神秘的混沌理論
理論創新 引領百年
相關于撓理論的Baer模
找句子差異
生物為什么會有差異?
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 91系列在线观看| 美女毛片在线| 国产91线观看| 色悠久久久久久久综合网伊人| 91在线视频福利| 国产综合亚洲欧洲区精品无码| 国产亚洲精| 99热这里只有精品国产99| 九色91在线视频| 日本黄色a视频| 亚洲男人的天堂网| 欧美一区二区三区国产精品| 99在线视频免费| 国产精品性| 一本一道波多野结衣一区二区| 国产女主播一区| 在线观看网站国产| 日韩大乳视频中文字幕| 国产va在线观看| 午夜欧美在线| 亚洲第一视频区| 国产精品三区四区| 精品五夜婷香蕉国产线看观看| 亚洲福利视频网址| 国产福利在线观看精品| 国产精品护士| 香蕉伊思人视频| 欧美午夜在线观看| 日本高清在线看免费观看| 午夜免费小视频| 香蕉蕉亚亚洲aav综合| 四虎在线观看视频高清无码| 无码AV日韩一二三区| 一级爆乳无码av| 日韩高清无码免费| 色综合天天综合| 全部免费毛片免费播放| 久久亚洲天堂| 国产乱子精品一区二区在线观看| 亚洲精品第一在线观看视频| 日本精品影院| 亚洲无线国产观看| 亚洲欧美精品一中文字幕| 日韩福利在线观看| 毛片免费高清免费| 青青热久免费精品视频6| 极品性荡少妇一区二区色欲| 欧美午夜网站| 99热精品久久| 成人av专区精品无码国产| 国产成人一区在线播放| 亚洲日本www| 免费视频在线2021入口| www中文字幕在线观看| 呦女亚洲一区精品| 一区二区三区成人| 国产网站免费观看| 亚洲AⅤ波多系列中文字幕| 亚洲男女在线| 午夜啪啪福利| 欧美特级AAAAAA视频免费观看| 久久综合一个色综合网| 波多野结衣亚洲一区| 成人福利免费在线观看| 91无码网站| 国产在线拍偷自揄拍精品| 丝袜国产一区| 久久特级毛片| 麻豆精品在线视频| 天天做天天爱天天爽综合区| 国产99在线观看| 国产精品视屏| 激情亚洲天堂| 日韩欧美中文字幕在线精品| 茄子视频毛片免费观看| 国产成人一二三| 欧美亚洲欧美区| 精品午夜国产福利观看| 精品无码一区二区三区在线视频| 婷婷综合亚洲| 亚洲欧洲日韩综合色天使| 天堂成人在线|