朱琰琰,羅執芬,崔永霞,盧創新,周 云*
(1.河南省人民醫院腫瘤科, 鄭州 450003;
2.鄭州大學人民醫院腫瘤科, 鄭州 450003)
?
人類蛋白組學草圖的肺癌分子標記物初探
朱琰琰1,2,羅執芬1,2,崔永霞1,2,盧創新1,2,周云1,2*
(1.河南省人民醫院腫瘤科, 鄭州 450003;
2.鄭州大學人民醫院腫瘤科, 鄭州 450003)
摘要:傳統的肺癌分子標記物探索通常基于基因組或者轉錄組研究,而基于蛋白質水平的肺癌分子標記物探索通常局限在低通量水平。 質譜技術已經開始產生高通量的全局正常及癌癥蛋白組。我們采用開源統計軟件R對人類蛋白組學草圖數據及已發表的肺癌蛋白質組學數據進行二次分析,篩選出91個潛在的候選肺癌分子標記物。基因注解分析顯示候選肺癌基因富集了和代謝、TP53通路以及MicroRNA調控等相關的基因。最后,利用Human Protein Atlas數據庫及Pubmed對前20候選標記物進行驗證, 結果顯示大部分候選肺癌基因大多能夠得到驗證。可見數據挖掘在即將到來的質譜推動的組學大數據時代將發揮重要作用。
關鍵詞:蛋白質組;數據挖掘;肺癌;分子標記物
人類基因組草圖的發表迄今已經有15年。在這期間,測序技術的不斷成熟以及成本的不斷下降促使基因組學在生物醫學研究中占據舉足輕重的作用[1]。基因微芯片技術以及RNA測序則推動了我們對于基因在RNA水平表達的認識[2, 3]。基于轉錄組學數據的研究使我們得以發現很多在疾病發生發展中起重要作用的生物標記物,比如腫瘤生物標記。由于技術的限制,我們對于人類蛋白組學的認識一直處于相對落后的狀態。 近年來,質譜技術的發展正在催生一個嶄新的蛋白質組學時代的到來[4, 5]。蛋白組學數據的存儲、分析、解析成為生物信息學的一個新挑戰[6]。越來越多的雜志要求研究人員將高通量數據上傳到公共數據庫,使得普通研究人員借助簡單的生物信息學方法能夠對這些數據進行挖掘、整合,以自己獨特的角度進行數據的再分析。
癌癥分子標志物的研究具有重大的臨床意義。一方面,分子標記物可以大大提高癌癥早期診斷率。目前,前列腺癌特異抗原(PSA)、癌胚抗原(CEA)、及甲型胎兒蛋白(AFP)分別被廣泛用于前列腺癌、結腸癌和肝癌等的篩查,為高危人群提供了一個成本較低的篩查手段。另一方面,癌癥分子標記物可以為靶向治療提供新的策略。BCL-ABL融合基因是慢性粒細胞性白血病常見的突變,針對這個突變酪氨酸激酶的靶向藥伊馬替尼大大提高了慢性粒細胞白血病的生存期。
目前,肺癌在全世界范圍內是導致最多癌癥死亡的殺手[7]。盡管近年來我們在靶向治療及早期診斷方面取得了許多激動人心的進展,很多肺癌病人的診斷往往已經到了晚期,使得病人失去手術機會并且對標準化療方案鮮有反應。對于肺癌分子標志物的界定以及功能學研究有助于我們更深入的認識肺癌發生發展的分子生物學機理,從而能在早期診斷以及靶向治療方面取得新的突破。
最近,兩個研究小組同時發表了人類蛋白組草圖[8, 9]。人類蛋白組草圖以及更多后續研究將成為一個寶貴的金礦,從而推動我們對于生物標記物的認識。本研究將利用公開發表的人類蛋白質組草圖數據[9],結合其他公共數據庫的數據,探索潛在的有價值的肺癌分子標記物。
1數據來源與方法
1.1數據來源
原始蛋白組數據來源于http://www.nature.com/nature/journal/v509/n7502/full/nature13319.html
1.2分析方法
R-project開發的開源統計語言R用于進行所有的數據分析以及作圖。R編程使用圖形界面軟件Rstudio。數據錄入采用gdata庫中的read.xls函數。其他函數均為R基礎庫中包含的函數。肺癌表達數據來源于5株肺癌細胞系表達的平均值;正常參照蛋白組原始PSM數值進行log10轉化。我們定義量化指標以對1 816個肺癌基因表達水平進行界定,即ratio = 肺癌細胞系表達均值/log10(PSM)。
采用馬克思普朗克分子遺傳研究所開發的在線工具ConsensusPathDB (http://cpdb.molgen.mpg.de/)進行生物通路富集分析。ConsensusPathDB基于KEGG、WikiPathways等數據庫。p值大于0.01作為顯著性檢驗的標準。我們使用Panther在線工具(http://pantherdb.org/)進行基于生物功能的基因注解。
1.3論文圖文
使用微軟Word文本處理軟件準備本論文草稿,Inkspace軟件準備論文中矢量圖制作。
2結果分析
2.1候選肺癌分子標志物篩選
首先,下載5株肺癌細胞系的蛋白質表達數據[9]。這5株肺癌細胞系分別為:A549, h160, H226, H23和p22, 涵蓋了常見的肺癌類型。表1為5株肺癌細胞系在ATCC細胞系數據庫中的相關信息。在5株肺癌細胞系中檢測到蛋白質表達的基因數目高達12 668個。其中,有1 816個基因在5株細胞系中均能檢測到蛋白質表達(肺癌共表達基因)。

表1 本研究所涉及的肺癌細胞系
接下來,下載涵蓋18 097個基因表達的人類蛋白組草圖。所有蛋白質表達水平由PSM表示,其中PSM是該蛋白質在ProteomicsDB數據庫中的多肽譜配對數。人類蛋白質草圖將作為人類蛋白質表達的正常參照,用于和肺癌細胞系蛋白組進行比較從而發現潛在的腫瘤標記物。依次檢索1 816個肺癌共表達基因在人類蛋白組草圖中的表達水平(PSM),并且進行log10轉換,轉換后的PSM數值可以同前面下載的肺癌共表達基因進行比較。
為了獲得肺癌共表達基因的表達水平,首先將1 816個肺癌共表達基因在5株肺癌細胞中的表達進行平均。然后,采用簡化的量化指標以對1 816個肺癌基因表達水平進行界定,即ratio = 肺癌細胞系表達均值/log10(PSM)。這個比率將作為肺癌生物標記物指數。圖1(a)為肺癌生物標記物指數的直方圖分布,處于柱狀圖中心位置的基因在肺癌組織的表達水平和在人類蛋白質草圖中的表達水平最為接近。而處于柱狀圖兩側的基因則是表達水平偏離(高于或者低于)人類蛋白組草圖表達水平的基因。
利用Ratio對1 816個肺癌共表達基因進行由高到低的排序見圖1(b),以篩選出在肺癌組織中表達水平遠高于人類蛋白質草圖參照的基因。以0.725 8作為log2(ratio)的閾值能夠篩選出5%在肺癌中上調表達的基因(合計91個),即肺癌的候選分子標記物。表2為前20的候選分子標記物。

圖1 候選肺癌標記物篩選Fig.1 Screening of candidate biomarkers for lung cancer
為了研究哪些生物學功能在肺癌發生發展過程中被富集,基因注解(Gene Ontology)被用于對91個候選肺癌標記物進行分析。 圖2只顯示了基因注解顯著的結果,發現催化活性、蛋白結合等生物學功能被富集,其中包括已知的肺癌相關蛋白NRAS。被富集的生物學功能橫跨了細胞表面受體到轉錄因子及下游基因表達的“信號傳遞”過程,包括受體活性、 轉運蛋白、DNA結合轉錄因子、 蛋白質結合轉錄因子、酶調控因子及催化活性。這提示癌癥是一個復雜的疾病,細胞內部細胞傳遞的各個步驟都可能被癌細胞利用產生對癌細胞有利的表型。

圖2 候選肺癌生物標記物顯著富集的生物功能及其比例Fig. 2 Geneontology analysis for lung cancer biomarkers
為進一步研究這91個肺癌候選標記物所參與的生物通路。采用馬克思普朗克分子遺傳研究所開發的在線工具ConsensusPathDB獲取這91個肺癌候選標記物所富集的生物通路。結果發現三羧酸循環和氧化呼吸鏈相關基因在肺癌當中被大量富集,支持肺癌在發生發展過程中代謝通路的重塑。值得注意的是,和P53相關的基因在肺癌候選標志物中也被富集,其中包括參與代謝的基因和受P53轉錄調控的基因。還發現許多肺癌候選標記物受MicroRNA調控,提示基于MicroRNA的藥物研發可能為肺癌的治療提供新的方向,91個候選肺癌生物標記物采用ConsensusPathDB進行功能注解,顯示的是顯著富集的生物通路。節點大小表示該通路相關基因數目;節點顏色越深,p值越小;節點間連線越粗,兩個節點共有基因越多;節點間連線顏色指示候選基因中參與該通路的基因數目,粉色最多,灰色最少 (見圖3)。
2.2基于公共數據庫及Pubmed的驗證
首先,我們采用human protein atlas數據庫[10, 11]對前二十個候選腫瘤標記物進行驗證。前20個候選標記物中除了PROX1和STMN2外,其他標記物在數據庫均有免疫組化數據。我們發現除了YJEFN3、 RAB39A 和LRRC16B 3個基因只有1個病例出現低表達, 大部分候選標記物在肺癌組織中都有低、中、高等不同程度的表達。盡管免疫組織化學的數據和所采用的抗體關系密切,但是大部分候選基因在肺癌的表達能夠得到驗證(見圖4)。

圖3 候選肺癌生物標記物富集的生物通路Fig.3 Enrichment of biological pathways for lung cancer biomarkers

圖4 候選生物標記物在人類蛋白質圖譜數據庫中的驗證Fig. 4 Validation of biomarkers in human protein altas
不同數目的肺癌組織用不同抗體對候選生物標記物進行染色,根據染色強度分為高表達 (High),中表達 (Medium),低表達 (Low),無法檢測 (ND)。
其次,利用Pubmed對部分候選肺癌基因進行檢索。由于對于PROX1和STMN2在人類蛋白質圖譜中沒有相應的數據可以分析該基因在肺癌組織中的表達,Pubmed將用于進行文獻檢索。有研究表明PROX1在肺癌中過表達,而采用慢病毒介導的shRNA敲低PROX1則會抑制肺癌細胞的增殖,提示PROX1很可能是一個潛在的肺癌標志物[12]。另外,STMN2作為調控微管動態的基因,是WNT通路的下游。研究表明STMN2在肝癌中高表達并且對于維持肝癌細胞錨定非依賴的生長狀態有重要意義[13],而它在肺癌中的作用尚不清楚。
3討論
利用公共數據庫的蛋白質組學數據以及開源統計語言R對已發表的數據進行再分析與再解析,探索肺癌共表達基因作為肺癌分子標志物的可能性。發現NRAS在內的已知肺癌標記物,篩選出一系列具體功能尚未清楚的肺癌候選標記物。進一步的濕實驗驗證將為最終界定這些基因在肺癌發生發展中的作用以及它們作為肺癌分子標記物的可行性。值得注意的是,該策略也可能富集一些正常肺組織相對一般組織高表達的基因,從而導致一定的假陽性率。比如,PEX13是一個在過氧化物酶體中高表達的基因,其上調有可能是正常肺組織為適應高氧環境的常態,也可能是腫瘤細胞特定代謝進化而來的優勢表型[14]。因此,候選標記物具體生物學功能需要進一步實驗驗證。
基因注解分析顯示:篩選出的候選肺癌標志物富集了和代謝、TP53以及MicroRNA調控相關的基因。代謝和TP53通路被富集,說明肺癌發生發展過程中癌細胞進化并且重塑了它們的代謝網絡且TP53通路被異常調節。代謝通路的重塑可能和癌細胞的“Warburg”效應相關[15],即癌細胞傾向于上調無氧代謝通路;而P53作為抑癌基因在大多數癌癥中有直接突變或者其他相關蛋白的突變,使得P53無法行使正常功能[16]。
隨著質譜技術的不斷發展,越來越多的實驗室開始對蛋白質組學研究產生新的興趣,這意味著未來會有越來越多的組學數據產生。而大部分組學數據將會被存儲在公共數據庫如PRIDE, proteomeicsDB等[9, 17]。借助開源軟件R對公共數據庫中的數據進行二次分析、解析以及整合將有助于獲得新的認知。而將這種“干”研究獲得的信息用于指導實驗設計并進行“濕”實驗驗證則將成為未來生物醫學研究的大趨勢[18],即計算生物學與實驗生物學的互相補充。過去十幾年興起的系統生物學代表了這一新的趨勢,并且已經在生物和醫學研究中扮演著重要的角色[19]。
4結論
通過基于公共數據庫的數據挖掘篩選出91個潛在的肺癌分子標志物。基因注解分析顯示這些肺癌標志物富集了和代謝、TP53網絡相關的基因以及MicroRNA靶基因。人類蛋白組草圖的發表對于生物醫學研究人員有重大意義。蛋白質組學產生的大數據以及這些數據通過公共數據庫的共享將深遠的影響生物醫學研究。
參考文獻
[1]MARDIS E R.A decade’s perspective on DNA sequencing technology[J]. Nature, 2011,470(7333):198-203.
[2]SCHENA M, SHALON D, DAVIS R W, et al. Quantitative monitoring of gene expression patterns with a complementary DNA microarray[J]. Science, 1995, 270(5235):467-470.
[3]WANG Z, GERSTEIN M,AND SNYDER M.RNA-Seq:a revolutionary tool for transcriptomics[J].Nature Reviews Genetics,2009,10(1):57-63.
[4]AEBERSOLD R, MANN M.Mass spectrometry-based proteomics[J]. Nature, 2003,422(6928): 198-207.
[5]NILSSON T , MANN M , AEBERSOLD R, et al.Mass spectrometry in high-throughput proteomics: ready for the big time[J]. Nature Methods, 2010,7(9):681-685.
[6]BOGUSKI M S, MCINTOSH M W. Biomedical informatics for proteomics[J]. Nature, 2003,422(6928):233-237.
[7]HERBST R S , HEYMACH J V , LIPPMAN S M. Lung cancer[J]. New England Journal of Medicine, 2008,359(13):1367-1380.
[8]KIM M S , PINTO S M , GETNET D , et al.A draft map of the human proteome[J]. Nature, 2014,509(7502): 575-581.
[9]WILHELM M , SCHLEGL J , HAHNE H, et al. Mass-spectrometry-based draft of the human proteome[J]. Nature, 2014,509(7502):582-587.
[10]UHLEN M , OKSVOLD P , FAGERBERG L, et al.Towards a knowledge-based Human Protein Atlas[J]. Nature Biotechnology, 2010, 28(12):1248-1250.
[11]UHLéN M, FAGERBERG L, HALLSTR?M BM, et al. Proteomics. Tissue-based map of the human proteome[J]. Science, 2015,347(6220):1260419.
[12]ZHU S H , SHAN C J , WU Z F, et al.Proliferation of small cell lung cancer cell line reduced by knocking-down PROX1 via shRNA in lentivirus[J]. Anticancer Research, 2013, 33(8): 3169-3175.
[13]LEE H S , LEE D C , PARK M H , et al. STMN2 is a novel target of beta-catenin/TCF-mediated transcription in human hepatoma cells[J]. Biochemical ang Biophysical Research Communications, 2006,345(3):1059-1067.
[14]ORUQAJ G , KARNATI S , VIJAYAN V , et al. Compromised peroxisomes in idiopathic pulmonary fibrosis, a vicious cycle inducing a higher fibrotic response via TGF-beta signaling[J]. Proceedings of the National Academy of Sciences, 2015,112(16):E2048-2057.
[15]KOPPENOL W H , BOUNDS P L, DANG C V.Otto Warburg's contributions to current concepts of cancer metabolism[J]. Nature Reviews Cancer, 2011, 11(5):325-337.
[16]BIEGING K T, MELLO S S , ATTARDI L D. Unravelling mechanisms of p53-mediated tumour suppression[J]. Nature Reviews Cancer, 2014,14(5):359-370.
[17]VIZCAINO J A , COTE R G , CSORDAS A, et al.The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013[J]. Nucleic Acids Research, 2013,41(Database issue):D1063-1069.
[18]黃曉韻,曹波,楊躍.基于SAS的多元統計方法實現芯片數據挖掘[J].生物信息學,2010,8(2):147-149.
HUANG Xiaoyun, CAO Bo ,YANG Yue.Microarray data mining is achieved by multivariate statistics based on SAS[J]. Chinese Journal of Bioinformatics,2010,8(2):147-149.
[19] HOOD L. Systems biology and p4 medicine: past, present, and future[J]. Rambam Maimonides Medical Journal,2013,4(2): e0012.
Pilot study on biomarkers for lung cancer based on the draft of human proteome
ZHU Yanyan1,2, LUO Zhifen1,2,CUI Yongxia1,2, LU Chuangxin1,2, ZHOU Yun1,2*
(1.OncologyUnit,People’sHospital,Zhengzhou450003,China;2.OncologyUnit,People’sHospital,ZhengzhouUniversity,Zhengzhou450003,China)
Abstract:Traditional exploration over lung cancer molecular marker has been relied on genome or transcriptome research, while exploration at the protein level has been limited by throughput. Mass spectrometry based proteome research has started to generate global proteome data for normal and cancer tissue. Using the open source statistical language R, we mined the publicly available data of human proteome draft and lung cancer proteome for screening for candidate molecular markers for lung cancer.We identified 91 candidate biomarkers for lung cancer.Gene ontology analysis suggested that candidate lung cancer biomarkers have enriched genes associated with metabolism, TP53 network and microRNA regulation. Top hits on the list were then validated with Human Protein Atlas database and Pubmed, which shows that most hits can be validated. We believe data mining has an important role to play in the big omic data era that is being ushered in by mass spectrometry.
Keywords:Proteome;Data mining;Lung cancer;Biomarkers
中圖分類號:Q51;Q279
文獻標志碼:A
文章編號:1672-5565(2016)01-043-06
doi:10.3969/j.issn.1672-5565.2016.01.08
作者簡介:朱琰琰,女,研究方向:腫瘤學、系統醫學;E-mail:xjtu100@163.com.*通信作者:周云,男,主任醫師,研究方向:腫瘤學;E-mail:zlk2092@126.com.
收稿日期:2015-10-26;修回日期:2015-12-16.