何文武 冼磊 王永勇 胡艷玲 陳銘伍
非小細胞肺癌(non-small cell lung cancer, NSCLC)是全球最常見惡性腫瘤之一,2011年最新在線出版的全球癌癥統計[1]表明,肺癌是男性中最常見的癌癥,也是男性死亡最常見的病因;在女性常見的癌癥中,排在第4位,也是第2位死亡病因。隨著腫瘤發病機制及其生物學行為研究的不斷深入,越來越多的焦點聚向了以特異性高、不良反應輕為特點的分子靶向治療。在腫瘤發生發展過程中有大量疾病關鍵基因和伴隨基因參與癌基因的擴增過程,但是如何將影響腫瘤發生發展的關鍵性分子改變從伴隨性改變中識別出來是目前腫瘤研究領域的重要挑戰之一。近年來隨著人類基因組測序工程的完成,研究者開始把基因芯片廣泛應用于腫瘤學研究,通過改變實驗條件或實驗標本對全基因組mRNA的表達使用基因芯片進行檢測,得到了無數基因芯片數據,繼而產生了基因芯片數據庫(gene expression omnibus, GEO)[2]。但是如何挖掘出與疾病發生發展密切相關的關鍵基因作為治療疾病的靶點,仍然是一個巨大的挑戰。為了能解決這個問題,Subramanian等[3]提出基因組富集(gene set enrichment analysis, GSEA)分析,該方法能在病例對照類型數據中基于基因組系統水平挖掘影響疾病發生發展的關鍵基因通路。通過分析一組處于2種生物學狀態的基因表達譜芯片數據,了解他們在特定功能基因集中的表達狀況以及這種表達狀況是否存在某種統計學意義。另外,因為實驗平臺、樣本、標化方法、分析方法等問題的存在,不同實驗室的芯片數據有很多的差異,元分析(meta-analysis, meta)是一種可行的解決方法,可對同一個問題所發表相關研究報告的結果進行收集、統計上的整合,以期獲得更準確或更多的結果[4]??紤]通過探索人類NSCLC形成過程中共同擁有的基因改變,可能篩選出影響NSCLC發生發展的關鍵基因,因此本研究應用GSEA和meta分析方法對標準化以后的3套NSCLC全基因組表達芯片數據進行分析,期望篩選出可能影響NSCLC發生發展的關鍵通路和基因,為NSCLC發病機制的研究提供重要的理論基礎。
1.1 材料 本研究設定搜索關鍵詞為“non-small cell lung cancer”,限制研究類型為“expression profiling by array”,在GEO數據庫(http://www.ncbi.nlm.gov/geo/)中搜索,結果提供與NSCLC有關的全基因組表達芯片數據有114套。制定數據集的納入標準為:①數據集必須是有文獻支持的全基因組mRNA表達芯片數據;②每套數據均有NSCLC癌組織和正常組織對照;③本次均考慮原始或者經標準化數據集;④每套數據集必須包括3個以上樣本;⑤數據集采用的樣本必須是人體肺組織。最后,只有3套樣本數據集納入研究(表1)。

表 1 5套全基因組數據集的基本情況Tab 1 Characteristics of datasets selected in the studies
1.2 方法 GSEA方法通過分析2組以上的樣本之間差異表達基因,對樣本進行聚類以獲得明顯基因表達差異的樣本分類。用R語言來處理數據,進行統計分析,得到數據共同改變的通路。 meta方法對單套數據集進行t檢驗,將結果行meta分析,得到差異表達的基因,放入可視化綜合發現注解數據庫(The Database for Annotation, Visualization and Integrated Discovery, DAVID)網站得到這些基因可能所在的通路。首先通過Bioconductor[8]的2.10.1版本來對數據進行標準化處理。用軟件包affty中的RMA算法[9,10]對affymetrix平臺的原始數據進行背景校正、標準化和Log2轉換。然后對每一套數據每個探針的檢驗采用成組t檢驗,僅選取在日本基因和基因組百科全書(kyoto encyclopedia of genes and genomes, KEGG)數據庫[11]中存在的基因進行GSEA分析,剔除變異四分位距<0.5的基因,如果一個基因對應幾個探針,只保留變異內距(inter-quartile range,IQR)最高的探針。 GSEA通過Bioconductor的category包進行,只有超過10個基因的類保留,通過t檢驗對每一個通路中的基因進行檢驗,通過1,000次循環的排列組合(permutation)獲得每個通路的P值,運用SAS 9.13軟件,通過t檢驗把3套數據共同通路里的每個探針算出P值,再通過公式[12](自由度為數據集K的2倍)算出每個基因的卡方值,最后保留P<0.05的基因。對這些基因通路的分析通過DAVID (http://david.abcc.ncifcrf.gov)中的KEGG庫進行分析。
2.1 GSEA分析 應用GSEA方法對3套數據集進行功能基因富集, GSE19188數據集富集出上調通路139條,下調通路40條;GSE7670數據集富集出上調通路106條,下調通路24條;GSE18842數據集富集出上調通路112條,下調通路57條。其中數據集GSE19188和數據集GSE18842通路重疊性比較高。通過3組數據中所得通路進行對比,上調中皆有的通路87條,下調中皆有的通路22條。
2.2 meta分析 運用成組t檢驗對3套數據集單獨分析得出每個基因的P值后, 通過軟件SAS 9.13運用選擇的meta公式進行整合分析,共篩出1,177個基因(P<0.05)。通過DAVID的KEGG庫進行通路富集,這1,177個基因中有162個基因能夠在KEGG庫中被篩出,主要分布在下面的19條通路中:癌癥通路(pathways in cancer)、粘著斑通路(focal adhesion)、細胞骨架肌動蛋白調控通路(regulation of actin cytoskeleton)、胞吞作用通路(endocytosis)、Fc-γ-R介導吞噬作用通路(Fc gamma R-mediated phagocytosis)、胰島素信號通路(insulin signaling pathway)、溶酶體通路(lysosome)、白細胞跨內皮遷移信號通路(leukocyte transendothelial migration)、粘著連接通路(adherens junction)、神經營養因子信號通路(neurotrophin signaling pathway)、細胞外基質受體作用通路(ECM-receptor interaction)、前列腺癌通路(prostate cancer)、長期增強作用通路(long-term potentiation)、腎細胞癌通路(renal cell carcinoma)、精氨酸和脯氨酸代謝通路(arginine and proline metabolism)、致病大腸桿菌感染通路(pathogenic Escherichia coli infection)、神經膠質瘤通路(glioma)、膀胱癌通路(bladder cancer)、蛋白酶復合體通路(proteasome)。
2.3 兩種方法所得結果分析 應用GSEA和meta兩種方法得到重疊性較高的通路:粘著斑通路(圖1)和細胞骨架肌動蛋白調控通路(圖2),且該兩條重要通路都屬于上調通路。 通過R命令語言,得到3組數據集里粘著斑通路和細胞骨架肌動蛋白調控通路各自所含基因探針號。將探針號傳至DVID(http://david.abcc.ncifcrf.gov/conversion.jsp)數據庫進行官方名稱轉換,得到3組數據里該通路所含的基因名稱。 GSE19188里在粘著斑通路所含差異基因152個, GSE7670含135個, GSE18842含152個;GSE19188里在細胞骨架肌動蛋白調控通路所含差異基因141個, GSE7670含118個, GSE18842含135個。通過上步meta運行結果可得粘著斑通路中差異有統計學意義(P<0.05)的基因31個,細胞骨架肌動蛋白調控通路中差異有統計學意義(P<0.05)的基因32個(表2)。

圖 1 粘著斑通路示意圖(圖片來源于從DAVID富集出中的KEGG數據庫http://www.genome.jp/dbget-bin/www_bget?map04510,★P<0.05且在該通路中的基因)Fig 1 Focal adhesion pathway (The chart is from KEGG database, http://www.genome.jp/dbget-bin/www_bget?map04510, ★P<0.05)
隨著基因芯片研究的廣泛開展,對基因芯片數據的分析成為了基因芯片研究的重要部分?;蚋患椒ㄍㄟ^分析一組處于兩種不同生物狀態(如正常和癌變)的芯片數據,推斷已表達的基因是否有共同的表達趨勢,以此來找出與疾病關聯的基因和通路[13]。單獨對某次實驗結果進行分析,且只是對單個基因進行分析,由于樣本問題,可能會漏掉很多有用的信息;并且對基因芯片單套的t檢驗有一定的局限性,受到樣本量的限制,導致不可信的變異估計,可產生較高的假陽性,忽略了不同樣本中表達水平的差異[14]。本研究結合GSEA和meta兩種方法對該3套數據進行分析,兩種結果重疊對比,找出了影響NSCLC相關的重要基因和通路,最終得到重疊性較高的粘著斑通路和細胞骨架肌動蛋白調控通路以及差異性明顯的重要基因。粘著斑是細胞骨架的一個重要結構,由細胞膜外的粘附素、細胞膜上的整聯蛋白和細胞內的細胞骨架蛋白等相互連接集聚而成。細胞正是依靠“粘著斑”這種特殊結構將細胞嵌合在體內正確位置,從而保持細胞的正常結構并發揮其正常功能[15,16]。另外,細胞與細胞間、細胞與基底膜之間的連接都與細胞骨架蛋白相連,細胞骨架功能的變化可以導致細胞形態、細胞-細胞間和細胞-基底膜粘附狀態的改變;同時,細胞-細胞間和細胞-細胞基底膜粘附功能狀態的變化通過細胞信號轉導機制導致骨架蛋白的重新排列,最終引起內皮通透性的改變。內皮細胞形態變化和收縮性的改變主要受骨架蛋白如肌動蛋白和肌球蛋白的影響。內皮細胞收縮性的改變被認為是不同的信號和機制導致通透性變化的最后共同通路。目前已有多項研究[17]顯示,蛋白激酶C(protein kinase C, PKC)與激動蛋白(actin)的結合可以激活PKC,PKC的激活促進粘著斑的形成,其機制包括增加粘著斑激酶(FAK)的活性、促進整合素的堿性化以及調節其它相關蛋白的功能等。其次,在我們篩選出的粘著斑通路31個差異基因和細胞骨架肌動蛋白調控通路32個差異基因中,兩條通路共有且P<0.01的基因有ACTN2、ITGB6、Itgb5、MAPK1、MYL12A、MYL9、Pdgfb、SPDYA、actn4、pdgfra等,預測這10個基因可能與NSCLC的發生發展有密切聯系。通過查找文獻發現MAPK1[18]、Pdgfb[19]和pdgfra[20]與NSCLC發生發展有密切關系,余下的7個基因沒有找到其與NSCLC的相關報道。我們還通過KEGG通路數據庫、P<0.05以及文獻報道找出粘著斑通路中起關鍵作用的基因有ECM、ITGB、PKC、PTEN、ERK1/2、JNK、GF、RTK等,細胞骨架肌動蛋白調控通路中起關鍵作用的基因有ERK、GF、RTK、Ras、Rac等,這些基因均與腫瘤的發生發展具有密切的關系,并且其中部分基因與NSCLC的發生發展具有密切的關系,后續將通過實驗來驗證其與NSCLC發生發展之間的具體聯系。

圖 2 細胞骨架肌動蛋白調控通路示意圖(圖片來源于從DAVID富集出中的KEGG數據庫http://www.genome.jp/dbget-bin/www_bget?map04810,★P<0.05且在該通路中的基因)Fig 2 Regulation of actin cytoskeleton (The chart is from KEGG database, http://www.genome.jp/dbget-bin/www_bget?map04810, ★P<0.05 )

表 2 粘著斑通路和細胞骨架肌動蛋白調控通路中meta分析基因分布Tab 2 The gene distribution of focal adhesion and regulation of actin cytoskeleton pathways by meta-analysis
本研究對GEO基因芯片數據庫目前能找到且已有文獻支持的人類肺組織標本全基因組表達芯片進行了研究,已篩選出可能與NSCLC的發生發展具有密切關系的基因和通路,但是基因和通路的數量過多,這可能與數據集數量以及所包含的標本量有關,并且本研究所得結果仍然只是運用生物信息學對NSCLC發生發展的重要基因和通路的預測,后續研究小組將對這些差異明顯的基因進行生物功能學的驗證,以求從根本上發現與NSCLC發生發展相關的重要基因和通路,為NSCLC發病遺傳機制及靶向治療的研究奠定科學基礎。