王俊龍 石俊杰 劉文洲 孫宇 周華富
肺癌是最常見的惡性腫瘤之一,對肺癌的早期診斷和有效治療是全球亟需解決的一個難題。在腫瘤發生發展過程中,有大量伴隨基因參與癌基因擴增過程,但是它們并不是我們所要找的關鍵基因。我們考慮通過探索不同組織類型、不同人群來源的肺癌組織基因芯片,得到芯片結果共同改變的部分,有可能篩選出影響肺癌發生發展的關鍵基因。目前已有研究通過分析基因表達芯片來挖掘影響肺癌發生發展的通路及基因[1],已識別出大量差異表達的基因。但這些差異基因并沒有進行進一步討論,各個基因芯片的分析結果存在很多不一致性。Mootha等[2]提出基因組富集(gene set enrichment analysis, GSEA)分析,該方法能在病例對照類型數據中,基于基因組系統水平上來挖掘影響疾病的基因通路。Meta分析可對同一個問題所發表相關研究報告的結果進行收集、統計上的整合,以期獲得更準確或更多的結果。Rhodes等[3]首先將meta分析引入基因芯片數據分析領域。本研究采用GSEA等生物信息學方法對6套[4-7]肺癌全基因組表達芯片數據進行研究,挖掘出隱藏在芯片數據下的生物學信息,篩選出影響肺癌發生發展的關鍵基因,為對肺癌靶向治療的研究奠定基礎。
1.1 研究樣本 肺癌有關的基因芯片數據均來源于互聯網開放的免費數據庫:GEO數據庫http://www.ncbi.nlm.nih.gov/geo/中下載。肺癌芯片信息收集在GEO DataSets中以:“lung cancer, homo sapiens”為關鍵詞檢索所有公開上傳的芯片數據。符合以下標準的數據集將納入我們的研究中:①所選數據集必須是全基因組的表達mRNA芯片數據;②這些數據是關于肺癌患者和正常對照;③本研究均考慮經標準化或者原始數據集;④所選數據集必須包括超過3個樣本以上。最后,有6套芯片數據集納入我們的研究中(表1)。
1.2 數據處理 符合我們制定標準的芯片數據,在GEO中下載基因芯片的CEL數據壓縮包;若該芯片未提供CEL數據包下載,則下載該數據集的TXT格式的原始數據。通過R語言的Bioconductor 2.10.1版本來對芯片數據進行標準化處理,用軟件包affty中的RMA算法對affymetrix平臺的原始數據進行背景校正、標準化和log2轉換。對每一套數據中每個探針的檢驗采用成組t檢驗。最后只選取在KEGG中存在的基因進行GSEA的分析。剔除變異四分位距<0.5的基因。如果一個基因對應幾個探針,我們只保留變異IQR最高的探針。
GSEA通過Bioconductor的Category包進行。只有超過10個基因的類保留,通過t檢驗對每一個通路中的基因進行檢驗。通過1,000次循環的排列組合(permutation)獲得每個顯著通路的P值[1]。
將得到的6套數據各自上調下調的通路進行總和比較,發現緊密連接通路在6套數據中都表現為下調。我們將每套數據里這條通路的所含基因進行meta分析。運用SAS 9.13軟件,通過t檢驗把每套數據里緊密連接通路里的每個探針算出P值,再通過下列公式算出每個基因的χ2值[8]。

自由度為數據集K的2倍,最后保留P<0.05的基因。對這些基因通路的分析通過DAVID(http://david.abcc.ncifcrf.gov/)中的KEGG庫進行分析。
2.1 GSEA分析結果 通過GSEA方法對6套數據集進行功能基因富集,分別找出影響這幾個數據集的主要上調通路和下調通路。
GSE10072數據集富集出上調通路50條,下調通路86條。GSE18842富集出61條上調通路;78條下調通路。GSE31548數據集富集出上調通路10條,下調通路54條。GSE31547數據集富集出上調通路40條,下調通路79條。GSE3268數據集富集出上調通路39條,下調通路77條。GSE19804數據集富集出上調通路45條,下調通路87條。
6組數據中所得通路對比,下調通路重疊性較高,共28條(表2);上調中皆有的通路為氨基酰-tRNA生物合成aminoacyl-tRNA biosynthesis(屬于基因信息分類);嘧啶代謝pyrimidine metabolism(屬于代謝類);生物堿類合成biosynthesis of alkaloids derived from histidine and purine(屬于代謝類)。2.2 Meta分析結果 緊密連接通路屬于細胞通訊分類,我們重點研究此條通路。通過R命令語言,得到6組數據集里緊密連接通路各自所含基因探針號。將探針號傳至http://david.abcc.ncifcrf.gov/conversion.jsp網站上進行官方名稱轉換,得到6組數據里該通路所含的基因名稱。GSE10072里在緊密連接通路所含差異基因69個,GSE18842含93個,GSE19804含87個,GSE31547含71個,GSE31548含144個,GSE3268含141個。通過上步Meta運行結果可得緊密連接通路里差異有統計學意義(P<0.05)的基因11個,它們的名稱、P值見表3。篩查這11個基因,其中部分基因與肺癌表達關系密切。

表1 6套全基因組數據集的基本情況Tab 1 Characteristics of datasets selected in the studies
20世紀90年代涌出的基因芯片技術是在固相支持物表面集成大量的分子探針,與標記好的樣品雜交然后進行檢測分析,能夠在同一時間內分析大量基因的表達情況,是一種高效、快速地篩選及檢測分析基因活性的新方法,此方法的出現對我們尋找肺癌標記物有重要意義。人們發現單純的分析基因表達芯片所得數據并不理想,主要因為生物調控網絡非常復雜,許多基因不僅局限于發揮一項生物學功能。把基因表達的數據與其功能或已知的信號通路聯系起來,才能更好地解釋芯片數據,發現基因表達變化的潛在機制。在代謝進程中細胞中的一部分基因經常共同變化,研究這部分共性的基因組成的通路可能比研究單個基因更有意義。因為實驗平臺、樣本、標化方法、分析方法等問題的存在,不同實驗室的芯片數據有很多的差異。在眾多差異存在的情況下所獲得的共同通路可能是在癌癥發生發展過程中未經改變的原始部分[9]。這部分基因對于我們闡明肺癌的發病機制可能更有意義。
我們選擇在6套基因芯片數據中都共同存在下調的緊密連接通路進行研究,這條通路屬于細胞通訊分類,比其它代謝類的通路更有研究價值。有研究[11]表明緊密連接通路在腫瘤抑制方面有重要作用。
本文通過Meta分析,篩選出11個基因,其中PTEN、PRKCB及CASK三個基因在報道中與肺癌發病有重要關系,它們在抑制細胞增殖中有明顯作用,與我們得到的基因處于下調通路結果一致。PTEN基因,即重組腺病毒第10號染色體同源丟失性磷酸酶張力蛋白基因(phosphatase and tensin homology delected on chromosome ten)是迄今發現的第一個編碼具有磷酸酶活性蛋白質的抑癌基因,在調控細胞生長及細胞凋亡過程中起著重要作用[5]。PTEN基因的失活與多種腫瘤的發生發展密切相關,在結直腸癌、乳腺癌、鼻咽癌、胃癌等多種癌組織中都已報道該基因的缺失或突變。目前有關其在肺癌中的表達改變研究近兩年才有報道。舒紅等[11]認為PTEN/PI3K/Akt信號途徑可能參與了非小細胞肺癌的發生及惡性進展,而PTEN的表達情況可作為判斷非小細胞肺癌預后的指標之一。

表2 6組數據集中重疊的28條下調通路Tab 2 The overlapping 28 down pathways in the studies

表3 共同存在于6套數據集緊密連接通路里的差異顯著基因meta分析結果Tab 3 Significance genes of tight junction in meta analysis for six datasets
PRKCB基因蛋白激酶C(PKC)是基因家族的成員之一。PRKCB的基因功能涉及許多方面,比如,B細胞活化、誘導細胞凋亡、內皮細胞增殖以及腸道糖吸收。其中,B細胞活化以及誘導細胞凋亡功能提示PRKCB基因可能作為一抑癌基因在肺癌治療中起重要作用。PRKCB抑制劑能夠通過活化NF-κB信號通路而促使B細胞的死亡。此外在功能上,PRKCB可能與抗原受體介導的信號轉換相關聯。目前國內外鮮有其與肺癌相關報道。
誘導表達CASK可導致細胞周期依賴性激酶抑制因子等表達上調, 而它們發揮抑制細胞增殖功能的方式是導致細胞G1/S期阻滯,提示CASK可以通過調節細胞周期調控因子參與細胞周期的調控、抑制細胞的增殖功能。國內目前無與肺癌的相關報道。因為共同通路較多,我們首先選取最有意義的細胞通訊分類通路進行研究,后續我們將對這些差異顯著基因進行驗證。