摘要:目的 整合miRNA和基因芯片數據,篩選與小兒法洛四聯癥相關的miRNA和調控的基因,并對靶標基因進行功能研究。方法 從基因表達數據庫GEO數據庫中下載編號GSE35490(miRNA)和GSE35776(mRNA),兩種數據均包含8個正常和16個患法洛四聯癥的嬰兒細胞組織樣本,篩選正常樣本和疾病樣本間特異性表達的miRNA和基因(P<0.05且FDR<0.05及差異值>2或< -2);從miRNA靶基因預測數據庫Targetscan中下載人類所有miRNA以及它們的預測靶基因信息,從中篩選出本分析中找到的特異性表達的miRNA和它們的靶基因(prediction>0.9的記錄),將數據庫中找到的靶基因與分析找到的差異表達基因對應,挑選出差異表達miRNA調控的差異表達的基因,再利用string構建miRNA參與的基因共表達調控網絡(共表達系數>0.5),并把網絡中的基因上傳至DAVID中做功能聚類分析(p value<0.05)。結果 通過比較正常和病變樣本,我們共得到了差異表達的miRNA 32個,差異表達的基因875個,根據Targetscan中miRNA以及靶基因信息,找到了差異表達的hsa-miR-124直接調控分析找到的34個差異表達基因,hsa-miR-138直接調控2個差異表達基因,構建了包含231對共表達基因對的miRNA調控網絡,網絡中基因功能顯著地富集14個功能簇,最顯著富集在蛋白質定位功能上。結論 找到差異表達的miRNA hsa-miR-124和hsa-miR-138直接和間接調控的差異表達基因,得到兩個miRNA參與的基因共表達網絡,網絡中的基因最顯著富集在蛋白質定位功能上。
關鍵詞:法洛四聯癥;差異表達;共表達網絡;功能富集分析
法洛四聯癥(tetralogy of fallot,TOF)是最常見的紫紺屬先天性心臟病。在先天性心臟病臨床統計中,TOF占6.0% ,居先天性心臟病的第5位、紫紺屬畸形的第1位[1]。在TOF的基本病理改變中,室間隔缺損及肺動脈狹窄被認為是最主要的病變,決定了患兒的血流動力學改變,除了室間隔缺損、主動脈騎跨、肺動脈狹窄及右心室肥厚這四項基本病變外,TOF常伴有許多伴隨畸形,嚴重威脅著嬰兒生命健康[2]。為搶救和永久保存江西省豐富而珍貴的先天性心臟病遺傳資源, 在此基礎上利用近年來多基因遺傳疾病的研究進展和DNA芯片技術,以先天性心臟病椎動脈干畸形中的法樂氏四聯癥為突破點,研究其形成機制及易感相關基因,為揭示心臟的發生的分子生物學機制,先天性心臟病的形成機制打下堅實的基礎,并為進一步的先天性心臟病基因診斷和治療打下基礎。利用基因芯片技術,篩選克隆法洛氏四聯癥的易感和/或疾病相關基因。本文基于來自相同組織樣本的兩種不同芯片數據:miRNA和基因芯片,篩選特異性表達的miRNA以及調控的差異表達的基因,構建共表達調控網絡,為該疾病的及早診斷和治療提供了基因水平的依據。
1 資料與方法
1.1 Affymetrix miRNA芯片數據 從基因表達數據庫GEO數據庫中下載編號GSE35490(miRNA)和GSE35776(mRNA)[3],兩種數據均包含8個正常和16個患法洛四聯癥的嬰兒細胞組織樣本。這兩組數據均是法洛氏四聯體癥相關數據,來自相同時實驗室的相同的個體樣本,測的都是嬰兒右心室心肌組織的表達譜。平臺信息:GPL8786[miRNA-1_0] Affymetrix miRNA Array和GPL5175[HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array。
1.2數據預處理及差異基因分析 首先利用R語言包中的Affy包將下載到的原始CEL格式的數據轉化成可識別的表達譜格式,包括對數據中缺失的部分進行填補[4];接著對補完缺失的數據進行標準化[5]。再利用R語言中的limma[6]包對正常和病變組做差異表達分析,并用BH方法進行多重檢驗矯正[7],篩選特異性表達的miRNA和基因,選取的閾值是:p-value<0.05且FDR<0.05,且|logFC|>1。
1.3下載數據庫中已知的miRNA與靶基因 從miRNA數據庫TargetScan[8]中下載其中收錄的所有人類miRNA以及每個miRNA所對應的預測靶基因,基于靶基因跨物種保守和miRNA-靶基因二聚體熱力學特征[9]的方法預測靶基因,篩選得分高于0.9的作為候選的的調控對。
1.4篩選差異表達miRNA直接調控的差異基因 根據置信度高的調控對篩選出本出現在差異表達的miRNA集合中的個體。利用差異表達基因與篩選出的差異miRNA已知的靶基因對應,得到差異表達的miRNA調控下差異表達的基因。
1.5構建共表達網絡 將篩選得到的特征表達的miRNA調控的差異表達基因上傳至string[10]中,該軟件根據輸入基因序列自身的特性和結構特點,預測各個基因之間發生共表達的可能性,即計算各基因之間的表達系數,保留表達系數高于0.5的作用對,構建特異表達的miRNA參與的基因共表達調控網絡。
1.6共表達網絡中基因功能的研究 利用DAVID[11]在線軟件,基于超幾何分布算法的富集分析,篩選p value <0.05且count>2,得到基因所在的功能簇。
2 結果
2.1差異表達的miRNA和基因的篩選 利用R語言limma包對標準化后的兩種表達譜數據分別做差異表達分析,共篩選得到了差異表達的miRNA 32個,差異表達的基因875個(滿足閾值P value <0.05且FDR<0.05,|logFC|>1),見表1。
2.2下載數據庫中已知的miRNA與靶基因 下載miRNA靶基因數據庫TargetScan中收錄的所有人類miRNA及預測靶基因,共2393544條記錄。只保留靶基因的預測得分高于0.9的miRNA家族和它們的靶基因作為候選的調控對,包含24個miRNA家族和203個靶基因。
2.3篩選差異表達miRNA調控的差異基因 芯片分析得到的差異miRNA和差異表達基因,結合從TargetScan收集的調控對,得到了hsa-miR-124調控的34個差異表達基因,hsa-miR-138調控的LMAN1和LYPLA1這2個差異表達基因。
2.4構建共表達網絡 所有篩選得到的差異表達的基因中,除了hsa-miR-124調控的34個和hsa-miR-138調控的2個差異表達基因外,可能會存在這兩個miRNA間接調控的差異表達基因。因此,利用string計算875個差異基因之間的共同表達系數,篩選共表達系數>0.5的作用對,最終得到231對共表達作用對。結合miRNA調控關系構建miRNA調控靶基因的網絡,如圖1。由圖可見,除了已知的受到兩個miRNA調控的差異表達基因外,仍有13個基因受到間接調控。
2.5共表達網絡中基因功能的研究:將網絡中的所有基因利用DAVID進行富集分析,篩選p value<0.05且count>2,得到基因富集的功能簇14個,其中最為顯著的功能為蛋白質定位,見表1。
3 討論
法洛四聯癥(TOF)是一種嚴重的先天性心臟病,發病率位于發紺型先天性心臟病之首。手術難度大,死亡率高,并發癥發生率高[12]。有文獻報道,嬰幼兒TOF的手術死亡率也在0%~5%之間[13]。TOF疾病常見的其它畸形有:多發性室間隔缺損、周圍肺動脈狹窄、冠狀動脈畸形、右位主動脈弓、動脈導管未閉、房間隔缺損、左上腔靜脈缺如等[2]。
近年來,隨著對TOF病理改變的理解越來越深刻,以及要幼兒TOF手術的開展,TOF根治術的成功率有明顯的提高,但受多種因素的影響,手術仍有一定的風險,如:除肺動脈直徑及周圍肺動脈有無狹窄外,冠狀動脈的解剖異常及存在多發性室間隔缺損是另外兩個至關重要的因素[14]。因此,法洛四聯癥對于幼兒的危害是非常大的,縱使手術可以治療,但手術由于受到多種因素的影響,也是相對有風險的。此外,在手術后,也會存在很多的并發癥,如:灌注肺、呼吸衰竭等[15]。
TOF疾病不管是疾病本身,還是手術治療過程中,又或者手術后,對幼兒的生命健康都非常具有危害性。本分析基于來自TOF患病兒的miRNA和同組 mRNA表達譜數據,通過生物信息學分析手段,篩選得到了顯著下調的兩個miRNA(hsa-miR-124和hsa-miR-138)及它們已知的靶基因(hsa-miR-124直接調控的34個和hsa-miR-138直接調控的2個靶基因),且這些已知靶基因同時也是組織中差異表達的基因,并由已知的靶基因得到與之共同表達的差異基因。篩選得到的這些基因如果通過實驗驗證,將有希望成為早期診斷TOF疾病的一種標志,針對這些基因靶向性地設計藥物治療也將會成為現實。只要能夠將該疾病及早地發現和治療,就會時患病的幼兒免受手術帶來的風險以及手術后有可能會帶來的并發癥痛苦。
參考文獻:
[1]劉玉清,主編.心血管病影像診斷學[M].合肥:安徽科學技術出版社,2000:482.
[2]楊思源.小兒心臟病學[M].第3版.北京:人民衛生出版社,2005:104-105.
[3]O'Brien JE Jr, Kibiryeva N,Zhou XG,Marshall JA,et al. Noncoding RNA expression in myocardium from infants with tetralogy of Fallot[J].Circ Cardiovasc Genet ,2012,5(3):279-286.
[4]Missing value estimation methods for DNA microarrays,Troyanskaya,O.Cantor,M.Sherlock,G.Brown,P.Hastie,T.Tibshirani,R.Botstein,D.and Altman,R.B.[J].Bioinformatics,2001,17(6):520-525.
[5]Evaluating different methods of microarray data normalization,André Fujita,Jo?o Ricardo Sato,Leonardo de Oliveira Rodrigues,Carlos Eduardo Ferreira and Mari Cleide Sogayar.
[6]Smyth,G.K.Limma:linear models for microarray data.In: Bioinformatics and Computational Biology Solutions using R and Bioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(eds)[J].Springer,New York,2005:397-420.
[7]Benjamini,Y.and Hochberg,Y.(1995)Controlling the 1 discovery rate:a practical and powerful approach to multiple testing[J].Journal of the Royal Statistical Society Series B,57:289-300.
[8]Prediction of Mammalian MicroRNA Targets.Benjamin P Lewis1,3,I-hung Shih2,3,Matthew W Jones-Rhoades1,2, David P Bartel1,2,Christopher B Burge1[J].Cell, 2003,115 (7).
[9]Conserved Seed Pairing,Often Flanked by Adenosines,Indicates that Thousands of Human Genes are MicroRNA Targets Benjamin P Lewis,Christopher B Burge,David P Bartel[J].Cell,2005,120:15-20.
[10]The STRING database in 2011:functional interaction networks of proteins,globally integrated and scored.
[11]Huang DW,Sherman BT,Lempicki RA.Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources[J].Nature Protoc,2009,4(1):44-57.
[12]張鏡芳,莊建,吳若彬,等.136例成人法洛四聯癥的外科治療[J].中華外科雜志,1998,36:747-748.
[13]Pozzi M,Trivedi DB,Kitchiner D,et a1.Tetralogy of Fallot:what operation,at which age[J].Eur J Cardiothorac Surg,2000,17:631-636.
[14]高文根,汪曾煒,張仁福,等.要兒法樂四聯癥外科治療的危險因素分析[J].中華小兒外科雜志,2004,25(5):417.
編輯/哈濤