王慶高,何亞州,李麗娟,黃彩依,黃景偉,梁 珊
microRNA(miRNA)是一種小型的非編碼區RNA,具有極強的生物活性,目前認為其能特異性地與mRNA結合從而影響轉錄后基因表達水平[1]。從miRNA被發現至今,人類對其的探索已有十余年,足夠多的證據表明miRNA廣泛地參與到細胞增殖、凋亡、器官的形成與發育等生理過程及腫瘤生長、靶器官損害等病理過程[2-3],miRNA的發現給人類對疾病的診斷及治療提供了新的方法。但盡管經過多年的研究,仍有大量miRNA的功能尚未被挖掘,相關的作用機制也未得到徹底的闡明,故miRNA仍是一個值得深入探究的巨大寶庫。本研究基于GEO(Gene Expression Omnibus)數據庫,通過篩選在CHF中差異表達的miRNA,利用生物信息學方法預測其靶基因并結合Gene Ontology(GO)及KEGG通路分析,探討差異表達的miRNA在CHF中生物信息學價值,為日后研究miRNA調控CHF的機制提供前期基礎。
1.1 資料 GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)是目前面向社會公開的、最大的高通量分子豐度數據庫,其儲存了大量的基因表達數據。通過該數據庫用戶可以檢索、上傳或是下載高通量基因表達的實驗研究數據,并通過數據分析找到某個領域內差異表達的基因。
R語言是一種免費、開源的工作語言,通過加載種類繁多的軟件包賦予了R強大的數據統計及數據分析功能。Bioconductor的Limma為目前主流的基因分析軟件包,利用該軟件包可對基因數據進行標準化、背景矯正、差異基因篩選等處理,為后續分析奠定了堅實的基礎。
Targetscan(www.targetscan.org/)、miRPathDB(https://mpd.bioinf.uni-sb.de/overview.html)數據庫,提供來自人類、大鼠、小鼠miRNA 的預測信息和經過驗證的位于其靶基因上的結合位點,在數據庫中直接檢索miRNA名稱后在結果頁面即可得到預測結果。
Cytoscape是一個可以將基因高通量表達數據及其分子相互作用整合成一個可視化網絡結構的開源多功能圖形可視化軟件,通過現有的基因表達信息可直觀地觀察生物分子間的關聯性。BinGO(Biological Networks Gene Ontology tool)為CytoScape的功能插件,其可讓宿主軟件鏈接至GO數據庫,實現GO注釋及富集分析,并構建層次網絡圖。
David(http://david.abcc.ncifcrf.gov/)數據庫是一個綜合性數據庫,包含了生物學數據及其分析工具,并為基因或蛋白提供了系統的生物功能注釋。通過將基因列表或基因序號上傳后在數據庫中可實現靶基因的功能富集、通路富集。
1.2 方法
1.2.1 篩選差異表達miRNA 進入GEO數據庫將檢索平臺的主要對象設定為miRNA芯片。檢索與CHF相關的數據集,查看相關數據集的介紹,以miRNA在CHF病人及健康對照組中的表達分析為標準篩選出適合的數據集納入分析,下載數據并進行數據預處理。運行R語言(版本3.4.0),加載Bioconductor 的 Limma軟件包進行數據處理及差異基因的篩選。
老太太猜得沒錯,她剛剛走,思蓉和思遠就到。與老太太不同的是,思蓉并沒有旁敲側擊,而是直奔主題。念蓉說:“我與楚墨有些無聊,正好替你救救場子。”思蓉問楚墨:“這是誰的主意?”楚墨說:“當然是親愛的念蓉。”思蓉說:“救場子也不必說自己的老公有外遇啊!你可以說……”
1.2.2 miRNA的靶基因預測 利用miRNA靶基因數據庫Targetscan、miRPathDB查詢miRNA的預測靶基因,所得結果以Excel文件下載至本地。將數據導入R,利用intersect命令代碼取兩數據庫結果的交集。
1.2.3 Gene Ontology、KEGG通路富集分析 進入GO官網(http://www.geneontology.org/),下載最新版本的GO功能分類信息及人類基因注釋信息。將所得靶基因列表上傳至Cytoscpe的BinGO插件中,在GO功能分類文件、GO注釋文件選項上分別導入上述下載文件,根據需求選擇Biological process(生物學過程)、Cellular component(細胞組分)、Molecular function(分子功能)后點擊運行,Bingo將開始進行分析并生成結果及層次網絡圖。
應用David數據庫,對預測靶基因進行人類物種識別,在數據庫頁面中勾選“Functinal Annotation Tool”作為分析工具后進行KEGG通路富集分析。
1.2.4 統計學處理 在GO 分析中采用超幾何分布計算P值,以P<0.05為界值。KEGG 通路分析中采用Fisher精確概率法計算,以P<0.05 為差異有統計學意義。
2.1 數據集結果 在GEO數據庫中共檢索出5個與CHF相關的研究,經過篩選后選擇數據集GSE104150進行分析,該數據集共有樣本16個,其中包括9個CHF病理樣本,7個健康對照樣本,每個樣本包含2 570個miRNA檢測數據。
2.2 差異基因篩選 對16個樣本的芯片數據進行差異基因處理,將所得結果繪制火山圖(見圖1)。經過Limma包差異miRNA篩選后,得到185個差異表達miRNA,取Top20繪制熱圖(見圖2)。芯片分析結果顯示miR-197在CHF樣本中明顯上調,結合目前現有文獻發現miR-197已被報道與心肌梗死等心血管疾病相關,故推測其對CHF的發生、發展有一定影響,因此,選擇miR-197其作為進一步分析的對象,miR-197表達情況見圖3。

注:綠色為下調基因,紅色為上調基因。

圖3 miR-197在GSE104150數據集中的表達情況
2.3 miR-197的靶基因 Targetscan、miRPathDB數據庫預測靶基因數目及兩數據庫取交集結果見圖4。

圖4 miR-197靶基因數據庫預測基因數及交集數
2.4 GO分析 針對上述2 408個預測靶基因進行GO 注釋、富集分析。共得到1 712個基因的GO生物學功能注釋信息、1 577個基因GO細胞組分注釋信息以及1 656個基因的GO分子功能注釋信息。將這些靶基因分別投射至GO生物學過程、細胞組分、分子功能上,結果顯示miR-197的預測靶基因集合分別富集在生物調控、基因表達、RNA生物合成等生物學過程,細胞質膜、細胞核等細胞組分上以及離子結合、核苷酸結合等分子功能中,所得結果以靶基因富集數量從高到低排序,取Top10及P<0.05的結果見表1~表3,制作生物學過程網絡層次圖(見圖5)。

表1 miR-197預測靶基因GO生物學過程分類

表2 miR-197預測靶基因GO細胞組分分類

表3 miR-197預測靶基因GO分子功能分類

注:分子大小代表基因數量的多少;顏色深淺代表P值大小。
2.5 KEGG通路富集分析 miR-197的靶基因在KEGG通路富集分析上共得到1 023基因的富集結果,取Top10且P<0.05的結果見表4。

表4 miR-197預測靶基因KEGG通路數據庫富集分析結果
3.1 miR-197與CHF病因的相關性 目前認為CHF的常見病因主要有原發性心肌損害、心臟負荷過重兩大類,其中原發性心肌損害包括:①缺血性心肌損害;②心肌炎、心肌病;③心肌代謝性疾病。而miR-197與上述因素相關的研究已經取得一定的進展,如Petaki等在研究心肌梗死的miRNA標志物時發現miR-197與心肌梗死的進展密切相關[4]。Schulte等[5]進一步研究后發現miR-197與miR-126、miR-223一起參與到血小板活化和血管內炎癥的調控中,對冠心病等心肌缺血疾病具有潛在的預測價值。在與代謝類心肌疾病相關因素的研究中,Zampetaki等[6]證實miR-197在2型糖尿病中明顯上調,猜測其可能與糖尿病的發生或糖代謝的調節有關。Mcmanus等[7]研究發現miR-197與心血管代謝疾病相關,其或許通過調控下游轉錄因子在疾病風險中發揮作用。
本研究結果發現,miR-197的靶基因雖然在GO生物學過程中主要富集于生物學調控、基因表達調控等方面。但仍有多數基因富集于如心臟生長發育、平滑肌的發育與增殖、電解質代謝等與心肌功能關聯的生理過程中,而KEGG通路富集結果顯示miR-197的靶基因也顯著富集于Wnt、Hippo信號通路以及心律失常性右室心肌病(arrhythmogenic right ventricular cardiomyopathy,ARVC)等與CHF相關的信號通路中,miR-197或許在CHF進程中發揮一定的作用。
3.2 基于KEGG結果的相關通路分析
3.2.1 Wnt信號通路 Wnt通路是一條多元復雜的信號通路,在器官發育、調控組織形態等生理過程中發揮重要作用。散亂蛋白(Dvl)是Wnt通路需要激活的下游蛋白,研究證實Dvl在心肌肥厚中有著重要的介導作用。Malekar等[8]利用轉基因技術將小鼠體內的Dvl過表達后發現小鼠出現了嚴重的心肌肥厚。核質穿梭蛋白(Dprl)則是Wnt信號通路的組成部分,其與Dvl相結合后可激活wnt/β-catenin信號通路誘導心肌肥厚[9],而抑制Dprl則可以顯著阻止心肌肥厚的進程[10]。另一方面,目前已有足夠多的證據顯示,經典或是非經典的Wnt通路都與CHF心肌纖維化的發生、發展關系密切[11-13],miR-197與Wnt通路間的關系有待進一步挖掘。
3.2.2 Hippo信號通路 Hippo通路是近年來發現的相對保守的一條通路,其同樣在器官的生長、細胞的增殖與凋亡上發揮顯著調控作用。有報道顯示,Hippo通路也廣泛地參與CHF[14]。Heallen等[15]研究發現Hippo通路能與Wnt通路相互協作,調控心肌細胞增殖及心臟大小。Leach等[16]研究也發現Hippo信號通路能夠阻止心肌細胞的再生,通過沉默Hippo信號通路的活性后能夠有效促進心臟功能并逆轉重度心力衰竭。
3.2.3 鈣信號傳導通路(calcium signaling pathway) 鈣信號傳導通路對心血管疾病的發生發展有重要作用,研究顯示,心肌的收縮與舒張功能受到Ca2+濃度的影響及控制,心肌梗死后心室重塑及心力衰竭中心肌功能異常的主要原因與Ca2+的轉運障礙密切相關,心肌缺血后心肌細胞內Ca2+超載可直接引起心肌細胞的凋亡[17-18]。
綜上所述,miR-197的靶基因在生物學過程及生物信號通路中富集在與CHF關系密切的因素上,miR-197或許對CHF的發生、發展有潛在作用。值得關注的是,根據GO的富集結果,miR-197的靶基因也同樣富集于囊泡運輸、細胞因子介導的信號傳導、細胞旁分泌等外泌體相關的模塊上,或許其可以通過外泌體轉運從而對CHF發揮調控作用,未來有望進一步探索與研究。
miRNA從被發現至今就已逐步成為研究熱點之一,有報道顯示,miRNA參與調解蛋白編碼的基因數約占人類基因總數的三分之一。而目前已有足夠多的證據表明,miRNA通過調節其下游靶基因的表達水平廣泛地參與生理及病理等生命活動。迄今為止,雖然人類對miRNA的探索已頗具成果,可仍有大量的miRNA在許多領域的潛能未被挖掘,而利用高通量基因表達數據庫及生物信息學分析能有效地篩選出特定條件下差異表達的miRNA,并快速地預測出其潛在靶基因以及明確miRNA與靶基因的相互作用關系,對miRNA生物學功能的研究具有重要的臨床價值。