常允建 康冉 薛璇 王韶暢 趙慶文 郭志云
(1. 西南交通大學生命科學與工程學院,成都 610031;2. 大同市第二人民醫院腫瘤內科,大同 037000)
原發性肝癌的發病率居全球第5位,致死率排第 3 位,其中以肝細胞癌(Hepatocellular carcinoma,HCC)最為常見[1]。生物分子間彼此相互作用形成的網絡體系是生物進程運行的基礎。網絡的失調是導致多種疾病尤其是腫瘤等重大疾病的根本原因。在這些網絡模體中最為普遍與重要的是前饋環路(Feed-forward loops,FFLs)[2]。FFL 由兩個輸入調節因子P1與P2,以及P1與P2共同調節的靶因子P3組成。FFL分連貫FFL(Coherent FFL)與非連貫FFL(Incoherent FFL)兩類[3]。連貫FFL指P1調控P2、P3和P2調控P3均為正向(Positive)調控,而非連貫FFL是指P1調控P2、P3為正向,而P2調控P3為負向(Negative)調控。
增強子(Enhancer)一般是幾百堿基對長度的DNA片段,并能被多個轉錄因子占據,在基因調控中通過順式調控原件對靶基因起正調控作用。已有研究表明肝細胞癌中的增強子突變會導致增強子失活,進而影響靶基因的表達[4]。MicroRNA(miRNA)是一類長度為18-24 nt的非編碼小RNA,在進化過程中高度保守,它通過與靶基因的3'UTR區特異性結合從而在轉錄后水平抑制靶基因的表達或直接降解靶mRNA,異常表達的miRNA在肝癌的發病機制中起重要作用。先前研究發現,增強子調控miRNA參與腫瘤的發生與發展,從而使得增強子、miRNA與轉錄因子可形成重要的調控單位FFL[5]。那么增強子與miRNA是否可以形成FFL目前還并不清楚。本課題組通過生物信息學手段進行了增強子調控miRNA的識別,并篩選了其參與的FFL,對已通過實驗驗證的miRNA靶基因分析,基因注釋后發現上述的FFL參與多種與肝癌相關的信號通路或生物進程。本研究旨在通過對FFL的識別與分析為以FFL為網絡模體單元的肝腫瘤調控機制以及肝腫瘤標志物識別方面奠定前期工作基礎。
從ENCODE[6]數據庫下載得到HepG2細胞系的DNase高敏位點以及H3K4me1、H3K27ac、H3K4me3三類組蛋白修飾信息的ChIP-seq數據,根據增強子特征性的組蛋白修飾信號預測HepG2細胞系中的增強子。識別增強子區域基于如下特征[7-8]:(1)增強子區域中心位置存在DNase高敏位點;(2)在增強子區域內存在明顯的H3K4me1和H3K27ac信號,且呈峰-谷-峰的趨勢;(3)增強子區域內的H3K4me1信號比H3K4me3信號強。
1.2.1 增強子-miRNA調控關系的識別 從GENCODE[9]數據庫得到蛋白編碼基因的注釋信息,提取得到蛋白編碼基因的轉錄起始位點信息。從FANTOM5[10]數據庫獲取miRNA的轉錄起始位點信息。根據Suzuki等[5]的識別方法,對每個增強子分別找到其距離最近的miRNA轉錄起始位點及同方向(同在增強子上游或下游)的蛋白編碼基因的轉錄起始位點。將增強子中心與最近的miRNA轉錄起始位點的距離記為M,增強子中心與同方向基因轉錄起始位點的距離記為G,根據公式(1)計算Score值,以0.2為閾值,設定Score得分在0-0.2范圍內的增強子與miRNA為可能存在的調控關系。

從ENCODE數據庫中下載得到HepG2細胞系中miRNA的表達量信息,據此對上述調控關系進行篩選,只有涉及在HepG2細胞系中表達的miRNA的調控關系被采用為最后的結果。
1.2.2 轉錄因子-增強子調控關系的識別 從UCSC及CistromeDB[11]數據庫中下載得到HepG2細胞系中65個轉錄因子的ChIP-seq數據,作為轉錄因子結合位點的信息。如果轉錄因子結合位點落在增強子區間內,則認為該轉錄因子與該增強子存在調控關系。
1.2.3 轉錄因子-miRNA調控關系的識別 若1.2.2中得到的轉錄因子結合位點信息落在miRNA轉錄起始位點上游10 kb~下游1 kb范圍內,則認為該轉錄因子對于該miRNA存在調控關系[12]。
1.2.4 轉錄因子-增強子-miRNA FFL的識別 根據1.2.1 1.2.2 1.2.3中的調控關系得到轉錄因子-增強子-miRNA FFL。對于所得結果進行超幾何檢驗,如公式(2)所示,M、N和k分別代表miRNA總數、細胞中所有受到轉錄因子調控的miRNA數量、細胞中受某一轉錄因子調控的miRNA數量,所得p值越小,說明對應的轉錄因子和增強子共同調控的miRNA數量越多。隨后,通過Benjamini-Hochberge[13]方法,根據p值得到FDR值,設定q值在0-0.05范圍內的為非隨機出現的FFL,即所得最終結果。

1.3.1 核心miRNA的篩選 根據所得的FFL統計涉及的每個miRNA參與的FFL數目,得到其中參與FFL數目明顯高于總體平均值的miRNA(參與FFL數大于上界,在所有miRNA的參與FFL數中屬于上離群點范圍),定義為FFL中的核心miRNA。
1.3.2 靶基因預測 從 TarBase[14],mirTarBase[15]數據庫下載得到實驗驗證的miRNA的靶基因信息。分別得到2.3.1中核心miRNA的靶基因。
1.3.3 功能富集分析 利用R軟件包clusterProfiler[16],對于上述得到的所有靶基因做Gene Ontology(GO)[17]、KEGG Pathway[18]富集分析。
根據DNase高敏位點及組蛋白修飾,最終得到5 055個增強子。這些增強子的DNase及3類組蛋白修飾信號分布趨勢,如圖1所示。
從圖1可知增強子中心上下游1 kb存在顯著的DNase活性。另外,在增強子區域存在高的H3K27ac信號,以及高的H3K4me1信號與低的H3K4me3信號。
通過超幾何檢驗,過濾q值小于0.05的結果后,我們最終得到2 070個FFL,因增強子調控miRNA以正調控為主,因為本文識別的增強子為連貫FFL。這些FFL共涉及57個轉錄因子,180個增強子,85個miRNA。

圖1 DNase及組蛋白修飾信號

圖2 參與FFL的核心miRNA靶基因的基因功能注釋結果
利用R軟件包clusterProfiler[16],我們對識別的2 070個FFL的miRNA涉及的靶基因進行了GO[17]與KEGG[18]功能富集分析,結果(圖2)表明FFL中miRNA的靶基因顯著富集于肝癌相關的信號通路或生物進程。如病毒致癌通路、p53信號通路、細胞周期相關的通路、細胞周期阻滯等。
在2 070個FFL涉及的85個miRNA中,有5個miRNA在腫瘤和正常樣本中存在表達差異(|log2(FC)|>1,p<=0.05),分別為 hsa-miR-455(|log2(FC)|:2.803),hsa-miR-224(|log2(FC)|:3.615),hsamiR-452(|log2(FC)|:3.111),hsa-miR-10b(|log2(FC)|:2.989),hsa-miR-574(|log2(FC)|:2.799)。此外,從絕對表達量來講,上述5個miRNA中hsamiR-574和hsa-miR-92a的表達量(CPM)顯著高于85個總miRNA的表達量平均值(85個miRNA在肝癌細胞中CPM平均值7.48,hsa-miR-574的CPM為129.96,hsa-miR-92a的 CPM 為 98.81)。

圖3 涉及hsa-miR-574的FFL構成的網絡圖
結果顯示hsa-miR-574在HepG2中顯著參與了多的FFL(平均每個miRNA參與24個FFL,hsamiR-574參與的FFL數量為99個,圖3),這在hsamiR-574參與的99個FFL中共涉及4個增強子(chr4:38160530-38164680,chr4:38162070-38166220,chr4:38179330-38184380,chr4:38223510-38227660)和29個轉錄因子。在這些轉錄因子中,有 16個 參與了 4個 FFL(NFIC,MAX,HNF4G,RAD21,ARID3A,TAF1,CREB1,HDAC2,MYBL2,FOXA2,HNF4A,RXRA,FOXA1,JUND,FOSL2,SP1),為參與FFL的數目最多。而在4個增強子中,chr4:38162070-38166220參與的調控FFL數量最多,為29個。
為此,我們對這一個miRNA的靶基因進行了KEGG通路富集分析,結果(圖4)顯示hsamiR-574的靶基因顯著與多個腫瘤相關的信號通路有關。其中,富集最為顯著的通路——cAMP信號通路被已有文獻證明可以抑制肝癌細胞增殖而促進其分化[19]。

圖4 hsa-miR-574靶基因的KEGG通路富集結果
根據我們識別的5 055個增強子的組蛋白修飾信號分布來看,DNase信號顯著富集在增強子中心附近,這與活性增強子的染色體開放特征一致。另外,這些增強子體現出高的H3K27ac信號以及高的H3K4me1/H3K4me3占比,這與先前文獻報道的活性增強子信號特征一致。最終我們識別了2 070個FFL,其中65個轉錄因子有57個參與了FFL(占88%),而相比轉錄因子而言,增強子和miRNA參與的FFL比例要明顯低于轉錄因子,這一結果說明在FFL中,轉錄因子起到廣泛結合的作用,而增強子與miRNA由于其特異性導致參與的FFL相對較少。在功能富集方面,結果表明FFL中miRNA的靶基因顯著富集于肝癌相關的信號通路或生物進程中,這些結果說明我們基于肝癌組學數據識別的FFL顯著與腫瘤相關,這也驗證了我們識別的FFL的有效性。此外,除了從表達正常與腫瘤組織的表達差異與絕對表達量多少來衡量miRNA參與腫瘤的重要性外,對于處于FFL網絡中的miRNA來說,miRNA參與FFL的頻率是考量miRNA在腫瘤網絡中是否起關鍵作用的另一重要因素。因此,我們重點考察了hsa-miR-574在網絡中的出現頻率,結果顯示hsamiR-574參與的99個FFL,較平均的24個FFL顯著高,并且功能富集分析也發現hsa-miR-574的靶基因顯著與多個腫瘤相關的信號通路有關。之前已有文獻表明,肝癌患者體細胞中hsa-miR-574的表達量顯著高于正常樣本,由此推測該miRNA可以作為肝癌診斷的腫瘤標記物,這與我們的結果相符合[20]。研究結果初步探討了以增強子-miRNA為核心的FFL在肝細胞癌中的特征與功能,有望為基于網絡模體為單位的肝腫瘤標志物識別奠定理論與數據基礎。
本文基于肝癌細胞系HepG2中的DNase高敏位點以及H3K4me1、H3K27ac、H3K4me3組蛋白修飾特征這些普遍認可的表觀遺傳學特征為識別活性增強子的理論基礎,識別共得到5 055個肝癌特異的增強子。通過處理增強子與miRNA位置信息,以及65個轉錄因子的ChIP-seq數據獲得轉錄因子結合位點,構建了增強子-miRNA、轉錄因子-miRNA與轉錄因子-miRNA調控關系。通過超幾何檢驗篩選了2 070個FFL。其中共涉及57個轉錄因子,180個增強子與85個miRNA。GO與KEGG功能富集分析FFL的miRNA靶基因顯示這些靶基因廣泛的參與了與肝癌的發生發展相關的生物學進程與調控通路。