楊書彬,練曉梅,2,師偉,裴晨晨,2,孫健
(1.黑龍江中醫藥大學,哈爾濱 150040;2.中國中醫科學院醫學實驗中心,道地藥材國家重點實驗室培育基地,北京 100700;3. 山東中醫藥大學附屬醫院,濟南 250011)
子宮腺肌病是由于子宮內膜向肌層彌漫性生長而誘發的婦科疾病,發病率為8%~62%,病患的臨床表現主要包括經期出血量過大、痛經及子宮增大,并且由于病灶彌漫生長,與正常肌層之間無明顯界限,局部手術很難治愈,只有切除子宮是根治性的治療方法[1-3]。但年輕女性有生育的要求,往往選擇激素類藥物進行保守性治療,但只能暫時改善癥狀,且受副作用明顯、停藥后容易復發等影響,治療效果并不理想。限于子宮腺肌病的發病機制仍不明確,極大地影響了相關藥物的研發。因此,探索子宮腺肌病的發病機制和新治療靶點具有重要意義。
微陣列芯片技術和生物信息學分析的聯合應用,對于推動多種疾病的發病機制、藥物靶點的研究發揮了巨大作用[4-5]。另一方面,基因組學等技術的不斷發展為子宮腺肌病的研究提供了更具整體性、精確性、規范性的臨床基因數據。本項研究通過微陣列芯片技術結合基因表達數據庫(GEO)挖掘子宮腺肌病患者與正常人樣本中的差異基因,對挖掘得到的差異基因進行富集分析,得到大量有價值的生物信息,包括子宮腺肌病的可能發病機制和差異基因的生物功能。進一步通過蛋白質-蛋白質相互作用(PPI)網絡,得到治療子宮腺肌病的關鍵靶點,并且通過醫學本體信息檢索平臺(Coremine Medical,http://www.coremine.com/medical/)分析具有潛力治療子宮腺肌病的藥物,為子宮腺肌病的治療提供新的思路。
本次研究所得到的子宮腺肌病患者與正常人的表達譜芯片數據集來源于基因表達數據庫(GEO,https://www.ncbi.nlm.nih.gov/geo/)。利用GEO數據庫輸入“Adenomyosis”字條初步篩選與子宮腺肌病相關的數據集,根據研究類型和物種進一步篩選——“Expression profiling by array、Homo sapiens”。此時可得到6個詞條,再根據數據集需包含子宮腺肌病組和正常組以及研究目的篩選得到GSE7307和GSE78851兩個基因表達譜。GSE7307是基于GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array[6],GSE78851是基于GPL6244[HuGene-1_0-st]Affymetrix Human Gene 1.0 ST Array[transcript(gene) version][7]。根據檢測目的,對GSE7307數據集中的10個患者樣本和200個正常樣本及GSE78851數據集中的3個患者樣本和5個正常樣本進行分析。子宮切除標本來自已有癥狀表現,且病理證實的彌漫性子宮腺肌病患者的月經周期增殖期子宮內膜;與未患子宮內膜或子宮病變的健康受試者的子宮內膜樣本進行比較。
1.差異基因表達分析:在GEO中下載的GSE7307和GSE78851表達譜數據集用GEO2R進行分析,檢測出子宮腺肌病患者與正常組織間的差異表達基因。根據表達量的倍數變化(FC)和P值設定限制條件,即|log2FC|>1及P<0.01篩選出目標基因[8-9]。
2.差異基因的基因本體分析(GO):為了闡明子宮腺肌病差異基因的潛在生物過程(BP)、分子功能(MF)和細胞成分(CC),采用注釋、可視化和綜合發現數據庫(DAVID數據庫,https://david.ncifcrf.gov/)將差異表達基因進行GO富集分析(P<0.05)[10],從而得到基因的功能水平分析結果。
3.差異表達基因的京都基因與基因組百科全書(KEGG)分析:KEGG是一個整合了基因組、化學和系統功能信息的數據庫。將子宮腺肌病的差異表達基因列表導入DAVID數據庫,采用數據庫分析基因與生物通路的關系,從而闡明與子宮腺肌病相關的信號傳導途徑,以P<0.05為有意義[10]。
4.差異表達基因和核心基因的PPI分析:應用String數據庫(https://cn.string-db.org/)挖掘差異表達基因之間的潛在作用關系和進一步篩選出核心差異基因,將從GEO數據庫得到的差異表達基因和篩選出的核心基因列表導入String數據庫進行分析并且以“Homo sapiens”為檢索條件獲取PPI關系網絡模型圖[11-12],以綜合分數(combined score)>0.4為篩查標準。
5.差異表達基因的模塊分析:使用Cytoscape 3.9.0構建PPI網絡,通過其自帶的插件MCODE挖掘篩選差異表達基因中的模塊,以score>10 000為篩選條件對所得模塊進行分析,同時對模塊進行GO和KEGG分析[13]。
6.治療子宮腺肌病的相關藥物篩選:Coremine Medical是挪威與中國科學院、中國醫學科學院、美國國立醫學圖書館等機構聯合開發的醫學信息檢索、分析平臺,支持相關知識資源的檢索和文本挖掘等智能分析技術,從生物醫藥數據庫中提取生物信息,組織成基于統計結果的關聯性網絡[14],可用于發掘某種疾病的潛在藥物。將核心基因輸入Coremine Medical搜索框,根據藥物出現頻次篩選藥物。
在GSE7307和GSE78851兩個數據集中獲得篩選后相交的差異表達基因,根據篩選所得差異基因對應的logFC值,大于1的為上調基因,小于-1的為下調基因,獲得共同差異基因433個,其中上調表達基因429個,下調表達基因4個(圖1)。使用Omicshare制作的差異基因熱圖見圖2,該圖展示了50個上調和下調的差異基因,表1列舉了前20個上調和下調的差異基因。
藍色表示GSE78851數據集的表達基因,粉色表示GSE7307數據集的表達基因。圖1 GSE78851和GSE7307樣本集基因韋恩圖
綠色表示下調基因,紅色表示上調基因,黑色表示無差異基因;顏色越深表示其相應表達越顯著。圖2 GSE78851和GSE7307樣本集的50個差異基因表達熱圖
上調的差異基因富集分析后發現,主要和細胞黏附、凋亡、內在的凋亡信號通路、凋亡過程的負調節、細胞外體、線粒體、細胞質、雌激素受體活性和蛋白質結合等相關;差異基因又在生物過程中的富集最為顯著,表2僅列舉其中部分的生物過程,其它生物過程的通路分析如圖3所示。
表2 子宮腺肌病差異基因的GO分析
圖3 差異表達基因GO(BP)富集分析基因氣泡圖(顏色越紅表明此通路越顯著)
根據KEGG途徑富集分析結果如表3所示,上調基因主要富集在代謝途徑、雌激素信號通路、PI3K-AKt信號通路等。富集分析在代謝途徑、亨廷頓氏病及氧化磷酸化等途徑顯著程度最高(圖4)。
表3 子宮腺肌病差異基因的KEGG分析
氣泡大小表示富集基因數,顏色深淺表示顯著程度。圖4 差異表達基因KEGG富集分析氣泡圖
PPI網絡分析共包含366個節點和2 050條具有相互關系的邊,采用Degree和Betweenness中位數的5倍值篩選。分析結果確定了16個重要的核心基因,即p53蛋白(TP53)、細胞色素C(CYCS)、肌動蛋白(ACTB)、Ⅳ型膠原酶(MMP2)、雌激素受體(ESR1)、CD44、絲裂原活化蛋白激酶3(MAPK3)、胰島素樣生長因子-Ⅰ(IGF-Ⅰ)、細胞質動力蛋白1重鏈1(DYNC1H1)、血小板反應蛋白-1(THBS1)、細胞色素氧化酶4Ⅱ(COX4Ⅱ)、NDUFAB1、人原纖維蛋白-1(FBN1)、ATP5A1、NDUFB7、ATP5G1。如圖5和圖6所示,分別展示了16個核心基因在芯片中的表達譜圖和PPI的網絡圖。
value<0表達下調,value>0表達上調。圖5 核心基因在芯片中的基因表達圖譜
顏色條表示Degree值,顏色越深Degree值越大。圖6 差異表達基因的PPI網絡
PPI網絡中的模塊具有一定的統計學意義,其中的核心靶點蛋白相互作用數,遠超過網絡中其余蛋白的相互作用數。網絡模塊的分析,可以減少網絡復雜程度,并更準確地提取出具有生物學意義的信息。因此,網絡模塊被認為是網絡中獨立的子網絡,模塊內部的蛋白具有較強的功能相關性,依據網絡模塊所得的蛋白進行分析具有更高的可靠性[15]。
為了檢測出PPI網絡中的重要聚類模塊,我們利用Cytoscape 3.9.0進行了模塊分析并得出了兩個高分模塊,囊括了16個核心基因中的絕大多數(13個),意味著這兩個模塊可能代表著整個網絡關鍵的生物學特征。
對模塊功能進行分析,結果發現模塊1基因主要與氧化磷酸化信號通路相關,生物功能主要富集在線粒體電子傳遞、氫離子跨膜轉運、細胞氧化、線粒體ATP合成耦合質子轉運等。模塊2基因主要與Rap1、Wnt信號通路相關,生物功能主要富集在細胞凋亡過程的負調節、活化MAPK活性、活性氧代謝過程的正調節、雌激素反應等方面(圖7)。
A:模塊1(score=28 207);B:模塊2(score=11 429)。圖7 MCODE分析獲得的蛋白質相互作用模塊
使用Coremine Medical檢索子宮腺肌病的相關傳統中藥,將16個核心基因輸入Coremine Medical搜索框,獲得與上述基因密切相關的傳統中藥,以其出現頻次中位數的4倍值為篩選值,獲得了7味候選的中草藥(表4)。
子宮腺肌病的發病機制尚未明確,臨床上尚無有效的治療藥物。目前已經發現的病因與遺傳因素、高雌激素血癥、刮宮、多產和剖宮產損傷、病毒感染相關[16]。利用微陣列測序結合生物信息學探索子宮腺肌病的潛在靶點可能為子宮腺肌病的治療提供幫助。本文高通量表達的數據集來自于GSE7307和GSE78851,并利用生物信息學篩選子宮腺肌病與正常人之間的差異表達基因,其結果顯示在兩組中存在433個差異基因。而這些差異表達基因可能與子宮腺肌病有著密切關系,為了更好地挖掘差異基因與子宮腺肌病的關系,進一步展開了GO和KEGG分析。
已有研究證實本文富集結果中的PI3K-Akt信號通路存在于子宮腺肌病的病灶中,并與NF-KB的變化密切相關。激活的Akt、NF-KB調節子宮內膜細胞增殖、分化、凋亡等行為,可能是子宮腺肌病發生發展的機制之一[17]。No?l等[18]發現,子宮內膜異位癥的患者在其子宮腺體、間質和肌層均發現有孕激素受體(PR)和雌激素受體(ER)的大量表達,特別突出的集中在子宮內膜異位病灶的組織中,且在月經周期不同階段均表現為PR大于ER。炎癥反應是以防御為主的多種致病因素產生的反應,子宮腺肌病與慢性炎癥關系密切,參與炎癥調控的有激素、細胞黏附分子以及多種體液因子等[19]。與本研究結果相一致的是差異表達基因所富集的信號通路包括PI3K-Akt信號通路、雌激素反應、氧化磷酸化等,說明檢測這些信號通路可能可以幫助判斷子宮腺肌病的分型情況,為子宮腺肌病的治療提供診斷方法和用藥依據。
為了進一步分析差異表達基因與子宮腺肌病的關系,本研究基于多信息表達譜數據庫和生物信息學進行分析,篩選到網絡的16個主要節點。其中的一部分核心靶點,被已有的研究證實,如MMP2是一種促血管生長因子,可以抑制雌激素誘導的子宮內膜通透性的增加[20-21]。CD44參與異位內膜之間的信號傳遞,促進細胞與基質間的粘附,使內膜細胞植入子宮肌層[22-23]。子宮腺肌病患者異位子宮內膜、在位內膜組織中IGF-Ⅰ表達水平明顯下降,并且異位內膜失去了其在正常子宮內膜中具備的周期性[24-25]。
TP53、ACTB、ESR1、COX4Ⅱ等主要節點具備一定的生理功能,但尚未見到與子宮腺肌病相關聯的報道,有望成為治療子宮腺肌病的潛在核心靶點。有研究表明,TP53的高表達與低分化的子宮內膜癌密切相關,而且TP53蛋白參與調節細胞周期,促進損傷修復,負責細胞間的交互與黏附功能,可能與子宮腺肌病的上皮細胞轉化發病機制相關[26-28]。ACTB作為一種肌動蛋白廣泛分布于真核細胞,是細胞遷移的基礎,同時ACTB對細胞和組織的形態有維持作用,對細胞的信號傳遞和骨架構成有促進作用[29-32]。ESR1編碼一種雌激素受體[33],是配體激活的轉錄因子,并影響靶組織中的細胞增殖和分化,雌激素受體包括乳腺癌、子宮內膜癌的病理過程。COX4Ⅱ是線粒體氧化呼吸過程中的關鍵酶,對線粒體氧化磷酸化具有重要作用[34]。THBS在腫瘤細胞侵襲和遷移中起作用[35]。MAPK3可通過與卵母細胞中的信號分子、轉錄和轉錄后因子或卵母細胞中的細胞抑制因子相互作用來調節卵母細胞中成熟促進因子的穩定化/去穩定化[36]。Liu等[37]報道miRNA-15b通過轉錄后下調Bcl-2和MAPK3的表達來破壞心肌細胞凋亡。ATP5G1是編碼ATP合酶F0復合體C亞基的重要基因之一,對于ATP的生成具有重要生理意義[38]。ATP5A1基因編碼ATP合酶的α酶亞基,ATP合酶是一個位于線粒體膜上的多亞基酶,ATP5A1基因缺失將會導致該酶失活,從而使細胞凋亡[39]。目前尚無研究報道其在子宮腺肌病中的作用,需要進一步的實驗研究,這些子宮腺肌病網絡的主要節點涉及細胞遷移、黏附、增殖、激素受體、炎癥等不同環節,可能是治療子宮腺肌病的潛在核心靶點和監控節點。
本研究通過Coremine Medical分析了與子宮腺肌病相關的傳統中藥以及潛在藥物,將16個核心基因輸入搜索框,篩選重復頻次大于7的中藥,其中丹參、當歸、茯苓、三七等中藥已有治療子宮腺肌病相關的文獻報道。丹參具有活血祛瘀、通經止痛、涼血消癰的作用[40],常用于婦科病治療。統計研究表明丹參屬于治療子宮腺肌病用藥頻率最高的3種中藥之一,菲醌等丹參酮類成分對細胞有殺傷作用,同時丹參酮ⅡA具有誘導細胞凋亡作用,與子宮腺肌病密切相關[41]。當歸作為婦科圣藥,具有補血活血、調經止痛的功效,主治月經不調、經閉痛經、虛寒腹痛[42],是治療子宮腺肌病的方劑中使用頻次最高的中藥[43]。有統計研究表明,茯苓與子宮腺肌病的關系密切,使用頻次較高[44]。三七具有止血、散瘀、消腫、止痛等功效[45]。馮曉莉等[46]在治療子宮腺肌病中,使用三七代替桂枝茯苓方中的桃仁,收到了良好的效果。
另外,本研究發現厚樸花、茶樹根、蠶砂等中藥是潛在的治療藥物,但尚未見用于治療子宮腺肌病的文獻報道。厚樸花為近代開始使用的藥物,目前藥理研究主要圍繞鎮痛、抗菌等方面[47]。茶樹根具有強心利尿、活血調經、清熱解毒的功效。臨床上用于風濕性、高血壓性及肺源性心臟病,對改善癥狀有一定效果。蠶砂主要有祛風濕、和胃化濕的作用。厚樸花、茶樹根、蠶砂與子宮腺肌病的相關研究目前尚未見報道,這些藥物有望成為子宮腺肌病的用藥新選擇,仍有待進一步的實驗研究探討。
綜上所述,本研究利用GEO數據庫,通過一系列分析工具,挖掘出子宮腺肌病患者與正常人群之間的差異基因,分析結果提示這些差異基因主要參與細胞凋亡和雌二醇反應等生物過程;主要與氧化磷酸化、雌激素信號通路、PI3K-Akt等信號通路相關;確定了TP53、ACTB、MMP2、CD44等16個與子宮腺肌病密切相關的核心基因。通過分析得到丹參、當歸、茯苓、三七、厚樸花、茶樹根、蠶砂等出現頻次最高的中草藥,為子宮腺肌病的潛在靶點和藥物研究提供了數據依據,并提示厚樸花、茶樹根、蠶砂有望成為該病癥的用藥新選擇,為子宮腺肌病的治療提供新的思路。