卓超洲,沈觀樂,雷朝君,余瑞林,梁杰,高嫵媚,魏艾
(深圳市龍華區人民醫院呼吸內科,廣東深圳518109)
支氣管哮喘是一種常見的疾病,我國成年人患病率約為1.24%[1]。并且隨著工業化發展,哮喘的發病率也在逐年上升[2]。哮喘的發病是多種炎癥細胞(嗜酸性粒細胞、肥大細胞等)共同參與、相互作用的結果[3]。白細胞介素家族是一類與免疫調節相關的細胞因子,在炎癥反應中起重要作用。白細胞介素家族至少有40個成員,IL4則是其中一個[4]。目前已經有研究發現,哮喘患者的血清中IL4 水平顯著上升,可能與氣道炎癥相關[5]。但是目前對IL4 在哮喘中的調控機制尚不清楚,因此在本研究中,通過對GEO 數據庫中哮喘患者的轉錄組及甲基化數據進行挖掘,探究了IL4 及其相關基因在哮喘發生中的作用機制,發現IL4可能是治療哮喘的潛在靶點。
本研究所用到的測序數據均來源于公共數據庫——GEO(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo/)。哮喘患者的mRNA表達數據集來源于:GSE27011和GSE40888[6-7]。DNA甲基化數據來源于GSE40736[8]。miRNA 表達數據來源于GSE142237。LncRNA表達數據來源于GSE106230[9]。
使用GSE106230 數據篩選哮喘患者顯著高表達的lncRNA,GSE142237 數據集篩選miRNA 顯著低表達的基因。差異表達分析用R 語言(version 3.6)的limma 包[10],log2foldchange>1,P<0.05 的lncRNA被認為是顯著高表達。log2foldchange<-1,P<0.05的miRNA被認為是顯著低表達。
IL4 與miRNA 互作信息來源于miRWalk(http://mirwalk.umm.uni-heidelberg.de/),miRNA 與lncRNA互作信息來源于StarBase3(http://starbase.sysu.edu.cn/)。IL4 相關的ceRNA 調控網絡圖用Cytoscape 進行展示[11]。
將GSE27011 數據集中的哮喘患者按照IL4 的表達量進行從高到低排序。按照IL4 表達量的中位數將患者分為IL4 高表達組和低表達組。本研究用GSEA(version,4.0.3)軟件對表達矩陣進行分析,采用c2.cp.kegg.v7.1.symbols.gmt 數據集,按照缺省參數設置進行基因富集分析(gene set enrichment analysis,GSEA),設定隨機組合次數為1 000,|NES|>1,P<0.05的基因集被認為是顯著富集的。
本研究將與IL4 呈正相關和負相關的基因分別進行基因本體(GO)和京都基因與基因組百科全書(KEGG)分析。GO 分析用R 語言(version 3.6)的clusterProfiler 包[12]。KEGG 分 析 使 用 的 在 線 分 析KOBAS3(http://kobas.cbi.pku.edu.cn/)。P<0.05 被認為是顯著富集的功能或者通路。
用R 語言(version 3.6)進行統計學分析。哮喘患者和正常人的IL4 表達量及甲基化水平比較采用獨立樣本秩和檢驗。基因表達之間的關系采用Pearson 相關性分析。P<0.05被認為有統計學意義。
GSE27011包含36例哮喘患者和18例正常人的白細胞mRNA 表達數據。GSE40888 包含65 例哮喘患者和40 例正常人的外周血單核細胞mRNA 表達數據。GSE40736包含97例哮喘患者和97例正常人的外周血單核細胞DNA 甲基化數據。GSE142237包含8 例哮喘患者和4 例正常人的支氣管上皮miRNA表達數據。GSE106230包含9例哮喘患者和3例正常人的外周血lncRNA表達數據。
通過將哮喘患者和正常人的IL4 表達水平進行比較,發現患者中IL4 顯著高表達(P=0.042 8,圖1A)。哮喘患者和正常人的IL4 DNA 甲基化水平進行比較,發現患者中IL4 DNA 甲基化水平顯著降低(P=0.028 3,圖1B)。

表1 數據集及樣本分布情況Table 1 Data set and samples distribution
ceRNA 網 絡 中,lncRNA 與mRNA 是 正 調 控 關系,miRNA與mRNA是負調控關系[13],因此本研究利用GSE142237 數據集篩選了在哮喘患者中顯著下調的miRNA(50 個)。利用GSE106230 數據集篩選了在哮喘患者中顯著上調的lncRNA(26 個)。通過預測IL4 與miRNA 的互作關系、miRNA 與lncRNA的互作關系,最終得到一個包含4個miRNA、6個lncRNA 和IL4 的ceRNA 調控網絡(圖2),表2 展示了這些lncRNA和miRNA的上調下調情況。

圖1 哮喘患者和正常人IL4差異比較結果。Figure 1 Difference of IL 4 between asthmatic patients and normal people
GSEA 分析發現有19 條通路顯著富集在IL4 高表達患者中。如表3所示,高IL4患者富集的通路主要涉及代謝類通路和一些受體信號通路。對排名為前2的通路進行了展示(圖3)。


表2 CeRNA網絡中miRNA和lncRNA差異表達分析結果Table 2 Differential expression analysis of miRNA and lncRNA in ceRNA network
利用GSE27011 和GSE40888 兩個數據集中的哮喘患者基因表達矩陣,分別計算IL4 與其他基因表達的相關性。其中GSE27011 篩選到1 584 個顯著與IL4表達相關的基因(816個正相關,768個負相關)。GSE40888 篩選到7 690 顯著與IL4 表達相關的基因(5 119 個正相關,2 571 個負相關)。圖4 和圖5 分別對GSE27011 和GSE40888 2 個數據集相關性最強的前4 個基因進行了展示。將2 個數據集篩選到的相關基因取交集,一共得到210 個基因(144正相關,66負相關,圖6)。

表3 IL4高表達患者顯著富集的通路Table 3 Pathways enriched by IL4-overexpression patients

圖3 IL4高表達患者富集的top2通路Figure 3 Top 2 pathways enriched by IL4-overexpression patients
選取與IL4 正相關的基因集進行GO 和KEGG富集分析,以此來分析IL4 表達所促進的功能(圖7A)或通路(圖7C)。在分子功能(biological process,BP)方面,主要與一些蛋白結合或者磷酸酶活性有關,例如:蛋白激酶B結合、激活素結合、跨膜受體蛋白酪氨酸磷酸酶活性、跨膜受體蛋白磷酸酶活性等;在細胞成分(cellular component,CC)方面,參與構成一些細胞器,例如反式高爾基網囊泡的網格蛋白外套、跨高爾基網絡轉運囊泡膜、內溶酶體膜等;在生物學過程(molecular function,MF)方面,主要參與一些通路的調節作用,如:輔助性T-helper2 細胞分化的調控、前列腺素生物合成過程的調控、谷氨酸分泌的正調節等。在KEGG 通路方面,主要參與一些代謝通路,如甘油磷脂代謝、花生四烯酸代謝;一些重要物質的合成,如:氨酰-tRNA 生物合成、甾體激素生物合成、泛酸和輔酶A 生物合成和初級膽汁酸生物合成;另外還參與一寫信號傳導通路,如:mTOR 信號通路、幽門螺桿菌感染中的上皮細胞信號轉導和甲狀腺激素信號通路。選取與IL4 負相關的基因集進行富集分析,以此來分析IL4 表達所抑制的功能(圖7B)或通路(圖7D)。在分子功能方面,主要與一些蛋白結合或者磷酸酶活性有關,如泛素化類修飾依賴蛋白質結合、長春新堿結合、泛素-泛素連接酶活性、磷脂酰肌醇磷酸激酶活性和NAD 依賴性組蛋白脫乙酰酶活性(H3-K14 特異性)等。在細胞成分方面,參與構成DNA 復制因子A 復合體、核酸復制顆粒、樹突棘膜、黑素體膜和殼質體等。在生物學過程方面,主要參與一些通路的調節作用,如:eIF2α 磷酸化對翻譯起始的調控、ATF6 介導的未折疊蛋白反應、內質網蛋白輸出的負調控和蛋白質多泛素化的負調控等。在KEGG 通路方面,主要參與一些基本生命活動的通路,如內質網的蛋白質加工、醛固酮合成與分泌、泛素介導的蛋白質水解和加壓素調節的水重吸收和粘蛋白型O-聚糖生物合成等。

圖4 GSE27011數據集中與IL4相關性最強的前四個基因。Figure 4 Strongest four genes correlated with IL4 in GSE27011 data set

圖5 GSE40888數據集中與IL4相關性最強的前4個基因。Figure 5 Strongest four genes correlated with IL4 in GSE40888 data set

圖6 GSE27011和GSE40888兩個數據集中與IL4呈正相關和負相關基因交集Figure 6 Intersection of positive and negative correlation genes with IL4 between GSE27011 and GSE40888 data sets

圖7 基因本體(GO)和京都基因與基因組百科全書(KEGG)分析Figure 7 Gene Ontology(GO)and Kyoto Encyclopedia of Genes(KEGG)analysis
DNA 的甲基化修飾可引起染色質結構改變,從而調控基因的表達,在疾病的發生發展中發揮重要的作用[14]。本研究中,通過比較哮喘患者和正常人的IL4 基因位點上DNA 甲基化水平,發現哮喘患者的IL4甲基化水平顯著降低,而IL4在哮喘患者中的表達水平顯著上升,因此推測,IL4 DNA 甲基化水平的降低促進了IL4的表達。
目前越來越多研究表明,lncRNA 可以與mRNA競爭性與miRNA 結合,從而調控mRNA 的表達[13]。這類調控機制的失衡可能導致疾病的發生。因此,本研究建立了IL4 相關的ceRNA 網絡,以探究相關的調控機制。網絡中的OIP5-AS1 已被報道可以作為哮喘的診斷標記物[15],hsa-miR-125b-5p 也被報道與IL4的表達具有一定的相關性[16]。網絡中lncRNA和miRNA 的調控可能導致了哮喘患者IL4 的異常表達。
GSEA 分析發現高IL4 表達水平的患者富集的大多為代謝相關的通路,其中糖代謝、亞油酸、花生四烯酸、谷胱甘肽及各種氨基酸代謝已被報道過在哮喘患者中及健康對照中存在顯著差異[17]。
通過對IL4 正相關的mRNA 進行通路分析,發現這些mRNA 所在的一些通路與哮喘發生相關,例如:花生四烯酸代謝通路被發現與哮喘急性發作相關[18];內吞作用,細胞膜上重要結構蛋白caveolin-1參與細胞的內吞作用,該蛋白也被報道可作用于中氣道平滑肌細胞,與哮喘的發病相關[19];幽門螺桿菌感染中的上皮細胞信號轉導通路,幽門螺桿菌感染被發現與兒童哮喘發病呈正相關性[20];甘油磷脂代謝通路,甘油磷脂被發現在哮喘組小鼠與對照組小鼠有顯著差異[21];mTOR 信號通路在哮喘鼠模型中可參與肺組織炎性浸潤和氣道重塑等病理過程而介導哮喘的發生[22];甲狀腺激素信號通路,甲狀腺激素被報道可增強哮喘患者的氣道平滑肌重構[23]。對于與IL4 呈負相關的mRNA,其富集的通路,也與哮喘相關,例如:自噬,自噬在支氣管哮喘的發病過程中可能既有保護作用,又有損害作用[24];泛素介導的蛋白水解通路,paucigranulocytic 哮喘中發現一些顯著高甲基化的基因,這些基因富集于泛素介導的蛋白水解通路[25]。
本研究通過應用生物信息學方法分析哮喘患者和正常人的轉錄組及甲基化數據,發現IL4 在哮喘中顯著高表達,并探究了其異常表達的調控機制,同時也發現IL4 的高表達可能導致與哮喘相關的代謝異常。另外本研究還挖掘出與IL4 表達相關的mRNA,發現這些mRNA 可能通過調控一些相關通路參與哮喘的發病。本研究從多組學多角度研究了IL4 的異常表達及其相關基因對哮喘的調控作用,研究顯示IL4可能可以作為哮喘治療的靶點。