李方舟,郗雪艷,杜伯雨,2,戴文敬△
(湖北醫藥學院:1.生物醫藥研究院;2.基礎醫學院,湖北 十堰 442000)
阿爾茨海默病(AD)是一種由阿諾斯·阿爾茨海默(Alois Alzheimer)發現、埃米爾·克雷佩林(Emil Kraepelin)命名的常見并伴隨緩慢進展的神經性退行癡呆[1-2]。AD主要以淀粉樣β肽沉聚在大腦最容易受影響的部位,例如大腦內側顳葉、皮層而形成的神經斑塊和神經纖維纏結為特征[3]。AD是一個全球性的健康難題,影響著全世界范圍內近5 000萬人口的健康,是造成人類癡呆的主要原因。根據預測,AD的患病人數將會在10年之后翻倍,并在2050年達到近1.5億[4-5]。因此,AD的診斷與治療方法的開發應用變得尤為重要。
AD的病理特征主要分為兩大類:(1)通過積聚而造成的正向損傷,如神經纖維纏結、淀粉樣斑塊和其他在AD患者腦內發現的沉積物;(2)由于萎縮而造成的負向損傷,如神經細胞、軸突、樹突、海馬體等大面積萎縮[6-8]。
到目前為止,關于AD的發病進展及發病機制提出了一些假設,但具體病因和疾病進展機制還有待證明。關于AD的病因提出了2條主要的假說,膽堿成因假說和淀粉樣蛋白成因假說。膽堿成因假說認為膽堿功能受損是造成AD的關鍵因素;淀粉樣蛋白成因則認為淀粉樣蛋白生成及修飾過程中有異,產生淀粉樣蛋白異構體是AD的主要發病原因[5,9-10]。作為一種多因素疾病,其病程的進展與多種風險因素相關,如年齡的增長、遺傳、頭部損傷、血管疾病、細菌或病毒的感染、重金屬等環境因素等[5]。其中最為主要的風險因素是年齡,絕大多數AD患者的年齡均在65歲以上,年輕人(30歲左右)除非是家族遺傳性AD,否則基本不會患有這種疾病[11]。衰老是遲發性AD的最大危險因素,占AD病例的95%以上。但近期確診1例排除已有基因突變和家族性AD的19歲AD患者,表明AD將不再局限于老年人[12]。
截至目前,AD沒有治愈的方法,只有一些改善癥狀的治療手段[13-14]。而最大限度地減輕AD對患者損害的方法是在AD進展為輕度癥狀前給予患者神經性保護的藥物[15]。所以對潛在AD患者的早期診斷是緩解疾病癥狀極為關鍵的影響因素。2011年美國國家衰老研究所阿爾茨海默病協會提出了新的診斷標準,這包括臨床癥狀及生物標志物的共同診斷[5]。AD有2類生物標志物:(1)可以通過正電子成像術和腦脊液中檢測到的腦淀粉樣蛋白標志物;(2)神經元損傷標志物,如腦脊液tau蛋白、與代謝相關的氟脫氧葡萄糖(FDG)及通過核磁成像技術直接觀測到的大腦萎縮等[16-18]。
過去的生物信息學分析僅僅分析篩選了AD的差異性表達基因作為AD的診斷標志物,如EGFR、CD44、BCL2L1、HGG4、LPP、CTAGE等[19-20]。為了進一步了解AD的發病原因及發病機制,發掘AD的特征標志物,提高診斷效率,本研究綜合WGCNA、差異性分析及Lasso回歸分析,基于GEO數據庫中AD患者組及對照組基因表達圖譜,用R語言更準確地篩選AD的關鍵基因及信號通路,以達到初步篩選AD關鍵基因、開闊疾病的診斷思路、開發有效治療方法的目的。
1.1數據來源及去批次 研究所用數據來源于美國國立生物技術中心的GEO數據庫。以“Alzheimer′s disease”“Homosapiens”檢索高通量測序數據集。篩選出注釋平臺分別為GPL570、GPL27556的2個數據集GSE5281和GSE138260。運用R語言對2個數據集中的數據進行ID轉換、數據合并,并對GEO 2組數據集進行去批次運算,以去除2組數據的批次效應,增加接下來生物信息學分析的準確性。
1.2WGCNA篩選與疾病相關基因 用R語言進行WGCNA分析,排除異常信息及異常樣本,構建共表達網絡,將基因分為不同的模塊。不同基因模塊與表型數據關聯分析,計算篩選出與患病相關性最高的基因模塊。輸出這個模塊基因的表達數據集以進行后續生物信息學分析。
1.3基因表達差異性分析 用R語言對數據按照表型進行分組后,進行表達差異性分析,篩選出|logFC|>1.2且P<0.05的差異表達基因。
1.4Lasso回歸進一步篩選關鍵基 應用R語言對篩選出的差異表達基因進行Lasso回歸篩選與表型相關基因。
1.5功能富集分析 應用R語言對差異表達基因進行京都基因和基因組數據庫(KEGG)和基因本體(GO)富集分析。KEGG富集分析可以用于分析篩選出基因可能的生物學功能和其涉及的相關信號通路;而GO富集分析則可用于分析基因的相關功能,又可分為生物過程(BP)、分子功能(MF)和細胞成分(CC)。
2.1GSE5281和GSE138260數據合并及對數據進行去批次效應 GSE5281數據集包含74例正常和84例AD患者的基因表達信息;GSE138260數據集則包含19例正常和17例AD患者的基因表達信息。2組數據未處理的數據點散亂(圖1B),進行去批次效應后數據點相對集中在一個范圍內(圖1A);減小后續分析的誤差。

注:A.GEO 歸一化數據圖;B.GEO 原始數據圖。
2.2WGCNA篩選與疾病相關的基因集 數據集去批次效應后,R語言排除異常離群樣本GES5281_GSM119676(圖2A)。通過表達矩陣與表型數據的共同載入,確定軟閾值為8,構建表達網絡(圖2B)。

注:A.GEO 樣本聚類樹;B.AD與健康的模塊-性狀關系圖;C.尺度獨立性和平均連接閾值圖;D.基因模塊聚類樹。
通過WGCNA分析基因共被分為14個模塊(圖2C);是否患病與14個基因模塊的相關性計算表明brown模塊的704個基因與AD的相關性最高,其相關性系數為0.53,P值為9e-16(圖2D)。
2.3篩選疾病相關基因中差異性表達的基因 以brown模塊中704個基因的表達矩陣為對象,以|logFC|>1.2且P<0.05為閾值篩選表達差異的基因并作圖。結果顯示共有39個表達差異的基因,其中10個下調基因,29個上調基因(圖3A、B)。

注:A.火山圖;B.熱圖。
2.4Lasso回歸篩選關鍵基因與驗證 通過Lasso回歸構建表型模型,Lasso算法推薦有2個閾值;lambda.min對應出9個關鍵基因,lambda.1se對應出7個關鍵基因(圖4A、B)。R語言對模型進行自我預測,選擇曲線下面積(AUC)值更接近1的lambda.min。篩選出9個關鍵基因為MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX(表1)。通過受試者操作特征曲線(ROC曲線)驗證Lasso回歸篩選的基因,其AUC值均在0.74以上(圖4E、F),證明這9個基因均可作為潛在AD的生物標志物。其中,MALAT1、NSUN6、SRRM2、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX這8個基因在AD中表達上調;ATP5B這個基因在AD中表達下調(圖5)。

表1 Lasso篩選的12個關鍵基因

注: A.系數分布圖;B.Lasso 交叉驗證曲線;C、D. min,1se ROC 曲線;E.MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1 ROC曲線; F.MKNK2、ZC3H7B、CMBL、JPX 曲線。

圖5 9個關鍵基因的表達箱線圖
2.5KEGG和GO的信號通路富集分析 對差異表達的基因進行KEGG富集分析和GO富集分析顯示,KEGG富集分析顯示這39個基因主要參與礦物質元素的吸收、近端小管碳酸氫鹽回收等通路調控(圖6A);GO富集分析表明,差異表達基因的主要分子功能與氧化還原驅動的活性跨膜轉運蛋白、磷脂酰膽堿翻轉酶活性等相關(圖6B)。

注:A.KEGG分析氣泡圖;B.GO分析氣泡圖。
為了更準確地了解AD的內在發病機制,挖掘其生物標志物,本研究使用現代生物信息學方法,從GEO數據庫2個數據集GSE5281和GSE138260的AD患者與健康對照組的基因表達數據進行R語言綜合分析,篩選AD患病關鍵基因及對基因進行富集分析。首先R語言數據合并后,對合并數據進行標準化處理;WGCNA分析對基因表達數據中的基因分為14個模塊,對模塊和患病與否進行相關性分析篩選出704個關鍵基因。隨后,對這704個關鍵基因進行差異性分析進一步篩選出上調29個、下調10個,共39個差異表達關鍵基因。本研究構建了表型模型,利用Lasso回歸分析最終篩選出MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX 9個關鍵基因,其可能是潛在的AD生物標志物。ATP5B在AD患者中顯著性下調,ATP5B參與多種細胞功能,包括腺苷基核糖核苷酸結合活性、血管抑素結合活性和質子轉運ATP酶活性等,參與脂質代謝過程[21-22]。MALAT1、NSUN6、SRRM2、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX 8個基因在AD患者中表達上調,其中MALAT1是多種基因的轉錄調節因子,并參與調控細胞周期[23],NSUN6、SRRM2、SLC35E1、MKNK2等基因均與基因的轉錄調控相關。這些基因參與調控AD的具體機制及其在其中起到的作用需要進一步的實驗驗證。
本研究對差異性表達基因的富集分析顯示,這些關鍵基因與礦物質元素的吸收、近端小管碳酸氫鹽回收等通路相關,其分子功能主要涉及氧化還原驅動的活性跨膜轉運蛋白、磷脂酰膽堿翻轉酶活性過程,提示了在AD疾病的進展中,微量元素的吸收、氧化還原等代謝反應、脂質代謝可能起到關鍵作用。
本研究雖然以GEO數據庫中的2個數據集為研究對象,篩選出了潛在的AD診斷標志物,即MALAT1、NSUN6、SRRM2、ATP5B、SLC35E1、MKNK2、ZC3H7B、CMBL、JPX,為AD的診斷、機制和治療靶點提供了新的思路,但需實驗進一步驗證。生物信息學綜合差異基因表達、WGCNA及Lasso回歸分析的篩選方法可極大地縮短疾病關鍵基因、生物標志物的選擇確認,有助于揭示疾病的內在分子機制,從而開發更加精準的診斷方法與更加有效的治療方式。