張心月,俞夢越
基礎與實驗研究
急性高血糖對小鼠主動脈基因表達譜擾動的可視化研究
張心月,俞夢越
目的:采用數據挖掘方法,基于Matlab平臺對基因網絡擾動可視化,以直觀顯示短時高血糖狀態下動脈血管轉錄組改變。
方法:在美國國立衛生研究中心(NCBI)GEO數據庫下載數據集。利用Matlab將數據轉化為計算機可識別的結構體,經過數據篩選,獲得短時高血糖后表達模式擾動最明顯的基因譜。利用三種聚類算法分析,基于DAVID進行基因本體學(GO)注釋及富集分析,把相關通路標定在KEGG通路中,形成基因—表達譜系統分析。
結果:經過對數據集的篩選、聚類將基因的變化模式歸為9類,在該模型中有效地反應出短時高血糖對動脈血管的急性早期效應。GO富集分析顯示,在急性炎癥反應、心肌重構、維持細胞內鈣離子穩態、細胞周期調控、細胞趨化作用等方面的基因顯著富集;其中以與粘多糖、糖蛋白結構相關基因、脂肪分解代謝、肌原纖維組裝相關基因顯著富集。這些發現與以往研究的結論相吻合。K-均值聚類方法顯示,在高血糖環境下基因表達上調,且不隨血糖恢復正常表達的基因,主要有參與細胞周期調控、心肌重構、維持細胞內鈣離子穩態的基因。
結論:利用數據挖掘方法,實現急性高血糖對小鼠動脈基因表達譜波動模式的可視化描述,并為糖尿病的“代謝記憶”機制提供新的解釋,即早期的高糖效應帶來的動脈血管的不可逆的損傷,是導致冠心病患者降糖治療無效的原因。即短暫的高糖水平的暴露可在分子水平上起到長久的影響。
高血糖癥;內皮細胞;基因表達譜
(Chinese Circulation Journal, 2017,32:924.)
糖尿病是冠狀動脈疾病(CAD)的獨立危險因素,其中動脈粥樣硬化在糖尿病患者死亡原因中約占80%[1,2]。糖尿病可通過多種途徑促進動脈粥樣硬化的發生,如高血糖、肥胖、血脂紊亂、高血壓、胰島素抵抗等;其中機體處于長期慢性高糖環境,是糖尿病患者發生動脈粥樣硬化的主要因素[3,4]。高血糖可通過多條途徑啟動動脈粥樣硬化的發生、并加速其進展,其中內皮細胞功能受損是動脈粥樣硬化和糖尿病大血管病變的早期病理生理變化。
DNA微陣列(基因芯片)是高通量研究中重要的方法之一,能對大量的基因表達譜進行同步、快速檢測,提供上萬條基因的表達譜。目前公共數據庫(如GEO)中基因芯片表達譜數據與日俱增,但海量的數據卻未得到充分的提取與深入的挖掘。以往的研究更多的局限于傳統的研究、統計手段,但芯片數據的特點是維數高、具有異質性、網絡性,傳統的統計分析方法不再適用。數據挖掘是在大數據背景下應運而生的一種將數據轉換為有用信息的方法[5]。本文結合計算生物學技術,采集公共數據庫中已發表的Affymetrix寡核苷酸微陣列原始數據GDS4016,對數據集進行數據篩選、差異表達基因篩選、聚類分析、基因本體學注釋、通路富集分析,從而更加直觀地顯示短時高血糖對血管內皮細胞的基因擾動,以利于復雜信息進一步整合、挖掘。
數據集來自美國國立衛生研究中心(NCBI)的GEO數據庫,編號為GDS4016,平臺號為GPL1261(Affymetrix公司),下載地址為:http://www.ncbi.nlm. nih.gov/geo/query/acc.cgi?acc=GSE15401。該芯片主要研究內容為瞬時高血糖過程中及之后,小鼠主動脈組織細胞基因表達譜改變。實驗檢測時間點為第0天(血糖5 mmol/L)、第2、4、7天(血糖>25 mmol/L)、第11、26天(血糖5 mmol/L)。
數據預處理:①弱信號處理:芯片上存在很多弱信號點,這些點的信號強度雖然很弱,但不一定是噪聲點,有可能是一些十分重要的基因,因此不能武斷地把它們全部刪去。目前對于如何把弱信號點從背景或噪聲中分離出來仍無全面有效的方法。我們通過背景、空白點、陰性對照點確定弱信號的閾值。低于該值的信號點被濾除,高于該值的信號點進入后續的數據分析。②數據的對數轉換:對數轉換能夠提供從生物學角度易于解釋的數據,使數據的分布滿足近似正態分布,以便后續的數據挖掘方法的使用。為確保聚類的有效性,使芯片數據偏向于正態分布,對數據集進行標準對數轉換。③數據篩選:基因表達譜數據集很大,大部分組織只有大約10000~15000個基因會產生表達[6],并且很多基因在實驗中沒有表現出我們感興趣的變化。為了簡化搜尋興趣基因的過程,需要縮減數據集的數量到一個亞集中,去掉不感興趣的基因。因而我們采用低熵篩選,過濾掉表達量波動熵值過低(基本熵值屬于10%以下)的基因。
描述表達譜擾動的算法:無監督學習(unsupervised analysis)即沒有事先定義的向量集或類別集,使用遞歸的分割方法來劃分類,把擁有相似特征的數據歸入相同的類。包括層級聚類、K-均值聚類、自組織映射、主成份分析等。①K-均值聚類(K-means Clustering):K均值聚類是無監督分類的一種基本方法[7]。在K-means算法運行前須指定聚類的數目K和迭代次數,并指定K個初始質心。初始質心數目的選取,一種是隨機選擇,另一種是使用其他聚類方法得到的類平均向量[8]。②主成分分析(principle component analysis, PCA):是一種數學降維方法,找出幾個綜合變量來代替原來眾多的變量,使這些綜合變量能盡可能地代表原來變量的信息量,并且彼此之間相互獨立。這些新變量能夠代表原始數據的能力由它們所能解釋的變異的比例衡量。那些遠離遠點的基因,是表達量變化最明顯的基因,在得分圖中選取離原點較遠的點,對對應的基因進行標記[9]。③自組織映射(Self-organizing Maps, SOMs):是一種無監督神經網絡,主要用于對輸入向量的區域分類。它克服了K-means聚類的一些缺點,如對噪聲穩定,不依賴與數據分布的形狀,提供大數據集內相似性關系的綜合分析。聯合PCA和SOM用于基因數據的聚類分析,比單一使用SOM的聚類分析有更高的分類正確率及較為清晰的分類邊界[10]。
研究分析平臺:基于Windows7(Microsoft,美國)的Matlab 2013a(MathWorks,美國)的生物信息工具包。
數據轉換(圖1):GDS4016數據集中每個時間點包含三個生物學重復的樣本,對其求平均值,并進行對數轉換后的數據在各個時間點的散點圖。

圖1 數據轉換后45 101個芯片數據的折線圖
基因篩選:首先根據數據挖掘思路,對數據進行去空值清洗,然后篩選掉復制次數波動小于2.5次的基因,及變化水平2倍以下的基因;利用MATLAB中的低熵篩選,濾除表達量波動熵值過低(基本熵值屬于10%以下)的基因,獲得瞬時高血糖后表達模式擾動最明顯的基因表達譜。
這樣從45 101條序列中挑選出686條有意義波動的基因,作為感興趣基因。
對篩選后的數據集,通過分層聚類結果構建熱點圖、系統樹圖(圖2),以直觀的了解其表達情況。
利用層級聚類發現結果簇的數目可大致分為9種情況,設定K均值聚類的分類數K為9,初始質心的選擇依靠計算隨機生成,使用歐氏距離,并設置最大迭代次數為100次。K-means聚類算法聚類圖如圖3所示。可看出基因的表達模式被歸入9簇,隨時間序列的變化,基因的表達具有明顯的上調或下調。其聚類的質心(圖4) 繪出這686條基因的表達輪廓。

圖2 雙向分層聚類結果
PCA是對大數據集降維的重要工具,亦可在噪聲數據中發現信號。首先對686條基因進行主成份分析,圖5顯示出第一二個主成份的散點圖,表示出有兩個不同的區域,因為篩選功能已經把低變化及低信息量的數據去除掉了,而這些點應該出現在散點的中心。6個主成分的特征值及它們的貢獻率見表1。從表中可以發現,前2個特征值的貢獻率達到近90%,包含了原始數據集的主要信息。
主成份分析中,發現異常的離群點,說明這些基因的表達模式與其他大多數的基因并不相同。利用DAVID分析,發現這些基因在細胞組成上,主要在肌原纖維組成富集。其生物學作用主要與肌肉組織發育分化相關,如心肌肌動蛋白α1(Actin,Alpha,Cardiac Muscle 1, ACTC1)、錨蛋白重復域1(Ankyrin Repeat Domain 1, ANKRD1)和心肌肌鈣蛋白T(Troponin T2, Cardiac Type, TNNT2);另外,與細胞骨架重塑的基因也有顯著富集,如肌球蛋白重鏈6(Myosin Heavy Chain 6,MYH6)、肌聯蛋白(Titin, TTN)等。

圖3 K-means聚類算法將686個數據歸為9簇

圖4 K-means算法基因隨時間序列的表達輪廓

表1 主成分的特征值與貢獻率

圖5 主成份分析
把PCA過程中得到的前兩個特征輸入SOM作為其輸入變量,用前兩個主成份構建SOM,用系統設定的參數訓練網絡,這種方法減少了在訓練過程中關聯度不大的基因的影響,能夠有效地提高網絡訓練速度及聚類準確率。總共聚類為16類,不同的顏色標識出不同的類別,16個紅色的點代表聚類的中心。

圖6 針對主成分分析結果的自組織映射聚類
根據三種聚類算法得到有相似表達譜的基因,這意味著有相同表達模式的基因(在同一個聚類簇中)在同一的處理條件下表現為共同上調或者下調,這樣我們給出一種假設,即這些基因異同執行一個特定的生物學功能。對不同的GO 術語和KEGG通路進行的富集分析,把功能相似的基因聚在一類,并分析它們在整個基因組表達背景下的富集情況,以便更加直接地了解基因所代表的生物學功能。
運行DAVID,利用統計學分析(Fisher精確概率檢驗),計算出P值,P值小于設置(0.05),表明基因有顯著富集。對Fisher精確概率檢驗進行修飾的EASE得分,得分越高,富集效果越好。對篩選出的基因做富集分析,利用DAVID中的功能注釋富集,對686個基因進行分析,可以看出這些篩選后的基因主要分布在肌原纖維,并在瘢痕修復、免疫反應有顯著富集,這與之前的研究相一致[11]。通路富集分析顯示這些基因在肥厚型心肌病通路上顯著富集。下面具體分析K-means分類下9類基因中我們感興趣的變化趨勢的基因的生物學功能。
第一類,基因表達變化基本分布在0以下,表明相較第0天(高糖作用前小鼠主動脈組織)基因表達下調;第2天低血糖的窗口期,基因表達出現明顯下調;第4天隨著血糖水平恢復,基因表達水平隨之恢復;第7天,高血糖的峰值時,基因再次下調,且與第2天下調幅度接近。但第7天之后,血糖逐漸恢復正常,并在正常水平持續了近兩周,下調的基因未與之相應地調回原來的水平。基因本體學分析結果顯示,該類基因主要與急性期免疫應答相關,如血清淀粉樣蛋白(Serum Amyloid A1, SAA1)、絲氨酸蛋白酶抑制因子1(Serpin Family A Member 1, SERPINA1)。第九類的表達趨勢與第一類相類似,生物學作用方面主要與細胞遷移相關,如整合素α4(Integrin Subunit Alpha 4,ITGA4)、整合素β2(Integrin Subunit Beta 2, ITGB2)、FC段γ受體3(Fc Fragment Of IgG Receptor III, FCGR3)以及S100鈣結合蛋白A9(S100 Calcium Binding Protein A9, S100A9);并與膽固醇代謝相關,如載脂蛋白A1(Apolipoprotein A1, APOA1)、瘦素(Leptin, LEP)和SAA1。
第二類中,基因轉錄的大致趨勢呈現先增高后降低,第7天(血糖最高值)基因明顯上調達到峰值,隨后隨著血糖水平逐漸恢復至正常(第11天),基因的轉錄水平也逐漸下降至第0天的水平,并在其后15天維持該表達水平。富集分析結果顯示,該類基因主要表達糖蛋白,并主要聚集在細胞外區域,如CD99L2、FRAS1、組織蛋白酶H(Cathepsin H, CTSH)等。鈣化相關基因顯著富集,如骨成型蛋白受體2(Bone Morphogenetic Protein Receptor Type 2, BMPR2)、WNT抑制因子1(WNT Inhibitory Factor 1, WIF1)、骨調蛋白(Osteomodulin,OMD);以及血管細胞粘附分子1(Vascular Cell Adhesion Molecule 1,VCAM1)、基質金屬蛋白酶 3(Matrix Metalloproteinases 3,MMP3)、血管性血友病因子(Von Willebrand Factor, VWF)、載脂蛋白D(Apolipoprotein D, APOD)、JUN和肌球蛋白重鏈6(Myosin Heavy Chain 6, MYH6);并與急性免疫反應密切相關。這與原始研究結果相一致[12]。除此之外,研究還發現對氧磷酶 1(Paraoxonase 1,PON1)、TNN1、肌原調節蛋白2(Myozenin 2,MYOZ2)也包括在該類基因當中。
第三類與第六類的表達情況相類似,呈現先增高后降低的趨勢,第7天達到峰值。與第二類的區別在于,第11天以后表達水平仍然高于第0天的表達水平,表明基因的轉錄水平未得到逆轉。第四類與這兩類的區別在于,基因上調的最高值落在第四天。富集分析的結果顯示,除了原始研究中發現的表達未逆轉的基因,如血管生成素(Angiogenin, ANG)、花生四烯酸-15-脂加氧酶(Arachidonate 15-Lipoxygenase, ALOX15)、載脂蛋白B-mRNA編輯酶復合物1(Apolipoprotein BmRNA Editing Enzyme Catalytic Subunit 1, APOBEC1)、FOS、肌酸激酶(Creatine Kinase, M-Type, CKM)、早期生長應答蛋白3(Early Growth Response 3, EGR3)之外,我們發現這類基因還包括與肌原纖維組裝、細胞周期調控、維持細胞內鈣離子穩態和蛋白錨定相關的基因。
第八類中,基因轉錄水平形成先升后降、再升再降的趨勢,并在第4、11天,血糖分別從低糖、高糖恢復至正常的時間達到峰值,第26天恢復至第0天的水平。說明該類基因的表達滯后于血糖的變化。對這一類基因做富集分析,發現在細胞功能上,與趨化作用相關的基因顯著富集,包括FC段γ受體2(Fc Fragment Of IgG Receptor II, FCGR2)、S100鈣結合蛋白A8(S100 Calcium Binding Protein A8, S100A8)等。
第五類和第七類的基因數較少,不做富集分析,單獨分析每一個基因,未從中發現有意義的點。
綜上所述,該研究發現了除原始分析結果外其他受調控基因,如PON1、FRAS1、CTSH、TNN1、MYOZ2等。其中表達未能逆轉的基因還包括與肌原纖維組裝、細胞周期調控、離子轉運、維持細胞內鈣離子穩態和蛋白錨定相關的基因。對受調控基因的變化趨勢進行進一步細分,有利于深入理解疾病變化過程的具體機制,促進進一步深入研究。
目前公共數據庫中基因芯片表達譜數據與日俱增,但海量的數據卻未得到充分的提取與深入的挖掘。采集公共數據庫中已發表的Affymetrix寡核苷酸微陣列原始數據GDS4016,利用數據挖掘的方法,從新的角度對已有的芯片進行嶄新的研究。基于Matlab中Mathwork 生物信息工具包將數據轉化為計算機可識別的結構體,經過數據轉化使數據在同一水平上可比較,之后運用模式識別算法剔除表達背景噪聲,獲得短時高血糖后表達模式擾動最明顯的基因譜。利用K-means算法、主成份分析及自組織圖對篩選后的基因進行聚類。實現急性高血糖對小鼠動脈基因表達譜波動模式的可視化描述。進而基于DAVID進行GO注釋及富集分析,把相關通路標定在KEGG通路中,形成基因——表達譜系統分析。解釋了為什么降糖處理不能降低CAD的發生風險,即短暫的高糖水平的暴露可在分子水平上起到長久的影響。目前對高血糖癥的治療指南,沒有對及時降糖給予足夠的強調,但是實驗與臨床研究均表明,持續的動脈損傷會加速動脈粥樣硬化及心臟病的進程,早期的低糖或高糖效應帶來的動脈血管的不可逆的損傷,是導致冠心病患者降糖治療無效的原因。
本研究雖從研究方法上為高血糖相關的冠心病研究提供了新的途徑,但僅從轉錄組水平進行數據分析就得出肯定結論尚欠缺說服力,最終還需得到細胞或動物模型的進一步驗證。其次,本研究數據來自美國數據庫,基于遺傳異質性和人種差異,未來基于中國人的數據庫分析更有指導意義。
隨著大規模測序的發展,云存儲技術的運用,在未來,數據每日的更新量會令人瞠目結舌。如何有效的利用這些資源,把它們轉化為我們能夠利用的信息,必須借助新的算法的開發。數據挖掘的方法能夠幫助我們在海量的信息當中發現關聯,形成能夠被利用的知識。
[1] Martín-Timón I, Sevillano-Collantes C, Segura-Galindo A, et al. Type 2 diabetes and cardiovascular disease: Have all risk factors the same strength? World J Diabetes, 2014, 5: 444-470.
[2] Milicevic Z, Raz I, Beattie SD, et al. Natural history of cardiovascular disease in patients with diabetes: role of hyperglycemia. Diabetes Care, 2008, 31 Suppl 2(Supplement 2): S155-S160.
[3] Aronson D, Rayfield EJ. How hyperglycemia promotes atherosclerosis: molecular mechanisms. Cardiovasc Diabetol, 2002, 1: 1.
[4] Nagareddy PR, Murphy AJ, Stirzaker RA, et al. Hyperglycemia promotes myelopoiesis and impairs the resolution of atherosclerosis. Cell Metab, 2013, 17: 695-708.
[5] Wu F-X, Li M, Ruan J, et al. Systems biology approaches to mining high throughput biological data. Bio Med Research International, 2015, 2015: 504362-504362.
[6] Su AI, Cooke MP, Ching KA, et al. Large-scale analysis of the human and mouse transcriptomes. Proc Natl Acad Sci USA, 2002, 99: 4465-4470.
[7] Dubey AK, Gupta U, Jain S. Analysis of k-means clustering approach on the breast cancer Wisconsin dataset. Int J Comput Assist Radiol Surg, 2016, 11: 2033-2047.
[8] Fernandez EA, Balzarini M. Improving cluster visualization in selforganizing maps: application in gene expression data analysis. Comput Biol Med, 2007, 37: 1677-1689.
[9] 蔡斌, 江華. 急性心肌梗死早期基因表達和代謝調控網絡擾動的可視化研究. 中華急診醫學雜志, 2013. 22 : 591-596.
[10] 程國建, 安瑤. 基于PCA的SOM網絡在基因數據聚類分析中的應用. 軟件導刊, 2013, 12: 127-130.
[11] 馮新星, 陳燕燕. 糖尿病心肌病的研究進展. 中國循環雜志, 2015. 30: 87-89.
[12] 陳麗莉, 范國洽, 韓蕊, 等. 二甲雙胍降低2型糖尿病大鼠主動脈磷酸化絲裂原活化蛋白激酶的蛋白表達. 中國循環雜志, 2015. 30: 487-491.
Visualization Study on the Disturbance of Aorta Gene Expression Profile in Acute Hyperglycemia Mice Model
ZHANG Xin-yue, YU Meng-yue.
Department of Cardiology, Cardiovascular Institute and Fu Wai Hospital, CAMS and PUMC, Beijing (100037), China
Objective: Based on the visualization function for gene network disturbance of Matlab platform, data mining method was used to directly observe transcriptional changes in aorta vessel at short-time hyperglycemia condition.
Methods: The information was down loaded from GEO database of NCBI. Using Matlab system to transfer the data set to a computer-readable structure, using data fi lter to obtain apparent gene expression disturbance pro fi le after short-time hyperglycemia condition. Applying three clustering algorithms, based on DAVID platform to conduct gene ontology (GO) annotation and enrichment analysis in order to calibrate KEGG pathway and to form gene expression pro fi le analysis.
Results: Via data set screening, the pattern of gene expression was divided into 9 clusters by special algorithms. GO analysis indicated that obvious gene enrichments were found in acute inflammation reaction gene, myocardium remodeling gene, stabilizing intracellular calcium gene, cell cycle regulation gene, chemotactic effect gene; especially in mucopolysaccharide gene, glycoprotein structure related gene, fat catabolism gene and myo fi bril related gene. The above fi ndings were identical to previous study. K-means clustering method presented that in hyperglycemia condition, up-regulated genes didn’t return to normal level when blood glucose back to normal which mainly including cell cycle regulation gene, myocardium remodeling gene and stabilizing intracellular calcium gene.
Conclusion: Our work provided a new explanation of diabetes metabolic memory; short-term hyperglycemia caused arterial damage was irreversible which incurred inef fi cient hypoglycemic therapy in coronary artery disease patients.
Hyperglycemia; Endothelial cells; Gene expression pro fi le
YU Meng-yue, Email: yumy73@163.com
2016-11-26)
(編輯:汪碧蓉)
國家自然科學基金委員會面上項目(81670415)
100037 北京市,北京協和醫學院 中國醫學科學院 國家心血管病中心 阜外醫院 冠心病診治中心
張心月 碩士研究生 主要從事冠心病基礎研究 Email:18800161600@163.com 通訊作者:俞夢越 Email:yumy73@163.com
R541
A
1000-3614(2017)09-0924-06
10.3969/j.issn.1000-3614.2017.09.023