朱貴瓊, 龐朝陽, 茍仕蓉, 楊培會
( 1. 四川師范大學 計算機科學學院, 四川 成都 610101;2. 電子科技大學 網(wǎng)絡(luò)與數(shù)據(jù)安全四川省重點實驗室, 四川 成都 610054; 3. 四川郵電職業(yè)技術(shù)學院, 四川 成都 610067 )
阿爾茨海默病(AD)是發(fā)生在老年期及老年前期的一種慢性進行性的致死性神經(jīng)退行性疾病,其病死率高,僅次于心血管疾病、腦血管疾病、癌癥,同時阿爾茨海默病致殘率也高.因此,AD被稱為21世紀威脅人類的最嚴重疾病之一[1-4].
現(xiàn)代醫(yī)學研究證明,除外傷外,幾乎所有的疾病都和基因有關(guān)系.在成千上萬條基因中,只有小部分基因與疾病的表型密切相關(guān),這類基因往往在不同樣本中差異表達,稱其為致病基因或特征基因.借助包含豐富AD基因信息的cDNA微陣列數(shù)據(jù),選取尋找AD致病基因的理論和方法,發(fā)現(xiàn)與AD相關(guān)的基因,以及弄清楚致病基因的功能及關(guān)聯(lián)等,從而實現(xiàn)對該病的預測、早期診斷及治療,這對AD患者及其家庭和社會都具有十分重要的意義和不可估量的經(jīng)濟價值[5-8].
設(shè)計合適的算法對基因數(shù)據(jù)進行分析處理,以此減少識別與AD相關(guān)基因的時間,具有很大的意義.以往的算法有K均值聚類算法(K-Means算法)[9-10]、主成分分析算法(PCA算法)[11-12]、蟻群算法(ACO算法)[13-14]、獨立主成分分析算法(ICA算法)[15]、差分進化算法(DE算法)、夾角余弦度量和切比雪夫不等式算法[16-17]等.上述算法中,K-Means算法必須事先給出K(要生成的簇的數(shù)目),聚類結(jié)果的好壞依賴于初始點的選取,且運行時間較長,計算結(jié)果不夠穩(wěn)定.主成分分析算法當主成分的因子負荷的符號有正有負時,綜合評價函數(shù)意義就不明確,命名清晰性低.蟻群算法是典型的概率算法,算法中的參數(shù)設(shè)定通常由實驗方法確定,導致方法的優(yōu)化性能與人的經(jīng)驗密切相關(guān),很難使算法性能最優(yōu)化.差分進化算法存在求解精度低及進化后期收斂速度慢等缺陷.夾角余弦度量和切比雪夫不等式算法在于選擇與AD確定有關(guān)的少數(shù)幾個基因作為主基因,查找這些主基因的伴隨基因,導致基因查找不夠全面,且切比雪夫不等式在計算概率時比較粗糙.
因AD基因表達庫中有22 283個基因,31個樣本,故具有小樣本的特點.針對AD基因表達譜數(shù)據(jù)特有的維數(shù)高/樣本小/非線性的特點,本文對基因特征提取和分類進行研究,提出用T檢驗方法引入基因的特征提取過程.T檢驗是檢驗差異顯著性的十分重要的統(tǒng)計工具,這種差異顯著性的檢驗是樣本均值間的比較,適用于樣本容量較小的組與組之間平均值差異程度的檢驗方法.在本文的算法中取理論性較好的顯著性水平α=0.05,篩選出有表達差異的基因,再根據(jù)AD病理及發(fā)病機制假說,對篩選出的各基因進行相關(guān)的生物學意義分析,從中識別出對AD有生物學意義的典型基因,以這些基因作為AD候選致病基因.
1.1數(shù)據(jù)來源及組織形式本文所采用的基因芯片數(shù)據(jù)來源于NCBI的基因綜合表達數(shù)據(jù)庫GEO.該數(shù)據(jù)包含9個正常、7個輕度、8個中度和7個重度階段AD樣本中相同的22 283個基因的表達水平,將表達水平值根據(jù)樣本患病程度不同分別用4個基因表達數(shù)據(jù)矩陣進行表示,設(shè)矩陣用
T=(xij)m×n
表示,其中xij表示第i個基因在第j個樣本中的表達水平值,m是基因數(shù),n為樣本數(shù),稱為基因表達譜,即矩陣中每一行代表一個基因,每一列代表一個樣本.
本文中記正常階段的矩陣為Mctrl、輕度階段的矩陣為Mincip、中度階段的矩陣為Mmod和重度階段的矩陣為Msev,在這4個矩陣中m=22 283,但n的值分別為9,7,8,7,在這4個矩陣中具有m?n的特點,這導致AD的基因表達譜數(shù)據(jù)具有大規(guī)模、高噪聲、高維度的特點.為了盡量減少芯片實驗結(jié)果中篩選出的差異基因的錯誤和假陽性,以及為了能滿足使用T檢驗的要求樣本服從正態(tài)分布且樣本間方差齊性,本文在進行差異基因篩選前,進行數(shù)據(jù)預處理,這樣使T檢驗算法能更準確識別出顯著差異表達的基因.
1.2數(shù)據(jù)的預處理在基因數(shù)據(jù)矩陣M=(xij)m×n中,每列數(shù)據(jù)是從同一種實驗條件下獲得的數(shù)據(jù),每行數(shù)據(jù)是在不同實驗環(huán)境下獲得的數(shù)據(jù),故首先對4種AD狀態(tài)的基因表達數(shù)據(jù)進行標準化,去除數(shù)據(jù)的量級差異并保持數(shù)據(jù)的性質(zhì)和相關(guān)關(guān)系不變,使得經(jīng)過預處理的數(shù)據(jù)符合標準正態(tài)分布N(0,1),為后續(xù)的T檢驗比較提供具有差異統(tǒng)計意義的標準化數(shù)據(jù)[16-18].
Z-Score標準化數(shù)學公式為
(1)
其中
(2)
1.3T檢驗查找差異表達基因差異表達的基本思想是比較分別來自正常人的基因表達水平和生病情況下的基因表達水平的總體期望值,觀察二者差異,從而確定哪些基因是與疾病有關(guān)的.

令樣本均值
(3)
樣本方差
(4)
構(gòu)造t統(tǒng)計量
(5)

對于給定的顯著性水平α,設(shè)
P{|t|>tα/2(n1+n2-2)}=α,

tα/2(n1+n2-2),
(6)
將(6)式化為
(7)
記
(8)
當選定不同顯著性水平α,得到的上調(diào)或下調(diào)基因數(shù)量會不同,α越小,選出的基因數(shù)量越小,最佳α是使數(shù)據(jù)分析結(jié)果達到最優(yōu)的值.在本文中,經(jīng)過不同的實驗測試發(fā)現(xiàn),當顯著性水平α=0.05時得到的效果最理想.

1) 滿足
和
的基因稱為一致上調(diào)的基因;
2) 滿足
和
的基因稱為一致下調(diào)的基因.
本文對AD微陣列基因表達數(shù)據(jù)運用 (1)和(2)式對基因數(shù)據(jù)進行標準化,使得各基因的樣本數(shù)據(jù)標準化為標準正態(tài)分布N(0,1),運用(3)~(5)式計算出t統(tǒng)計量,選擇α=0.05,確定臨界值tα/2(n1+n2-2),運用(7)及(8)式給出具有差異的基因表達.應用Matlab軟件對該算法進行實現(xiàn),產(chǎn)生差異表達的基因子集,共有40個一致上調(diào)基因和30個一致下調(diào)基因.
2.1T檢驗實現(xiàn)篩選基因結(jié)果本文對篩選出的70個基因進行基因相關(guān)生物學分析,最終篩選出符合條件的AD致病基因共30個,其中一致上調(diào)的基因有16個,如表1;一致下調(diào)的基因有14個,如表2.

表 1 識別出的一致上調(diào)候選致病基因列表

表 2 識別出的一致下調(diào)候選基因列表
在上述T檢驗算法篩選的基因中有10個基因被AD文獻證實與AD有關(guān)[10-12],這個結(jié)果預示著本文識別出來的一致表達基因很有可能與AD有關(guān).
2.2候選基因與AD的生物關(guān)系分析AD的病因目前尚不清楚,20世紀80年代以來,人們提出了許多關(guān)于AD的假說,包括Aβ產(chǎn)物過多、Tau蛋白的異常磷酸化、神經(jīng)遞質(zhì)障礙、過氧化作用、炎癥/免疫反應、神經(jīng)突觸損傷、神經(jīng)元凋亡和其他因素(如高血壓、糖尿病、高脂血癥、高血清同型半胱氨酸、心房顫動、腦外傷、重金屬(鋁、鐵、鋅、錳等)接觸史等因素也能參與AD的發(fā)病)[4,7,18-20].
對比上述假說,30個候選基因在各種AD發(fā)病機制的假說中的分布情況如圖1.

圖 1 候選致病基因的比例分布
在圖1中有些基因既參與了炎癥/免疫反應,也參與了細胞凋亡等功能活性,它們的活性是多種多樣的,所以在基因的生物分析中需要考慮其多種功能活性.
依據(jù)AD發(fā)病機制的多種假說,對T檢驗算法實現(xiàn)的基因篩選結(jié)果進行生物學的分析,共得到以下6個特征.
特征1與Wnt信號通路中的β-連環(huán)蛋白活性有關(guān)的基因有5個[18-22].
1) TBL1X,分布在細胞核上,它與其受體TBL1XR1綁定在由Wnt信號誘導的Wnt目標因子的啟動子上,與β-連環(huán)蛋白相互作用,其表達的異常變化會引起β-連環(huán)蛋白的表達差異.
2) YES1,在免疫細胞信號傳導和活化中催化多種底物蛋白質(zhì)酪氨酸殘基磷酸化,促進YAP1的磷酸化,YAP1的磷酸化會抑制細胞系和動物模式中依賴的β-連環(huán)蛋白合成.
3) CTNNBL1,分布在細胞核中,是一個與記憶相關(guān)的基因,其蛋白質(zhì)結(jié)構(gòu)與β-連環(huán)蛋白有著同源性,從而有相似的生物作用.
4) BLZF1,分布在細胞核、細胞質(zhì)、高爾基堆疊,它具有神經(jīng)保護性質(zhì),它調(diào)控axin的降解和Wnt信號,axin和p53都是腫瘤抑制因子,可以控制細胞生長、凋亡和發(fā)育.
5) TFDP1,分布在細胞核、轉(zhuǎn)錄因子復合體,它與E2F一起抑制Wnt/β-catenin信號通路,通過抑制Dvl-AXin的相互作用和增進β-catenin的泛素化反向調(diào)節(jié)Wnt/β-catenin信號.
而其中Wnt信號通路能調(diào)節(jié)GSK-3β對β-連環(huán)蛋白磷酸化,Wnt信號異常減弱引起的PKB活性減弱、GSK-3β活性增強,可使Tau蛋白磷酸化及微管去穩(wěn)定、β-連環(huán)蛋白過度降解和神經(jīng)元死亡.從而這些基因的異常表達可能是誘發(fā)AD的重要因素.
特征2與神經(jīng)系統(tǒng)中Tau蛋白有關(guān)的基因是BAG2[23],它可以調(diào)節(jié)神經(jīng)中的Tau蛋白的表達水平,其下降表達會增加磷酸化Tau的內(nèi)在水平,而Tau蛋白的磷酸化是確認的AD發(fā)病的病理機制之一.
特征3與人體免疫/炎癥反應有關(guān)的基因有5個[24-28].
1) PIGR,分布在融入質(zhì)膜、膜,它在黏膜表面招募和運輸DIGA,從而形成人類完美的免疫系統(tǒng).它屬于一致上調(diào)的基因,所以表現(xiàn)為AD病人的免疫系統(tǒng)有自我保護和增強的功能.
2) PTAFR,分布在融入質(zhì)膜、膜,其生物過程作用范圍較廣,與細胞內(nèi)多種信號通路有關(guān)聯(lián),包括通過增加細胞內(nèi)鈣調(diào)節(jié)實現(xiàn)P38MAPK和PI3-K通路,參與炎癥應激反應調(diào)節(jié).
3) LTB4R,分布在融入質(zhì)膜、膜,它參與細胞運動性、肌收縮、炎癥應答,是花生四烯酸5-脂氧合酶代謝的炎癥介質(zhì),具有很強的趨化作用和炎癥調(diào)節(jié)作用.
4) IL9R,分布在胞外區(qū)、融入質(zhì)膜、膜、融入膜,它參與信號傳導、細胞增殖,是IL9的受體.IL9是一種多功能細胞活素,其作用不僅在于對免疫和炎癥反應,而且也在于促進生長和阻止細胞凋亡.
5) TNFRSF25,分布在胞漿、質(zhì)膜、融入質(zhì)膜、膜,它參與細胞凋亡、免疫應答、信號轉(zhuǎn)導、細胞表面受體連接信號轉(zhuǎn)導、胞外信號引導細胞凋亡、調(diào)控細胞凋亡.在活性T細胞凋亡中起著作用,其缺失導致致命的自身免疫疾病.
特征4與神經(jīng)細胞組織及信號有關(guān)的基因有10個[29-34].
1) PLD2,分布在質(zhì)膜,它是一種細胞內(nèi)信號傳遞的酶,參與了多條細胞信號傳導途徑,它在細胞各種功能中起著重要的作用,與細胞的分裂、分化、炎癥、組織損傷及細胞分泌有關(guān).在多篇文章中提出PLD2在神經(jīng)退行性疾病中發(fā)揮作用.PLD2在減輕神經(jīng)細胞的凋亡,誘導神經(jīng)細胞分化填補損傷區(qū)域及促進神經(jīng)遞質(zhì)釋放方面都起到一定的作用.
2) DLGAP2,分布在神經(jīng)中間纖維、膜,它參與細胞信號轉(zhuǎn)導、神經(jīng)突觸傳遞,在神經(jīng)元軸突組織及神經(jīng)細胞發(fā)送信號起著重要作用.
3) PAX3,分布在細胞核,它位于腦脊髓和腦特定區(qū)域,表達于神經(jīng)嵴,從參與神經(jīng)嵴衍生物,包括脊神經(jīng)節(jié)等發(fā)展,與多種神經(jīng)類疾病有關(guān).
4) B4AGLT6,分布在高爾基堆疊、膜、融入膜,它與鎂離子、錳離子、鈣離子、半乳糖基轉(zhuǎn)移酶和轉(zhuǎn)移糖基結(jié)合,主要參與糖代謝.有生物實驗得出在精神分裂癥中該基因的表達量減少,而在本文它屬于表達一直下調(diào)的基因.
5) COL4A1,分布在膠原、膠原IV、細胞質(zhì),該基因的變異會引起圍產(chǎn)期腦出血和腦穿通畸形,從而表現(xiàn)出智力低下、腦性癱瘓等神經(jīng)性疾病.
6) EPS15,分布在衣被小凹,它與鈣離子結(jié)合,在中樞神經(jīng)系統(tǒng)的神經(jīng)元起著增強的作用,它降低AKT信號,并可能導致減少神經(jīng)元的存活.
7) NRXN1,分布在融入質(zhì)膜、膜、融入膜,它是一個突觸神經(jīng)元黏附分子,參與細胞附著、軸突引導.有文獻提出:NRXN1基因的缺失與各種孤獨癥、精神分裂癥、自閉癥等神經(jīng)發(fā)育障礙有關(guān),表現(xiàn)為智力低下,語音延遲,肌張力低下.
8) PCDH11Y,分布在膜,它與鈣離子結(jié)合,在細胞與細胞識別及中樞神經(jīng)系統(tǒng)的功能上起著基本作用.
9) STX1A,分布在膜、融入膜,它參與神經(jīng)遞質(zhì)運輸,有文獻指出:該基因在自閉癥中的表達有顯著降低,故認為其可能在孤獨癥、自閉癥等神經(jīng)基本發(fā)病機制中起著作用.
10) TAC1,分布在胞外區(qū),它會產(chǎn)生P物質(zhì)和神經(jīng)激肽,神經(jīng)肽物質(zhì)在感覺神經(jīng)元的神經(jīng)炎癥中起著關(guān)鍵的調(diào)節(jié)作用.
特征5與細胞凋亡有關(guān)的基因有5個[35-37].
1) RAB14,分布位置廣,它參與高爾基內(nèi)體運輸、小GTP酶介導信號轉(zhuǎn)導、神級遞質(zhì)分泌、蛋白運輸、膜泡介導運輸、細胞內(nèi)運輸,有文獻特別提出該基因參與凋亡細胞的降解過程.
2) TRIM24,分布在細胞內(nèi)、核,它與鋅離子等金屬離子結(jié)合,參與細胞凋亡、周期調(diào)控、細胞對病毒的應答等重要生命過程.在文獻[35]中對其參與細胞凋亡和降解的過程進行了詳細闡述.
3) KIAA1967,分布在核、細胞質(zhì)、線粒體基質(zhì),它與鈣離子結(jié)合,是SIRT1和p53的抑制劑,而SIRT1參與細胞增殖、分化、衰老、凋亡和代謝密切相關(guān).
4) DPYSL4,它參與神經(jīng)系統(tǒng)發(fā)育,是海馬趾神經(jīng)發(fā)育的調(diào)控者,它通過基因毒性應激參與神經(jīng)細胞凋亡的誘導.
5) KCNIP1,它與鈣離子、鉀離子結(jié)合,參與信號傳導、突觸傳遞,是能調(diào)節(jié)神經(jīng)元通道活性的鉀通道作用的蛋白家族的一個成員,有文獻提出,該基因在視神經(jīng)病變中參與細胞凋亡,并是高度下調(diào)的基因中之一.
特征6AVPR2有文獻提出該基因缺失時會導致糖尿病.
綜合上述基因生物學分析,可以得出利用T檢驗法識別出的AD候選基因幾乎都符合其發(fā)病機制假說,說明說得出的識別基因可以作為AD的候選致病基因.
DNA微陣列技術(shù)是對基因表達及基因功能研究的有力工具,對基因表達數(shù)據(jù)的分析方法仍處于不斷探索階段.目前已有很多種方法,但還沒有一種通用的方法較其他方法更優(yōu)越.因AD基因表達數(shù)據(jù)具有樣本少維度高的特征,同時希望計算效率低,故本文采用T檢驗法進行AD微陣列基因數(shù)據(jù)進行篩選,并結(jié)合AD疾病機制的假設(shè)和基因生物學分析得出了30個候選基因,并且?guī)缀趺總€基因都與AD疾病的假說有關(guān),從最終的分析結(jié)果可以看出T分布檢驗算法挖掘的特征基因與大多數(shù)的研究結(jié)果相吻合.同時這些基因可以作為AD的致病基因,能夠為AD進一步生物實驗,及早期診斷、治療等提供方向和建議.經(jīng)過基因芯片驗證的基因結(jié)果是可靠的,但仍不排除基因芯片中假陽性結(jié)果的可能.運營基因芯片能篩選出有意義的差異基因,但其結(jié)果仍需要進一步的基因生物驗證.