徐紹凱,陳洪波,范琳,劉喻
(桂林電子科技大學生命與環境科學學院,廣西 桂林 541004)
近年來人工智能技術的爆發,大大加快了機器學習、數據挖掘技術在醫學領域中的應用[1-2]。主要方法是通過對基因表達譜數據的挖掘以實現特征基因的提取、疾病相關基因的發掘、疾病分類、疾病發現等[3-5]。目前,對煙酒成癮者的基因研究大多是基因位點分析和基因文獻薈萃分析,它們能夠得到一些特定的基因或基因位點與煙酒成癮的關系,卻無法從基因間的共同作用和功能上發掘基因與煙酒成癮的相關性[6-7]。一些常用的差異表達基因提取方法目前也尚未被運用于煙酒成癮相關基因的提取[8-10]。本研究采用NCBI的GEO數據庫所提供的煙酒成癮者的基因表達微陣列數據,通過基于R語言的方差分析,試圖找到與吸煙和飲酒高度相關的基因以及探索吸煙成癮與飲酒成癮的內在聯系。對于煙酒成癮的治療和探尋與煙酒成癮相關的疾病有著十分重要的意義。
本研究數據取自于美國國立生物技術信息中心(national center for biotechnology information,NCBI)的GEO數據庫,收錄號為GSE20568,為吸煙與飲酒成癮者的腦組織基因表達微陣列數據[11]。GEO數據庫是NCBI基因表達匯編計劃所建立的數據庫,是目前世界上最大的基因表達數據倉庫和在線資源,其所收錄的數據擁有統一標準的格式以及關于數據的詳盡的介紹,在使用起來十分方便。數據共包括20個樣本,分別為吸煙且飲酒組、吸煙不飲酒組、不吸煙不飲酒組以及不吸煙飲酒組四組樣本,數據集中包含的基因探針數為8829個。對于每個樣本,原實驗中均可獲得完整的疾病史。所有飲酒者均有慢性過度飲酒的歷史,所有吸煙者根據其嚴重吸煙記錄,均被歸類為“煙草濫用者”[12]。所有樣本均沒有任何其他混雜的潛在的精神疾病的報告。數據中的20個樣本為原實驗中經過篩選后的病例,病例之間在年齡,死亡間隔和PH方面沒有任何顯著差異。數據在原實驗中已進行標準化處理。
采用雙因素方差分析法對基因表達數據進行分析,篩選對吸煙和飲酒敏感的基因。在建立方差分析模型時,每一個表達數據稱為一個觀測值,基因的表達量稱為觀測變量,吸煙與飲酒是兩個控制變量,對基因表達微陣列數據中每一行基因進行雙因素方差分析。將樣本是否吸煙成癮作為一個控制變量,將樣本是否飲酒成癮作為另一個控制變量,利用方差分析分別求得每一條基因對于是否吸煙成癮呈差異表達的P值以及對于是否飲酒成癮呈差異表達的P值。P<0.01被認為存在顯著差異。
原始數據中每一條基因的信息由EST數據庫的genebank收錄號給出,使用NCBI自帶的BLAST工具將經過方差分析篩選出來的基因批量的與nucleotide數據庫中的基因序列進行對應,將所得結果保存為XML文件,通過解析XML文件取得與每條基因相似度最高的nucleotide已知序列,得到該序列的genebank收錄號。將所得基因的genebank收錄號傳入DAVID分析網站中,得到GO功能注釋的生物過程(BP)和KEGG信號通路。DAVID分析操作步驟如下:提交基因集,選擇基因標識名為“GENEBANK_ACCESSION”,選擇基因集類型為“Gene List”;得到注釋結果摘要,包括多種注釋數據;選擇“GOTERM_BP_DIRECT”和“KEGG_PATHWAY”,并得到分析結果。
在方差分析中,共得到197 (77)個與吸煙(飲酒)成癮相關的基因。使用層級聚類方法對吸煙(飲酒)成癮相關基因進行聚類分析, 20個樣本被聚成兩大類,第Ⅰ類樣本均為不吸煙(飲酒)的樣本,第Ⅱ類樣本均為吸煙(飲酒)成癮的樣本,篩選出的基因在兩類樣本中呈現明顯的差異性。197 (77)條基因共被聚成兩大類,第Ⅰ類基因在不吸煙(飲酒)樣本中普遍呈現高表達,在吸煙(飲酒)樣本中普遍呈現低表達,第Ⅱ類基因在吸煙(飲酒)樣本中普遍呈現高表達,在不吸煙(飲酒)樣本中普遍呈現低表達。
利用DAVID軟件對吸煙(飲酒)成癮相關基因進行分析。吸煙成癮相關基因GO功能注釋的生物過程(BP)見表1(P<0.05)。根據表1可以看出與吸煙相關的功能注釋大多與物質轉運、細胞遷移、信號傳導有關。飲酒成癮相關基因GO功能注釋的生物過程(BP)見表2(P<0.05)。從表2中可以看出飲酒相關的功能注釋同樣包括信號傳導、物質轉運。吸煙與飲酒相關的功能注釋中均包括細胞外基質的調節功能。
對比吸煙成癮相關基因與飲酒成癮相關基因,有七個基因在二者中均有出現,分別為TMEM53、IGFBP7、FN1、HNRNPA2B1、FLJ59422、SYNJ1、TLN2。
將七個基因對于各自的四類樣本的表達量變化趨勢進行構圖,見圖1,根據圖中每條線段斜率的正負可以得到飲酒與基因表達量之間的定性關系;比較圖中虛線段與實線段的相對位置可以得到吸煙與基因表達量之間的定性關系。

表1 吸煙成癮相關基因的GO功能注釋(BP)
從圖1中可以看出,TMEM53基因和TLN2基因的表達量對吸煙與飲酒均成明顯的負相關趨勢, IGFBP7、FN1、HNRNPA2B1、FLJ59422、SYNJ1基因對吸煙與飲酒均成明顯的正相關趨勢。總體來看,七個基因在吸煙樣本中呈現高表達的,其在飲酒樣本中也必然呈現高表達,反之亦然。

表2 飲酒成癮相關基因的GO功能注釋(BP)

圖1 7條交叉的基因對吸煙、飲酒的健康與成癮樣本表達趨勢對比圖(NS在0處的點代表非吸煙非飲酒樣本,NS在1處的點代表非吸飲酒煙樣本,S在0處的點代表吸煙非飲酒樣本,S在1處的點代表吸煙飲酒樣本)
Fig1Comparisonoftheexpressionof7crossedgenesonsmokinganddrinkingbetweenhealthandaddiction(Thepointattheintersectionof0andNSrepresentsnon-alcohol-non-smokingsamples,thepointattheintersectionof1andNSrepresentsalcohol-non-smokingsamples,thepointattheintersectionof0andSrepresentsnon-alcohol-smokingsamples,thepointattheintersectionof1andSrepresentsalcohol-smokingsamples)
吸煙與飲酒成癮和基因之間的關系已經越來越明顯,但目前尚不能確定與煙酒成癮相關的基因以及其發病機理。利用生物信息學方法對煙酒成癮相關基因進行篩選是目前十分有效的方法之一。本研究選用雙因素方差分析分別提取對吸煙成癮和飲酒成癮呈現差異表達的基因,其中共有的差異表達基因有七條。
TMEM53基因編碼跨膜蛋白53(transmembrane protein 53),該基因同其他跨膜蛋白一樣在轉運物質及信號傳導方面具有一定的作用,與該基因有關的表型有增加痘苗病毒(VACV)感染、增加γ-H2AX磷酸化、降低CFP-tsO45G細胞表面轉運、增加轉鐵蛋白(TF)內吞作用、減少IL-8分泌等[13-14]。
TLN2基因位于人類15號染色體,編碼與Talin 1相關的蛋白質,是一種細胞骨架蛋白,在肌動蛋白絲的裝配和各種細胞類型的遷移中有著重要的作用[15]。IGFBP7基因編碼胰島素樣生長因子結合蛋白7(insulin like growth factor binding protein 7),與其相關的信號通路是細胞衰老和自噬,與該基因相關的GO功能注釋包括胰島素樣生長因子結合。FN1基因編碼纖維連接蛋白1(fibronectin 1)該蛋白參與了基質重塑及細胞黏附和遷移過程[16]。HNRNPA2B1基因編碼的蛋白質為不均一型核糖核蛋白A2B1(heterogeneous nuclear ribonucleoprotein A2B1,HNRNPA2B1)。HNRNPA2B1蛋白參與很多重要的生理過程,包括RNA的轉錄、外顯子剪接、PremRNA的成熟降解、細胞分化及細胞凋亡等[17]。已有許多研究表明TLN2、IGFBP7、FN1和HNRNPA2B1基因與多種人類癌癥的發病、治療和預后有很強的關系,包括肝癌、乳腺癌、甲狀腺癌、胰腺癌、胃癌、食管鱗癌、口腔癌等惡性腫瘤[18-22]。本研究顯示這些基因與煙酒成癮具有很強的相關性,據此可初步推斷吸煙或飲酒會直接或間接影響此類惡性腫瘤的發病和治療,煙酒成癮與癌癥發病在基因層面上的相關性與發病機理有待進一步驗證。
FLJ59422基因編碼的蛋白質高度相似于含GRAM結構域的蛋白質3,,其余信息暫無相關研究和文獻資料[23]。
SYNJ1編碼一種磷酸肌醇磷酸酶蛋白(synaptojanin 1),其在突出小泡的內吞后循環中有重要作用,這種酶的表達可能影響突觸傳播和膜運輸[24]。已知的與SYNJ1基因相關的疾病包括早發性帕金森病和非典型青少年帕金森綜合征[25]。本研究顯示SYNJ1基因的表達同吸煙與飲酒具有相關性,其在吸煙與飲酒者中的表達量均為明顯的高表達。已有研究顯示吸煙者患帕金森病的風險比不吸煙者低63%,而既往吸煙者(已戒煙者)比不吸煙者低41%[26]。本研究通過對基因表達譜的分析,再次證實SYNJ1基因表達趨勢的變化可能對吸煙與飲酒者患帕金森病的幾率產生影響。
本研究發現的煙酒成癮相關基因均在物質運輸、信號傳導、細胞外基質和細胞周期中發揮一定的作用,長期吸煙與飲酒會引起這些基因表達量發生顯著變化,從而對神經系統與細胞物質運輸能力產生一定影響,當短時間戒斷時,機體內神經系統與物質運輸能力減弱,從而使人產生不適感,這很可能是煙酒成癮者產生戒斷反應的原因之一。在整個腦區域,酒精具有許多潛在的目標,包括膜和幾個離子通道,而尼古丁通過特異性受體或結合蛋白起作用,長期使用酒精和尼古丁會使得大腦區域中產生適應性變化,最終導致成癮[27]。已有大量研究證實多巴胺信號傳導和吸煙成癮有著重要的相關性,與之相關的基因包括DRD2、DAT1、NACHR等[28-29]。
研究中使用雙因素方差分析對吸煙與飲酒者的基因表達數據進行差異表達基因提取,用層級聚類的方法對篩選出的特征基因繪制熱圖,觀察特征基因在四類樣本中的表達趨勢變化。取吸煙成癮者的特征基因與飲酒成癮者的特征基因的交集后,二者共有的基因包括TMEM53、IGFBP7、FN1、HNRNPA2B1、FLJ59422、SYNJ1、TLN2。根據DAVID分析結果以及對七個交叉基因的分析,認為煙酒成癮與信號傳導與物質運輸之間存在重要的相關性,這對于臨床治療煙酒成癮具有一定的指導意義。通過對七個交叉基因的分析以及結合已有研究成果,查閱國內外數據庫資料得知,其中IGFBP7、FN1、HNRNPA2B1基因與癌癥的發病與治療存在密切的聯系,SYNJ1基因與帕金森綜合征存在密切聯系。綜合這些基因的生物學功能及已有研究結果,推知吸煙與飲酒極有可能與惡性腫瘤的發病和預后存在直接或間接的相關性,對于疾病的預防和治療具有重要意義。