吳 娜,宋花玲
上海中醫(yī)藥大學(xué)公共健康學(xué)院(上海 201203)
分子流行病學(xué)作為醫(yī)學(xué)院校公共衛(wèi)生與預(yù)防醫(yī)學(xué)專業(yè)研究生的公共基礎(chǔ)課,不僅可以幫助醫(yī)學(xué)研究生探索疾病傳播和控制的科學(xué)意義及環(huán)境對人類健康的影響,還能從分子標(biāo)記的角度了解飲食和營養(yǎng)影響人類健康的內(nèi)在生物學(xué)機(jī)制。目前,大數(shù)據(jù)在識別和干預(yù)人口健康決定因素方面具有革命性意義,被認(rèn)為是未來科學(xué)的革命性發(fā)展。為積極應(yīng)對大數(shù)據(jù)時(shí)代的挑戰(zhàn),公共衛(wèi)生尤其流行病學(xué)相關(guān)專業(yè)的研究生不僅需要掌握傳統(tǒng)流行病學(xué)的方法,還應(yīng)該熟知分子流行病學(xué)相關(guān)知識,尤其是通過R 語言編程處理大數(shù)據(jù),通過大數(shù)據(jù)確定人口健康的干預(yù)目標(biāo)。為培養(yǎng)相關(guān)大數(shù)據(jù)人才適應(yīng)社會(huì)發(fā)展需求,醫(yī)學(xué)院校教師有必要在傳統(tǒng)流行病學(xué)的基礎(chǔ)上,指導(dǎo)研究生掌握新興技術(shù)和大數(shù)據(jù)分析方法,將R 語言應(yīng)用于分子流行病學(xué)研究,推動(dòng)分子流行病學(xué)領(lǐng)域的發(fā)展。
分子流行病學(xué)是一種將先進(jìn)的生物學(xué)實(shí)驗(yàn)方法納入傳統(tǒng)流行病學(xué),以確定疾病病因并提出相應(yīng)預(yù)防和干預(yù)措施的科學(xué)[1-2]。它越來越多地被作為一種了解外部環(huán)境暴露與遺傳及其他易感因素間相互作用的工具,從而確定易感人群,被廣泛應(yīng)用于遺傳及代謝性疾病。
1973 年,Kilbourne 在“流感的分子流行病學(xué)”一文中首次引入了分子流行病學(xué)的概念[3]。隨著第一本關(guān)于分子流行病學(xué)的書籍《分子流行病學(xué):原理與實(shí)踐》的出版,這個(gè)術(shù)語變得更加正式[1]。分子流行病學(xué)主要研究遺傳和環(huán)境因素在分子或細(xì)胞階段的作用及其相互作用。2003 年人類基因組計(jì)劃完成DNA 全測序工作是該領(lǐng)域的一個(gè)突破。隨著基因分型和高通量測序技術(shù)的發(fā)展,研究人員可以全方位評估人類的DNA、RNA、蛋白質(zhì)或代謝組分,為更全面地檢測與疾病風(fēng)險(xiǎn)因素和途徑相關(guān)的潛在生物學(xué)變異奠定了基礎(chǔ)。另外,高通量技術(shù)豐富了研究人員對疾病表型-基因型關(guān)聯(lián)的理解,有助于尋找疾病的生物標(biāo)志物,并利用其識別易感人群,從而幫助臨床醫(yī)生為患者制定個(gè)性化的治療方案。分子流行病學(xué)通過各種工具研究疾病的生物標(biāo)志物,如DNA 甲基化譜、蛋白質(zhì)譜、代謝物或新基因,有助于發(fā)現(xiàn)疾病的病因和決定因素,進(jìn)而預(yù)防疾病以達(dá)到改善公眾健康的目的。
傳統(tǒng)流行病學(xué)是研究人群中疾病與健康狀況的分布及其影響因素,以及防治疾病及促進(jìn)健康的策略和措施的科學(xué)[4]。分子流行病學(xué)作為傳統(tǒng)流行病學(xué)與分子生物學(xué)的交叉學(xué)科,強(qiáng)調(diào)通過先進(jìn)的技術(shù)檢測生物學(xué)標(biāo)志的分布情況,借助傳統(tǒng)流行病學(xué)的研究方法,從更深層次即分子或基因水平闡明疾病的病因及其致病過程[5]。分子流行病學(xué)是由傳統(tǒng)流行病學(xué)學(xué)科發(fā)展的需求,以及分子生物學(xué)理論和技術(shù)的巨大成就相結(jié)合的產(chǎn)物,是近十幾年迅速發(fā)展的一門流行病學(xué)新分支[6]。
分子流行病學(xué)課程在醫(yī)學(xué)院校研究生教育中起著至關(guān)重要的作用[7]:①疾病診斷和預(yù)防。研究生能夠了解不同疾病的分子機(jī)制,如遺傳變異、突變和表達(dá)模式,這些知識對于疾病診斷、預(yù)后評估和預(yù)防是必不可少的。通過學(xué)習(xí)如何利用分子工具和技術(shù)識別病原體,研究疾病病因,有助于制定個(gè)性化醫(yī)療和預(yù)防策略。②藥物開發(fā)和治療研究。分子流行病學(xué)是藥物開發(fā)和治療研究的工具。通過掌握分子技術(shù)評估藥物的有效性和安全性,可以獲得有關(guān)藥物代謝、藥物靶標(biāo)相互作用和藥物作用機(jī)制的知識,這些知識對于研究和開發(fā)新的治療方法和個(gè)性化藥物至關(guān)重要。③流行病學(xué)研究的設(shè)計(jì)和分析。通過學(xué)習(xí)設(shè)計(jì)和開展分子流行病學(xué)研究,掌握分析大規(guī)模分子數(shù)據(jù)的統(tǒng)計(jì)和生物信息學(xué)方法,對于研究疾病的遺傳和環(huán)境風(fēng)險(xiǎn)因素、建立疾病預(yù)測模型和評估干預(yù)措施的有效性具有指導(dǎo)意義。④研究技能和科學(xué)素養(yǎng)的培養(yǎng)。分子流行病學(xué)教育不僅注重傳授理論知識,而且注重培養(yǎng)研究技能和科學(xué)素養(yǎng),包括學(xué)習(xí)文獻(xiàn)綜述,制定研究假設(shè),設(shè)計(jì)實(shí)驗(yàn)方案,收集和分析數(shù)據(jù)等。
R 是一種用于統(tǒng)計(jì)計(jì)算和圖形繪制的編程語言,由統(tǒng)計(jì)學(xué)家Ross Ihaka 和Robert Gentleman創(chuàng)建,核心R 語言由大量包含可重復(fù)使用的代碼和文檔的擴(kuò)展包組成[8-9]。在過去的三十年里,R 語言在統(tǒng)計(jì)學(xué)和生物信息學(xué)領(lǐng)域發(fā)揮了重要作用,目前已產(chǎn)生了數(shù)以萬計(jì)的擴(kuò)展包,涉及范圍從機(jī)器學(xué)習(xí)(如支持向量機(jī)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)等)到單核苷酸多態(tài)性(single nucleotide polymorphisms, SNPs)數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)和DNA甲基化數(shù)據(jù)分析等[10-12]。
R 語言具有以下特點(diǎn)[13]:①開源性,可以免費(fèi)下載,并提供復(fù)雜的數(shù)據(jù)分析功能,同時(shí)還有一個(gè)活躍的在線用戶社區(qū),使用者們可以在其中尋求幫助。②跨平臺的編程語言,其代碼可以在多個(gè)操作系統(tǒng)上運(yùn)行,程序員只需編寫一次程序。③可以進(jìn)行各種機(jī)器學(xué)習(xí)操作,如分類、回歸以及開發(fā)人工神經(jīng)網(wǎng)絡(luò)的各種擴(kuò)展包。④可以繪制高質(zhì)量圖片,通過ggplot2 和plotly 等R 包制作精美圖片。⑤在CRAN 存儲(chǔ)庫中存有超過10 000 個(gè)擴(kuò)展包,可以執(zhí)行各種數(shù)據(jù)分析功能。⑥既能使數(shù)據(jù)可視化,又能連接外部數(shù)據(jù)庫如基因表達(dá)綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO)、京都基因與基因組百科全書數(shù)據(jù)庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)等以執(zhí)行高級生物統(tǒng)計(jì)功能。⑦作為一種不斷發(fā)展的編程語言,每當(dāng)添加任何新功能時(shí),R 都會(huì)提供更新服務(wù),便于廣大用戶使用。
SPSS(statistical product and service solutions)是一種數(shù)據(jù)統(tǒng)計(jì)分析軟件,由SPSS 有限公司于1968 年推出,2009 年被國際商業(yè)機(jī)器公司(International Business Machines Corporation, IBM)收購。由于SPSS 簡單易操作,常被用于數(shù)據(jù)處理、市場調(diào)查等。
SPSS 具有以下特點(diǎn):①不需要編程,簡單易上手;②不適用于大數(shù)據(jù)分析,如分子流行病學(xué)中有關(guān)SNPs、轉(zhuǎn)錄組學(xué)及DNA 甲基化等大數(shù)據(jù);③作為一款商業(yè)軟件包,正版軟件需要付費(fèi)才可以使用。
分子流行病學(xué)是一門探究疾病病因相關(guān)分子生物標(biāo)記的學(xué)科,SNPs 數(shù)據(jù)、轉(zhuǎn)錄組學(xué)數(shù)據(jù)及DNA 甲基化數(shù)據(jù)等分子生物標(biāo)記均屬于大數(shù)據(jù)集,越來越多的研究人員選擇使用R 語言中的各種擴(kuò)展包進(jìn)行分析,而SPSS 更適合分析樣本量較少的人類測量學(xué)數(shù)據(jù)及血液學(xué)指標(biāo),見表1。分子流行病學(xué)的教學(xué)目的之一是培養(yǎng)研究生掌握大數(shù)據(jù)處理與分析的能力以適應(yīng)和滿足社會(huì)需求。研究者可根據(jù)自身需要選擇合適的統(tǒng)計(jì)軟件,考慮到R 語言在大數(shù)據(jù)處理上的優(yōu)勢,在分子流行病學(xué)研究中更推薦使用R 語言。

表1 R語言與SPSS軟件的比較Table 1. Comparison between R language and SPSS software
分子流行病學(xué)側(cè)重研究生物標(biāo)記物在疾病病因、風(fēng)險(xiǎn)評估和預(yù)防研究中的應(yīng)用。通過選擇和驗(yàn)證不同種類的生物標(biāo)記物,采用不同的研究設(shè)計(jì)和R 語言數(shù)據(jù)分析方法[14]。本研究通過案例介紹R 語言在分子流行病學(xué)生物標(biāo)記物SNPs 和DNA 甲基化修飾數(shù)據(jù)分析中的應(yīng)用。
易感基因的SNPs 位點(diǎn)是分子流行病學(xué)重點(diǎn)關(guān)注的一類生物標(biāo)記物,也是分子流行病學(xué)課程教學(xué)的重要內(nèi)容。利用R 語言中的SNPassoc 包的association 函數(shù)分析非酒精性脂肪肝(non-alcoholic fatty liver disease, NAFLD)的易感基因SNPs 在五種遺傳模型下的基因型頻率,操作簡單,結(jié)果展示清晰明了。具體代碼如下:
> setwd
> library(openxlsx)
> File<- read.xlsx("NAFLD.xlsx",5)
> File[File=="0 0"]<-NA
> File[File=="NA"]<-NA
> File[File==""]<-NA
> File<-as.data.frame(File)
> write.csv(File, file = "NAFLD_1.csv")
> library(SNPassoc)
> names(File)
> File.1<- setupSNP(File,colSNPs=2,sep="")
> zlassoc<- WGassociation(NAFLD~1,data=File.1)
> zlassoc
> dev.new()
> plot(zlassoc,ylim = c(-0,-2))
> write.csv(zlassoc,"NAFLD_5model.csv")
> asso<- association(NAFLD~rs1260326,data=File.1)
> asso
> write.csv(asso,"rs1260326_result.csv")
表2 展示了rs1260326 在五種遺傳模型下基因型的頻率,NAFLD 的葡萄糖調(diào)節(jié)蛋白基因(glucokinase regulator, GCKR)的rs1260326 位點(diǎn)在顯性模型(P=0.038)和超顯性模型(P=0.040)下具有統(tǒng)計(jì)學(xué)意義。

表2 SNPs位點(diǎn)在五種遺傳模型下的基因型頻率分布Table 2. Genotype frequency distribution of SNPs loci under five genetic models
在后基因組時(shí)代,隨著高通量技術(shù)成本的降低,海量組學(xué)數(shù)據(jù)與研究結(jié)果展現(xiàn)了生命現(xiàn)象的復(fù)雜性。目前,分子流行病學(xué)研究越來越傾向于從多組學(xué)的角度出發(fā),從遺傳和表觀遺傳到轉(zhuǎn)錄和代謝,從機(jī)制到表型,進(jìn)行整合研究以得到全局結(jié)果。DNA 甲基化是表觀遺傳學(xué)中研究最多的一種修飾,是將甲基基團(tuán)(CH3)轉(zhuǎn)移至DNA,從而使基因活性發(fā)生改變的修飾方式。
在當(dāng)前的科研需求下,Illumina 的甲基化芯片Infinium Methylation EPIC BeadChip(簡稱850k 芯片)可以檢測超過853 000 個(gè)CpG 位點(diǎn),全面覆蓋CpG 島、啟動(dòng)子、編碼區(qū)、開放染色質(zhì)和增強(qiáng)子,提供了性能優(yōu)越且經(jīng)濟(jì)可靠的解決方案。R 語言中CHAMP 包的CpG.GUI 函數(shù)可以分析CpG 位點(diǎn)在染色體、CpG 島、轉(zhuǎn)錄起始區(qū)域(transcription star site, TSS)的分布情況,見圖1。

圖1 NAFLD患者與健康人群DNA甲基化的分布情況Figure 1. Distribution of DNA methylation between NAFLD patients and healthy people
差異甲基化位點(diǎn)的篩選是數(shù)據(jù)分析過程的主要環(huán)節(jié),R 語言中CHAMP 包的champ.DMP()函數(shù)可以計(jì)算差異甲基化,使用ggplot2 包可以繪制火山圖,以展示NAFLD 患者相比于健康人群的差異甲基化位點(diǎn),見圖2。

圖2 NAFLD的差異DNA甲基化位點(diǎn)Figure 2. Differential DNA methylation sites in NAFLD
本文通過比較R 語言和SPSS 軟件的特點(diǎn),重點(diǎn)探討了R 語言在分子流行病學(xué)中的應(yīng)用,R語言具有強(qiáng)大的繪圖及數(shù)據(jù)分析能力,在大數(shù)據(jù)處理與分析上更具優(yōu)勢。醫(yī)學(xué)類高等院校教師應(yīng)根據(jù)時(shí)代要求和現(xiàn)實(shí)需要,培養(yǎng)研究生掌握應(yīng)用R 語言處理和分析大數(shù)據(jù)的能力,進(jìn)一步滿足分子流行病學(xué)領(lǐng)域的研究需求。