門致雨 王鑫 朱琍燕



摘 要:目的:SNP與疾病關聯性研究的薈萃分析是近幾年常見的研究類型。本文重點關注此類研究相關軟件的使用情況,并對R語言中用于此類分析常用程序包的功能及使用方法作一簡單介紹。材料方法:(1)通過檢索中國知網2010年、2015年、2020年、2021年及2022年發表的SNP疾病關聯性薈萃分析的研究論文,分析相關統計軟件的使用頻次;(2)統計了全球用于薈萃分析的R語言程序包下載情況;(3)最后結合相關資料對meta包及metafor包使用方法作了簡單介紹。結論:(1)Stata與RevMan是此類研究中最常用的軟件,R語言出現時間晚,使用次數少;(2)近年全球薈萃分析相關R程序包使用增長迅速,meta包及metafor包為其中的核心程序包;(3)meta包及metafor包均可實現SNP與疾病關聯性研究的薈萃分析,metafor包功能全面,meta包使用簡便,后者更適于初學者進行學習。
關鍵詞:SNP;薈萃分析;統計軟件;R語言
1 概述
薈萃分析,又稱Meta分析、元分析,是一種對獨立研究中的效應量進行定量綜合以匯總結果的統計方法,常在系統綜述中使用[1]。與單項研究相比,薈萃分析采用統計方法匯總多個結果,有利于更準確地估計效應量的大小。在獨立研究的結果相互沖突時,薈萃分析可進一步量化各研究結果間的變異程度,有利于闡述其意義[12]。
薈萃分析自誕生以來不斷發展,已出現多種不同類型的分析方法,包括單組率的薈萃分析、單純P值的薈萃分析、Meta回歸分析、累計薈萃分析、比較性薈萃分析、診斷性薈萃分析、個體數據薈萃分析、前瞻性薈萃分析以及常規薈萃分析等[3]。
單核苷酸多態性(single nucleotide polymorphism,SNP)是一種常見的可遺傳變異,具有數據量大、分布均勻等特點,被廣泛用于遺傳病理學研究[4]。SNP可用于探尋疾病相關基因,也因其與個體表型差異、藥物與疾病易感性相關,可作為生物標志物[5],具有豐富的研究價值。然而,由于實際研究中存在發表偏倚、納入樣本量過少、樣本群體混雜等原因,遺傳關聯性研究表現出可重復性差的特點,其價值也一度受到質疑[6]。薈萃分析可合并多個研究結果,提高檢驗效能,也可發現并量化各研究間的異質性,恰可彌補遺傳關聯性研究的缺點。20世紀初有關SNP的疾病關聯性薈萃分析數量呈指數級增長,在當今仍為重要的研究方向[7](圖1)。
目前基礎和臨床研究中用于SNP相關疾病關聯性薈萃分析的軟件很多,例如Stata、RevMan、SPSS、R語言等,由于R語言具有開源、免費,擴展性強、程序包豐富,編程語法簡單靈活等特點,近年來被廣泛應用于統計和公共衛生領域[89]。然而,關于R語言在SNP疾病關聯性薈萃分析中的應用目前仍缺乏系統綜述和使用方法介紹。為此,本文將圍繞此領域中常用的meta包及metafor包的功能,簡要介紹基于R語言進行SNP相關疾病關聯性薈萃分析的方法。
2 資料與方法
2.1 國內薈萃分析統計軟件使用趨勢調查
以“Meta”“薈萃分析”“元分析”“基因多態性”“SNP”為關鍵詞檢索中國知網(CNKI)2010年、2015年、2020年、2021年及2022年發表的期刊與碩博論文。通過閱讀標題和摘要篩選出基因單核苷酸多態性與相關疾病的薈萃分析論文。通過閱讀全文,記錄各研究所使用的統計計算與繪圖軟件,最后對結果進行分析,使用Excel軟件繪制堆積百分比圖,展示近10余年有關SNP疾病關聯性研究中統計軟件的使用情況及變化趨勢。
2.2 用于薈萃分析的R程序包調查
為了解R語言中可用于薈萃分析的常用程序包,檢索并閱讀相關文獻,同時瀏覽R包存儲網站The Comprehensive R Archive Network(CRAN)的薈萃分析專欄[10],整理出與薈萃分析相關的R程序包。通過使用R語言(版本4.0.5)的packageRank[11]程序包,獲取了相應程序包自2013年至今的累計下載量,并對其進行排序后使用ggplot2程序包[12]繪制最常用程序包的累計下載量折線圖。
2.3 meta包及metafor包功能介紹
meta包介紹文檔包括R程序包參考手冊及一本包含示例代碼的薈萃分析詳細教材[13]。metafor包除參考手冊外,曾出版過一篇較為簡潔的介紹程序包功能的論文[14],值得一提的是,作者針對該包還制作了程序包功能介紹網站[15],便于使用者快速掌握此包的使用方法。本文結合程序包說明文檔及個人使用經驗,將對這兩個包的功能作一簡要介紹。
3 結果
3.1 國內SNP相關薈萃分析統計軟件變化趨勢
2010年、2015年、2020年、2021年及2022年分別篩選得到相關文獻95篇、204篇、112篇、97篇、51篇,記錄到統計及繪圖軟件使用頻次為106次、236次、135次、106次、63次。記錄到的軟件包括Stata(310次)、RevMan(292次)、SPSS(21次)、R(8次)、SAS(7次)、Comprehensive MetaAnalysis(3次)、open metaanalyst(2次)、Excel(1次)、Quanto(1次)及GraphPad(1次)。各年份中不同統計軟件所占比例參見圖2。
圖2 國內SNP疾病關聯性薈萃分析統計軟件使用比例圖
根據統計數據結果,國內有關SNP與疾病關聯性研究的薈萃分析最常用的軟件為Stata和RevMan,由于R語言在此領域運用較晚,在國內相關領域中的運用頻次較世界其他國家仍然較低。在統計的年份中,僅在2020年至2022年間被使用了8次。
3.2 用于薈萃分析的R程序包下載頻次
首先,結合Polanin等人關于薈萃分析R程序包的綜述[16]及CRAN中Meta analysis任務介紹欄,共統計到169個用于各類薈萃分析的R程序包,據此推斷R語言功能豐富,可完成多種類型的薈萃分析。其次,我們統計了2013年至今下載量最高的6個薈萃分析相關程序包(effectsize、brms、metafor、meta、epiR和forestplot)的下載情況,如圖3所示,用于薈萃分析R語言程序包下載量在2013、2014年較低,此后逐年增高,這在一定程度上解釋了2010年及2015年國內發表的此領域薈萃分析沒有使用R程序的原因。此外,meta包[17]和metafor包[14]是較早發布用于薈萃分析的程序包,其下載量在所有用于薈萃分析的R程序包中始終保持高位,這兩個包覆蓋了傳統薈萃分析的所有方面[16],功能豐富,是R語言薈萃分析的核心包,具有較高的應用價值。本文后續將介紹這兩個程序包在SNP疾病關聯性薈萃分析方面的應用。
3.3 Meta和metafor包功能介紹與對比
SNP與疾病關聯性分析屬于觀察性研究的一種,目前關于遺傳關聯性研究薈萃分析的發表標準仍然缺乏,MOOSE規范可用于參考[1819]。結合報告規范,此類型薈萃分析需要使用統計軟件的步驟主要包括效應量合并、異質性檢驗、亞組分析、敏感性分析、發表偏倚分析及相應圖形的繪制。表1詳細列舉了meta包及metafor包實現上述功能的方式。
根據前期分析結果,我們發現meta包及metafor包均可以滿足有關SNP相關疾病關聯性薈萃分析的需求。然而,通過比較分析發現,metafor包在功能上更加全面,但許多統計方法在目前此類薈萃分析的論文中并不常見。metafor包功能更加全面的同時也帶來了更為陡峭的學習曲線。例如在森林圖繪制方面,metafor程序包需要手動完成代碼,使用方法較meta包更為復雜,雖然其森林圖繪制有很高的靈活性,但代碼編寫花費時間長,使用更為不便。因此,對于編程了解不多的研究者,若想使用R語言進行SNP疾病關聯性薈萃分析,meta包因其較為簡明易用的特點,是更為合適的選擇。然而,當研究中出現較為復雜的問題,需要使用更為復雜的統計方法或圖形解決時,建議使用metafor包相應的函數作為補充,以便更好地解決實際問題。
4 討論
盡管R語言開源、免費,可拓展性高,功能強大,meta包及metafor包因其全面的薈萃分析功能越來越受到研究者的青睞,下載量逐年升高,但目前國內SNP相關薈萃分析論文的統計數據表明,R軟件在國內受關注程度仍然較低,僅在近幾年有少量運用。其中的原因可能有以下幾點:一是R語言發展較晚,第一版meta包于2006年發布,初版metafor包于2009年發布,從下載曲線也可看出,2014年及之前薈萃分析相關程序包下載量普遍較低。而RevMan、Stata等軟件發布早,在早期市場占用率已較高[20],故R這一起步較晚的軟件在國內使用較少。
其次,R語言為程序語言,由于其缺少圖形用戶界面(GUI),操作常需要通過輸入代碼完成,有一定學習成本,而SNP相關疾病關聯性分析又屬較傳統的薈萃分析,通常數據量小,分析步驟較簡單,多數早期軟件都可完成。再次,R語言參考手冊均為英文,直至目前在國內可用于學習參考的幫助文檔數量相較于其他軟件也明顯偏少,這也可能是阻礙R語言在國內流行的障礙之一。鑒于R語言擁有豐富的英文參考文檔,本文雖對meta包及metafor包的功能與使用方法作了簡要介紹,但受限于篇幅限制,無法對其進行更加全面詳細的介紹,讀者若需深入了解可進一步參考相關資料。
我們通過多次醫學相關領域的數據分析實踐發現,在花費一定時間掌握R程序后,后續分析由于每次代碼改動不大,多次分析時可大大提高效率,其強大的繪圖功能也使得圖片的質量和自定義程度較高,無需花費額外時間通過其他軟件繪制調整圖形,這些都在一定程度上減輕了工作量,提高了科研效率。此外,R語言因其豐富的拓展性,可用于多種領域的統計分析和圖片制作,更加有利于拓展研究的廣度,增加創新性。
總之,R語言程序廣泛應用于薈萃分析領域。本文通過研究薈萃分析中常用的兩個程序包后發現,meta包及metafor包的功能十分完備,均可實現SNP疾病關聯性研究薈萃分析。metafor包功能更加豐富,而meta包操作更加簡便,因此,建議初學入門者使用meta包做薈萃分析,具有一定生信基礎的研究人員可以使用metafor包完成較為復雜的研究分析。
參考文獻:
[1]Khan S.MetaAnalysis:Methods for Health and Experimental Studies.Singapore:Springer Nature Singapore Pte Ltd,2020.
[2]Borenstein M,V.Hedges L,等.Meta分析導論[M].李國春,等,譯.北京:科學出版社,2013.
[3]曾憲濤,冷衛東,郭毅,等.Meta分析系列之一:Meta分析的類型[J].中國循證心血管醫學雜志,2012,4(01):35.
[4]李雄.單核苷酸多態性數據挖掘方法及其應用研究[D].湖南大學,2015.
[5]孫宇.關聯分析中SNP與疾病關聯關系建模研究[D].西安電子科技大學,2010.
[6]Colhoun HM,McKeigue PM,Smith GD.Problems of reporting genetic associations with complex outcomes.The Lancet,2003,361(9360):865872.
[7]翁鴻,李妙竹,耿培亮,等.遺傳關聯性研究及其Meta分析的簡介[J].中國循證心血管醫學雜志,2016,8(10):11561158.
[8]蔣文瀚,陳炳為,鄭建光,等.R語言meta包在Meta分析中的應用[J].循證醫學,2011,11(05):305309.
[9]李杏,劉濤,肖建鵬,等.R語言在公共衛生領域的應用:Meta分析[J].華南預防醫學,2020,46(05):568570.
[10]CRAN Task View:MetaAnalysis[Internet].2021.Available from:https://CRAN.Rproject.org/view=MetaAnalysis.
[11]Li P.packageRank:Computation and Visualization of Package Download Counts and Percentiles.2021.(Accessed at https://CRAN.Rproject.org/package=packageRank).
[12]Wickham H.ggplot2:Elegant Graphics for Data Analysis.SpringerVerlag New York,2016.
[13]Schwarzer G,Carpenter JR,Rücker G.MetaAnalysis with R.Springer International Publishing,2015.
[14]Viechtbauer W.Conducting MetaAnalyses in R with the metafor Package.Journal of Statistical Software,2010,36(3):148.
[15]Viechtbauer W.metafor:A MetaAnalysis Package for R.github,2021.(Accessed at https://wviechtb.github.io/metafor).
[16]Polanin JR,Hennessy EA,TannerSmith EE.A Review of MetaAnalysis Packages in R.Journal of Educational and Behavioral Statistics,2016,42(2):206242.
[17]Balduzzi S,Rücker G,Schwarzer G.How to perform a metaanalysis with R:a practical tutorial.Evidence Based Mental Health,2019,22(4):153160.
[18]臧長海,李茁立.應用臨床試驗報告規范提高醫學論文質量[J].山西醫藥雜志,2015,44(02):169173.
[19]Stroup DF,Berlin JA,Morton SC,et al.Metaanalysis of observational studies in epidemiology:a proposal for reporting.Metaanalysis Of Observational Studies in Epidemiology(MOOSE)group.JAMA,2000,283(15):20082012.
[20]楊悅.兩種計算機軟件在醫學Meta分析中的應用[J].河北醫藥,2008(09):14301432.
基金項目:本項目的研究成果受“蘇州大學‘大學生創新創業訓練計劃”(Undergraduate Training Program for Innovation and Entrepreneurship,Soochow University)資助,項目編號:202110285052、202210285072Z
作者簡介:門致雨(2000— ),男,漢族,河南商丘人,蘇州大學蘇州醫學院本科生;王鑫(2000— ),男,漢族,重慶武隆人,蘇州大學蘇州醫學院本科生。
*通訊作者:朱琍燕(1982— ),女,漢族,江蘇無錫人,醫學博士,高級實驗師,研究方向:疼痛發生發展的免疫分子機制和疾病關聯性數據分析研究。