中國和加拿大合作出生隊列研究數據統一及共享方法

2015-06-08 10:31:18周光迪吳美琴趙麗吳宇航翁鑫宇蔣聰趙莎莎王偉業

中國醫藥生物技術 2015年6期

周光迪，吳美琴，趙麗，吳宇航，翁鑫宇，蔣聰，趙莎莎，王偉業

出生缺陷、代謝綜合征、兒童孤獨癥、多動癥、哮喘、糖尿病、不孕不育、肥胖、心腦血管疾病等多種疾病都與胎兒期的環境暴露關系密切[1-2]，所以出生隊列研究等針對生命早期環境暴露的研究近年來迅速發展，對病因學研究有著關鍵的推動作用。大樣本量對于統計結果準確性的提升至關重要，單個項目常因資源不足而影響統計分析，而大型隊列項目所需的資源量從時間、人力和物力方面難以實現，這樣的矛盾直接影響了基于隊列數據的后續研究[3]。因此，非常有必要整合不同隊列之間的信息，并進行共享，來解決大樣本量和大資源消耗量之間的矛盾[4]。

項目資源之間的信息統一（data harmonization）與共享（data sharing）在國際上已經開展多年，最顯著的例子是生物醫學資源整合機構 BBMRI 采用分布式中心（distributed hub）的模式，將樣本和數據存儲于分布式中心，由虛擬的中心用聯邦制方式管理數據[5]。目前，國內資源共享的項目尚缺乏經驗和模式。信息共享模式主要有三種，第一種為直接集中數據，將各中心數據直接集中在一起，統一管理、分析、利用。優點是標準統一、便于大數據整合，缺點是可變性小，可行性低。因為各研究中心往往有不同的研究偏向，不同的具體條件，不同的知情同意與倫理法規。在這樣的前提下，強行統一變量的選擇和數據標準并不現實，幾乎無法實施。第二種共享模式為通過最小數據集，即不同項目按相同的定義和標準來收集共同的最核心數據，用這些核心數據來代表研究群體的特性，并在項目之間共享。這種模式的可行性和可變性比直接集中數據高得多，所以多家國家標準化研究機構都聚焦于某一特定領域數據集，開展多中心合作。第三種共享模式是在項目已經進行、數據已經收集后，再開始數據共享工作，就會發現由于項目各方的變量定義、收集標準、數據分級等很多問題上不一致，即使只是實驗檢測方法或標準的不同，都會給數據共享造成困難。這樣的情況下需要首先轉換統一變量，讓數據同質化、提升數據的相容性。這種模式的主要步驟是針對已經完成和存在的信息資源首先分析可能統一的數據元素，將統一后的數據元素作為多方共同的數據集，再通過分析在統一數據元素的前提下的項目信息，以適應前瞻性隊列項目的需要。

本文將要介紹的中國和加拿大合作出生隊列數據信息共享項目（簡稱中加出生隊列項目）是一個大型隊列數據共享項目，參加本項目的隊列包括中方的上海兒童優生隊列（SBC），加方的 3D（design-develop-discover）出生隊列和母嬰環境化學物質研究（maternal-infant research on environmental chemicals，MIREC）出生隊列。其中 SBC 計劃招募 4000 位孕婦，3D 和 MIREC 計劃招募 2000 和2500 位孕婦。三個隊列的研究方向各有不同，其共同焦點是探索環境因素影響胎兒在母體子宮內發育及出生后發育生長至成人階段可能出現的不良影響。在三個隊列分別進行了一段時間后，中加雙方才開始接洽隊列信息共享的工作，所以本項目需要整合三個隊列的數據資源，但已經存在的數據存在異質性而無法直接整合。三方的變量選擇、定義、標準都有巨大差異，已經不可能統一標準收集數據或直接統一數據集，所以將首先同質化三個隊列項目的數據，再進行數據共享。像中加出生隊列項目這樣各方先收集數據、再接洽整合數據資源的情況普遍存在，但缺少數據同質化和整合的模式和方法。隊列項目，尤其是跨國的隊列項目之間的數據資源整合，往往面對多重的倫理法規限制，各方的數據統一后也不一定能夠整合。中加出生隊列項目在實現三個隊列研究數據共享、為病因學研究提供大數據分析結果的同時，更能為類似情況的國際數據共享合作項目提供模式和方法上的重要參考，并為如何在符合國際倫理規范的前提下進行跨國數據共享樹立范例。

1 方法

1.1 制定數據詞典

數據詞典定義數據流圖中的各個成分的具體含義，對數據流圖中出現的每一個數據流、文件、加工給出詳細定義。在中加合作項目中，三個隊列根據加方其他機構在相同方面的研究經驗以及規范化工作流程及 Maelstrom 技術要求，制定各自的數據詞典。

1.2 建立雙方數據集交流平臺

將三個隊列的數據詞典上傳至 Maelstrom 網站，將其作為三個隊列之間的交流平臺。Maelstrom 網站公開展示參與隊列的數據集，并能夠進行相關的搜索和對比，便于參與隊列展開數據同質化和共享工作。同時，其他任何對參與隊列有興趣的人都可以通過 Maelstrom 了解參與隊列的數據集，并聯系隊列開展合作。

1.3 統一數據元素和最小數據集

雙方相互分析對方的數據詞典中參數變量內容，了解各自項目研究信息內容的設計，充分交流三個隊列的研究方向。在 Maelstrom 網站上使用 Search Harmonization Potential 功能，搜索出三方都收集的變量，對這些變量進行可同質化水平劃分，分為“完全相容”、“部分相容”、“完全不相容”三個級別。完全相容的變量可以直接共享；部分相容的變量進行同質化轉化、規范數據交換格式后再共享；完全不相容的便不能共享。在選擇變量和轉化變量后，制定編寫合作方能共享的最小數據集。

2 結果

2.1 制定數據詞典

在本項目中，根據加方其他機構在相同方面的研究經驗以及規范化工作流程及 Maelstrom 技術要求，中加雙方三個隊列制定了各自的數據詞典。僅隊列 SBC 的數據詞典就前后編寫了 7 版，反復修訂后最終定稿。表1 列出了三個隊列的變量總數。表2 對比了三個隊列關于孕婦血壓參數的標簽。

2.2 建立雙方數據集交流平臺

本項目參與構建了 Maelstrom 網站（https://www.maelstrom-research.org/）作為公開的信息交流平臺。網站上展示了項目的基本情況、數據集、變量，具有同質化搜索功能，也提供一些信息同質化的教程和參考文獻（圖1～3）。

圖1 Maelstrom 網站上中加項目三方隊列的概況

2.3 統一數據元素和最小數據集

數據元素是用一組屬性描述定義、標識、表示和允許值的一個數據單元。最小數據集是為特定目的收集的、最少的、被用戶和利益相關人認可的一組選擇性的核心數據。出生隊列研究的最小數據集收集的數據是反映出生隊列研究所關心科學問題的核心數據，該數據在跨研究小組、跨地區研究機構之間的共享有助于發揮最小數據集信息的利用價值，提高隊列研究水平和數據的利用效率。

表1 三個隊列的變量總數

表2 三個隊列關于孕婦血壓參數的標簽對比

對于完全相容的變量，各方對變量的定義和數據處理方式基本一致，可以直接共享數據；而對于部分相容的變量，雙方的提問方法、數據采集方式或其他操作細節存在差異，但本質科學問題相同，可以通過特定方式將變量轉化一致，使得這些變量也能夠完成數據相容。對于不能相容的變量，由于各方的變量定義和數據收集方式存在不可調和的矛盾，無法共享數據。例如，中加雙方對于“裝修”的科學定義不同，雙方在相關問題上無法共享數據。中方定義為房屋的粉刷、裝飾、修葺；而加方定義為新的裝飾、家具，這樣的定義差距無法調和，雙方在“裝修”問題上研究的不是同一科學問題。

根據目前的研究進展，三個出生隊列所收集的數據能形成 18 個可能會產生最小數據集的研究方向，包括：母親年齡、家庭收入、婚姻狀態、種族、孕前期 BMI 指數、孕期吸煙狀況、孕期飲酒狀況等。本研究項目已經完成關于孕期吸煙情況調查和妊娠高血壓數據的最小數據集的編寫。表3是這兩個數據集所包含變量數的具體情況。

圖2 Maelstrom 上隊列 SBC 的簡介

圖3 Maelstrom 上對三個隊列同質化潛能搜索的結果

表3 孕期吸煙情況與妊娠高血壓的最小數據集包含變量數

3 討論

現在，多方參與的隊列信息資源共享項目很多，但存在的難點和問題也不少。第一，不同的出生隊列研究方向不同，收集的變量不同，且缺乏統一的數據收集標準與交換格式，致使收集的數據可比性無法得到保證，數據存在很大的異質性，缺乏共享前提。跨系統、跨部門、跨地區的數據共享受到數據異質性的制約，同時數據的重復采集還導致了資源的浪費。因此，如何提高不同隊列之間的數據相容性，是很有現實意義的問題。其次，在管理層面上實現數據的整合共享也存在一些困難，國內目前缺乏多中心研究合作的成功模式，如何借鑒國外的先進經驗，并研發完善國內適用的多中心研究資源共享的整合方法，值得我們探索和思考。第三，倫理和法律對數據的整合共享有多重限制，尤其是跨國項目。捐獻者的知情同意有可能規定數據不能提供給他人，法律也可能規定某類研究的數據只能在某個范圍內運用。而中加出生隊列項目在這三個問題上都有創新性的解決方案。

國際上的多方數據共享項目，一般都是在開始項目之前，就有共享數據的意愿，因此在項目設計時，從招募捐獻者，變量的選擇和定義，變量可同質化的潛力水平衡量，到共享平臺的搭建，都會考慮到后期共享數據的需要，例如著名的 BioSHaRE 項目[6]。但國內這樣的前瞻性共享項目很少。中加出生隊列項目是在各個項目開始后才開始接洽數據共享，項目設計、捐獻者招募、變量選擇、數據收集等過程均已完成，此時想要用預見性的模式來完成共享是不可能的。那么，先收集數據再共享的前提下，數據共享需要首先完成數據的同質化。參與中加項目的三方隊列首先完成了數據詞典的編寫，這是為了便于三方了解彼此的研究方向，三方在哪些領域出現研究交集，在哪些方面的變量能夠共享，在同一變量的定義、收集與質控標準上有何異同、怎樣實現數據的同質化。隨后又建立了數據交流的網絡平臺Maelstrom，便于多方交流，并統一了能夠同質化的變量和最小數據集。

而由于倫理法規的限制，中加出生隊列項目不能以數據池的方法來共享數據[7]，因為合作隊列 MIREC 所在地的法律規定，MIREC 的數據只能夠留在本地。所以 MIREC 的數據只能經過數據屏蔽處理，通過分布式統計，再以總結分析結果的方式共享[8-9]。但是，總結式的分析結果相對于數據池的結果具有一定的片面性，不能等同于真正的大數據分析結果，數據池的共享方式能提供的結果更為客觀。所以，在倫理法律允許的前提下，SBC 將與 3D 通過統一的數據集的方法，將數據整合在一起，相當于加大樣本量[10]，統一進行查詢、分析。在本項目中，同時使用兩種共享模式，因為既需要滿足倫理法規的要求，又需要盡可能用更客觀的方式分享數據。其他的項目也可以考慮通過多種數據共享模式來滿足參與項目所面對的不同倫理法規需要。另外，除了查詢分析，SBC、3D、MIREC 的研究結論也可以互作驗證性的比較分析，提高統計結果的可信度和可靠性。

多中心臨床研究如果能在實施前統一信息的內容、采集方式、方法和處理標準，就能極大地提升后續的數據統一成功率和工作效率。然而和中加出生隊列類似，國內的大多數數據共享項目都是在數據收集開始后才有共享意向，這樣的流程導致不同項目之間的數據很大的異質性。如何同質化數據、實現數據的融合，采用什么方式在滿足倫理法規的條件下充分共享數據，使多方的共享意愿變為現實是非常急迫的問題。中加項目針對數據已經收集、數據異質性已經存在、無法直接整合數據的前提下，通過自有的工作流程實現了數據的同質化，為數據的整合掃平障礙。在事先未統一設計的隊列研究所獲得數據的同質化和共享問題上，中加項目作出了意義重大的探索性工作，其模式和方法有著重要推廣的價值。截至目前為止，中加出生隊列項目已經完成了數據詞典的制定，建立了數據集交流平臺，轉化和統一了部分共享課題的數據集，接下來中加項目將在數據共享模式上繼續下一步工作，在工作過程中進一步探索并建立跨國家、跨地區隊列合作模式，促進多中心信息整合和科研合作，為之后的中外國際隊列數據共享項目提供可參考的操作方式。

[1]Winckelmans E, Cox B, Martens E, et al.Fetal growth and maternal exposure to particulate air pollution--More marked effects at lower exposure and modification by gestational duration.Environ Res, 2015,140:611-618.

[2]Manzano-Salgado CB, Casas M, Lopez-Espinosa MJ, et al.Transfer of perfluoroalkyl substances from mother to fetus in a Spanish birth cohort.Environ Res, 2015, 142:471-478.

[3]Bebu I, Lachin JM.Large sample inference for a win ratio analysis of a composite outcome based on prioritized components.Biostatistics,2015, pii:kxv032.

[4]Howe D, Costanzo M, Fey P, et al.Big data: The future of biocuration.Nature, 2008, 455(7209):47-50.

[5]Muilu J, Peltonen L, Litton JE.The federated database--a basis for biobank-based post-genome studies, integrating phenome and genome data from 600,000 twin pairs in Europe.Eur J Hum Genet, 2007,15(7):718-723.

[6]Doiron D, Burton P, Marcon Y, et al.Data harmonization and federated analysis of population-based studies: the BioSHaRE project.Emerg Themes Epidemiol, 2013, 10(1):12.

[7]Pisani E, AbouZahr C.Sharing health data: good intentions are not enough.Bull World Health Organ, 2010, 88(6):462-466.

[8]Jones EM, Sheehan NA, Masca N, et al.DataSHIELD -- shared individual-level analysis without sharing the data: a biostatistical perspective.Norsk Epidemiologi, 2012, 21(2):231-239.

[9]Fortier I, Burton PR, Robson PJ, et al.Quality, quantity and harmony:the DataSHaPER approach to integrating data across bioclinical studies.Int J Epidemiol, 2010, 39(5):1383-1393.

[10]Smith-Warner SA, Spiegelman D, Ritz J, et al.Methods for pooling results of epidemiologic studies: the pooling project of prospective studies of diet and cancer.Am J Epidemiol, 2006, 163(11):1053-1064.