,,,
隨著世界醫療衛生條件的改善,心血管疾病發病率有所下降,但迄今為止心血管疾病、癌癥、慢性呼吸系統疾病和糖尿病等慢性疾病仍是最主要的死亡原因[1]。國家衛生計生委發布的《中國疾病預防控制工作進展(2015年)》顯示,近年來,我國慢性病發病率呈快速上升趨勢,慢性病導致的死亡人數已占86.6%,其導致的疾病負擔占70%[2]。我國醫療衛生體系經濟負擔增大,勞動力損失嚴重。衛生經濟學分析顯示,提高公眾健康水平最有效的方式仍是疾病預防[3-4]。在大數據和精準醫療時代,以預防為主的人群隊列研究已經成為發現慢性疾病病因、減少發病率的主旋律。
人群隊列研究是通過對一定的人群進行隨訪和縱向觀察,揭示疾病病因、評價預防效果,將知識轉化為臨床早期診斷和干預策略[5],從而降低疾病發生率,減輕社會醫療負擔,是解決目前醫學和健康重大問題的有效方法之一,是醫學逐步走向精準、提高效果的必經之路。國外已累積了幾十年的經驗,其中人群隊列規模達到50萬左右的有歐洲10國的European Prospective Investigation into Cancer and Nutrition (EPIC)[6]、美國的精準醫學計劃[7]、英國的Million Women Study (MWS)[8]和UK Biobank (UKB)[9]、瑞典的LifeGene[10]等。2013年,德國開展了由國家財政支持的大規模前瞻性隊列研究——國家隊列(The German National Cohort,GNC)研究。它是由亥姆霍茲和萊布尼茲協會、多所大學及其他研究機構合作進行的跨學科研究項目,旨在解決發病率較高的慢性疾病的病因和機制問題。本文主要從GNC的組織模式、數據采集和數據管理3個維度進行分析,以期為我國隊列研究的組織模式和數據管理提供參考和借鑒。
德國國家隊列的主要研究目的在于研究心血管疾病、腫瘤、糖尿病、神經退行性/精神疾病、肌肉骨骼疾病、呼吸道傳染病等幾種主要慢性疾病發展的原因及其臨床前階段和功能健康損害,分析社會經濟及心理因素對慢性疾病的影響,尋找慢性疾病早期的臨床生物標志物,開發有效的疾病預測工具,改進風險預測模型,制定個體化預防策略。
德國國家隊列一般人群的隨機樣本將通過18個研究中心,隨機抽取年齡在20-69歲間的10萬名男性和10萬名女性。該項目計劃持續25-30年,除前期準備階段外,共分為4個階段實施:第一階段對20萬受試者進行基線評估,第二階段在每個研究中心隨機抽取20%的受試者(約40 000人)進行二級評估,第三階段對受試者進行包括疾病、死亡、生活中危險因素的改變等因素的后期隨訪,第四階段對數據和樣本的隊列進行流行病學分析[11]。德國國家隊列將為德國提供重要的基于人群的流行病學的中心資源,有助于制定應用于重大疾病的早期檢測、預估以及早期預防的新的定制型策略。
GNC主要有研究中心、整合中心和權限中心3種類型的組織單位(圖1)。

圖1 GNC數據管理組織結構
GNC建立了18個研究中心,其主要任務是進行項目管理和數據采集,其中項目管理包括受試者的招募、項目計劃和日程安排、對受試者的編碼,數據采集包括對受試者進行面試和問卷調查、體檢和生物樣本采集。此外,研究中心還要負責對采集的數據和生物樣本進行質量檢查與檢測及對當地的輔助數據(登記處衛生局的醫療服務信息及死亡率等)進行采集。
GNC共設立了2個整合中心,在國家層面上對數據和生物樣本進行整合和處理,其主要功能包括對所有研究數據進行中央存儲和質量檢查,如自動檢測研究數據的一致性和完整性,對數據進行標準化處理;向研究中心和權限中心提供標準化后的研究數據;為科學家提供一個數據分析的技術平臺。此外,2個整合中心以相同的方式提供服務并存儲所有研究數據,以保證所有主流程的冗余和服務高效性,確保在一個整合中心發生故障時能夠及時接入到另一個整合中心。
GNC共計劃設立3-5個權限中心。權限中心的主要任務是接收整合中心提交的標準化研究數據,對特定主題數據進行質量比較和檢查,處理和解釋“復雜”類型的專題研究數據(如磁共振成像或心電圖數據),從國家層面采集一些較難采集的輔助數據(如社會保障數據),對中心專題任務進行數據跟蹤。
當需要處理個人數據或在中央層面重新確定研究對象的任務時,需要建立信托中心。信托中心的主要任務是集中備份個人標識數據,為受試者數據編碼生產偽代碼,重新識別中心任務。此外,GNC還設立了轉運單位,主要承擔與數據分析相關的管理工作,如對內外科學專家進行數據分析時所需的數據和分析結果進行傳輸。
德國國家隊列項目數據的采集分為兩個階段,第一階段為基線評估階段,即對所有受試者進行問卷調查、生物樣本采集及基礎體檢;第二階段為后期隨訪階段,隨機抽取40 000名受試者進行問卷調查和醫療檢查。按采集方式分類,采集數據可分為問卷調查數據、醫療設備數據和生物樣本數據。
在基線評估和后期隨訪階段,問卷和表格是不可或缺的一部分。問卷和表格主要采集個人醫療信息和識別數據,如姓名、性別、出生日期、出生地、地址、電子郵件、電話、傳真等。其中,出生日期和性別除了可用于計算年齡和分配受試者編碼外,還可用于實驗的分類研究,如只采集特定年齡段、首次患某種疾病的女性信息等。此外,醫療保險信息還可用于輔助數據的采集,生活和工作地址等數據可被用來評測環境數據(如農村和城市、噪音、空氣質量、輻射等)對慢性疾病的影響。
指受試者在研究中心進行體檢(心血管檢查、動脈硬化、踝臂指數、糖尿病相關測量等)時所產生的數據,分為電子化體檢數據、非電子化體檢數據和磁共振成像(Magnetic Resonance Imaging,MRT)數據3種。
在分子組學水平進行表型分析的生物材料是國家隊列研究的基本組件。生物樣本的選取需滿足以下幾個標準:樣本可提供不同類型的信息且能夠進行信息分析;樣品采集可行性較大且在樣品采集、處理、儲存和運輸至中央生物庫等步驟均能遵循SOPs標準,不會對受試者身體產生較大的負面影響;樣品采集、處理和儲存成本較低。根據此標準,GNC確定采集的生物樣本種類主要有血液、尿、唾液、糞便、鼻拭子。在國家隊列的基線評估階段,各研究中心會完成對受試者生物樣品的采集工作。
除了上述數據,德國國家隊列還將社會保障數據和環境監測系統數據作為輔助數據,用于跟蹤疾病的發生、發展和治療過程,作為受試者健康狀態暴露和疾病(病因學)的補充信息。德國約85%的人有法定健康保險,除公務員和個體經營者外,大部分雇員亦須繳付法定社會保險,包括失業保險、長期護理保險和法定退休保險。德國社會保險制度中的數據由雇主每年提交給研究所,該數據包括員工的社會人口學統計信息、就業部門等。根據輔助數據,國家隊列可了解受試者的職業史和享受的衛生服務,如門診、住院和開處方藥的歷史及所處地區的噪音、大氣、輻射等環境狀況。
GNC數據管理流程包括數據采集、預分析處理、運輸、長期存儲、檢索和分析共享,各單位在嚴格遵守標準操作程序(Standard Operating Procedure,SOP)的前提下各司其職(圖2)。
GNC數據采集工作主要由各研究中心完成。研究中心向當地登記辦公室隨機抽取的受試者發出邀請,受試者同意后,預約受試者進行檢查和測試。對受試者經問卷調查、訪談和體檢產生的紙質數據,利用電子數據捕獲表單應用程序(electronic data capture forms application,EDCF)提供的電子表單進行數據采集和存儲[12],之后自動地對數據的合理性和一致性進行檢查。在網絡可用的情況下,數據將被立即傳輸至整合中心的研究數據庫進行整合,否則則被臨時存儲在本地服務器上。
從醫療設備中采集的電子數據,先在本地進行原始數據存儲,然后以電子數據的形式自動傳輸到整合中心進行中央存儲和歸檔。在數據存儲、導出和傳輸至整合中心的過程中,將使用由整合中心統一協調用于所有研究中心的標準臨床接口(如DICOM,HL7),而醫療設備產生的磁共振成像數據由MRT圖像數據管理系統專門管理。
對于生物樣本數據,為確保生物樣本在傳輸過程中的質量,研究中心會對采集的生物樣本進行預處理。所有研究中心利用自動化機器人系統將每個受試者的血液、尿液、唾液、鼻拭子和糞便等分后,采用分布式生物存儲方式,運輸至生物樣品實驗室(及時分析)或中央生物存儲庫(長期存儲)存儲。
關于輔助數據,各研究中心從當地衛生局采集受試者的衛生服務信息及死亡信息,然后將受試者的個人識別數據傳輸至信托中心,用于重新編碼及備份個人識別數據。對于研究中心無法獲取的輔助數據,GNC會從國家層面上獲取法律規定社會保障數據、環境監測數據及就業數據等,并將這些數據直接傳輸至整合中心進行整合,便于各研究中心查看和導出受試者的數據。

圖2 GNC數據存儲和處理
整合中心對不同類型的數據進行分類存儲和整合,存儲的數據包括研究數據原始值及對其改動的日志,如日期、原因和執行人。其中研究數據存儲在研究數據庫中,生物樣本存儲在中央生物存儲庫中,而MRT數據由MRT圖像數據管理系統專門管理。整合中心內含版本管理系統,以保證存儲數據的數據模型和軟件版本不變。所有數據以固定時間進行備份,如有需要,在一定時間內能夠迅速恢復數據。
GNC數據使用需進行申請、審批、移交和成果共享等流程。
4.3.1 使用申請
GNC對數據申請者有一定的要求:研究人員必須隸屬于衛生健康相關研究機構;大學、研究機構、基金會和行業機構等第三方只能向國家隊列協會和訪問委員會提交申請使用數據,不能直接與受試者聯系,但受試者在此過程中享有決定權,可同意或拒絕申請者的請求;對于國際項目,需與德國科學家團體進行合作且接受德國道德規范;保險公司、雇主、警察或其他執法機構無權申請數據和生物樣本。
4.3.2 審批流程
使用和訪問委員對數據申請者的申請權限證明進行檢查,以確保數據申請者享有申請權且未被受試者拒絕,以及數據使用的范圍符合國家隊列相關道德標準,并將檢查結果提交給國家隊列協會辦公室,由辦公室下結論。如果申請者的申請符合要求,國家隊列協會辦公室則將合格項目提交給董事會,由董事會對項目進行審批。GNC具有對數據及生物樣本獲取和使用的最終決策權,以確保數據和生物樣本被科學、合理地使用。
4.3.3 數據移交
轉運單位在將數據集移交給申請者之前,需要與申請者簽訂相關合同,以規定數據使用條件、研究目的、擬進行分析、使用時間表和結果共享。所有申請者必須遵循相同的道德標準,數據和生物樣本只能在規定范圍內使用。
GNC是所有數據和生物樣本的合法所有者,有權對未經授權使用或濫用數據和生物樣本的個體或機構采取法律行動[13]。此外,使用數據和生物樣本的用戶需要向GNC付費,以支付數據采集、處理、整合和分析等過程中產生的費用,可以酌情對希望從數據中獲得經濟利益的組織收取更高的費用。
4.3.4 成果共享
使用數據的研究人員必須同意將分析結果提供給GNC,包括實驗方法、分析過程及結果等信息,GNC會將這些信息公布在公共領域(如網頁)。基于國家隊列數據所寫的論文需發表在指定期刊上,以方便其他研究人員查閱,而且有利于受試者了解其參與研究的結果。
國家隊列網站會定時更新可申請使用的數據和生物樣本以及被授予或拒絕申請的研究人員和機構。在國家隊列網站中,受試者可以看到有權訪問其數據的研究人員或機構,且有權禁止訪問者對其數據的訪問。
為確保國家隊列研究順利進行,需建立數據質量管理體系,以控制和保證數據質量。數據質量管理體系主要包括內部質量管理和外部質量管理。
4.4.1 內部質量管理
研究中心:主要負責數據采集工作,是數據質量保證與控制的第一關。即使研究中心的數據庫在進行數據在線收集工作,中央質量辦公室也可訪問所有的脫敏研究數據。在數據質量保證與控制方面,研究中心按照SOPs標準采集數據。在完成數據初步輸入后,改動時間、原因、人員名稱、數據變更類型及研究人員的反饋和改進建議等都會被記錄在質量協議中,便于保證研究數據的質量,確保最終研究結果的可靠性。研究中心的數據質量管理工作由其質量控制負責人全權負責,直接向研究中心主任進行報告。
權限中心:對于研究中心收集的數據,權限中心將自動生成統計結果(僅包含脫敏參與者的數據)。這樣不僅可以判斷研究中心收集數據的平均水平,也可明確總數據中缺失的數據類型。權限中心將統計數據提供給中央質量辦公室的管理人員,以評估數據質量并及時提出必要的質量改進措施。每個權限中心負責特定研究主題數據(如來自ECG及MRI的數據)的質量保證與控制評估。此外,權限中心需制定質量要求,若質量出現問題及時與整合中心進行溝通并采取措施。
中央質量辦公室:負責監督與數據質量有關的各流程,確保所有流程都依據SOPs標準執行,并對傳輸到中央管理處研究數據庫的數據進行科學評估,而且需派代表參加質量管理工作組的會議。
4.4.2 外部質量管理
外部質量管理的主要任務是審查研究數據的質量,主要以專家小組(如實驗室專家)實地考察的形式實施,然后由專家小組撰寫質量審查結果報告,并針對審查結果,與中央質量辦公室進行分析和討論。
隨著我國社會經濟的發展和人們生活方式的轉變,以心腦血管疾病、慢性阻塞性肺部疾病、糖尿病、精神障礙和重性精神病等為代表的慢性病發病率呈現快速上升趨勢[14]。我國進行人群隊列研究已有60多年的歷史,如對煤礦工人、化工染料行業工人、金屬礦業工人和石棉工人在從業過程中所接觸的有害環境物質暴露和疾病發生的相關性研究,北京首都鋼鐵公司總醫院在20世紀70年代在北京首都鋼鐵公司及周圍農村地區進行心腦血管病危險因素調查[15],首都醫科大學附屬北京朝陽醫院于2006年在唐山開灤地區建立包含101 510名人群的研究隊列[16]及中國國家前瞻性隊列——中國慢性病前瞻性研究(China Kadoorie Biobank,CKB)[17]等。我國所開展的多個大型人群隊列在揭示我國居民疾病病因學方面取得了一系列原創性的研究成果,但仍存在一些問題,落后于德國和英國等醫療體系發達的國家。
我國現有隊列研究的不足及德國國家隊列對我國隊列研究的啟示如下。
數據的分類管理既有利于數據的管理維護,也為數據的整合挖掘提供了便利。GNC的各研究中心均采用相同的設備器材、操作流程和標準采集數據,這從根本上保障了數據采集的一致性。針對不同種類數據,GNC分別設立了不同類型的數據庫進行分類整合存儲。當前我國人群隊列數據采集是對醫療記錄實行綜合采集,增加了數據共享、交換、合并的難度。聯盟的原始隊列間的操作流程不統一,會導致數據質量良莠不齊,甚至由于采集流程、環境和技術不同導致采集數據不可用。因此,在隊列數據采集之前,需分配相同的設備器材,采用統一的操作流程、標準采集數據,便于從根本上保障數據采集的一致性。此外,對于不同種類數據進行分類整合存儲,既有利于數據的管理維護,也便于進行多源數據的整合挖掘。
輔助數據的使用及MRI技術的實施是德國國家隊列的顯著特色。通過對受試者的腦、心臟、全身等進行MRI,有助于提高數據的完整性和減少數據分析誤差。輔助數據的使用能夠提高國家隊列的科學價值,具體體現在:輔助數據的獲取不受個體約束,可幫助減少數據分析中的系統誤差和隨機誤差,有助于采集數據的完整性和準確性。
然而,目前我國開展的隊列研究主要圍繞傳統環境暴露、生活習慣、 飲食、遺傳因素在疾病發生中的作用開展,缺少對疾病病理、環境暴露、社會和行為及遺傳因素導致的個體間變異的識別。關于人群社會、經濟和心理因素的隊列研究尚未見報道,導致很多人使用藥物無效。隊列研究應充分考慮環境、社會與遺傳等多因素之間的交互作用對疾病發生、發展的影響。
GNC規定數據申請者禁止直接向受試者申請數據,這既有利于保護受試者隱私,也有利于保證數據使用的道德規范。雖然數據申請者不能向受試者申請數據,但受試者在數據申請的過程中享有決定權,有權允許或禁止申請者使用或訪問其數據,這表明了對受試者權利的尊重。目前我國各人群隊列采集的數據主要用于內部研究,受試者對其數據不享有任何權利,參與性差。這既不利于保護受試者的隱私,也不利于各機構研究者之間的交流和隊列研究的可持續性發展。今后我國應從法律層面明確受試者的權益,保證數據使用遵循道德規范;加強大型隊列研究的宣講,讓受試者明確自己的權利和義務,調動公眾參與的積極性;倡導開放式隊列研究理念,促進隊列研究價值的深度發掘;設立國家隊列協會,統一管理隊列數據共享事務,鼓勵數據使用和結果的共享,擴大隊列數據影響力,促進我國衛生健康事業的發展。