姜勇,孟霞,王擁軍
作者單位
100070 北京國家神經系統疾病臨床醫學研究中心;首都醫科大學附屬北京天壇醫院神經病學中心
近十余年來,隨著醫療衛生信息化的不斷發展和電子病歷的廣泛應用,醫療健康大數據得到飛速發展[1]。隨著基因組(表觀基因組、外顯子組)、蛋白組、轉錄組、代謝組、免疫組等多組學技術及高分辨影像技術的發展和廣泛應用,生物學數據呈現井噴式增長,臨床研究迅速進入了大數據時代[2]。在臨床診療方面,物聯網和可穿戴設備的發展[3]、心腦血管疾病新的生物標志物不斷被發現[4]、臨床檢測技術檢測精度的不斷提高和多模態高分辨醫學影像技術的發展,表型組學、影像組學的研究也逐漸發展起來,為卒中精準醫療奠定了基礎[5]。
精準醫療是利用個人的生物學(包括遺傳)、醫學、行為和環境信息,根據每位患者的基因組、精細臨床表型,通過大數據分析方法,把不同的患者個體進行精細化分層,調整疾病的預防和治療方法。大數據是精準醫學的基礎,而大數據分析方法是卒中精準醫學的重要工具之一[6]。
臨床研究大數據的發展為卒中精準醫學的發展帶來了新的機遇。大數據分析技術日新月異的發展,特別是機器學習和深度學習技術的發展使多維度數據分析有了新的分析挖掘工具[7-8]。高性能計算技術和分布式存儲的發展為臨床研究大數據的存儲提供了高效穩定的硬件支撐。區塊鏈技術的發展,為臨床研究的數據管理和共享提供了新的模式[9]。然而,生物醫學大數據的管理、分析處理、解釋、應用等方面也面臨很多挑戰,許多基礎性的問題需要多個領域的科學家聯合攻關[10]。
歐美發達國家非常重視生物醫學大數據的發展,在國家層面設立項目支持醫療健康領域大數據技術和應用的研究。2014年美國國立衛生研究院(National Institutes of Health,NIH)啟動了大數據到知識(Big Data to Knowledge,BD2K)計劃,通過培養人才、開發軟件工具以推動生物醫學大數據的有效分析和利用[11]。2018年6月4日,美國國立衛生研究院發布了《數據科學戰略計劃》(NIH Strategic Plan for Data Science),旨在支持高效的生物醫學研究數據基礎設施,促進數據資源生態系統的現代化,開發和推廣高級數據管理、分析和可視化工具,加強生物醫學數據科學的人才隊伍建設,制定適當的政策以促進管理和可持續發展。2017年歐洲啟動了BigData@Heart計劃,將隊列研究、電子病歷、醫療質量改進登記研究、臨床試驗數據,影像數據整合在一起為新藥物研發和個體化醫療提供基礎[12]。
我國生物醫學大數據研究還剛剛起步,高質量的數據源較少,缺乏我國自主開發的數據分析的核心算法,缺少多學科融合的創新人才團隊。2019年5月11-12日,國家自然科學基金委員會第232期雙清論壇“全維度數據與智能診療的前沿與挑戰”在上海召開,論壇由國家自然科學基金委醫學科學部、數理科學部、信息科學部與政策局聯合主辦,本次論壇圍繞以組學為核心的生物標志物挖掘與機制研究、大規模人群隊列建設及面向疾病精準診療的智能分析、智能診療臨床轉化應用3個專題進行深入探討,提出建議:基于現有隊列多維尺度數據的非線性關聯算法分析,發現新的生物標志物,發展疾病動態演變預測模型;繼續建立并規范重大慢病高質量和大數據量的專病隊列數據庫,創建數據共享平臺并制定管理方案。鼓勵發展智能精準醫療的生物和數學基礎研究。建立基于大數據及人工智能算法的重大慢病藥物基因組學,實現從單一蛋白質靶點到多靶點聯合治療[13]。
為解決這些基礎性問題,應從高質量數據源抓起,這需從建立大數據管理、分析和共享平臺、打造多學科融合的臨床研究方法學團隊等方面探索系統的解決方案。
2.1 整合臨床研究數據,建設高質量大數據來源 高質量的臨床研究、真實世界的電子病歷和醫療質量大數據是卒中防控大數據的三個重要來源。
臨床研究大數據是醫療大數據的高質量數據來源。臨床研究大數據強調數據來源是來自于臨床研究,其特點基于科學設計,全程良好的質量控制,清晰的研究問題和假設,明確的研究結局和終點。隨著精準醫學研究的開展,數據的維度不斷擴大。缺點是由于研究經費和組織實施的限制,樣本量相對較小。不同臨床研究采用的數據標準不一致,無法匯交成更大的數據樣本。未來應通過建立統一的數據標準,統一臨床數據公共數據元,建立數據共享機制,推動數據共享來促進高質量數據庫的建立。
以電子病歷為核心的醫院臨床數據中心的數據是真實世界醫療大數據的重要來源。很多醫院通過整合電子病歷、醫院信息系統、實驗室信息系統、影像存檔與通訊系統信息,收集和保存生物樣本,定期開展隨訪,建立起臨床科研一體化的大數據平臺。真實世界中對患者診療的個性化決定了電子病歷數據的稀疏性,數據完整性不能滿足研究的需要,這也是導致真實世界研究不能廣泛開展的主要原因。各醫院使用的電子病歷標準不一致,結構化程度參差不齊是另一個技術難點。單中心的電子病歷數據量、代表性往往不能滿足大型真實世界研究的需求,多中心的研究往往需要各分中心醫院上傳數據至項目牽頭醫院,很多醫院擔心泄露患者隱私而不愿意參加。
以醫院病案首頁、醫療保險、死亡登記為代表的衛生行政數據庫和公共衛生數據庫是卒中大數據的第三個重要來源。國際上醫療信息化發展比較早的國家如英國、韓國等開展了很多基于衛生行政數據庫鏈接的研究。我國在部分地區也進行了一些初步的探索,有待進一步的研究。國家神經系統疾病臨床醫學研究中心與中國疾病預防控制中心、國家衛生健康委統計信息中心等單位合作,共同建立重大慢性病流行病學監測大數據平臺。
理想的基于大數據的研究是將上面三種數據來源加以整合:基于特定的臨床研究假設,將大數據作為一種數據采集方式,建立疾病登記數據庫,結合補充收集的臨床診療信息,鏈接物聯網、可穿戴設備的客觀數據,定期開展隨訪研究,并利用衛生行政數據補充必要的經濟數據和結局信息。
2.2 建立大數據存儲和分析平臺,開展數據服務和共享 隨著臨床研究收集數據維度的不斷增加,臨床表型數據采集的精細度不斷增加,同時伴隨著基因組、蛋白組、轉錄組等多組學技術的不斷發展,對數據分析和存儲的要求也越來越高。為滿足高效的數據分析和安全的數據管理需要,國家神經系統疾病臨床醫學研究中心建立了由基于虛擬化的桌面云系統、高性能計算平臺和分布式存儲系統。實現了計算資源和數據的融合,為開展多維度臨床研究數據的大數據分析創造了安全、高效的環境。
2.3 開展需求導向的大數據應用研究 明確的數據需求是開展大數據研究的關鍵。很多大數據研究開始并沒有很好的設計,只是把全部的數據收集上來,導致數據標準不統一,數據質量參差不齊。如基于醫療質量監測的大數據研究,先應確定好關鍵績效指標和設計的數據項,制訂數據標準或采用公共數據標準,確定最小數據集和數據項及在各家醫院電子病歷中對應的數據來源,評估各醫院的數據質量是否符合要求,確定數據是否匯交至數據中心計算,還是只在本地計算,簽訂電子合約,應用區塊鏈技術+4G/5G技術傳輸實施數據采集和計算。2.4 加強大數據人才團隊建設 加強大數據人才培養,推動大數據交叉學科的發展,設立醫學大數據研究專業方向學歷教育,培養臨床數據科學家。探索體制創新,建立新型研發機構。應鼓勵國家臨床醫學研究中心等醫學研究機構和掌握核心技術的企事業單位建立產學研聯合實驗室的方式,加強多學科團隊的技術融合與交流。
2.5 制訂數據共享實施方案,推動數據共享將臨床研究過程中收集和產生的高質量數據,進行匯交、管理、共享可為開展大數據技術、人工智能及精準醫學研究提供大量高質量數據。由政府支持推進數據共享,建立良好的數據共享的生態環境,將大大促進高質量數據的形成。建立科技管理專業部門主導,各疾病臨床研究中心專家參與,各利益相關方共享的腦血管病大數據公共平臺,可能是建立高質量臨床研究大數據的理想模式。
國家神經系統疾病臨床研究中心依托首都醫科大學附屬北京天壇醫院,在大數據研究及應用方面,從建設高質量數據來源、加強數據分析存儲平臺建設、打造多學科大數據研究團隊、開展以需求為導向的大數據人工智能應用研究等方面開展了相關工作。在參考國內外標準的基礎上,建立了一套統一的神經系統疾病臨床研究數據采集標準。經過十余年臨床研究的積累,已經建立起由社區隊列、臨床隊列、多中心臨床試驗和臨床影像數據庫等組成的高質量臨床研究大數據,總樣本量達到150萬人。最具代表性的是中國國家卒中登記研究Ⅲ(China National Stoke Registry Ⅲ,CNSR Ⅲ),該項目在“十三五”國家重點研發計劃支持下,建立了超過1.5萬人的腦血管病精準隊列,基線收集了超過5000個臨床表型、高分辨影像和組學數據,并進行長期隨訪,建立了數據共享的機制和軟硬件平臺。
開展以需求為導向的應用研究是開展大數據研究的主要目標。國家神經系統疾病臨床研究中心正在探索開展基于大數據人工智能技術的腦血管病復發、死亡及預后研究,探索腦血管病的發病和復發機制及干預靶點,開展基于大數據的臨床輔助決策系統研究未來可輔助提高基層醫療的質量和水平等。
卒中大數據是一個新興事物,它的建設和發展需要大家的共同努力。我們將與全國同道攜手并進,砥礪前行,共同迎接卒中的精準醫療的新時代!