崔春舜 徐 暢 高東平
(中國醫學科學院/北京協和醫學院醫學信息研究所 北京100020)
隨著社會生活數字化進程的加快,海量數據源源不斷產生并呈現爆炸性的增長,預計2035年全球數據總量達到19 267ZB,見圖1。大數據分析最初是在計算生物學、生物醫學工程以及醫學等領域發展起來的,通常是將大量的數據通過模型訓練轉換為“關于數據的數據”,用以預測趨勢、發現關系以及檢測異常。2012年聯合國全球脈動倡議(UN Global Pulse)組織發布“大數據促進發展:挑戰與機遇”(Big Data for Development:Challenges & Opportunities)[1],用來推動各國政府機構以及各行各業認識到數據科學是消除貧困、饑餓與疾病強有力的工具。其后許多國家紛紛發布一系列大數據研究計劃,大力推進大數據技術研究和應用。本研究主要對國外大數據研究計劃中醫學部分進行綜述,以期對我國大數據研究計劃的制定提供借鑒參考。

圖1 新摩爾定律主導下2015-2035年全球數據總量增長態勢[2]
2.1.1 早期研究計劃概述 美國作為較早的發布國家層面大數據計劃的國家,對我國大數據未來的發展規劃和監管具有較好的借鑒意義。早在2009年,美國發布《利用數字數據的力量》(Harnessing The Power of Digital Data)[3]提出發展大數據,之后發布《大數據研究和發展計劃》確立大數據發展的國家戰略,接著陸續發布《數據一知識一行動》[4]、《大數據:把握機遇,維護價值》、《大數據和隱私:技術視角》[5]、《精準醫療計劃》、《大數據報告:算法系統、機會與公民權利》以及《聯邦大數據研發戰略計劃》等文件。
2012年3月美國政府發布《大數據研究和發展計劃》(Big Data Research and Development Initiative)[6]并成立大數據高級指導小組,計劃中6個聯邦政府部門發布其重點項目,其中衛生與公眾服務部(United States Department of Health and Human Services,HHS)的內容涉及3個部門:疾病控制中心(Centers for Disease Control and Prevention,CDC)建立疫情與細菌快速檢測反應網絡;醫療保險和醫療補助服務中心(Centers for Medicare and Medicaid Services,CMS)開發基于Hadoop的醫療保險和醫療補助數據庫以期為CMS決定優先項目提供參考;食品和藥品管理局(Food and Drug Administration,FDA)開發虛擬實驗室,使任何地點都能在1小時內實現虛擬實驗室功能。美國國立衛生研究院(National Institutes of Health,NIH)建立提供共享服務的癌癥影像檔案(The Cancer Imaging Archive,TCIA)并建成心血管研究網絡(The Cardiovascular Research Grid,TCRG)用于分析、匿名化和共享數據,另外還包括神經成像信息工具和資源交流中心(The Neuroimaging Informatics Tools and Resource Clearinghouse,NITRC)、可擴展神經影像檔案工具包(The Extensible Neuroimaging Archive Toolkit,XNAT)以及計算機解剖學和多維建模資源洛杉磯神經成像實驗室(The Los Angeles Laboratory of Neuro Imaging,LONI)等項目[7]。
2014年美國政府發布白皮書《大數據:把握機遇,維護價值》(Big Data:Seizing Opportunities Preserving Values)[8],其中指出電子病歷的普及以及醫療保險償付機制的轉變正在促進學習型醫療系統的形成,推動按患者康復程度而非治療次數收費模式的發展。白皮書中同時指出將基因數據與醫療保健數據鏈接的生物醫學數據庫成為隱私保護的重點,因此建議構建國家層面統一的數據標準和結構使外部在受控的方式下訪問數據。作為大數據白皮書的延續,2016年美國政府發布《大數據報告:算法系統、機會與公民權利》(Big Data:A Report on Algorithmic Systems,Opportunity,and Civil Right)[9]。在2014年的白皮書中提到數據隱私暴露之后的基因歧視問題,而在2016年的白皮書中重點闡述關于歧視的問題,在貸款、就業、教育以及刑事司法4個方面進行剖析。
2015年美國政府宣布《精準醫療計劃》(Precision Medicine Initiative,PMI),致力于治愈癌癥和糖尿病等疾病,目的是讓研究人員、醫療保健提供者和患者共同合作發展個性化護理。PMI于2016年啟動,1.3億美元被分配給NIH用于建立一個全國性的大型研究參與者群體,稱為隊列,7 000萬美元被分配給國家癌癥研究所,作為腫瘤PMI的一部分,領導癌癥基因組學的工作。
2.1.2 未來研究戰略 2016年5月美國政府發布《聯邦大數據研發戰略計劃》(The Federal Big Data Research and Development Strategic Plan)[10],該計劃指出美國下一代大數據研究的7大戰略包括通過促進數據共享和管理的策略提高數據價值、安全的大數據收集共享和使用、改善國家層面大數據教育和培訓的格局以及建立和加強國家大數據創新生態系統的聯系。計劃中提到NIH于2015年開始提供“大數據到知識(BD2K)”[11]機構培訓撥款,為本科生和研究生提供計算機科學、信息學、統計學、數學以及生物醫學科學的綜合培訓[12]。
2.2.1 早期研究計劃概述 歐盟作為世界最大的經濟體之一,其大數據研究計劃的導向性對歐洲整體的未來發展以及我國大數據相關領域的發展具有重要指導性。2011年歐盟正式發布《開放數據:創新、增長和透明治理的引擎》(Open data:an engine for innovation,growth and transparent governance)[13]報告,其圍繞開放數據這一主題內容,致力于調整法律框架以適用數據、動員融資工具支持開放數據以及促進成員國之間的協作和經驗分享。此后先后發布《數據價值鏈戰略計劃》、《釋放歐洲云計算服務潛力》、《邁向繁榮的數據驅動經濟》、《大數據價值戰略研究和創新議程》以及《歐盟資助的健康、福利和老齡信息與通信技術領域的研究與創新》等計劃。
2012年歐盟發布《數據價值鏈戰略計劃》(A Strategy on The Data Value Chain)[14],圍繞3個價值主張,首先是培育一個協調一致的歐洲數據生態系統,其次是促進跨部門、跨語言和跨國界的數據服務和產品開發,最后是改善從數據中提取價值的框架條件,包括基礎設施、標準以及有利的政策和法律環境。同年9月《釋放歐洲云計算服務潛力》(Unleashing the Potential of Cloud Computing in Europe)[15]報告發布,稱若政策干預成功,到2020年歐盟的云計算收入會增加到近800億歐元,歐盟國內生產總值將實現1.6億歐元的凈增長,產生380萬個就業崗位,同時提到整合各國的云計劃如法國的Andromède、英國的G-Cloud以及德國的Trusted Cloud等。2014年歐盟發布《邁向繁榮的數據驅動經濟》(Towards a Thriving Data-driven Economy)[16],概述未來數據驅動經濟發展的特點,其中提到“燈塔數據倡議”(Lighthouse Data Initiatives)個性化醫療[17],其目的是建立歐洲范圍的個性化醫療數據生態系統,致力于實現提供癌癥基因組,建立激勵數據貢獻者的機制;提供先進的生物信息學工具,同時優化基因組管道的性能和準確性,為基因組學的臨床部署提供環境;為公共衛生基因組學基礎設施提供平臺,同時滿足系統、數據格式和互操作性的多樣性;通過使用數據相關技術在家中“治療”和監測患者而非住院等。此外還提出基于個性化醫療的數據生態系統結構需要實現數據收集、管理集成、共享、分析、可視化以及決策支持的功能,以包括軟件、網絡、存儲、高性能計算以及云計算在內的技術設施建設為基礎,收集5大類數據包括患者/公民數據(如移動醫療、營養數據等)、科學數據(如生物庫、OMIC數據庫、臨床試驗、文獻等)、醫學數據(如基因組學、影像學等)、公共健康數據以及醫保數據[18]。同年4月發布的《大數據價值戰略研究和創新議程》(European Big Data Value Strategic Research & Innovation Agenda)[20]總結實施數據驅動經濟的4項戰略包括I-Spaces、燈塔項目、技術項目以及合作與協調項目。在2017年10月更新的議程中提到未來發展的5個優先技術領域:數據分析以提高對數據的理解;優化用于分析靜態和動態數據的架構;確保數據保護和匿名化的機制;高級可視化和用戶體驗;數據管理工程。
2018年6月歐盟更新《歐盟資助的健康、福利和老齡信息與通信技術領域的研究與創新》(EU-funded Research & Innovation in the field of Information and Communications Technology for Health, Wellbeing & Ageing)[20]報告,提出資助4類項目:幫助患者和醫療保健專業人員預防性地幫助人們保持健康;創新醫療保健系統及其工作方式,提高組織協同工作能力;健康老齡化的ICT解決方案;由中小企業資助的項目,以加速健康、福利和老齡化ICT解決方案的市場引進。
2.2.2 未來研究戰略 “地平線2020”(Horizon 2020)[21]計劃在7年(2014-2020年)期間將提供近800億歐元用于歐洲保持一流的科學水平。2014-2017年間該項目在健康、人口變化和福祉領域投入20億歐元,在其2018-2020年計劃文件中列出6項目標:將個性化醫療方法有效整合到醫療保健服務和系統中;對抗傳染病和抗微生物耐藥性日益增長的威脅;滿足最弱勢群體的需求和控制慢性病;探索環境(包括氣候變化和空氣質量)對健康的作用,制定緩解措施;探索健康創新和醫療保健的數字化潛力,包括建立歐洲健康研究和創新云;通過探索先進技術的應用,促進歐洲醫療領域和行業的創新,改善勞動力健康,促進監管科學發展。
瑞士國家重點科研計劃(NFP)大數據專項(Big Data, NFP75)[22]于2017年正式啟動,計劃投入資金2.5億瑞士法郎,2017-2020年為期4年。該計劃在健康領域目前公布的項目主要涉及為衛生部門大數據使用的道德評估。新加坡智慧國家(Smart Nation)[23]倡議于2014年正式啟動。在醫療領域主要有4部分投入,包括醫療保健中的輔助技術如機器人技術、HealthHub一站式在線健康信息和服務門戶網站、國家步行挑戰健康365應用程序以及遠程醫療。日本于2014年對《創建最尖端IT國家宣言》[24]進行更新,其中提到通過提供適當的地域醫療、看護等以實現健康長壽社會。其關于健康的內容主要有兩點,首先是提供高效的醫療護理服務,構建遠程醫療、家庭看護以及生活支援服務為主體共享合作的醫療護理結構,其次是推進醫療健康信息數據的利用,基于個體生活方式數據進行適當且持續性的健康促進和重癥化預防的方案建議。綜上所述,許多發達國家在發布或前瞻性布局未來醫療大數據研究計劃時會優先考慮建立獨立機構,此機構具有監管、引導以及協調等功能,作為醫療大數據研究的引導者,輔助延展傳統醫療部門功能,實現醫療部門的功能升級。其次結合本國目前研究現狀,優選重點領域進行重點投資,如歐盟著重于跨國醫療大數據的研究發展建設,而日本老齡化較嚴重,則比較注重健康管理數據的研究計劃。最后是配套設施的建設,醫院、診所等醫療場所的硬件設施往往不能滿足醫療大數據收集與處理需求,因此硬件設備的配套更新是醫療大數據發展的重要支撐。
大數據標準化方面我國與國外差距較大。美國醫療機構的電子病歷已經是強制執行,我國包括三甲醫院在內的所有醫院尚未完全普及。美國在推廣結構化的電子病歷時,對首先使用結構化電子病歷的機構給予獎勵,待使用率達到一定程度,政府開始對未使用機構進行懲罰。我國則可通過試點的方式來普及。醫療數據中心建設方面,國內現存大大小小的數據中心,中心之間數據互通工作的開展不盡如人意,數據孤島不利于醫療大數據的應用發展。并且數據中心的專業性并不能滿足所有專業團隊的需求,因此有很多專業團隊與生物信息技術公司合作建立各自的數據庫,這就導致更多數據孤島的產生,形成惡性循環。倫理方面涉及數據安全、個人隱私保護問題。保護信息安全有幾個層面,信息是國家的資源,對于國外研究機構的數據要協議使用不能無償使用,這方面的政策需要及時跟進。人才培養方面,在醫療大數據研究發展過程中,獨立培養的計算機技術人才與醫學人才之間的知識壁壘較高,造成研究結果往往達不到預期效果,因此交叉學科人才的培養體系亟需建立。
2017年全國信息安全標準化技術委員會發布《信息安全技術個人信息安全規范》,但其只是推薦性質的標準,國家層面并未出臺具有法律效力的數據監管文件。建議設立獨立且專業的監管機構促進相關法律的出臺并對數據在全社會的流動進行有序控制,同時要平衡好開放與隱私間的關系。
統一的數據標準有利于形成統一的訪問管控,對于數據隱私保護以及存儲較為有利。需要構建的標準包括醫學術語、臨床路徑、電子病歷、健康檔案標準等。統一的數據標準有利于消除信息壁壘,形成統一的數據理解,更好地促進機構之間的業務協同,消除信息孤島。統一的數據標準有利于快速整合不同數據源數據,進行高效、高質量分析,為數據共享開放奠定基礎。
多個國外政府都在推動數據的開放共享,借助更多的非本機構專業人員實現數據的最大化利用。較為成熟的如英國NHS網站提供大量開放數據并為訪問者提供免費科普性質的資料,形成統一的健康共享門戶。我國亟待建設權威的健康資源門戶,在其中開放共享健康數據。
數據科學人才是醫學大數據發展的重要支撐。政策制定者需要考慮在教育層面加大對統計學、計算機科學以及生物醫學等多學科人才的培養,如對生物醫學人才加大數據學科的培訓力度,使其成長為生物醫學領域的數據科學人才。
隨著醫療行業的快速發展,通過對各層次的健康大數據進行挖掘和分析,提高行業運營效率與質量,為人民健康提供保障。