陳悅 曹可建
一、健康醫療大數據概述
隨著物聯網、移動互聯網、云計算、大數據等新興信息技術的迅猛發展和普及應用,行業應用系統規模迅速擴大,產生的數據呈現前所未有的爆發式增長態勢。2016年6月21日,國務院辦公廳發布《國務院辦公廳關于促進和規范健康醫療大數據應用發展的指導意見》。部署通過“互聯網+健康醫療”探索服務新模式、培育發展新業態,努力建設人民滿意的醫療衛生事業,為打造健康中國提供有力支撐。意見中指出要堅持以人為本、創新驅動,規范有序、安全可控,開放融合、共建共享的原則,以保障全體人民健康為出發點,大力推動政府健康醫療信息系統和公眾健康醫療數據互聯融合、開放共享,積極營造促進健康醫療大數據安全規范、創新應用的發展環境。
健康醫療大數據是指與健康醫療相關,滿足大數據基本特征的數據集合,是國家重要的基礎性戰略資源,正快速發展為新一代信息技術和新型健康醫療服務業態。健康醫療大數據通常可以劃分為以下幾個方面:以電子健康檔案、電子病歷、醫學影像、檢驗檢查等為主的健康醫療服務數據;基因序列、蛋白質組等生物醫學數據;新型農村合作醫療、城鎮職工基本醫療保險、城鎮居民基本醫療保險等醫療保險數據;藥物臨床試驗、藥物篩查、基本藥物集中采購、醫療機構藥品與疫苗電子監管等醫藥研發與管理數據;疾病監測、突發公共衛生事件監測、傳染病報告等公共衛生數據;患者行為表現、保健品購買記錄、健身信息等行為與情緒數據;衛生資源與醫療服務調查、計劃生育統計等統計數據;居民婚姻、家庭、計劃生育登記等人口管理數據;與人類健康密切相關的空氣污染物和氣候狀況等環境數據。
二、國內外發展現狀
2009年,Google比美國疾病控制與預防中心提前1~ 2周預測到了甲型H1N1流感爆發,此事件震驚了醫學界和計算機領域的科學家。2012年聯合國發布《大數據促進發展:挑戰與機遇》白皮書,以推動各國政府機構、重大行業對大數據技術的研究和應用。自2012年開始,美、英、加、澳、日、韓等發達國家相繼發布一系列大數據技術研究和發展計劃,大力推進大數據研究和應用。2012年美國國立衛生研究院(National Institutes of Health,NIH)成立了大數據轉化知識聯盟(Big Data to Knowledge,BD2K),該組織關注生物醫學研究領域的大數據及其科學整合和最大化。2013年5月英國牛津大學成立了首個綜合運用大數據技術的醫藥衛生科研中心-李嘉誠衛生信息與發現中心。澳大利亞研究基金會(Australian Research Council,ARC)通過卓越研究中心項目對大數據研究進行資助,包括在墨爾本大學投入2000萬美元進行數學和統計領域大數據、大模型、新見解卓越研究中心建設,用于開展包括健康在內的社會問題新數據模型研究;資助生物信息學卓越研究中心,研究領域包括生物大數據及其應用。目前不僅歐美國家針對健康醫療大數據推出相應指導文件和建立機構開展研究,包括日本、韓國在內的亞洲國家也相應發布相關大數據戰略。
與國外部分發達國家相比,我國大數據發展起步較晚。2015年我國出臺《促進大數據發展行動綱要》,提出要構建包括電子健康檔案、電子病歷的健康醫療服務大數據,建設覆蓋公共衛生、醫療服務、醫療保障、藥品供應、計劃生育和綜合管理業務的健康醫療管理和服務大數據應用體系,開展健康醫療大數據創新應用研究。2016年4月國家衛生和計劃生育委員會規劃司從慧民服務工程、業務協同工程、業務監管工程、平臺基礎建設工程4個方面分列3級平臺必備70項功能,絕大多數均涉及健康醫療大數據應用,健康醫療大數據將成為“十三五”人口健康信息化建設的核心工作。
目前國內外針對健康醫療大數據的研究廣泛而多領域,包括生物醫學、計算機科學、數學等領域,大數據的應用是醫療健康信息化智能化的最新趨勢。而目前國內外還無人對醫療數據形成、醫療數據采集、醫療數據存儲、醫療數據傳輸交互與發布、醫療數據分析到可視化等領域進行系統而全面的綜述性研究。因此為了促進我國健康醫療大數據技術的發展,迫切需要系統且全面地綜述健康醫療大數據的發展狀況,多視角總結最新健康醫療大數據研究技術與學術成果,深度分析健康醫療大數據各種應用場景的技術成熟度及產業化現狀,對具有發展潛力的應用場景及其支撐技術提出建議,為促進我國醫療健康大數據的發展提供有力而系統化參考與指導意見。
三、健康醫療大數據技術特征
醫療大數據具有多態性、不完整性、時效性、冗余性、隱私性等特征。
(1)多態性:醫療數據的表達格式包括文本型、數字型和圖像型。文本型數據包括人口特征、醫囑、藥物使用、臨床癥狀描述等數據;數字型數據包括檢驗科的生理數據、生化數據、生命體征數據等;圖像型數據包括醫院中的各種影像學檢查如B超、CT、MRI、X光等圖像資料。在文本型數據中,數據的表達很難標準化,對病例狀態的描述具有主觀性,沒有統一的標準和要求,甚至對臨床數據的解釋都是使用非結構化的語言。多態性是醫學數據區別于其他領域數據的最根本和最顯著的特性。這種特性也在一定程度上加大了醫療數據的分析難度和速度。
(2)不完整性:醫療數據的搜集和處理過程存在脫節,醫療數據庫對疾病信息的反映有限。同時,人工記錄的數據會存在數據的偏差與殘缺,數據的表達、記錄有主觀上的不確定性。同一種疾病并不可能全面由醫學數據反映出來,因此疾病的臨床治療方案并不能通過對數據的分析和挖掘而得出。另外,從長期來看,隨著治療手段和技術手段的發展,新類型的醫療數據被創造出來,數據挖掘的對象的維度是在不停的增長的。
(3)時效性:病人的就診、疾病的發病過程在時間上有一個進度,醫學檢測的波形信號(比如說心電、腦電)和圖像信號(MRI, CT等)屬于時間函數,具有時效性。例如心電信號檢測中,短時的心電無法檢出某些陣發性信號,而只能通過長期監測的方式實現心臟狀態的監測。
(4)冗余性:醫療數據中存在大量的相同或類似信息被記錄下來。比如常見疾病的描述信息,與病理特征無關的檢查信息。
(5)隱私性:在對醫療數據的數據挖掘中,不可避免的會涉及到患者的隱私信息,這些隱私信息的泄露會對患者的生活造成不良的影響。特別是在移動健康和醫療服務的體系中,將醫療數據和移動健康監測甚至一些網絡行為、社交信息整合到一起的時候,醫療數據的隱私泄露帶來的危害將更加嚴重。大數據分析中隱私保護要注意兩個方面:其一,用戶身份、姓名、地址和疾病等敏感信息的保密;其二,經分析后所得的私人信息的保密。
四、應用前景
醫療健康大數據應用廣泛,行業治理、臨床科研、公共衛生、管理決策、便民惠民以及產業發展是當前我國健康醫療大數據的六大核心應用。主要表現在疾病預防、臨床輔助決策、科學研究、醫療評價、健康管理、個性化治療、醫保支付等多個方面,然而就國內目前的情況來看,醫療健康大數據仍處于探索階段,在疾病預防、臨床決策等方面還有很長的路要走。
行業治理聚焦于體制改革評估、醫院管理和醫保控費;臨床科研方面以臨床決策支持最為熱門,另外還包括藥物研發、精準醫療等方面;公共衛生則在多元化數據檢測的基礎上,構建重大突發事件預警和應急響應體系,同時探索開展個性化健康管理服務。在應用開發方面,IT 巨頭和數據驅動型創新企業各有特點,除此之外,擁有豐富資源的政府和醫療機構也開始扮演重要的角色。
醫療行業的傳統數據應用具有重要的參考價值,必須明確的是大數據的發展是建立在已有的技術基礎、數據積累之上的拓展。新的信息分析技術和通訊技術為傳統的醫療網絡應用和數據分析帶來了新的思路。