高景宏 李明原 王 琳 翟運開
(1鄭州大學第一附屬醫院 鄭州 450052 2互聯網醫療系統與應用國家工程實驗室 鄭州 450052) (1互聯網醫療系統與應用國家工程實驗室 鄭州 450052 2鄭州大學管理工程學院 鄭州 450001)
目前我國公眾健康和疾病負擔形勢嚴峻。報告顯示我國現有高血壓患者2.6億人,每年心血管疾病死亡人數達300萬,糖尿病患者數量超過1億,每年因癌癥死亡人數達220萬例[1]。在此背景下可通過對健康醫療大數據的集成處理與深入挖掘,有效促進精準醫療在疾病防治中的應用,進而優化醫療資源,減少無效和過度醫療,提升醫療服務效率與質量,最終提高大眾健康水平。健康醫療大數據是精準醫療深入應用的關鍵,本研究對健康醫療大數據在精準醫療領域的應用、挑戰及未來研究方向等進行探討,以期為夯實精準醫學研究基礎、推進精準醫療在疾病防治中的應用、提高疾病診斷與治療效率等提供參考。
精準醫療是應用基因檢測、現代遺傳、分子影像、組學、大數據等技術,根據患者臨床診療、生物信息、生活環境與習慣等相關數據,實現精準疾病分類與診斷,篩選對疾病進行干預和治療的最佳靶標與方法,為臨床實踐提供科學依據,為患者定制個性化的疾病治療和預防方案,使患者獲得最適宜的治療效果和最低副作用的一種醫療模式[1-2]。精準醫療可以闡明疾病發生發展機制,解答疾病轉歸的本質問題;精確定位生物標志物,探索建立早期診斷方法,爭取疾病治療有效時機;通過分子分型和分期進行分子診斷,為個性化診斷、治療和預后健康管理等提供科學依據。基于對健康醫療大數據的處理分析進行疾病綜合防治方案的探索應用,見圖1[1,3-4]。

圖1 精準醫療圖譜

圖2 精準醫療服務業務流程
2.2.1 形成精準的診斷結果 基于健康醫療大數據構建面向精準醫療服務的專病數據倉庫,采用大數據分析和生物信息技術,深入挖掘患者疾病分型、病變靶點、易感基因、生物標志物等并生成可視化分析結果報告,結合臨床醫生和專家解讀形成精準的診斷結果。
2.2.2 患者參與制定、選擇治療方案 根據診斷結果明確患者疾病分型,由臨床醫生、生物信息專家和患者一同參與治療方案的制定與選擇。在此過程中通過對治療效果的實時評價與反饋及時調整、完善治療方案,達到以患者為中心的最佳治療效果。
2.2.3 識別用藥靶點 通過對患者健康醫療數據進行分析,識別用藥靶點,明確患者易感或病變基因、疾病癥狀與藥物的關系,指導個性化用藥并對藥物治療效果進行評價。
2.2.4 制定精準健康管理方案 基于對患者個體特征與需求的分析,制定貫穿患者整個診療過程的精準健康管理方案,如精準護理、康復管理、健康教育與促進等,形成以患者具體情況與需求為導向的全流程健康管理。
健康醫療大數據具有全樣本、深入關聯、注重相關性等優勢,可提升醫務人員、科研工作者、衛生決策者和社會公眾等應對疾病的洞察力和統籌規劃能力,進而優化衛生資源配置和醫療服務流程,提高服務質量,控制醫療風險,降低診治成本,全面提升疾病防治能力和醫療服務水平[5-6]。健康醫療大數據及其處理分析是開展各類精準醫療服務的前提,是進行精準診斷、精準治療、個性化用藥及精準健康管理等必不可少的環節。
首先,建立知識來源質量評估機制和精準醫療知識庫,將有關專病的組學、臨床、健康、環境等知識通過圖理論關聯,構建面向精準醫療的知識圖譜。基于Hadoop和Spark的分布式文件和并行計算系統,研發針對精準醫療的文本處理算法,建立基于統計與基于規則相結合的精準醫療輔助專家決策系統[3,7]。其次,采集患者臨床診療、生物樣本、生活習慣和環境、組學信息等數據并對這些數據做結構化、標準化清洗與融合,構建專題數據集市。最后,基于患者多源健康醫療數據,利用大數據分析和生物信息技術對患者信息進行集成分析、可視化呈現,在臨床醫生和生物信息專家的共同參與下形成針對患者具體病情與癥狀的精準臨床診斷,輔助臨床醫生研判患者疾病發生、演變過程及所處階段[8]。
基于精準的疾病分類和診斷,結合患者臨床診療、實驗室檢查、組學檢測等信息,通過大數據分析得出針對患者具體情況的最佳診療方案。針對清洗與融合后的患者多源信息,利用組學、生物信息和大數據分析技術進行病變靶點、生物標志物、敏感生理生化反應指標等的分析、識別、驗證與應用,尤其是針對高血壓、腦卒中、心梗、肺癌等典型高發、危害嚴重的慢性病和常見腫瘤[8]。通過對生物樣本、臨床診療、組學等信息的深入挖掘,結合精準醫療專題知識庫和專病知識圖譜可以明確患者疾病病因、精準定位病變靶點,為患者提供最佳的個性化治療方案,實現包括數據分析及可視化、治療方案、個體化用藥等在內的一體化精準醫療服務。
傳統臨床用藥根據患者癥狀體征、生化生理檢查和影像資料對具有相同或相似臨床癥狀的患者采用相同藥物治療。但實際情況是人體的藥物敏感性和藥物作用效果與個體基因、遺傳、生活環境等密切相關,不同患者對同一藥物的敏感性可能不同。精準醫療將傳統的“對癥下藥”轉變成“因人施藥”,依據患者自身基因遺傳特點、生存環境和生活習慣等進行個性化用藥,是以基因測序技術為基礎、大數據分析技術為手段的新型用藥模式。具體來說精準用藥是對患者臨床診療、基因及個人體質特性等信息進行大數據分析,集成最優用藥方案,為患者提供最切合自身情況的用藥指導。基于對健康醫療大數據分析可明確不同患者對藥物的敏感性差異和作用靶點,探明用藥過程中可能出現的療效、機體反應、毒副作用等,從而達到最正確時間節點、最佳用藥劑量、最小不良反應的精準用藥目標[1,9]。
精準健康管理根據個體基因遺傳背景,結合個體健康狀況、患病情況、生活習慣和環境等信息進行系統、全面、持續的監測與評估,經過大數據集成處理與分析向個體提供健康咨詢、生活方式與行為習慣指導、危險因素識別與干預、疾病護理與康復等個性化健康管理,是精準醫療的終極目標[1,10]。健康醫療數據的不斷積累,尤其是組學數據的規范化積累與創新應用,為利用多源健康醫療大數據構建貫穿個體整個生命周期的預防、護理、康復、醫療保健等精準健康管理體系提供信息基礎與技術支持。通過對健康醫療大數據的深入挖掘,可推動面向患者整個健康與疾病過程的健康管理更加精準、高效[1]。
精準醫療是數據驅動的醫療服務模式,為挖掘健康醫療大數據中蘊含的有效信息以進行精準防治,需要對醫療數據進行深入分析與應用。隨著人工智能、云存儲、云計算等技術的發展,基于多源健康醫療信息的大數據集成分析變得更加高效、穩健,使臨床醫生能夠精準地針對具體患者制定個性化診療方案,從而提高醫療服務效率和質量[1,6]。但是大數據在精準醫療領域的應用涉及數據采集、清洗、分析、平臺支撐、質量控制、數據治理等環節,均面臨不同程度挑戰,阻礙精準醫療進一步發展與應用。
數據采集是根據研究目標抽象出的、在數據分析與應用中所需要的表征信息,通過多種方式從數據產生環境獲取原始數據并進行預處理的一系列技術,是大數據分析與精準醫療應用的基礎,為后續數據處理提供原始數據集[11]。在精準醫療領域,健康醫療大數據來源廣泛,如何從中針對性地采集所需信息是首先需要考慮的問題,而傳統數據采集手段缺乏相關技術儲備。目前精準醫療領域大數據采集的內容和質量評價體系互不統一,同一類型數據往往存在多種不同采集方式,造成大數據樣本之間存在不同程度的異質性[1]。例如健康醫療數據包括結構化(表單、列表)、半結構化(實驗室檢測報告、護理日志、體檢報告)和非結構化(電子病歷文本、醫學影像、音視頻)等類型,這些來源不同的數據以多種形式并存,分別需要專門技術進行采集。如何對這些數據采集技術進行集成整合,從而在兼容多種數據傳輸協議、接口方案的前提下進行高效的采集與傳輸服務,成為亟待解決的問題[11]。數據采集過程涉及信息安全和患者隱私,這不僅是醫學倫理問題,還是數據采集技術層面問題,目前在健康醫療數據采集過程中尚無成熟手段對此予以保障。
數據清洗是對采集的原始數據進行基本預處理,發現不準確、不完整、不合理或重復冗余數據并對其進行修補、增減或刪除處理,以提高數據質量、保障后續數據分析準確性[12]。數據清洗是整個大數據處理過程中不可或缺的一環,其規范與質量直接關系到隨后分析的模型效果和最終結論。在精準醫療領域,數據清洗需要復雜的關系模型,會帶來額外的計算成本和延遲開銷。如何在大數據清洗模型的復雜性和分析結果的準確性之間做好平衡成為亟待解決的問題。精準醫療領域數據量巨大、增長快速,往往達到TB甚至PB級存儲量,對現有數據清洗工具的工作效率提出較高要求。另外精準醫療涉及數據來源廣泛、結構各異,存在不同程度的數據交叉和關聯的復雜現象,亟待提高清洗準確率[13]。例如針對多源異構的海量健康醫療數據,需要根據具體數據類型和特點,借助K-均值聚類、Canopy算法、K近鄰值、鄰近值排序、神經網絡、貝葉斯分類等方法,經過數據分析、清洗策略和規則定義、數據校驗、數據清洗執行、數據質量評價、干凈數據回流等過程,進行缺失、離群、相似或重復、不一致等數據的清洗工作,這不僅對支撐平臺的運算能力有較高要求,還需要兼顧數據清洗效率與質量[14-15]。
數據分析用于發現數據中所蘊含的有價值信息,是健康醫療大數據處理流程的核心,也是開展各類精準醫療服務的關鍵。通過采集、清洗和整合的多源異構數據根據不同精準醫療應用需求,選擇部分或全部數據進行集成分析,可實現基于大數據分析的精準醫療服務。精準醫療領域大數據分析需完成龐大的計算量,對處理系統的運算架構、時效性、運算性能和計算域存儲單元的數據吞吐率等要求較高,傳統分析手段已無法滿足大數據環境下的數據分析需求。如何集成現有大數據分析技術,結合精準醫療各類應用的具體需求,研發基于大數據處理綜合平臺、面向精準醫療服務的大數據分析技術和功能模塊,成為亟需解決的問題。以IBM的沃森機器人醫生為例,為能夠向臨床醫生提供規范化的臨床診療手段,為患者量身定制個體化治療和用藥方案,提高臨床醫務人員診療質量與服務效率,同時降低醫療事故、不良反應、藥物毒副作用等負面事件的發生概率,IBM為其配備頂尖的計算能力和高效率的自然語言處理技術并構建專業知識庫,使其能夠每秒處理500GB患者臨床、實驗室檢測、病理和生物樣本信息等多維度健康醫療數據,從而滿足臨床輔助決策的實踐應用需求[1,16]。
精準醫療涉及數據繁雜、各類專病應用子模塊眾多,且不同專病應用對數據及其處理具有個性化要求。為避免精準醫療服務過程中信息交換規范不統一、專病模塊間存在信息孤島、數據傳輸不暢等問題,基于平臺化技術的數據處理成為未來發展趨勢[11,17]。目前在精準醫療應用中,各機構傾向于獨自建立數據庫和樣本庫,形成諸多數據煙囪,且大數據處理、隱私保護等對技術與設備條件要求較高,導致進行數據處理的門檻較高[18]。例如高效分布式并行處理大規模多源異構健康醫療數據的平臺化模式有3種:離線批處理計算框架、流式實時處理計算框架和內存計算框架,部分醫療機構受安全、經濟、政治等因素影響而采用一種以上支撐平臺技術并集成不同生產廠家大數據處理功能模塊,均可對面向精準醫療的大數據處理技術的兼容性、處理效率和質量等造成不同程度影響[11,13]。因此建立面向精準醫療的大數據服務平臺,通過云計算、云存儲、大數據處理等技術的結合應用,集成數據采集、清洗、融合、質量控制、可視化等功能模塊,為精準醫療各類應用提供支撐,成為深入開展精準醫療服務的有效途徑。
精準醫療領域海量數據積累迅速,其產生速度遠遠高于數據分析效率的提升,如何利用大數據處理技術提取有用信息、保證數據質量和分析過程的可重現性成為需要重點考慮的問題。面向精準醫療服務建立規范化、流程化、標準化的大數據質量控制體系,可保證數據質量,提升數據分析效率和數據價值,實現數據對精準醫療服務的有效支撐[2,19]。目前針對精準醫療領域大數據質量控制系統研究較少,缺乏有效的理論框架和技術手段,對精準醫療服務的高效率、高質量發展造成不同程度影響。例如精準醫療領域大數據處理涉及數據采集、清洗、融合、分析、可視化等過程,任何環節的數據處理均可對最終質量造成影響,進而影響數據分析效率與結果準確性,不利于疾病診斷、治療和用藥方案、健康管理措施等精準醫療服務的實施[1-2,19]。
精準醫療領域大數據治理通過協調多個職能部門,基于個性化醫療服務不同目標來制定大數據優化、隱私化、所有權和經營權分配等相關策略,是涉及健康醫療大數據管理、利用、監督和評估的一種支撐保障體系。健康醫療大數據來源廣泛、成分復雜、涉及敏感和隱私信息,不能直接使用,必須經過治理方可利用并實現其價值。現有數據治理方法較分散,缺乏整體指導框架,而完善的健康醫療行業數據治理體系尚不成熟,精準醫療領域的數據治理缺乏系統研究。例如患者臨床診療和日常護理監測過程中產生的健康醫療數據的所有權、使用權、使用規范、隱私保護、利益與責任劃分、過程監督等均屬于數據治理范疇,目前尚無成熟完善的政策和技術予以支撐。鑒于精準醫療所涉及大數據的來源及特點,結合精準醫療應用現狀與需求,為促進精準醫療基于數據驅動的服務創新,有必要構建面向精準醫療的數據治理成套方案。
鑒于健康醫療大數據在精準醫療領域的應用現狀與面臨問題,未來研究可重點關注以下幾個方面。第一,數據采集方面,研發新型大數據采集平臺,集成多種數據傳輸協議和應用程序接口,實現對多源異構健康醫療數據同時統一采集與預處理,根據精準醫療應用實際需求構建專病數據集。第二,數據清洗方面,鑒于健康醫療數據數量巨大、結構多樣的特點,可利用深度學習、神經網絡等大數據算法對缺失、離群、相似或重復、不一致等數據進行高效率清洗,對數據清洗質量進行評價。第三,數據分析方面,一方面要進行健康醫療大數據標準數據集構建,以提升大數據處理質量與效率;另一方面應積極研發基于健康醫療大數據平臺的機器學習算法,以對各種來源的信息進行同時聯合分析,從而獲得更為可靠、精準、個體化的疾病診斷與治療輔助決策。第四,平臺支撐方面,可研發基于開源Hadoop的分布式大數據存儲、管理和處理綜合服務平臺,解決海量健康醫療數據存儲、分析與安全管理問題,開發成熟完善的深度學習算法模型,深入挖掘數據蘊含的有價值信息,推動其在疾病診斷和治療中發揮積極作用。第五,數據質量方面,可根據精準醫療領域健康醫療大數據處理環節,基于流程視角在數據處理前、數據處理過程中、數據分析后等環節進行質量評估體系構建與實施。第六,數據治理方面,根據精準醫療服務涉及的利益相關方和健康醫療大數據利用過程,進行戰略與目標、治理保障、治理域、實施和評估等大數據治理框架功能模塊構建與實施。
精準醫療是解決我國當前醫療資源緊缺、漏診誤診率高、醫療費用負擔重、藥物濫用等醫療衛生領域突出問題的重要途徑之一。精準醫療在疾病防治中的應用離不開健康醫療大數據的支撐。本研究通過分析健康醫療大數據在精準醫療領域的應用及挑戰,明確健康醫療大數據在精準醫療中的重要作用及應用途徑。研究結果對提高健康醫療大數據利用效率,啟發未來精準醫療領域大數據相關研究方向,推動精準醫療高速度、高質量發展等具有重要意義。