吳傅蕾,袁長蓉
(復旦大學護理學院,上海 200032,wufulei@fudan.edu.cn)
大數據正在為科學研究、經濟建設和文化生活等社會各個領域的發展帶來顛覆性變革。2015年,國家先后頒布了《促進大數據發展行動綱要》和《國家信息化發展戰略綱要》,強調了推動大數據發展和應用以及實施國家大數據戰略。其中,醫療大數據作為關乎健康中國的重要部分被納入國家戰略布局[1-2]。2016年6月國務院辦公廳在《關于促進和規范健康醫療大數據應用發展的指導意見》中指出“健康醫療大數據是國家重要的基礎性戰略資源”,致力于規范和推動健康醫療大數據融合共享、開放應用[3]。健康醫療大數據應用和發展需堅持以人為本、創新驅動,其有利于激發和深化醫藥衛生體制改革的動力與活力,提升健康醫療服務效率和質量,拓展服務渠道,延伸和豐富服務內容,擴大資源供給,從而高效利用大數據以不斷滿足患者多層次、多樣化的健康需求,也有利于培育新的業態和經濟增長點。
健康醫療大數據的構成是多源的。臨床實踐是其中最核心、最龐大的來源。患者評估、治療及護理的實施以及患者對治療及護理的反饋使得臨床實踐成為一個不斷產生數據的過程。且隨著當前各大醫院信息化進程不斷加深,以上數據都得以通過電子病歷記錄、移動護理系統等被記錄和儲存。另一方面,隨著移動醫療、遠程照護等在近幾年的快速發展,基于傳感器、互聯網及物聯網的健康數據也成為健康醫療大數據的重要來源,如各類可穿戴設備、健康相關的智能手機應用程序等監測的患者健康數據。甚至通過深入挖掘各類社交媒體上的健康相關信息,我們可以大致描繪出個體的運動、飲食、作息等等健康相關的生活方式。這些健康醫療大數據的合理應用和深度挖掘必將帶來健康醫療模式的深刻變化。
然而,我國在健康醫療大數據構建的頂層設計中忽略了醫療照護過程中最重要的一部分人群,即患者自身。當前臨床實踐產生和錄存的數據多為醫務人員評估的患者健康信息及客觀的實驗室指標、影像學結果等,而缺失了重要的人文數據——由患者自我報告的數據。被忽視的患者的聲音主要表現在我國傳統文化影響下,醫療決策主要依賴醫護專業決策,缺乏對患者報告健康信息的長期、系統收集和及時反饋,使得極具價值的患者真實體驗消失于空氣之中。研究證實,單獨使用臨床客觀指標,如實驗室檢查結果,可能會低估疾病對個體的影響,并高估醫療干預措施的有效性,從而影響患者疾病預后和生活質量[4]。因此,若這一缺失得不到解決,健康醫療大數據的來源必定是不完整的。而我們若繼續僅依賴臨床客觀指標作為提供健康照護及決策的證據,則可能是我們向以患者為中心的醫療照護模式邁進過程中的倒退。
基于上述背景,美國食品藥品監督局(FDA)于在2004年提出了患者報告結局(Patient-reported Outcomes, PROs)這一理念,用以描述來自患者的,與其健康狀態有關的信息[5]。本文將通過介紹PROs的概念、內容、測量方式等及其與健康醫療大數據的整合,總結現階段的幾大主要研究和實踐方向,以及潛在的倫理挑戰和可能的解決策略,以期為健康醫療大數據的研究和應用補充新的視角和思路。
PROs是指沒有經過醫生或其他人的解釋,直接來自患者的與患者健康狀態有關的任何信息[5]。當前,根據PROs收集的內容,一般可以分為5大類:①疾病對日常生活和社會功能的影響,如身體功能、社會角色、自尊及表現等;②癥狀相關信息,包括癥狀的嚴重程度、強度、頻率、困擾程度以及對癥狀對功能及日常生活的影響等;③患者依從性,如最典型的服藥依從性;④健康相關生活質量;⑤患者滿意度,如醫、護患溝通、合作治療以及治療獲得手段等和衛生服務(health delivery)有關的結局[6]。但也有研究者指出滿意度,包括患者對診療過程及結果的滿意度,作為與衛生服務績效有關的指標,屬于患者報告體驗(Patient-reported Experience, PRE)而非結局[7]。根據FDA的定義,我們認為PROs側重于與患者健康狀態有關的信息,因此更傾向于不包含患者滿意度。
PROs是一個廣義的概念,泛指任何形式的來自患者本人的健康相關信息。也就是說,通過患者主訴、患者訪談等獲取的質性資料和通過由患者填寫問卷及量表獲得的量性資料均可被視為PROs。然而患者主訴往往是分散的、非系統的,難以完整地反映患者當下的健康狀態;患者訪談則多為某一質性研究的資料收集方式,訪談主題取決于研究目的,其臨床指導意義十分有限。且質性資料還需經過主題提取、降維、字段標準化等多種數據分析和整合技術才能與健康醫療大數據整合,在一定程度上影響數據轉化和利用效率。為了更全面、系統地評估和評價患者生理、心理和社會的健康狀態,我們所指的PROs往往是狹義層面上的,主要指通過問卷或量表系統收集的患者健康狀態相關信息。如通過癌癥治療功能評價量表(Function Assessment of Cancer Therapy, FACT)評價癌癥患者的生活質量[8],通過疼痛視覺模擬量表(Visual Analogue Scale, VAS)測量患者的疼痛程度[9]等。更進一步說,只有在規范化的、恰當的情境下,采用高質量的工具收集來自患者的聲音,這部分信息才有可能形成大數據。
PROs和大數據的相互結合可在多個層面上用于指導患者照護的研究和實踐。如PROs可作為證據來源之一構建大數據決策輔助系統;作為預后模型的結局指標和預測指標識別在醫療照護需求上處于優先級的群體和個體[10]。在臨床實踐上,可通過對PROs的常規收集形成癥狀預警,實現癥狀的早期識別和干預[10]。
如Dr. Watson通過機器學習,結合輸入的癥狀、影像學及實驗室資料等可實現腫瘤診斷及治療方案和臨床專家的基本一致[11]。在診療之外,如癥狀管理,決策輔助支持系統同樣大有可為。以乳腺癌為例,癥狀管理是乳腺癌救治和康復過程中的關鍵環節。不同患者在不同階段出現的癥狀、可能的困擾和適宜的解決方案不盡相同。基于大數據發現癥狀規律,并基于規律推薦個性化方案以幫助預防和干預是大數據時代乳腺癌癥狀管理的新思路。因此,筆者所在課題組嘗試通過整合循證證據和大數據構建癥狀管理的智能推薦系統作為一種臨床決策輔助系統。其中,針對患者自我報告癥狀數據的缺乏,我們開發了乳腺癌階段特異性患者報告結局測量系統[12],在此基礎上統籌收集包括患者臨床數據、生活數據和PROs數據,經過數據整理、清洗、轉換和融合形成推薦系統所依賴的多源大數據庫。
PROs應用的一大趨勢是從出于研究目的的收集向臨床常規實踐轉換。PROs最初引起研究者的重視是由于美國FDA指出,PROs必須被包括在臨床試驗中作為次要結局(secondary outcomes)指標綜合評價藥物或治療手段的效果和長期效應[5]。因此PROs在臨床試驗中,尤其是在美國及英國等發達國家已有成熟的應用。多項研究也已經證實,將PROs作為臨床診療和護理常規有助于醫護人員盡早發現和識別患者在疾病過程中易被忽視的問題,從而提供及時的針對性干預[13]。加拿大公主瑪格麗特癌癥中心(Princess Margaret Cancer Centre, PMCC)的困擾評估和反饋系統(Distress Assessment Response Tool, DART)是目前較成熟的將PROs納入臨床評估常規的項目[14]。患者在門診就診時通過院方提供的iPad以就診卡號及生日登陸DART系統,完成所有評估后,相關信息即被保存在患者個人醫療記錄中,醫生可進行即時瀏覽。DRAT項目的另一主要目的是PROs數據的收集,目前已累積6萬余例患者數據,這部分數據的挖掘利用將是下一階段的研究重點。也就是說,PROs數據的臨床常規收集不僅有助于提升照護質量,更是數據持續累積的過程,是進行結合PROs的大數據研究的基礎。
值得指出的是,以上研究及實踐均要求我們在設計初始即考慮到PROs在其中的角色及作用,達到患者臨床數據、生活數據和自我報告數據等各類數據的相匹配,才能完整的描畫患者的“數字畫像”。因此在收集內容、測量工具、以及收集程序等諸多環節的選擇或設計上都需要研究者和臨床工作者的細致考量。
PROs的原始收集多并非出于構建健康醫療大數據進行全方位分析的目的,而是此時的患者知情同意必然應遵照監管機構的要求對患者進行收集目的如實告知。然而當這部分數據被用于二次利用時,告知不當可能引起一系列問題,從而影響PROs數據的真實性和準確性。如果在患者進行PROs測量之前即明確告知患者這些數據將被用以共享以及二次使用,那么患者的應答可能產生偏倚。PROs作為患者主觀感受的表達,涉及多個不同的方面,其中一些報告的內容對患者來說可能是十分敏感的,尤其是情緒狀態,功能狀態等。如當被試將嚴重的抑郁狀態視作一種羞恥,那么很可能會在所對應的選項中有意地弱化自己的真實情況。對于患者認為十分敏感或不愿暴露的問題,患者在填寫問卷或量表時可能采用隱私保護的應答行為(privacy-protective responding behaviors),包括謊報自己的健康狀態、遺漏重要的細節或對某些問題不予以應答等[15]。同樣地,在PROs數據收集完成后對患者進行告知也存在一定問題,主要體現在同意者和不同意者之間可能會存在如年齡、教育水平等不同因素的差異,導致整體數據集的偏倚。此外,在數據收集完成后重新聯系如此大量的患者以獲取知情同意存在相當的困難。
匿名化(Anonymization)是一種獲取數據和完整數據集并確保數據安全的有效策略,經匿名化的數據無需經過明確的知情同意即可進行共享。隨著信息技術的發展,健康醫療數據,包括PROs數據均儲存于電子數據庫,大量來自黑客的攻擊加大了數據泄漏的風險。而有效的數據匿名化可極大程度上降低黑客攻擊的成功率。研究顯示,經過有效的匿名化后,僅有少于0.5%的數據可被精準再識別(re-identification)[16]。現有標準和指南提供了很多數據匿名化的策略,這些方法已被倫理監管機構接受,并已納入最佳實踐[17-18]。根據匿名化后所得的變量是否可進行分析,我們可將匿名化策略分為數據屏蔽(data masking)和去標識化(de-identification)兩大類。
第一類:數據屏蔽。數據屏蔽多用于直接標識(direct identifiers),即可以單獨或通過與其他易于獲取的信息組合來唯一標識數據主體的變量,如姓名、寄件地址、就診號、病歷號等[19]。常用的技術包括字段抑制(filed suppression)、隨機(randomization)和假名化(pseudonymization)等[19]。字段抑制指刪除一列對于匿名數據集無用的信息,如自由地址字段。隨機用于創造虛假的信息使數據看起來像原始數據,如從人口普查中隨機選取名字替代數據主體的真實姓名。假名化則將直接標識符替換為其他一些唯一值。
第二類:數據去標識化。數據去標識化多用于間接標識或類標識(quasi-identifiers),即他人可結合其他變量,根據可獲得的背景信息推斷出數據主體的變量[19]。典型的例子包括出生日期、民族、疾病診斷、診療日期等。針對這些信息,可采用信息泛化的方法進行去標識,如將個體的具體出生日期改為出生年月、模糊疾病的具體診斷等。還可采用子數據集的方式保存數據,這樣一來他人難以知道目標個體是否存在于某一個隨機子數據集中。
除PROs數據匿名化儲存外,在多個數據集合并和共享的過程中還需注意其他問題。如多個數據集的合并是否會增加信息,從而增加識別出數據主體的風險。這就要求數據所有者和使用者對數據集的合并十分謹慎,尤其嚴禁將數據集與未匿名化的數據集相關聯。
PROs進一步補充和完善了現有健康醫療大數據,而大數據及大數據技術的發展也為PROs的相關研究和實踐帶來了新的思路和生機。然而在PROs數據與其他數據相結合,形成健康醫療大數據的過程中,由于大數據對患者個體的精準定位的特性,數據匿名化存儲及共享尤其重要。只有在保障患者信息安全和隱私的前提下,結合了PROs的醫療健康大數據才能在智能決策、精準干預等領域有可為,并最終提升照護質量,節約醫療資源。
(致謝:誠摯感謝加拿大PMCC Medline Li博士關于DART系統的分享。)