韓 屹
近年來大數(shù)據(jù)和人工智能(AI)的結(jié)合在世界范圍內(nèi)產(chǎn)生了深遠(yuǎn)的影響。大數(shù)據(jù)的概念最早是MichaelCox 和David Ellswort 于1997年IEEE 會(huì)議上首先提出[1]。2009年以來,大數(shù)據(jù)技術(shù)取得了重大突破,云計(jì)算不僅大幅度提高了數(shù)據(jù)存儲(chǔ)和提取能力,數(shù)據(jù)分析方法也由以前的集中結(jié)構(gòu)化數(shù)據(jù)處理逐步推進(jìn)至對(duì)非結(jié)構(gòu)化信息的分析和建模[2]。目前,主流搜索引擎可根據(jù)用戶搜索歷史調(diào)整搜索結(jié)果的前后排序,網(wǎng)絡(luò)電商根據(jù)用戶的購買和瀏覽歷史了解不同客戶的購物傾向。世界范圍內(nèi),包括以谷歌(Google)和亞馬遜(Amazon)為代表的眾多直接服務(wù)于消費(fèi)者的行業(yè)均開始借助大數(shù)據(jù)和AI 技術(shù)提高服務(wù)效率并獲取新的增長(zhǎng)動(dòng)力。
然而大數(shù)據(jù)和AI 在醫(yī)療健康領(lǐng)域,是在醫(yī)藥產(chǎn) 品上市后的應(yīng)用,卻遠(yuǎn)滯后于其他行業(yè)。以發(fā)表論文數(shù)目為例,圖1展示的趨勢(shì)也證明了醫(yī)藥領(lǐng)域的滯后:PubMed 文獻(xiàn)庫的大數(shù)據(jù)和藥物評(píng)估文章從2013年才起步。值得注意的是雖然中文核心期刊在這個(gè)領(lǐng)域的論文數(shù)目一直超過全球英文文獻(xiàn)總和,但在2018年這個(gè)代表高質(zhì)量中文論文的總數(shù)出現(xiàn)拐點(diǎn),反而低于2017年。同期國際英文研究論文數(shù)目仍在穩(wěn)定增加。
目前大數(shù)據(jù)在各行各業(yè)取得了廣泛應(yīng)用。而所謂大數(shù)據(jù)針對(duì)于不同行業(yè)有不同的定義。概括來說,它主要是指規(guī)模及數(shù)據(jù)量巨大的數(shù)據(jù)。針對(duì)于醫(yī)療衛(wèi)生來說,大數(shù)據(jù)主要是指由醫(yī)學(xué)診斷、患者行為及管理、醫(yī)保、研發(fā)等形成的海量的、高增長(zhǎng)率、多樣化的信息資產(chǎn)。這些信息隱含著巨大的信息量及潛在價(jià)值,若得到有效開發(fā),必能使每個(gè)醫(yī)療衛(wèi)生行業(yè)的參與方受益無窮。在熟練掌握大數(shù)據(jù)分析的基礎(chǔ)上,通過深層次挖掘關(guān)聯(lián)性及價(jià)值性的信息,必能在信息化的基礎(chǔ)上實(shí)現(xiàn)醫(yī)療行業(yè)的一體化及智能化的發(fā)展。
Doug Laney 在2001年提出的大數(shù)據(jù)3V 概念(Volume,Velocity 和Variety)已被廣范接受[3]。即使僅從一所醫(yī)院內(nèi)部數(shù)據(jù)出發(fā),患者接受醫(yī)療服務(wù)中產(chǎn)生的大量問診記錄、處方數(shù)據(jù)、醫(yī)保付費(fèi)數(shù)據(jù)、住院病歷和醫(yī)囑、化驗(yàn)結(jié)果及醫(yī)學(xué)影像圖片均格外突出了大數(shù)據(jù)的3V 特征。目前醫(yī)院信息系統(tǒng)(HIS)尚未提出全國統(tǒng)一的電子健康檔案(HER)行業(yè)標(biāo) 準(zhǔn)。不同HIS 之間的數(shù)據(jù)標(biāo)識(shí)和管理差異巨大。匯總并聯(lián)合來自于不同醫(yī)院和不同HIS 供應(yīng)商的數(shù)據(jù)庫是一項(xiàng)高投入的艱巨任務(wù)。
支持循證醫(yī)學(xué)是醫(yī)療大數(shù)據(jù)應(yīng)用的重要方向之一。值得注意的是Kruse 等[4]提出了3V 之外非常重要的一個(gè)V:準(zhǔn)確性(Veracity)。醫(yī)療大數(shù)據(jù)中的錯(cuò)誤信息可能來自于數(shù)據(jù)缺失、記錄錯(cuò)誤、有意造假,或不規(guī)范用語等多個(gè)方面。雖然大數(shù)據(jù)在其他領(lǐng)域的應(yīng)用也需要解決數(shù)據(jù)準(zhǔn)確性問題,在衛(wèi)生健康領(lǐng)域數(shù)據(jù)準(zhǔn)確性更是至關(guān)重要。醫(yī)療大數(shù)據(jù)的研究結(jié)果經(jīng)常會(huì)作為臨床決策和醫(yī)療政策的證據(jù)。對(duì)醫(yī)療大數(shù)據(jù)的分析有可能通過報(bào)銷制度和臨床路徑等多種方式直接影響大量患者的治療方案。雖然分析方法的改進(jìn)可以在一定程度上對(duì)數(shù)據(jù)樣本的偏差進(jìn)行矯正,但分析方法本身并不能完全抵消數(shù)據(jù)中的錯(cuò)誤和偏差對(duì)研究結(jié)果的影響。因此無論從倫理角度還是科研角度,準(zhǔn)確性在醫(yī)療大數(shù)據(jù)中的重要性遠(yuǎn)超過其他屬性。
醫(yī)療大數(shù)據(jù)的來源有多種,按照健康市場(chǎng)的參與方總結(jié)大致可以分為4 類:1)醫(yī)院和藥房的數(shù)據(jù):這些數(shù)據(jù)直接記錄了患者的就醫(yī)經(jīng)歷,包括治療方法和檢測(cè)指標(biāo)等,是醫(yī)療大數(shù)據(jù)的核心部分;2)國家全民醫(yī)保和商業(yè)醫(yī)保報(bào)銷數(shù)據(jù):包括重要的經(jīng)濟(jì)信息和使用記錄,對(duì)于評(píng)估經(jīng)濟(jì)效果和研究醫(yī)保政策具有重要意義;3)醫(yī)療器材和制藥企業(yè)研發(fā)和營(yíng)銷數(shù)據(jù):其是開發(fā)新型醫(yī)療技術(shù)及評(píng)估產(chǎn)品商業(yè)價(jià)值等商業(yè)行為的基礎(chǔ);4)患者數(shù)據(jù):這些數(shù)據(jù)涵蓋患者本身 的基礎(chǔ)社會(huì)經(jīng)濟(jì)信息、社交網(wǎng)絡(luò)記錄以及各種可穿戴產(chǎn)品的數(shù)據(jù)記錄,可用以研究患者的健康行為和習(xí)慣,對(duì)加強(qiáng)疾病管理和預(yù)防具有重要意義。

圖1 期刊論文發(fā)表趨勢(shì)(數(shù)字顯示的是2019年3月15日搜索結(jié)果)
由于數(shù)據(jù)源和數(shù)據(jù)結(jié)構(gòu)較復(fù)雜,在使用醫(yī)療大數(shù)據(jù)前必須進(jìn)行有效整合,以保證數(shù)據(jù)信息準(zhǔn)確和結(jié)構(gòu)完整。Wang 等[5]在2018年的研究中提出了切實(shí)可行的架構(gòu)。在這一框架下(圖2),醫(yī)療大數(shù)據(jù)的收集、轉(zhuǎn)換和使用分別在相對(duì)獨(dú)立的層面完成,多樣化的數(shù)據(jù)源可以直接聯(lián)入大數(shù)據(jù)體系,數(shù)據(jù)源的增加或減少可在接入層面通過插件形式完成,整合層對(duì)數(shù)據(jù)規(guī)范化后實(shí)現(xiàn)質(zhì)量控制和標(biāo)準(zhǔn)化,不同數(shù)據(jù)的連接也是在整合層完成,分析和使用則是建立在完整可靠的數(shù)據(jù)基礎(chǔ)上完成。數(shù)據(jù)管理部門用來全面負(fù)責(zé)大數(shù)據(jù)管理工作(包括安全和更新等)。

圖2 大數(shù)據(jù)系統(tǒng)構(gòu)架
在發(fā)達(dá)國家醫(yī)藥市場(chǎng),產(chǎn)品上市后繼續(xù)使用各種非臨床試驗(yàn)數(shù)據(jù)對(duì)藥物進(jìn)行評(píng)估和檢測(cè)已是常態(tài)化操作。這些數(shù)據(jù)有別于隨機(jī)臨床試驗(yàn)(RCT),長(zhǎng)期以來被統(tǒng)稱為真實(shí)世界數(shù)據(jù)(RWD)。國際藥物經(jīng)濟(jì)學(xué)與結(jié)果研究協(xié)會(huì)(ISPOR)將真實(shí)世界數(shù)據(jù)定義為初期RCT 外在臨床實(shí)踐中產(chǎn)生的一切數(shù)據(jù)[6]。根據(jù)ISPOR 對(duì)RWD 的定義,RWD 只是醫(yī)療大數(shù)據(jù)組成部分,醫(yī)療大數(shù)據(jù)的范疇則超過RWD。因?yàn)槌伺R床數(shù)據(jù)外,醫(yī)療大數(shù)據(jù)還包括研發(fā)數(shù)據(jù)、社交媒體和行為數(shù)據(jù)等不包括在RWD 之內(nèi)的非臨床信息。RCT 目前仍然是各國藥物監(jiān)管部門對(duì)藥品上市審批和醫(yī)保價(jià)值評(píng)估的黃金標(biāo)準(zhǔn)。醫(yī)療大數(shù)據(jù)與RCT 相比,具有以下4 方面優(yōu)勢(shì):1)醫(yī)療大數(shù)據(jù)可以提供比RCT 更長(zhǎng)的觀察時(shí)間。大部分藥物的價(jià)值優(yōu)勢(shì)需要長(zhǎng)期觀測(cè),難以在臨床試驗(yàn)中完全實(shí)現(xiàn)(例如患者依從性、疫苗的有效保護(hù)期等)。高質(zhì)量的醫(yī)療大數(shù)據(jù)可以用非常低的成本通過回顧性研究評(píng)估產(chǎn)品的長(zhǎng)期價(jià)值。2)醫(yī)療大數(shù)據(jù)的患者樣本明顯大于臨床試驗(yàn)中的患者人群數(shù)。與RCT 相比,對(duì)于醫(yī)藥產(chǎn)品的小概率事件(例如嚴(yán)重毒副作用),使用大數(shù)據(jù)評(píng)估可以顯著降低Ⅱ型誤差。3)醫(yī)療大數(shù)據(jù)的采集來自于醫(yī)療機(jī)構(gòu)的日常診療工作。對(duì)于就診患者不設(shè)納排標(biāo)準(zhǔn),藥物使用劑量、頻率以及提供的相關(guān)輔助醫(yī)療服務(wù)與RCT 相比較更真實(shí),產(chǎn)品療效和安全性與RCT 相比較結(jié)論更具實(shí)際價(jià)值。4)大數(shù)據(jù)可以支持相同適應(yīng)證下不同藥物的療效和安全性比較,但可以提供競(jìng)爭(zhēng)產(chǎn)品間頭對(duì)頭安全性和療效比較的RCT 數(shù)量有限,RCT 所需要的大量資源也使得這樣的對(duì)比性試驗(yàn)難以全部實(shí)現(xiàn)。醫(yī)療大數(shù)據(jù)在這一領(lǐng)域則可通過篩選合適患者比較兩種或多種治療藥物的療效和安全性。
Nishita 和Pandit[7]在2018年對(duì)醫(yī)療大數(shù)據(jù)的分析方法進(jìn)行了系統(tǒng)性文獻(xiàn)回顧,從這篇文獻(xiàn)中可以看到很多具有典型大數(shù)據(jù)特色的方法已經(jīng)開始應(yīng)用于藥物評(píng)估。例如MapReduce 方法在藥物警戒方面的應(yīng)用展示了對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析能力[8]:Wang等[8]通過對(duì)PubMed 文獻(xiàn)中的毒副作用報(bào)道分析建立模型并用以評(píng)估藥物與毒副作用的相關(guān)性。雖然非結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)的重要部分,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析方法在藥物價(jià)值評(píng)估中并不多見。
對(duì)已經(jīng)上市的醫(yī)藥產(chǎn)品進(jìn)行評(píng)估經(jīng)常側(cè)重于衡量產(chǎn)品的真實(shí)世界價(jià)值從而支持醫(yī)保報(bào)銷決策,評(píng)估結(jié)論對(duì)于醫(yī)保體系、臨床應(yīng)用和廠家業(yè)績(jī)均具有及其重要的影響。這類研究多采用相對(duì)比較成熟的分析建模方法基于大數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)部分開展。無論是從藥廠角度還是醫(yī)保體系角度,分析的重點(diǎn)集中于驗(yàn)證產(chǎn)品在RCT 中無法全面證實(shí)的價(jià)值陳述。表1列舉了一些比較典型的研究方向。
文獻(xiàn)中結(jié)構(gòu)化大數(shù)據(jù)的應(yīng)用實(shí)例比較豐富。很多這類大數(shù)據(jù)研究的設(shè)計(jì)就是為了補(bǔ)充臨床研究數(shù)據(jù)的欠缺,進(jìn)而為衡量藥物價(jià)值提供重要信息。例如提高用藥的依從性是確保治療效果的前提。然而臨床研究中的給藥方和觀察時(shí)間長(zhǎng)度經(jīng)常無法提供對(duì)依從性計(jì)算的數(shù)據(jù)。醫(yī)療大數(shù)據(jù)可以填補(bǔ)這方面的信息欠缺。
作為依從性研究的實(shí)例,Gurel 等[9]使用2007—2012年美國肢端肥大癥患者長(zhǎng)期用藥記錄對(duì)其依從性進(jìn)行分析,分析終點(diǎn)為患者首次發(fā)生用藥中斷事件所需時(shí)間。通過使用Cox 生存模型獲得不同藥物之間出現(xiàn)首次停藥的風(fēng)險(xiǎn)。研究結(jié)果顯示使用長(zhǎng)效奧曲肽治療患者與使用蘭瑞肽比較可增加38.5%的停用藥風(fēng)險(xiǎn)。真實(shí)世界使用中必然會(huì)產(chǎn)生的藥品浪費(fèi)也是臨床試驗(yàn)數(shù)據(jù)罕有記錄的一個(gè)方面,使用過程中無法避免的藥物浪費(fèi)會(huì)成為醫(yī)療費(fèi)用中計(jì)算不可忽視的一個(gè)因素。Li 等[10]對(duì)真實(shí)世界中新型抗癌藥物使用時(shí)由于劑量改變而導(dǎo)致的浪費(fèi)進(jìn)行了精細(xì)評(píng)估。在這項(xiàng)研究中,作者對(duì)2015年2月至2016年2月1242 例使用新型惡性乳腺癌靶向藥palbociclib患者的用藥情況進(jìn)行了詳細(xì)跟蹤分析。結(jié)果顯示其中128 例存在處方重疊期,平均重疊時(shí)間長(zhǎng)度為11 d,大部分處方重疊是因患者調(diào)整使用劑量所致。由于抗癌藥物的特殊性,可以合理假設(shè)患者采用新滴定的劑量后不會(huì)使繼續(xù)使用剩余的舊劑量藥物。基于這個(gè)假設(shè),作者計(jì)算劑量調(diào)整導(dǎo)致的藥物浪費(fèi)每位患者平均可達(dá)5471 美元。

表1 典型醫(yī)藥產(chǎn)品的價(jià)值驗(yàn)證研究方向
雖然全球醫(yī)療大數(shù)據(jù)的發(fā)展?jié)摿薮螅珶o論是在數(shù)據(jù)來源,數(shù)據(jù)結(jié)構(gòu)還是IT 技術(shù)方面醫(yī)療大數(shù)據(jù)均面臨著巨大挑戰(zhàn)。我國的醫(yī)療大數(shù)據(jù)發(fā)展也不例外。總體來說,這些挑戰(zhàn)可以分為以下4 個(gè)方面。
政策和資源是形成數(shù)據(jù)可及性障礙的主要原因。由于數(shù)據(jù)所有權(quán)和數(shù)據(jù)分享政策不明朗,醫(yī)保部門、醫(yī)藥器材企業(yè)、各級(jí)醫(yī)院等數(shù)據(jù)擁有者對(duì)于醫(yī)療大數(shù)據(jù)的分享多采取相對(duì)比較保守的態(tài)度,數(shù)據(jù)源分享程度低,局限性強(qiáng)。數(shù)據(jù)源的不統(tǒng)一和分享范圍狹小造成了目前中國市場(chǎng)缺乏具有代表性的全國醫(yī)療大數(shù)據(jù)。科研機(jī)構(gòu)、企業(yè)和政府部門的研究除了依靠自己內(nèi)部一些數(shù)據(jù)資源,幾乎沒有可以直接購買使用的EMR 或醫(yī)保報(bào)銷數(shù)據(jù)庫。KMPG 公司2017年4月發(fā)表的全球醫(yī)療衛(wèi)生透明度報(bào)告中從6 個(gè)維度對(duì)32 個(gè)國家評(píng)估。在評(píng)比的6 個(gè)維度中,兩個(gè)維度是與數(shù)據(jù)直接相關(guān)。中國在這個(gè)評(píng)比榜上以總分32 居末位。從資源層面看,大規(guī)模的數(shù)據(jù)整合需要非常顯著的投資才能實(shí)現(xiàn)。例如各級(jí)醫(yī)院采用不同的HIS 體系,實(shí)現(xiàn)不同醫(yī)院之間的數(shù)據(jù)對(duì)接和信息共享存需要不小的前期投入。這些對(duì)資本的要求,形成了使用大數(shù)據(jù)的壁壘。
醫(yī)療大數(shù)據(jù)的可靠性不僅與數(shù)據(jù)收集的來源有關(guān),也受數(shù)據(jù)的采集方法和初始目標(biāo)影響。目前國內(nèi)醫(yī)院的HIS 沒有形成統(tǒng)一標(biāo)準(zhǔn)。在諸如藥品名稱和醫(yī)療檢測(cè)結(jié)果等方面的記錄中沒有規(guī)范可循。甚至HIS記錄中ICD-10 編碼,也存在大量的不精確記錄。由于部分?jǐn)?shù)據(jù)的輸入不是實(shí)時(shí)完成,而是事后由數(shù)據(jù)錄入人員填寫完成,HIS 中也回出現(xiàn)轉(zhuǎn)錄錯(cuò)誤。電子病歷中非必填項(xiàng)目的內(nèi)容大幅度缺失也常見。在網(wǎng)絡(luò)問診的數(shù)據(jù)記錄中,很多患者自填信息沒有通過認(rèn)證。如果直接使用會(huì)導(dǎo)致分析結(jié)果的偏差。另外由于不同數(shù)據(jù)庫之間沒有對(duì)接,很多患者的診療記錄無法形成完整閉環(huán),不能真實(shí)記錄患者歷程。
隨著國家數(shù)據(jù)管理政策法規(guī)的加強(qiáng),大多數(shù)醫(yī)療數(shù)據(jù)源都有隱私保護(hù)意識(shí)。但是關(guān)聯(lián)整合多方數(shù)據(jù)庫之后,隱私保護(hù)就不再是簡(jiǎn)單的問題。進(jìn)一步加入患者在互聯(lián)網(wǎng)行為數(shù)據(jù)之后,通過對(duì)大量脫敏數(shù)據(jù)的分析后倒推患者身份信息的風(fēng)險(xiǎn)也在提高。在開展罕見病的RWD 研究時(shí),由于罕見病本身的患者稀少,如果沒有充分的設(shè)計(jì),很可能導(dǎo)致患者信息的泄露。如何在支持醫(yī)療大數(shù)據(jù)使用的同時(shí)保護(hù)患者隱私是醫(yī)療大數(shù)據(jù)發(fā)展必須面對(duì)的問題。
醫(yī)療大數(shù)據(jù)本身必然會(huì)充分體現(xiàn)4 個(gè)V 的特點(diǎn)。這是醫(yī)療服務(wù)的復(fù)雜多樣性加上每天大量的就診患者流決定的。巨大的絕對(duì)數(shù)據(jù)量和每天快速的增長(zhǎng)量為數(shù)據(jù)標(biāo)準(zhǔn)化、整理、存儲(chǔ)、數(shù)據(jù)質(zhì)量檢查和提取等IT 技術(shù)提出很高的要求。更嚴(yán)峻的挑戰(zhàn)在于如何快速利用這些數(shù)據(jù),即時(shí)建模,即時(shí)更新,并使用到醫(yī)療工作當(dāng)中。類似語意識(shí)別分析技術(shù)這樣對(duì)非結(jié)構(gòu)化數(shù)據(jù)分析利用的方法在醫(yī)藥評(píng)估上還有很大的進(jìn)步空間。
大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用廣泛,然而,在實(shí)際的數(shù)據(jù)應(yīng)用中,同樣存在一定的挑戰(zhàn)。這些挑戰(zhàn)諸如醫(yī)療衛(wèi)生數(shù)據(jù)的過于分散性以及各大機(jī)構(gòu)對(duì)于醫(yī)療大數(shù)據(jù)的利用率較低的問題等,使得數(shù)據(jù)分析存在一定的艱難性。此外,針對(duì)于醫(yī)療衛(wèi)生行業(yè),其大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化數(shù)據(jù),在關(guān)于合理整 合及存儲(chǔ)、合理利用這些非結(jié)構(gòu)性數(shù)據(jù)上,同樣存在一定的困難。最后,在關(guān)于醫(yī)療大數(shù)據(jù)的應(yīng)用上,相關(guān)法律環(huán)節(jié)的缺失、醫(yī)療數(shù)據(jù)分散在不同平臺(tái)中所形成的信息孤立、標(biāo)準(zhǔn)化的缺失 導(dǎo)致的信息共享困難等,使得大數(shù)據(jù)在醫(yī)療衛(wèi)生的發(fā)展面臨更多的挑戰(zhàn)[11-13]。
中國的醫(yī)藥市場(chǎng)正在逐步建立一個(gè)以價(jià)值為主導(dǎo)的運(yùn)行體系,無論是國家醫(yī)保報(bào)銷藥物目錄的動(dòng)態(tài)更新還是臨床指南的改進(jìn)均需要對(duì)已經(jīng)上市的藥品進(jìn)行系統(tǒng)價(jià)值評(píng)估。國家衛(wèi)計(jì)委衛(wèi)生發(fā)展研究中心牽頭正式啟動(dòng)的中國衛(wèi)生技術(shù)評(píng)估機(jī)制建設(shè)項(xiàng)目更是強(qiáng)調(diào)了醫(yī)藥使用中的循證研究。醫(yī)療大數(shù)據(jù)可為驗(yàn)證新藥上市后在真實(shí)世界中的效果研究提供強(qiáng)大的信息源。可以預(yù)見,醫(yī)療大數(shù)據(jù)在中國的應(yīng)用會(huì)越來越深入。在建設(shè)醫(yī)療大數(shù)據(jù)的過程中,建立數(shù)據(jù)管理和共享的法規(guī)制度,明確醫(yī)療大數(shù)據(jù)中隱私保護(hù)的范圍和標(biāo)準(zhǔn),制定國家醫(yī)院HIS 的國家標(biāo)準(zhǔn)和聯(lián)網(wǎng)技術(shù)規(guī)范將為醫(yī)療大數(shù)據(jù)打好基礎(chǔ)。用開放的態(tài)度允許有償共享不含敏感患者信息的醫(yī)療數(shù)據(jù)庫,可以增加建設(shè)大數(shù)據(jù)的資源。吸引包括學(xué)界和企業(yè)界的研究機(jī)構(gòu)多方參與醫(yī)療大數(shù)據(jù)分析和應(yīng)用會(huì)加速總體數(shù)據(jù)技術(shù)的創(chuàng)新。