李 洪 徐 華 洪 娜 弓孟春*
產(chǎn)品周期原則對于創(chuàng)新藥品的研發(fā)及生產(chǎn)是一個(gè)非常重要且復(fù)雜的指導(dǎo)原則。藥品的產(chǎn)品周期包括初期的基礎(chǔ)研究,如生化、藥理、動物實(shí)驗(yàn)等,上市前在人體進(jìn)行的臨床研究(1~3 期),以及上市后的各類活動。整個(gè)過程一般會延續(xù)10年或更長時(shí)間,所涉及的藥品研發(fā)費(fèi)用,包括研發(fā)失敗產(chǎn)品的費(fèi)用,平均為26 億美元左右(約182 億人民幣)[1]。因此,將創(chuàng)新藥品的產(chǎn)品周期原則落實(shí)成為每個(gè)時(shí)期具體的計(jì)劃和工作內(nèi)容,對藥品的整體研發(fā)、是否成功上市,以及上市后藥品的后繼發(fā)展具有重要意義。
藥品產(chǎn)品周期的最后一部分是藥品上市后臨床研究(第4 期),這個(gè)時(shí)期的主要工作內(nèi)容包括探討藥品上市后在真實(shí)診療環(huán)境中的安全性、臨床療效,以及對藥品市場準(zhǔn)入的準(zhǔn)備。在這期間,進(jìn)行上市后的臨床研究是其必要和重要的手段之一[2]。由于藥品研發(fā)的費(fèi)用在上市后明顯低于上市前,如何高效低成本地進(jìn)行上市后的臨床研究已成為研究熱點(diǎn)。
與隨機(jī)臨床研究(randomized clinical study,RCT)不同,醫(yī)療大數(shù)據(jù)來源于真實(shí)診療環(huán)境,是指以各種不同形式存在的醫(yī)療數(shù)據(jù),具有數(shù)量大(Volume)、多樣性(Variety)、實(shí)時(shí)性(Velocity)、真實(shí)性(Veracity)特點(diǎn)[3]。雖然有各種各樣的不足之處,應(yīng)用醫(yī)療大數(shù)據(jù)進(jìn)行研究也帶來明顯的優(yōu)勢,包括節(jié)省大量的資料收集時(shí)間(已存在的資料),具有一定的人群代表性(樣本量較大而且來自真實(shí)世界環(huán)境),工作成本(相對RCT 而言)較低。
我們就以下3 個(gè)方面討論探討醫(yī)療大數(shù)據(jù)與上市后臨床研究的關(guān)系:1)上市后臨床研究的定義、分類、目的;2)醫(yī)療大數(shù)據(jù)的特點(diǎn),類型,數(shù)據(jù)清洗過程及技術(shù),優(yōu)點(diǎn)及存在不足之處;3)利用醫(yī)療大數(shù)據(jù)進(jìn)行上市后臨床研究需關(guān)注的實(shí)際操作要點(diǎn)。
上市后臨床研究泛指藥品(或醫(yī)療器械)在得到國家藥監(jiān)部門上市注冊準(zhǔn)許以后所進(jìn)行的臨床研究[4]。這類臨床研究大體可以上分為被動和主動兩種方式。被動方式也可以被解釋為“有條件的上市注冊準(zhǔn)許”的前提之一。美國食品藥品監(jiān)督管理局(FDA)對此的定義是:“FDA 可能在申報(bào)的產(chǎn)品被考慮批準(zhǔn)時(shí)要求其做上市后的研究以保障其安全性及療效(在上市后)繼續(xù)得到以呈現(xiàn)”[5]。主動方式則是主辦方主動地主導(dǎo)進(jìn)行上市后的臨床研究,可細(xì)分為藥企(或醫(yī)療器械公司)為主辦方(company sponsored research)以及臨床研究人員為主辦方(investigator sponsored research,ISR)兩種形式。
上市后的臨床研究的目的可以分為:1)履行對“有條件的注冊準(zhǔn)許”的承諾;2)更好地了解藥品(或醫(yī)療器械)上市后在隨機(jī)臨床研究環(huán)境以外(真實(shí)世界)的安全性,以及長期的療效;3)擴(kuò)大適應(yīng)證;4)不斷地深化其市場,執(zhí)行市場營銷策略和醫(yī)學(xué)計(jì)劃。
治療乙型病毒性肝炎的藥品恩替卡韋在美國的上市是一個(gè)典型的“有條件的注冊準(zhǔn)許”。該藥由百時(shí)美施貴寶公司研發(fā)。因?yàn)槠湓谠缙谘邪l(fā)階段發(fā)現(xiàn)動物模型中的存在安全問題,在2004年得到FDA批準(zhǔn)時(shí)要求百時(shí)美施貴寶公司在恩替卡韋上市后進(jìn)行一項(xiàng)為期10年的國際上市后安全臨床研究(REALM,080 研究)。這項(xiàng)研究入組了全球12 522 例慢性乙型病毒性肝炎和肝硬化受試者。盡管這項(xiàng)上市后臨床研究經(jīng)費(fèi)龐大,時(shí)間跨度大,涉及多個(gè)國家患者,但作為對有條件的注冊的承諾,該公司還是進(jìn)行并完成了這項(xiàng)研究。這是國際上樣本量最大、隨訪時(shí)間最長的一項(xiàng)前瞻性、隨機(jī)、開放標(biāo)簽的觀 察性研究,也是自核苷(酸)類似物抗病毒藥物發(fā)現(xiàn)以來最為重要的研究之一。該研究的目的是觀察及比較不同核苷(酸)類似物治療的長期結(jié)局。研究的主要終點(diǎn)是臨床終點(diǎn)事件(Clinical Outcome Events,COEs)發(fā)生率包括:1)惡性腫瘤;2)HBV感染相關(guān)肝臟疾病進(jìn)展;3)全因死亡。
盡管藥企(或醫(yī)療器械公司)或臨床研究人員可以同為主辦方進(jìn)行主動的上市后臨床研究,探索人群中用藥安全及療效,由藥企(或醫(yī)療器械公司)作為主辦方的臨床試驗(yàn)多為適應(yīng)證內(nèi),而由臨床研究人員發(fā)起作為主辦方的上市后臨床研究則有在超適應(yīng)證的領(lǐng)域開展。
對企業(yè)而言,根據(jù)其產(chǎn)品的性質(zhì)進(jìn)行上市后臨床研究不但在產(chǎn)品的后期可以繼續(xù)探索相關(guān)醫(yī)學(xué)科學(xué)問題,而且,這也是一個(gè)把有關(guān)的臨床專家組織起來的行之有效的方式。經(jīng)驗(yàn)表明,由企業(yè)負(fù)責(zé)經(jīng)費(fèi)并組織上市后臨床研究的做法,讓參與的研究者能對未滿足的醫(yī)療需求進(jìn)行深入的探討是一個(gè)對多方有利的做法。這種做法的研究是上市后臨床研究的主體。
大部分上市后臨床研究為前瞻性研究,雖然不受類似上市注冊臨床研究的嚴(yán)格監(jiān)管,但其執(zhí)行層面上與隨機(jī)對照試驗(yàn)(RCT)非常相似,包括患者的招募、治療、隨訪,分析結(jié)果,以及發(fā)表研究結(jié)果等各階段的工作內(nèi)容。因此這一類前瞻性的上市后臨床研究通常具有費(fèi)用高、時(shí)間長、流程復(fù)雜、總體效率有待提高等RCT 常見特點(diǎn)。
在本研究中,醫(yī)療大數(shù)據(jù)特指已存在的醫(yī)療數(shù)據(jù)庫,多類型的健康信息系統(tǒng)(HIS,EMR,LIS,PACS等)已成為基于真實(shí)世界數(shù)據(jù)的觀察性臨床研究的重要來源。這些數(shù)據(jù)庫不但可以來自多個(gè)不同的源處,也可以根據(jù)研究需求,例如研究的問題及設(shè)計(jì),應(yīng)用于不同場合中[6]。應(yīng)用醫(yī)療大數(shù)據(jù)的其中一個(gè)特點(diǎn)是前期階段需要投入較高的數(shù)據(jù)清洗和整理的成本。即使在信息化技術(shù)比較發(fā)達(dá)的階段,用于數(shù)據(jù)清洗和整理的成本仍相當(dāng)可觀。圖1表達(dá)了從來自醫(yī)院原始數(shù)據(jù)到數(shù)據(jù)可以用于分析階段的一個(gè)簡要的數(shù)據(jù)處理流程。
從圖1可以看到,經(jīng)過大量數(shù)據(jù)處理工作,來自醫(yī)院的數(shù)據(jù)才可以用于分析和研究。這個(gè)任務(wù)是需要一支多學(xué)科的技術(shù)團(tuán)隊(duì)完成的,包括醫(yī)學(xué)、藥學(xué)、計(jì)算機(jī)工程、軟件開發(fā)、統(tǒng)計(jì)等。這些跨學(xué)科的合作也促進(jìn)了醫(yī)學(xué)信息學(xué)(medical informatics)近年來的快速發(fā)展。除來自HIS、LIS、PACS 中的結(jié)構(gòu)化數(shù)據(jù),醫(yī)院的醫(yī)療數(shù)據(jù)通常包括如來自EMR的病例內(nèi)容等非結(jié)構(gòu)化信息,這類文本型非結(jié)構(gòu)化數(shù)據(jù)的處理的手段及技術(shù)比較復(fù)雜,包括自然語言處理(nature language processing,NLP)以及一些專門開發(fā)的從文本中提取信息的算法。此外,來自醫(yī)院信息系統(tǒng)的數(shù)據(jù)和經(jīng)過NLP 處理后的結(jié)構(gòu)化數(shù)據(jù)中,大量的醫(yī)學(xué)術(shù)語尚未標(biāo)準(zhǔn)化,當(dāng)前國際和國內(nèi)已發(fā)布和認(rèn)可了多種醫(yī)學(xué)術(shù)語集用來規(guī)范化這些非標(biāo)準(zhǔn)的醫(yī)學(xué)術(shù)語,例如世界衛(wèi)生組織(WHO)的國際疾病分類(ICD-10 或ICD-11)用來標(biāo)準(zhǔn)化表示臨床診斷術(shù)語[7],ICD-9-CM/PCS 用來標(biāo)準(zhǔn)化診斷或手術(shù)術(shù)語[8],標(biāo)準(zhǔn)化中文臨床藥物編碼NCCD 用來表示藥品相關(guān)術(shù)語,LOINC 用來表示實(shí)驗(yàn)室檢查相關(guān)的術(shù)語[9]。SNOMED CT 則支持更加豐富的語義表示能力,涵蓋大多數(shù)方面的臨床信息,如疾病、操作、微生物、藥物等,經(jīng)過大量的術(shù)語標(biāo)準(zhǔn)化,形成便于計(jì)算機(jī)處理的醫(yī)學(xué)術(shù)語集,創(chuàng)造了中文臨床數(shù)據(jù)大規(guī)模研究分析的基礎(chǔ)[10]。這些技術(shù)的應(yīng)用極大地提高了數(shù)據(jù)處理的速度和準(zhǔn)確性,有利于提升數(shù)據(jù)庫質(zhì)量。

圖1 醫(yī)療大數(shù)據(jù)處理流程——以醫(yī)院數(shù)據(jù)庫為例
相比傳統(tǒng)的臨床研究數(shù)據(jù)獲取方式,醫(yī)療大數(shù)據(jù)的數(shù)據(jù)獲取具有自動化、周期短、人工成本低、更新快速等優(yōu)勢,其對于醫(yī)療大數(shù)據(jù)應(yīng)用在上市后臨床研究以提高其效率是有非常大的吸引力。例如,患者按計(jì)劃入組是進(jìn)行臨床研究工作過程中的一個(gè)非常關(guān)鍵的工作。能否利用醫(yī)療大數(shù)據(jù)找到某些符合要求的醫(yī)院和病患以提高病人入組的速度?由于 醫(yī)療大數(shù)據(jù)的真實(shí)性,醫(yī)療大數(shù)據(jù)也當(dāng)然帶有真實(shí)世界資料的最大痕跡,例如原始數(shù)據(jù)(或信息)中存不同程度缺失(data missing)的情況,醫(yī)護(hù)人員錄入信息時(shí)偶然可能導(dǎo)致的錯(cuò)誤錄入,數(shù)據(jù)預(yù)處理過程中產(chǎn)生的數(shù)據(jù)誤差,算法的局限性導(dǎo)致的一定程度的NLP 識別或信息抽取誤差,以及數(shù)據(jù)編碼過程中產(chǎn)生的編碼誤差等。盡管如此,大數(shù)據(jù)從規(guī)模上可以抵消一部分局限性帶來的分析偏差,相應(yīng)的數(shù)據(jù)質(zhì)檢技術(shù)和數(shù)據(jù)缺失值和異常值處理方法從很大程度上減少了醫(yī)療大數(shù)據(jù)本身局限性對分析帶來的影響。
如何將醫(yī)療大數(shù)據(jù)應(yīng)用于上市后臨床研究中在很大的程度上還取決于藥監(jiān)機(jī)構(gòu)的主導(dǎo)方向,例如FDA 或中國國家藥品監(jiān)督管理局(NMPA)的支持與否。雖然藥監(jiān)部門利用真實(shí)世界醫(yī)療數(shù)據(jù)做藥品安全的監(jiān)查的工作由來已久,但是利用真實(shí)世界的數(shù)據(jù)批準(zhǔn)新藥(或批準(zhǔn)已上市的藥品新的適應(yīng)癥)仍處于一個(gè)非常初級的階段。2019年3月,美國FDA 批準(zhǔn)了哌柏西利(Ibrance)補(bǔ)充新適應(yīng)證,使此藥可以聯(lián)合一種芳香酶抑制劑或氟維司群用于治療男性HR+、HER2-晚期或轉(zhuǎn)移性乳腺癌。美國FDA 此次批準(zhǔn)主要基于美國電子健康記錄數(shù)據(jù),以及IQVIA 保險(xiǎn)數(shù)據(jù)庫、腫瘤大數(shù)據(jù)公司Flatiron的乳腺癌數(shù)據(jù)庫、輝瑞全球安全性數(shù)據(jù)庫收錄的Ibrance 上市后在真實(shí)世界腫的男性患者中的用藥數(shù)據(jù)。這個(gè)批準(zhǔn)有多個(gè)重要的因素促成:1)患男性乳腺癌的病人數(shù)量非常的少。預(yù)計(jì)2019年發(fā)生男性乳腺癌的數(shù)量僅為女性乳腺癌病人數(shù)的百分之一不到,屬(美國)罕見病的范疇。2)若要進(jìn)行常規(guī)的前瞻性臨床研究將導(dǎo)致招募病人有很大的障礙。3)研究從多個(gè)現(xiàn)有的數(shù)據(jù)庫交叉地檢查男女乳腺癌病人對該藥的反應(yīng)是否一致,重點(diǎn)開展了用藥安全性的比較。在這種情況下,美國FDA根據(jù)2016年頒發(fā)的《21 世紀(jì)治愈法案》的精神,運(yùn)用真實(shí)世界數(shù)據(jù)作為其審批決策的依據(jù),批準(zhǔn)了該藥的新的適應(yīng)證。這個(gè)批準(zhǔn)對于括大已存在的醫(yī)療大數(shù)據(jù)的應(yīng)用在世界范圍內(nèi)是一個(gè)里程碑事件。對于將來各國藥監(jiān)部門使用真實(shí)世界資料批準(zhǔn)新的適應(yīng)證具有重要意義。
上述內(nèi)容闡述了醫(yī)療大數(shù)據(jù)及上市后臨床研究的背景和關(guān)系,即將醫(yī)療大數(shù)據(jù)應(yīng)用于上市后的臨床研究中,要做好多方面優(yōu)劣勢平衡:既要利用現(xiàn)存資料庫的方便性,也要考慮到由于資料的缺失對研究結(jié)論帶來的可能的偏移(bias);既要利用醫(yī)療大數(shù)據(jù)帶有的人群和真實(shí)世界的背景,也要考慮到應(yīng)用到上市后臨床研究可能會遇到的倫理和病患隱私的問題。醫(yī)療大數(shù)據(jù)應(yīng)用于上市后臨床研究需注意以下實(shí)際操作問題。
從時(shí)間點(diǎn)和數(shù)據(jù)內(nèi)容來看,數(shù)據(jù)庫建設(shè)之初的設(shè)計(jì)可能與使用的實(shí)際需求存在一定偏差。在這種情況下,若單純從項(xiàng)目角度去檢查這個(gè)資料庫的話,通常存在數(shù)據(jù)的各種質(zhì)量問題。因此,當(dāng)數(shù)據(jù)質(zhì)量存在問題時(shí),勿立刻否定全部數(shù)據(jù)。關(guān)鍵在于該資料庫里是否有研究相關(guān)的信息。
數(shù)量與數(shù)據(jù)庫里的信息完整性這兩者都同等的重要。數(shù)量在一定程度上代表了覆蓋的廣度,體現(xiàn)一定的病人(或病種)的代表性(representativeness)。信息的完整性(data completeness)則代表了數(shù)據(jù)庫的質(zhì)量。從嚴(yán)格意義來說,沒有好的數(shù)據(jù)質(zhì)量無法開展一項(xiàng)有意義的科學(xué)研究。
一般來說,醫(yī)療數(shù)據(jù)庫會有各種不同類型的信息。但是,如前所說,信息缺失是不可避免的。遇到信息缺失時(shí),先要檢查項(xiàng)目設(shè)計(jì)及研究問題,把缺失的情況做細(xì)致的分析,要看看是哪一種機(jī)制造成缺失的情況:1)完全隨機(jī)缺失(missing completely at random,MCAR);2)隨機(jī)缺失(missing at random,MAR);3)非隨機(jī)缺失(not missing at random,NMAR)[11]。對于各種不一樣的缺失信息,現(xiàn)有的文獻(xiàn)提供有不少的解決方案,包括估算缺失值的算法及人工智能(artificial intelligence,AI)學(xué)習(xí)方法。
研究問題是整個(gè)研究的“靈魂”。一個(gè)好的研究問題的定義一定是具有科學(xué)意義且能夠被量化的,并可通過具體的分析方法進(jìn)行實(shí)現(xiàn)的問題。在記算力高度發(fā)達(dá),數(shù)據(jù)獲取相對容易得到的時(shí)代,許多研究者在開展項(xiàng)目之前,往往“忽視”了一個(gè)好的研究問題的提出[12]。因?yàn)檠芯繂栴}可以決定研究的設(shè)計(jì),所需要的關(guān)鍵信息,數(shù)據(jù)收集的方式,信息分析的方法,結(jié)果解讀的范圍;缺乏好的研究問題的研究往往會在一個(gè)“人為地尋找答案”(fishing answers)的“死胡同”里轉(zhuǎn)不出來。
制訂相應(yīng)統(tǒng)計(jì)分析計(jì)劃(statistical analysis plan,SAP)可以使上市后臨床研究的信息得到合適的分析。由于應(yīng)用醫(yī)療大數(shù)據(jù)作臨床研究在分析之前信息已存在,我們應(yīng)該嚴(yán)格遵守一個(gè)原則:在SAP 正式定稿之前,無論時(shí)間多緊迫,都不應(yīng)該動手分析資料。在隨機(jī)臨床研究過程中,有一個(gè)“資料鎖定”的時(shí)間概念。只有在按規(guī)定程序開啟了被“鎖定”的資料,SAP 才會開始啟動分析資料。在用回顧性資料庫做上市后臨床研究時(shí)也可以在研究計(jì)劃上做好相應(yīng)類似的時(shí)間點(diǎn)。
對如何運(yùn)用醫(yī)療大數(shù)據(jù)做上市后臨床研究做好倫理委員會審查,目前在國內(nèi)還處于一個(gè)初步探索的階段[18],并沒有一個(gè)國家機(jī)構(gòu)的統(tǒng)一標(biāo)準(zhǔn)。這里包括不少“灰色”地帶的問題。例如,用已有的醫(yī)療大數(shù)據(jù)做(上市后)臨床研究是否要倫理委員會的審查?用什么標(biāo)準(zhǔn)做審查?如何回答免“患者知情同意書”的問題?醫(yī)料數(shù)據(jù)的所有權(quán)?等等。但是,目前有一點(diǎn)是肯定的,即任何運(yùn)用醫(yī)療大數(shù)據(jù)做研究,包括上市后臨床研究,在開展項(xiàng)目之前都要取得相應(yīng)的倫理委員會的審查和正式的批準(zhǔn)?,F(xiàn)在有許多高影響因子的科學(xué)雜志也對包括回顧性研究在內(nèi)的研究提出了倫理委員會的審查要求。所以,應(yīng)用醫(yī)療大數(shù)據(jù)做上市后臨床研究時(shí)應(yīng)該把研究方案遞交給倫理委員會審查列入工作計(jì)劃中。
1)和任何科學(xué)研究一樣,從研究分析的結(jié)果中只能在類似的人群或工作環(huán)境中推論。2)因?yàn)橛靡延械馁Y料庫做研究時(shí),有些信息的缺失的原因或機(jī)制不明確,而由于這些缺失可能會對結(jié)論造成可能的偏移。所以,對這種分析結(jié)果一定要慎重。
做好上市后臨床研究對創(chuàng)新藥品在注冊批準(zhǔn)以后的良性繼續(xù)發(fā)展具有重要意義。進(jìn)行這種研究的目的很多,但關(guān)鍵問題是如何提高研究的效率,包括時(shí)間、費(fèi)用及代表性等。本研究對應(yīng)用醫(yī)療大數(shù)據(jù)提高上市后臨床研究的效率持有樂觀態(tài)度,認(rèn)為,隨著對提高應(yīng)用真實(shí)世界信息的認(rèn)識和加強(qiáng)這方面的實(shí)踐,特別是藥監(jiān)機(jī)構(gòu)對此持有正面態(tài)度,我們將會在不久的將來看到醫(yī)療大數(shù)據(jù)在上市后臨床研究中的大量應(yīng)用,不僅僅是藥品安全監(jiān)測,而且包括批準(zhǔn)新的適應(yīng)證。本文也就應(yīng)用醫(yī)療大數(shù)據(jù)的六個(gè)實(shí)際操作問題做了討論。