朱仲玲,鄭禹,史業(yè)輝
(天津醫(yī)科大學腫瘤醫(yī)院藥物臨床試驗機構(gòu)辦公室,國家惡性腫瘤臨床醫(yī)學研究中心,天津市惡性腫瘤臨床醫(yī)學研究中心,天津市腫瘤防治重點實驗室,天津 300060)
真實世界研究(real-world study,RWS)是針對預設(shè)的臨床問題,在真實世界環(huán)境下收集及分析現(xiàn)實的醫(yī)療實踐數(shù)據(jù),以獲得真實世界證據(jù)(realworld evidence,RWE)的研究過程[1]。近年來,RWS 受到藥物研發(fā)領(lǐng)域的廣泛關(guān)注[2-5],國家藥品監(jiān)督管理局藥品審評中心已連續(xù)發(fā)布多項指導原則[6-8],用于規(guī)范真實世界數(shù)據(jù)的方法學、明確RWE 的適用范圍。高質(zhì)量的RWS 不僅可用于支持新藥注冊上市和已上市藥品的說明書變更,還可用于指導臨床試驗設(shè)計和精準定位目標人群[1]。標準化臨床科研大數(shù)據(jù)平臺是開展RWS 的重要支持工具[9],可以提供規(guī)范、動態(tài)、實時的多源數(shù)據(jù),保證數(shù)據(jù)的準確性和時效性。
馬來酸吡咯替尼是我國自主研發(fā)的小分子酪氨酸激酶抑制劑[10],2018 年8 月在國內(nèi)上市,與卡培他濱聯(lián)合用于治療表皮生長因子受體2(human epidermal growth factor receptor 2,HER2)陽性、既往未接受或接受過曲妥珠單克隆抗體(單抗)的復發(fā)或轉(zhuǎn)移性乳腺癌患者,或與曲妥珠單抗和多西他賽聯(lián)合用于HER2 陽性晚期乳腺癌的一線治療[11]。本研究在醫(yī)院電子病歷系統(tǒng)的基礎(chǔ)上構(gòu)建了適合RWS的臨床科研大數(shù)據(jù)平臺、乳腺癌專病庫以及吡咯替尼用藥分析科研課題庫,并探討了真實世界中吡咯替尼治療HER2 陽性晚期乳腺癌患者的安全性。
1.1 臨床科研大數(shù)據(jù)平臺構(gòu)建 臨床科研大數(shù)據(jù)平臺分為數(shù)據(jù)湖、全院科研大數(shù)據(jù)中心、專病數(shù)據(jù)庫和科研課題數(shù)據(jù)庫4 個層次。臨床業(yè)務(wù)數(shù)據(jù)首先匯聚到原始數(shù)據(jù)湖,基于臨床知識圖譜和醫(yī)學自然語言處理方法,并結(jié)合人工智能(artificial intelligence,AI)技術(shù)對醫(yī)院原始數(shù)據(jù)進行數(shù)據(jù)清洗、治理和融合,實現(xiàn)數(shù)據(jù)的分層提取、轉(zhuǎn)換、存儲和應(yīng)用,構(gòu)建適合RWS 的患者全生命周期標準化數(shù)據(jù)集,見圖1。

圖1 基于AI 的原始數(shù)據(jù)處理流程圖Fig.1 Flow chart of raw data processing based on AI
1.1.1 基礎(chǔ)架構(gòu) 使用虛擬化技術(shù)Docker 集成微服務(wù)架構(gòu)體系,以面向服務(wù)的架構(gòu)作為基礎(chǔ)性支撐平臺,在平臺提供的技術(shù)以及業(yè)務(wù)組件上,開發(fā)多個管理、檢索、計算和處理醫(yī)學大數(shù)據(jù)的應(yīng)用系統(tǒng)。為了保證數(shù)據(jù)庫的先進性及數(shù)據(jù)的可擴展性,使用Elasticsearch 大數(shù)據(jù)分布式存儲數(shù)據(jù)庫進行混合部署,其基于集群實現(xiàn)分布式存儲,具有很好的容災(zāi)性,在需要實時讀寫、隨機訪問超大規(guī)模數(shù)據(jù)集時,能夠保持性能穩(wěn)定。
1.1.2 自適應(yīng)模式識別和自然語言處理 基于深度學習方法以端到端的學習方式求解序列標注問題,即將“原始數(shù)據(jù)”輸入模型后,模型自動完成特征學習和標簽預測任務(wù)。深度學習模型包含嵌入層、編碼層和解碼層,嵌入層用于獲取文本序列的嵌入表示;編碼層用于文本特征提取和標簽預測,如雙向長短期記憶神經(jīng)網(wǎng)絡(luò)、雙向編碼器表征等神經(jīng)網(wǎng)絡(luò)模型;解碼層用于解析最優(yōu)標簽序列。根據(jù)“嵌入層-編碼層”實現(xiàn)方式的不同,可將深度學習模型分為基于特征和基于微調(diào)兩種。
1.1.3 自適應(yīng)關(guān)系網(wǎng)絡(luò) 將傳統(tǒng)的機器學習方法——條件隨機場和支持向量機結(jié)合,建立實體關(guān)系網(wǎng)絡(luò),通過實體鏈接和消歧將抽取出的實體鏈接到已有的知識庫實體,逐層迭代構(gòu)建實體網(wǎng)絡(luò)。通過標注三元組邏輯關(guān)系,形成網(wǎng)狀拓撲結(jié)構(gòu),更好地挖掘疾病進展的規(guī)律。利用自然語言處理腫瘤治療指南如《中國抗癌協(xié)會腫瘤診治指南》,初建實體概念。對特定類型腫瘤的診斷、分期、手術(shù)、放療、化療、靶向治療、免疫治療等,利用自適應(yīng)關(guān)系網(wǎng)絡(luò)鏈接關(guān)系構(gòu)建醫(yī)療知識圖譜。
1.1.4 針對腫瘤精準細分設(shè)定納排條件 根據(jù)腫瘤細分的適應(yīng)證,對病歷庫設(shè)定納排條件,進行實時的智能化檢索,獲得病歷庫中對應(yīng)的病歷,同時設(shè)置觀察指標和展現(xiàn)形式,得到對病歷中觀測指標的基線統(tǒng)計或者醫(yī)療事件的規(guī)律統(tǒng)計結(jié)果。
1.2 研究對象納入標準 從乳腺癌專病庫中篩選符合納入標準的患者組成吡咯替尼用藥分析科研課題庫。患者納入標準為:(1)年齡≥18 歲的女性。(2)經(jīng)組織病理學證實為HER2 陽性的晚期乳腺癌患者。(3)美國東部腫瘤協(xié)作組(Eastern Cooperative Oncology Group,ECOG)體能狀況評分0~2 分。(4)病歷資料完整,且具有吡咯替尼治療期間血常規(guī)、肝腎功能等檢驗記錄。
1.3 臨床資料收集 收集醫(yī)院乳腺腫瘤中心2022 年1 月至2023 年4 月經(jīng)吡咯替尼治療并符合納入標準的HER2 陽性乳腺癌患者60 例,中位年齡55.5 歲(35~76 歲)。所有患者經(jīng)組織病理學證實為HER2 陽性乳腺癌。所有數(shù)據(jù)收集截至2023 年6 月30日。
1.4 治療方法 馬來酸吡咯替尼片(商品名艾瑞妮,江蘇恒瑞醫(yī)藥股份有限公司),規(guī)格為80 mg。患者按照醫(yī)囑服用吡咯替尼片進行治療,每日1 次,由醫(yī)生根據(jù)乳腺癌治療指南或共識選擇聯(lián)用藥物,治療直至患者疾病進展或無法耐受。
1.5 不良反應(yīng)評估 參照美國國立癌癥研究所不良事件通用術(shù)語標準5.0 版[12](National Cancer Institute Common Terminology Criteria for Adverse Events v5.0,CTCAE v5.0)評估吡咯替尼治療期間發(fā)生的不良事件程度,不良反應(yīng)分為5 級。
1.6 統(tǒng)計學處理 采用SPSS 16.0 軟件進行數(shù)據(jù)分析,納入患者的臨床特征和不良事件情況采用描述性分析,計數(shù)資料用構(gòu)成比表示。
2.1 臨床科研大數(shù)據(jù)平臺的構(gòu)建 第1 層:數(shù)據(jù)湖。獲取醫(yī)院信息系統(tǒng)、電子病歷等臨床診療數(shù)據(jù),做鏡像庫實時同步,同時創(chuàng)建并接入科研所需數(shù)據(jù)相關(guān)視圖,并保留原始數(shù)據(jù)集。第2 層:全院科研大數(shù)據(jù)中心。收集臨床患者數(shù)據(jù)后,將以患者為中心的數(shù)據(jù)集成入搜索引擎中,以倒排索引算法,生成患者詞條。數(shù)據(jù)治理著重非關(guān)系型數(shù)據(jù),以自然語言后結(jié)構(gòu)化為核心,建立醫(yī)學詞條與患者的映射。第3 層:專病數(shù)據(jù)庫。以檢索條件組、專病標簽、治療組等初篩條件形成腫瘤專病庫,每日執(zhí)行篩選條件增量入組。第4 層:科研課題數(shù)據(jù)庫。以課題研究目的為核心創(chuàng)建病例報告表表單,自動抓取患者臨床數(shù)據(jù)與自然語言分析后的病歷、病理、檢驗、檢查等文本內(nèi)容作為研究變量,并提供數(shù)據(jù)統(tǒng)計分析的工具支撐。臨床科研大數(shù)據(jù)平臺架構(gòu)圖詳見圖2。

圖2 臨床科研大數(shù)據(jù)平臺架構(gòu)圖Fig.2 Architecture diagram of clinical research big data platform
2.2 患者臨床特征 共計60 例患者符合納入標準進入吡咯替尼用藥分析的研究,均為晚期乳腺癌患者。中位年齡55.5 歲(35~76 歲)。96.7%為浸潤性導管癌患者。雌激素受體(ER)和(或)孕激素受體(PR)陽性患者38 例,ER 且PR 陰性患者22 例。75%的患者初次診斷時臨床分期是Ⅰ~Ⅲ期(表1)。

表1 60 例患者的臨床特征[n(%)]Tab.1 Clinical characteristics of 60 patients[n(%)]
2.3 吡咯替尼治療情況 51 例(85%)患者初始治療劑量為400 mg,9 例(15%)為320 mg。具體方案:(1)吡咯替尼+化療30 例(50%),化療方案包括:卡培他濱18 例,長春瑞濱3 例,紫杉醇(白蛋白結(jié)合型)2 例,艾立布林2 例,依托泊苷2 例,T-DM1 1例,卡培他濱+長春瑞濱1 例,卡培他濱+艾立布林1例。(2)雙靶+化療:吡咯替尼聯(lián)合曲妥珠單抗/伊尼妥單抗+化療23 例(38.3%),化療方案包括:紫杉醇(白蛋白結(jié)合型)9 例,卡培他濱5 例,長春瑞濱3例,紫杉醇脂質(zhì)體3 例,多西他賽2 例,多西他賽+順鉑1 例。(3)吡咯替尼聯(lián)合內(nèi)分泌治療2 例,方案包括:氟維司群2 例。(4)吡咯替尼聯(lián)合曲妥珠單抗4 例。(5)吡咯替尼單藥1 例。
2.4 實驗室檢查相關(guān)不良事件發(fā)生情況 在真實世界臨床診療中,對于用藥后患者發(fā)生的癥狀性不良事件(如腹瀉、皮疹、疲勞等),醫(yī)師大多僅對其進行描述,不明確不良事件的具體級別,故本文僅收集實驗室檢查相關(guān)的不良事件,并依據(jù)CTCAE 標準進行級別判定。
常見實驗室檢查相關(guān)不良事件(發(fā)生率高于10%)依次為:淋巴細胞減少、谷丙轉(zhuǎn)氨酶/谷草轉(zhuǎn)氨酶升高、貧血、白細胞減少、低鉀、中性粒細胞減少、尿酸升高、高血糖、高甘油三酯血癥。發(fā)生率低于10%的不良事件包括低密度脂蛋白升高、低鈣、高膽固醇血癥、血小板減少、堿性磷酸酶升高和白蛋白減少,以上均為1、2 級不良事件(表2)。

表2 60 例患者實驗室檢查相關(guān)不良事件發(fā)生情況[n(%)]Tab.2 Incidence of laboratory adverse events of 60 patients[n(%)]
標準化臨床科研大數(shù)據(jù)平臺可實現(xiàn)對臨床數(shù)據(jù)、醫(yī)院管理數(shù)據(jù)以及科研數(shù)據(jù)的標準化組織存儲與治理,還支持對原始醫(yī)院數(shù)據(jù)模型、數(shù)據(jù)治理報告、數(shù)據(jù)資產(chǎn)等的管理工作。數(shù)據(jù)平臺利用AI 技術(shù)對海量醫(yī)療數(shù)據(jù)進行篩選、校驗,對非結(jié)構(gòu)化數(shù)據(jù)進行歸一、建模[13-14],并支持快速檢索出符合研究課題基礎(chǔ)條件的患者集合,科研人員可以根據(jù)初篩的患者規(guī)模初步評估課題可行性。若初篩患者規(guī)模符合課題研究要求,可以在平臺上建立對應(yīng)課題的研究項目,并將符合課題要求的患者導入到對應(yīng)的研究項目中,科研人員可以在項目中根據(jù)課題要求對患者集合執(zhí)行精準納排、數(shù)據(jù)提取以及統(tǒng)計分析。
在臨床科研大數(shù)據(jù)平臺的基礎(chǔ)上,筆者建立了吡咯替尼治療HER2 陽性晚期乳腺癌安全性分析的科研課題庫,抽樣50%患者進行臨床數(shù)據(jù)的溯源驗證,傳輸正確率為100%。科研課題庫覆蓋患者360°全息視圖,包含新增患者集、刪除患者集、患者分組、支持自定義納排條件組等設(shè)置,可根據(jù)項目要求和納排條件建立、刪除、更改患者數(shù)據(jù)集,導入相應(yīng)科研項目,并支持患者集手動批量移除。基于強大的字段處理和分析能力,該平臺可僅將吡咯替尼用藥期間異常的實驗室檢查結(jié)果抓取到科研課題庫,大大提高了數(shù)據(jù)獲取和分析的效率。
在乳腺癌真實世界診療中,吡咯替尼聯(lián)合用藥方案多樣[15-16]。本研究顯示,吡咯替尼聯(lián)合化療占比最多(50%),聯(lián)合的化療藥物除了卡培他濱,還可見強效抗微管類藥物(如紫杉醇、長春瑞濱和艾立布林)以及抗體藥物耦聯(lián)物類藥物T-DM1。38.3%的患者使用了吡咯替尼聯(lián)合曲妥珠單抗/伊尼妥單抗的雙靶方案,聯(lián)合的化療藥物多為紫杉類藥物,少數(shù)患者使用了卡培他濱或長春瑞濱。
本研究安全性分析顯示,以吡咯替尼為基礎(chǔ)的治療方案常見的實驗室相關(guān)不良事件為淋巴細胞減少、貧血、白細胞減少、中性粒細胞減少等血液學毒性和肝腎毒性。此外,低鉀、高血糖、高甘油三酯血癥等不良事件也較為常見。以上實驗室檢查相關(guān)不良事件多為1、2 級,3 級不良事件發(fā)生率僅為21.7%,主要為血液學毒性,未見4 級不良事件,與既往文獻報道基本一致[16]。以上結(jié)果顯示,真實世界中以吡咯替尼為基礎(chǔ)的治療方案不良反應(yīng)可耐受。