劉嘉慶 李 光
(中國醫科大學附屬第一醫院放療科,沈陽110001)
肺癌是臨床常見的惡性腫瘤之一,嚴重威脅人類的健康。2018年全球新增肺癌患者209萬人,新增比率11.6%,肺癌死亡人數176萬,占所有癌癥死亡患者18.4%。肺癌已成為中國乃至全球發病率和死亡率最高的惡性腫瘤,是名副其實的“癌癥第一殺手”[1]。 由于肺癌早期癥狀并不明顯,一旦發現多為中晚期。盡管,肺癌的治療策略,如手術治療、抗血管生成治療、靶向治療、化療、免疫治療等越來越豐富,為廣大患者提供了全面的個體化治療選擇,但目前肺癌的5年生存率也僅為16.1%[2]。因此,如何早發現肺癌,采取最恰當治療方案,是目前肺癌領域仍亟待解決的問題。
當今,我們正處在一個數據爆炸性增長的時代。大數據在醫療領域的應用和發展極大地促進了醫療模式的革命性變革,有助于擴大醫療資源的供給,降低醫療費用,提高醫療服務效率[3,4]。醫療大數據具有數量多、規模大、多樣化的數據結構、數據呈幾何增長、信息價值高等特點[5,6]。通過構建肺癌過大數據,可掌握省市級肺癌的發病情況、發病特點以及診療情況,將推動肺癌科研水平的提升,進而提高我國各省市肺癌的診療水平。構建省市級肺癌大數據平臺,通過數據的共建共享機制,讓數據匯集、流動、應用起來,在促進肺癌發展的同時,更好地造福于中國廣大患者。
目前省市級醫院基本上實現了病歷電子化,肺癌患者在就診過程中產生了大量肺癌數據,但這些數據基本處于“沉睡”狀態,僅用于病歷的保存,價值有限。各個醫院間的數據相互之間并沒有打通共享,已有的數據沒有發揮它應有的價值。在此背景下,在政府主導下,省市級醫院聯合衛生管理部門、疾病預防控制以及社會醫療保險部門,建立一個多中心、常態化的、共享共建的肺癌專病平臺,將癌癥患者診治過程中所產生的海量醫療大數據進行清洗、轉換、脫敏后,利用大數據的技術手段進行深度分析,提取有價值的信息,輔助臨床醫務人員、公共衛生管理部門對肺癌進行治療和預防,為衛生行政主管部門有針對性地降低肺癌發生率和病死率,提供決策依據[7,8]。
2.1建立數據來源 數據來源主要包括省市級醫院、社區衛生服務中心、疾病預防控制中心等各級各類醫療衛生機構形成的電子病歷、全員健康電子檔案、體檢報告等。
數據內容:(1)患者現病史、既往史、體格檢查、化驗檢查(血常規、 尿常規、 大便常規、 肝功能、 腎功能)、輔助檢查(胸部CT、核磁共振、PET-CT)以及治療情況等數據,特別是影像、病理或細胞學數據。(2)隨訪資料:患者生存時間、生存狀況、復發情況、末次隨訪結果等信息。(3)放(化)療信息,包括放化療方式、劑量、療效等。(4)對原始大數據技術的統計分析數據:將得到每位患者的數據或者所有患者的有效數據進行統計分析,達到直觀的統計圖像。(5)肺癌基因檢測數據。
2.2數據存儲 應用關系數據、非關系數據和分布式數據存儲等形式進行數據存儲,以滿足肺癌醫療數據資源存儲結構特點和未來需求,靜態建設要求。數據存儲應具備高穩定性、高擴展性、異構性、兼容性、易維護性等要求。
2.3數據分析 采用批量、內存及流計算等技術,綜合各類業務邏輯和算法,分層、分類對海量醫療大數據進行在線/離線計算、分析(統計分析、數據挖掘、人工智能等),建立可視化的肺癌醫療大數據的分析模型庫。
2.4應用場景 醫院、社區服務中心、疾病預防控制中心、養老機構、婦幼保健院、衛生計生委、健康相關產業部門。
3.1平臺系統集成方案 可采用MapReduce、Hadoop等程序構建肺癌大數據庫系統,然后對大數據平臺進行訪問、存儲、分析和管理,將數據進行虛擬化,采用openGL 技術繪制肺癌地圖,并按地圖行政區劃進行鉆取[7,9,10]。接著,利用百度地圖公開的 API,將患者的地址轉換為詳細的經緯度,為肺癌地圖的繪制提供準確的數據。集成醫院病歷管理平臺數據,為肺癌地圖模型提供準確、完成的數據的相關海量數據。最后采用聚合算法(Aggregation algorit-hm)、分組算法(Block algorithm)、貝葉斯算法(Baiyes algorithm)等大數據算法,對癌癥患者進行深度分析。
3.2系統模塊組成[11,12]
3.2.1系統登錄 管理系統登錄界面,檢查登錄用戶名、密碼是否為系統合法用戶,必要時進行管理員手機認證功能。
3.2.2病歷錄入 (1)基本信息:肺癌患者住院號、醫保卡號、姓名、年齡、身份證號碼、地址、聯系方式等基本信息。(2)就診記錄:肺癌患者在本醫院的歷次門診、住院就診信息。(3)既往史:肺癌病史以及其他疾病史。(4)治療情況:肺癌治療歷史記錄。
3.2.3化驗檢查記錄 (1)血尿便常規:肺癌患者的血常規、尿常規及大便常規檢查參數。(2)肝腎功能:肺癌患者的肝腎功能檢查參數。(3)影像學檢查:肺癌患者的 CT、 B 超或磁共振檢查參數。(4)病理學和細胞學檢查:肺癌患者的病理學和細胞學檢查參數。
3.2.4患者資料查詢和跟蹤 查詢患者的病歷信息、跟蹤治療情況。
3.2.5數據統計分析 對患者的各項參數進行分析統計并形成圖表。
3.3平臺系統具體參數設置 平臺系統包括13個項目,具體設置如下:(1)既往史:平時健康狀況、糖尿病病史、結核病史、高血壓病史、肝炎病史、其他傳染病史、輸血史、藥物過敏史(臨床表現、過敏藥物)、藥源性疾病、食物過敏史(臨床表現、過敏食物)、食物中毒史(臨床表現、中毒食物)、手術史、外傷史、重大疾病史、預防接種史。(2)肺癌病史:KPS 評分、主訴、現病史、體檢、隨訪醫生、死亡時間生存期、療效評價。(3)血常規:白細胞計數(WBC)、中性粒細胞、淋巴細胞、中值細胞、紅細胞計數(RBC)、血紅蛋白(HGB)、血小板計數(PLT)、生化檢查、總蛋白、白蛋白、丙氨酸轉氨酶、葡萄糖、尿素。(4)尿常規:尿膽原、Neg、酮、血、蛋白質、亞硝酸鹽、白細胞、葡萄糖、比重、pH。(5)大便常規信息:糞便顏色、糞便形態、糞便細胞、糞便潛血、糞膽素、糞便膽紅素、糞便細菌培養加藥敏。(6)肝功能信息:GPT 或 ALT(谷丙轉氨酶)、AST 或 GOT(谷草轉氨酶)、AST/ALT(谷草/谷丙)、GGT(谷氨酰轉移酶)、ALP 或 AKP(堿性磷酸酶)、TBILI(總膽紅素)、DBILI(直接膽紅素)、IBILI(間接膽紅素)、TP(總蛋白)、ALB(白蛋白)、GLB(球蛋白)、A/G(白球比)、LDH-L(乳酸脫氫酶)。(7)腎功能信息:血尿素氮(BUN)、血肌酐(Scr)、血尿素、血尿酸、血尿素氮(BUN)、尿蛋白。(8)肺癌檢查結果:①腫瘤標志物:AFP甲胚蛋白、CEA 癌胚抗原、CA-125糖類抗原12-5、CA-199 糖類抗原19-9、Cyfra21-1細胞角蛋白19片段、NSE 神經特異性烯醇化酶。②細胞學檢查:癌細胞。③病理類型:非小細胞癌(淋癌、腺癌、大細胞癌、混合癌),小細胞癌。(9)影像學檢查:胸部CT、B超、MRI。(10)病理學檢查:肺部腫塊的穿刺活檢病理、手術標本的病理。(11)細胞學檢查:淋巴結穿刺細胞學、肺部腫塊的細胞學、胸水或心包積液等的細胞學染色體。(12)其他檢查信息:①心電圖、頭顱CT或MRI:轉移。②腹部CT或B超:腎上腺轉移、肝轉移、胸水。③胸部 CT:原發灶(位置、大小)、轉移灶、胸水。④骨掃描。(13)治療情況記錄:①治療選擇:化療、放療、靶向治療、介入治療、支持治療、能行治療而放棄治療的說明。②治療后不良反應:胃腸道反應、骨髓抑制、脫發、皮疹。
4.1技術安全 為保證大數據的存儲安全,要從技術層面進行安全保障。首先,可以在建立醫療大數據平臺初期,采用私有云架構,將分布式云存儲技術運用于肺癌大數據平臺,結合對稱密匙和非對稱密匙的加密技術,有效保障醫院醫療大數據集群數據的安全。其次,在處理數據時,通過去除、替換、泛化或者遮蔽,降低數據敏感度,保護患者是識別信息,然后采用加密技術對數據進行進一步的保護。目前多采用 HIPAA Section 164.51法案的脫密機制。另外,從網絡層面設置訪問權限,控制技術人員對數據的訪問,限制非法分子對平臺數據的非法訪問和導出。最后,進行有限的監控機制,采用Ganglia+Nagios分布式監控,實現定制化監控。
4.2管理安全 建立完善的醫療大數據平臺管理使用安全制度并積極落實。醫院定期組織相關人員學習保密法規,樹立牢固的法律意識,培養和增強保密意識。對相關人員進行定期培訓,規范操作流程。將肺癌醫療大數據“化整為零”,將資源進行授權分解,明確每個環節的責任人,提供工作人員的整體責任意識。
基于醫療大數據的省市級肺癌專病平臺的建設,結合專業計算機技術公司在醫學數據醫學數據處理和大數據平臺方面的領先技術,利用真實世界數據,獲得真實世界循證依據,提升肺癌在診療和科研方面的質量與效率;建立藥物評價,規范治療,縮小地區間和醫院間診療差異,惠及廣大患者。衛生行政部門可基于醫療機構診療服務實時數據,利用大數據關聯分析方法可以找出影響醫療服務質量的關鍵環節和因素,以實現對醫療服務行為和質量的實時智能監管。