王杰 曹新志
【摘要】目的 本文旨在構建一個安全、可靠、穩定、能同時解決歷史數據和實時數據讀寫速度快、響應效率高的醫療科研大數據挖掘平臺,提高醫生科研效率和能力。方法 采用大數據、知識圖譜、機器學習等人工智能相關技術,通過ETL工具整合多源異構數據,形成臨床科研大數據中心和數據挖掘分析平臺。 結果 建設成全院級科研平臺和三個臨床專病數據中心。 結論 提高科研效率和能力,加速科研成果轉化,提升醫院的高質量發展。
【關鍵詞】大數據;科研平臺;ETL工具;數據分析
本文系2021年江蘇省醫院協會醫院管理創新研究課題《面向挖掘的肺癌數據庫及機器學習算法構建免疫檢查點抑制劑相關胃腸道不良反應的預測模型研究》(課題編號: JSYGY-3-2021-483)研究成果
1 引言
隨著大數據、人工智能等技術的迅速發展,醫療衛生領域已迎來“大數據時代”,正在對科研衛生領域起著積極的作用。為加強健康醫療大數據服務管理,促進“互聯網+醫療健康”發展,充分發揮健康醫療大數據作為國家重要基礎性戰略資源的作用,2016年國務院辦公廳印發《關于促進和規范健康醫療大數據應用發展的指導意見》,文中指出努力建設人民滿意的醫療衛生事業,為打造健康中國提供有力支撐。2018年,《關于促進“互聯網+醫療健康”發展的意見》提出了促進互聯網與醫療健康深度融合發展的一系列政策措施。以上政策文件為健康醫療大數據標準、安全和服務管理制定辦法,鼓勵推進科研大數據應用,提升醫學科研能力,進而推動智慧醫療、智慧醫院的發展與建設[1]。
科研分析、數據統計已經成為臨床醫生日常工作中非常重要的一部分,然而,每天的臨床業務占據了醫生的大量時間,使得醫生在科研方面投入的精力有限。以往在進行科研分析時,需要人工收集大量病例進行篩選,不僅浪費人力和時間而且會造成數據量偏少、數據不完整、結果不準確等問題,嚴重影響科研統計分析,為打破數據壁壘,讓海量的醫學數據為科研、臨床決策支持所用,構建一個數據安全、可靠、高效的醫療科研大數據挖掘分析平臺迫在眉睫。
2 平臺總體架構
構建全院級科研數據中心,主要集成了病人的診斷、檢驗、檢查、病理、用藥以及電子病歷中的入院記錄、病程錄、出院小結等臨床數據。數據的采集、調度、監控通過數據治理平臺進行管控,數據治理平臺能實現可視化配置操作,支持多種數據源,如DB格式、CSV、TXT等文件接口方式[2]。
我院大數據科研平臺以數據倉庫為核心,實現大數據技術在臨床科研領域的落地,平臺的總體架構主要包括:數據層、數據存儲層、接口服務層、平臺應用層。首先,平臺從醫院業務系統中抽取出科研所需數據,繼而利用計算存儲層對抽取的資源進行整合、清洗、轉化,構建疾病模型、知識圖譜,輔助進行統計分析、數據挖掘和疾病預測等科研應用。
2.1 數據清洗 從數據源中抽取的數據不一定完全滿足目的庫的要求,如數據格式的不一致、數據輸入錯誤、數據不完整等,因此有必要對抽取出的數據進行數據清洗。清洗過程需統一統計指標單位、統一統計指標周期以及統一標準的臨床術語等。
2.2數據整合 根據疾病的演變和診療過程,參考HL7 V3 RIM模型、CCR等標準來進行靈活構建模型,同種業務類型的數據進行歸類標準化匯集。整合過程統一編碼、統一字典、統一數據格式,確保數據的一致性和完整性。
由于醫療機構內部的業務系統種類繁多,導致在異構系統的集成上存在很多的問題和瓶頸。平臺通過CDC數據變更捕獲技術,可以讓用戶將數據源服務器上的數據發布到不同的服務器上,并且可以確保不同地點的數據自動同步更新,使得不同的服務器用戶在權限許可的范圍內就可以共享同一份數據了。數據倉庫的建設需要從各個不同的系統獲取數據,平臺通過數據庫復制技術,將生產服務器上的數據發布到中間服務器上,然后由數據倉庫從中間服務器上獲取數據,這樣就保證了數據倉庫進行輪詢時,不會影響生產環境的用戶。
2.3 患者主索引服務 患者主索引服務(EMPI)采用特有的技術和算法,用于全院范圍內患者基本信息索引的創建、搜索和維護,智能的幫助科研人員對病人信息進行有效檢索,獲得完整而準確的病人視圖。
3 平臺建設成果
截止目前大數據科研平臺上已累積經過規范化處理入庫患者數有290余萬例,就診記錄數1000余萬例,已建立起全院級科研數據中心和三個專病數據中心,切實提高了科研質量和效率。
平臺已開發建成了具有“數據概覽、隊列發現、特征提取、數據分析、 智能搜索、隨訪監測、病人360”等功能模塊的信息平臺,科研人員通過數據概覽來了解平臺的醫療數據視圖,每個視圖均可實現列設置、列統計功能以及數據導出功能,熟悉平臺底層數據框架后,即可針對科研需求進行隊列定義、特征提取,最后進行數據分析,達到科學研究的目的。
3.1 隊列定義 平臺提供靈活方便的組合條件進行查詢篩選和多維度的診療數據檢索,可以快速地找到科研病例集,最后通過入選和排斥等集合運算實現研究人群的精確篩選。
3.2 特征提取 支持基準事件的規則設定,基準事件的時間順序、基礎信息、聚合列、計算列等多個組合條件導出數據,且可對需要導出的項目進行函數運算,支持從原始變量生成新的變量,用戶對導出的數據進行自由組合,對導出的數據可移至SPSS、SAS等分析軟件進行科研統計分析,并且平臺支持特征數據的刪除、修改、克隆以及相關數據預覽等功能。
4 討論
臨床科研分析平臺是我院醫療大數據在科研方面的應用落地,在系統建設的過程中,應用ETL技術、主索引管理、自然語言結構化、數據脫敏、機器學習等先進技術,為數據的深度挖掘和共享提供基礎,準確、便捷、高效地服務臨床科研人員,提高科研效率,促進醫療健康事業的發展。
[參考文獻]
[1] 甘偉, 徐明明, 陳聯忠,等. 大數據臨床科研平臺的設計與實現[J]. 中國數字醫學, 2019, 14(2):40-43.
[2] 王持, 李超, 陳旭,等. 面向醫療臨床科研的大數據平臺[J]. 集成技術, 2019,8(5):86-96.