王銳 孫小梅 李鵬飛



摘要:為了挖掘和利用醫院信息系統中積累的醫療大數據中的有用信息,用以臨床輔助決策和基礎臨床科學研究,該文設計了醫療大數據研究平臺。通過對醫院現有信息系統的分析,結合臨床醫學和科研的具體需求,利用數據挖掘技術、深度學習技術、大數據可視化技術、自然語言處理技術等模型算法,對醫療大數據進行集成和整合,構建統一的大數據模型和標準,實現醫療大數據的智能應用。在構建的醫療大數據應用平臺中,具體實現了病歷搜索、患者全景視圖、科研項目管理、疾病關系圖譜和特征分布等具體的應用功能。該平臺的應用,讓醫療大數據蘊含的價值得以實現,不僅拉近了臨床醫療實踐與臨床基礎研究之間的距離,而且提高了醫院整體運行的效率。
關鍵詞:醫療大數據;數據挖掘;醫院信息系統;深度學習;臨床輔助
中圖分類號:R42;TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)33-0055-03
開放科學(資源服務)標識碼(OSID):
1 研究背景及意義
隨著醫院信息化的不斷發展,在醫院業務數據庫中,積累了大量的患者醫療數據。這些數據中包含著各種各樣的有用信息,對這些數據加工處理,利用數據挖掘、深度學習等技術,可以實現對這些臨床積累醫療數據的挖掘和利用。構建一個綜合前沿的醫療大數據應用平臺,對醫院積累的醫療數據,以病人為中心進行數據整合,建立統一的醫療大數據的數據標準,將不同廠商間的數據集成到一個統一的數據環境中。通過這種方式,不僅可以解決各個信息系統數據標準不統一的問題,消除信息孤島,還可以通過大數據平臺為醫院臨床輔助決策及醫學科研發展提供有力支持。
2 醫療大數據系統架構
該平臺實現了醫療大數據的數據采集、數據集成和數據治理。在此基礎上,構建適用于醫療大數據的數學模型,從而為醫院管理、教學、科研提供各種個性化的應用。醫療大數據平臺的系統架構如圖1所示。
在醫療大數據平臺架構的底層,將醫院內各個信息系統中的歷史數據及每天產生的增量數據進行集成接入。對各個信息系統中集成接入的數據進行整合,整合的基礎是建立統一的數學模型。在數據集成[1]和數據整合[2]過程中,由于醫療大數據的敏感性,一定要注意保護好病人的個人隱私,對醫療大數據進行脫敏處理。
醫療大數據主要包含患者的基本信息、電子病歷、醫囑信息、護理記錄、檢查檢驗結果以及治療過程等。這些醫療數據信息,主要是用自然語言的方式進行記錄,信息結構非常復雜,如何讓計算機識別和理解這些醫療數據中包含的信息,從而高效地對這些信息進行存儲、分類、檢索、統計、分析和挖掘,是該醫療大數據平臺建設的重點。在本文構建的醫療大數據平臺中,通過自然語言處理技術[3],結合醫療專業術語名詞,將自然語言表達的語義,轉換成結構化的鍵值對。
集成后的數據,還不能實現真正的具體應用,醫療大數據還需要通過一些先進的算法模型來具體實現。具體包括利用數據預處理、文本分析類、機器學習類、模型評估等算法模型實現醫療大數據的可視化展示[4]。利用統計分析、關聯規則、文本聚類、語義分析等技術構造疾病關系圖譜、疾病演變等。利用貝葉斯算法、深度學等[5]技術構建疾病診斷,治療等風險評估模型[6]。
3 醫療大數據平臺技術架構
對系統開發中多種技術架構進行對比評估,Hadoop是一個能對大量數據進行分布式處理的系統。主要由HDFS(Hadoop Distributed File System),MapReduce,Spark和Hbase等組件組成。現在Hadoop技術架構設計[7]已經成為大數據平臺做非結構化數據處理的標準配置,為半結構化和非結構化的醫療大數據提供分布式數據存儲[8]資源。同時,也為自然語言處理,各種模型算法提供分布式計算資源。醫療大數據平臺的技術架構如圖2所示。
Hadoop技術架構設計,可以解決傳統信息化架構中存儲,計算,運維等多方面的效率和穩定性問題。Hadoop技術架構中,可以在不了解分布式底層細節的情況下,開發分布式程序,從而實現利用集群優勢進行高效運算和存儲。其中HDFS為海量的數據提供了存儲,MapReduce則為海量的數據提供了計算。
4 醫療大數據平臺應用場景
在醫療大數據平臺中,主要實現了病歷搜索、患者全景視圖、科研項目管理、疾病關系圖譜和特征分布、知識庫等主要幾個應用模塊,為醫療大數據的應用提供了有力支撐。
4.1 病例搜索
病歷搜索應用模塊中,在基于醫療大數據清洗加工的基礎上,通過多種搜索方式,可以快速檢索出符合不同檢索需求的患者或者患者病歷。病歷搜索可以滿足臨床醫生各種查詢需求,也可以在科研項目中,快速檢索出符合特定檢索需求的患者病歷。病歷搜索應用如圖3所示。
在病歷搜索應用中,提供的功能包括關鍵詞搜索、高級搜索、條件樹搜索。通過這些不同的搜索方式,不僅能提高搜索效率,同時也可以為臨床應用提供復雜條件的搜索。簡單的幾個搜索步驟,就能滿足科研項目立項的可行性分析。
4.2 患者全景視圖
患者全景視圖應用中,整合了同一個患者當前在該醫院的所有醫療信息。包括就診信息、檢查檢驗結果等。可以讓瀏覽者快速掌握患者醫療就診的全貌,以及病情的發展情況。患者全景視圖如圖4所示。
在患者全景視圖中,有一條時間軸,是該患者所有醫療信息的圖形化總覽。通過滾動時間條可以調整數據的范圍。
4.3 科研項目管理
在該科研項目管理應用中,可以進行一站式在線科研項目管理。一鍵創建項目,實現回顧性研究的全程在線管理,極大地提高臨床科研的效率,是傳統科研項目數據收集效率的幾倍。在科研項目管理中,具體的項目管理流程是錄入項目基本信息,納排條件設置,研究指標選擇,項目結果導出,統計分析研究,科研項目管理如圖5所示。
在已建立的科研項目中,還支持對導入的非平臺數據進行結構化。該醫療大數據平臺不僅體現了大數據技術優勢,而且還能夠提高智能數據平臺科研場景的支持力度,靈活高效,擴展性高。
4.4 疾病關系圖譜和特征分布
疾病關系圖譜應用模塊中,可以查看與疾病關鍵詞相關聯的診療關鍵詞,以及關鍵詞間相互關聯的多層級關系網絡。每個節點的大小和統計類型的權重以及分布概率相關,疾病關系圖譜和特征分布如圖6所示。
在疾病關系圖譜中,包含診斷、用藥、手術、檢查檢驗和癥狀五類關鍵詞。任意連線上的兩個節之間代表有數據關聯,鼠標懸浮在節點上,可以查看節點間包含的數據信息,包括具體病歷的統計數據。每個節點允許再次點擊查看該節點的相關數據關系。
4.5 知識庫
在知識庫應用模塊中,主要包括的知識內容有中英文文獻、指南共識、臨床路徑、藥品說明書等。有些文獻可以下載原文,在知識庫首頁整合了所有知識內容,可以根據用戶特征信息進行智能推薦。并且平臺能夠學習用戶對于推薦內容的喜好程度進行深度學習,將更加有用的知識推薦給用戶,醫療大數據平臺知識全庫如圖7所示。
除了知識推薦,還有研究熱點趨勢圖、作者圖譜、臨床試驗等知識內容。
5 結束語
醫院信息化發展積累的醫療大數據,是醫院寶貴的財富。這些醫療大數據能夠有效地挖掘和利用,找出其中蘊含的醫學價值,是極其必要的。本系統結合深度學習與數據挖掘技術,通過深度學習技術,可以智能輔助判斷一些醫療圖像數據和心電圖等檢查檢驗結果數據。通過數據挖掘技術,可以對醫院積累的幾千萬份病歷數據進行智能學習,挖掘出各種有用的信息知識。同時,本系統構建的科研項目管理模塊,為醫學科研工作人員提供了人性化的操作界面,能夠快速高效地建立科研項目,并且通過平臺提取病歷數據,快速實施項目計劃。醫療大數據平臺的開發和應用,為醫院建立一套完整的醫療大數據智能服務,挖掘了醫院的醫療數據資源,拉近了醫學基礎研究和臨床應用的距離,對推進診療水平發展都有重要意義。
參考文獻:
[1] Aponte C,Kasel S,Nitschke C R,et al.Structural diversity underpins carbon storage in Australian temperate forests[J].Global Ecology and Biogeography,2020,29(5):789-802.
[2] Liu T,Chen H Q,Hetz G,et al.Integration of time-lapse seismic data using the onset time approach:The impact of seismic survey frequency[J].Journal of Petroleum Science and Engineering,2020(189):106989.
[3] 李舟軍,范宇,吳賢杰.面向自然語言處理的預訓練技術研究綜述[J].計算機科學,2020,47(3):162-173.
[4] 邵全勇.基于數據可視化技術平臺的開發[J].微型電腦應用,2020,36(1):144-148.
[5] 余傳明,王峰,安璐.基于深度學習的跨語言詞匯對齊模型研究[J].情報理論與實踐,2020,43(9):150-158.
[6] 祁長紅,金濤,曹久敬.集體風險評估模型在醫療設備風險評估中的應用與探討[J].中國醫療設備,2020,35(3):149-151,159.
[7] 梁林森.基于hadoop技術的信息系統用戶體驗智能識別與分析研究[J].中國信息化,2018(1):93-95.
[8] 馮志杰.基于HDStore模型的混合分布式大數據存儲技術[J].無線電工程,2020,50(4):335-342.
【通聯編輯:謝媛媛】