999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

某三甲醫院患者剖面數據挖掘與分析

2022-12-06 09:05:14高瞻何強趙亮
微型電腦應用 2022年11期
關鍵詞:數據挖掘可視化特征

高瞻,何強,趙亮

(十堰市太和醫院,湖北,十堰 442000)

0 引言

經過多年數字化醫院的發展,目前各個醫院信息系統已經積累了大量、甚至海量的臨床數據、檢驗數據、影像數據以及患者基本信息數據(文中簡稱“患者數據”)等。其中,患者數據主要包含患者年齡、性別、職業、地區、疾病、病史、用藥、花費等屬性,挖掘分析這些數據中蘊含的寶貴信息,將為醫院運營管理優化、患者疾病精準診療分析、患者個性化服務等提供依據。如文獻[1]設計并實現了急性發熱性疾病監測系統,以輔助醫院簡化該病工作流程,提高監測工作效率與質量。文獻[2]提出了傳染病可視分析系統,以直觀分析傳染病的時空模式,交互挖掘不同疾病、地區之間的關聯性和相似性。文獻[3]利用醫院病案首頁數據庫數據,分析醫院住院患者的疾病種類、住院費用、住院天數的年齡分布特征。

本文以醫院現有的醫院信息系統(HIS)、檢驗信息系統(LIS)、電子病歷系統(EMR)等系統數據庫為基礎,根據需求提取有效患者數據。經過數據預處理后,結合相應的數據挖掘規則,篩選出具有顯著性差異的疾病,并實現了基于患者數據的可視化分析系統,簡單、直觀的展示患者數據中的關聯元素和規律,為醫院針對不同的患者特征優化管理和布局提供參考。

1 數據與方法

患者數據挖掘方法如圖1所示,主要分為4個方面內容:數據采集、數據預處理與關聯性分析、數據篩選與挖掘、可視化分析。

圖1 患者數據挖掘方法示意圖

1.1 數據處理

原始數據采集,需要獲取置于醫院內網的HIS、LIS、EMR等系統的數據,出于安全性考慮,通過綁定用于數據挖掘算法的中間服務器IP,設置相應的通信接口訪問數據。本系統展示的數據為醫院2019年門診或住院的患者數據,共計120萬余條。其中,住院患者約10人,分為患者基本信息(見表1)和患者疾病信息(見表2),每條患者基本信息對應一條或多條患者疾病信息,通過患者ID關聯。

數據預處理是大數據挖掘分析的必要工作,主要包含數據清洗、數據變換、數據集成等操作。本文中主要的數據處理操作包含以下3個部分。

(1) 數據完整性篩選。本系統數據皆抽取自院內的多個結構化數據庫,不同數據庫之間對于同一患者數據需要使用患者ID字段進行關聯,首先需要過濾掉重復數據,然后篩選患者關鍵信息嚴重缺失的數據予以刪除。

(2) 數據脫敏。醫院患者數據中包含非常多的個人隱私信息,這類數據泄露可能會造成嚴重的后果[4]。本系統從醫院內網數據抽取過程中已經執行了嚴格的數據脫敏操作。主要包含:采用2次加密的患者ID代替患者姓名和原始ID、去除身份證和聯系方式等字段、截取患者住址信息到地區的粒度等。

(3) 數據集成。數據量大會拖慢系統性能,除了在數據庫中添加索引外,還需要對數據進行集成操作,特征聚集劃分規則根據挖掘目標設計,通常需要覆蓋所有數據,本文聚集型劃分包含:年齡分段、職業分類、疾病分類、住院時長區間統計等,如根據患者年齡小于12歲為童年期,12歲至18歲為少年期等。

表1 患者基本信息表

表2 患者疾病信息表

1.2 方法描述

數據挖掘處理方面,采用Python語言及其豐富的數據處理和機器學習算法庫,能夠高效完成大批量數據的統計分析、聚類、分類等任務。本文對患者數據挖掘的主要目標是借助統計學方法找出與患者各項特征關聯性較強的疾病,如:與職業關聯的職業病、與年齡相關的年期病、與發病時間關聯的季節病等。首先,選取患者特征,根據數據挖掘目標設計特征分段規則,重新進行特征分段并統計各種疾病患者數量;然后,計算各種疾病在各分段上的患者數均值,由于基數較小的疾病不具備統計學意義,大量分段區間為0的數據也會造成誤差,因此通過初篩過濾掉均值小于5的疾病,同時過濾掉高于三分之二以上的分段中數量為0的疾病;最后,采用變異系數計算各類疾病與特征關聯性評分,根據評分進行排序,篩選出Top N種疾病。不同疾病在相同特征分段上的均值差異較大,變異系數能夠較好地體現疾病與患者某項特征的關聯性,計算公式如式(1)~式(3):

(1)

(2)

(3)

大數據可視化方面,基于高性能的Web框架FastAPI,實現了前后端數據高效的異步交互,其性能足以與NodeJS和Go媲美[5],且數據處理和挖掘結果易于組織成JSON格式傳輸。為了便于二次開發和針對性的可視化展示,采用基于JavaScript的開源庫ECharts,可以流暢地運行在PC和移動設備上,能夠展現千萬級的數據量,同時提供了大量交互式組件和圖表用于用戶個性化定制[6]。通過訪問FastAPI中約定好的訪問方式和路徑,前端借助于$.getJSON()函數獲取對應接口數據,完成數據挖掘結果與ECharts組件的無縫銜接,實現高效、流暢的數據可視化渲染。

系統實現方面,采用前后端分離技術設計,以JSON格式進行前后端的數據通信和傳輸。系統主體框架分為三個部分:醫院內網的數據庫訪問模塊、中間服務器數據處理模塊、提供Web服務的前端應用模塊。醫院內網的數據庫訪問模塊負責訪問置于醫院內網的HIS、LIS、EMR等系統的數據庫獲取全面的患者數據;中間服務器數據處理模塊是系統的算法核心層,在Python環境中,實現數據抽取、優化與脫敏處理,并通過上述挖掘算法獲取有效信息為Web服務器提供JSON格式的后端數據接口;前端應用模塊,基于B/S(瀏覽器/服務器)架構,采用Jsp動態網頁設計系統前端界面、JQuery腳本語言訪問接口數據、Echarts組件進行可視化渲染,并通過Apache Tomcat為不同的PC端用戶提供高效、流暢的數據交互服務。

2 數據可視化分析

伴隨醫院信息化、無紙化辦公的興起,醫院患者數據呈現爆炸式增長,這些數據記錄了患者的疾病、診療、用藥、病史等信息。醫院各類系統的應用,導致這些信息相互冗雜,使人們很難在數據層面上直接感知這些數據所傳遞的關聯信息,對于患者數據的挖掘和可視化分析可以有效幫助我們發現數據中隱藏的規律和價值。ANDRIENKO等[7]對可視化關鍵問題和發展途徑展開研究并將可視化方法分為3類:直接可視化、聚集可視化、特征提取可視化。直接可視化,指直接描述數據集中的每個記錄,以便分析人員通過查看可視化展示或交互來提取數據最基本的信息;聚集可視化,通過對數據聚合和概括的方法,改進傳統直接可視化方法,聚集可視化過程可能涉及各種形式的數據抽象,包括聚合、泛化和抽樣,將聚集結果展示給用戶觀察[8];特征提取可視化,針對非結構數據,如文檔、影像等,經過特定算法挖掘和抽取數據特征,形象的展示研究人員所關注的全局特征或局部特征[9]。當面臨大量復雜的數據時,直接可視化展現方式有限,且可能因為過度繪圖和記錄疊加導致視覺混亂,使用戶難以感知和理解眾多視覺元素,可視化系統響應速度通常也會較慢。因此,本系統主要以聚集可視化和特征提取可視化為主。

季節疾病每年在一定季節內呈現發病率升高的現象,除了人們熟知的季節病如:流行性感冒、鼻炎、過敏等,還有許多疾病也具有季節性發病特點。通過挖掘更多的季節性疾病,不僅有助于提醒患者隨季節變遷防患相應疾病,也能夠提醒醫院提前做好同類患者聚集的收治準備工作。針對該問題,本系統在住院患者數據中篩選出變異系數最大的前30種疾病,繪制熱力圖如圖2(a)所示。圖2(a)中顏色越深表示疾病在對應月份發病人數越多,如:1、2月份易發癲癇、腰椎間盤突出、各類肺炎等病;7、8月份惡性腫瘤化療、阻塞性睡眠呼吸暫停低通氣綜合征、病毒性腦膜炎等病來院患者較多。

(a) 篩選出的疾病熱力圖

相同疾病在不同年齡段的治療代價具有一定差異,通過挖掘住院周期與患者年齡關聯性強的疾病,有利于主治醫生為對應患者制定出更加符合實際的治療臨床路徑,從而提高治療效果和節省相關花費。本系統以年齡浮動為2,統計各年齡段不同疾病患者的平均住院時長,過濾掉基數較小的疾病,并選取住院時長大于0的數據計算變異系數,篩選出的疾病繪制成氣泡圖如圖2(b)所示。圖2(b)中容易發現,年齡層與住院周期關聯性強的疾病有:淚小點狹窄、再生障礙性貧血、沖擊治療、惡性腫瘤內分泌治療等。

除了上述可視化挖掘與分析外,針對患者其他基本信息,系統將挖掘結果采用大屏展示模式,通過提取患者疾病、疾病花費、來源、職業、年期等特征,對其關聯因素進行可視化分析,如圖3所示。圖3中各區域圖表通過區域1中地圖模塊聯動變化展示不同來源的患者特征。區域1通過患者住址信息提取所在地區,劃分為省外、省內、市內、各區縣,直觀展示醫院患者在各地區的分布情況、占比、依從系數反映該地區患病數量及關聯性強的疾病;區域2對患者職業進行分類,展示區域1中所選地區不同職業的患者易患的疾病及數量,容易發現腰椎間盤突出和冠心病是許多職業易患的通病、兒童中肺炎和呼吸道感染較多、學生中癲癇和紫癜較多、退休和教師人員中冠心病較多;區域3展示了該地區各類疾病在院的平均花費情況;區域4通過患者年齡劃分為童年期、少年期、青年期、中年期和老年期,統計分析了各時期易患的疾病種類。

圖3 患者數據挖掘與分析大屏

3 總結

醫院信息化、無紙化辦公的發展,使醫院積累了海量的患者數據、診療數據,挖掘這些數據隱含的規律信息、發揮數據寶貴價值,是智慧醫院建設的迫切需求。本文基于醫院現有的HIS、LIS、EMR等系統數據庫,抽取患者信息進行數據處理和挖掘操作,并設計和實現了基于患者剖面的數據分析系統。該系統采用主流的前后端分離技術,挖掘結果基于JSON格式傳輸,前端采用ECharts可視化組件,能夠高效地完成數據加載和可視化頁面響應。

本文基于大量患者數據進行全方位統計學分析,能夠簡潔、直觀地反映患者數據隱含的規律信息,具有突出的應用價值,主要體現在以下幾個方面:首先,基于提取患者所在地區、職業、年齡時期等特征,能夠使醫院醫生和管理層從宏觀上更加充分的了解患者基本情況和特點,為醫院發展布局和個性化診療提供數據支持;其次,分析地域、職業、年齡、季節等因素與疾病的關聯關系,清晰的篩選出地方病、職業病、季節病、年期病等,有助于部分特殊疾病在不同環境下的預防和醫療資源部署;最后,挖掘患者年齡、疾病等特征對住院周期的影響,有助于住院資源的精準調配,同時使患者從客觀角度上認識自己的病情及對相關花費的評估。但本文存在對挖掘結果缺乏深入研究與分析的問題,后期將聯合多名資深醫生繼續研究新的挖掘策略,并結合臨床充分研究和利用患者數據的挖掘結果。

猜你喜歡
數據挖掘可視化特征
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
探討人工智能與數據挖掘發展趨勢
基于CGAL和OpenGL的海底地形三維可視化
如何表達“特征”
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 久久综合伊人77777| 天天综合网在线| 国产精品无码一二三视频| 国产精品私拍99pans大尺度| 国产精品视频猛进猛出| 在线亚洲小视频| 精品视频一区二区观看| 欧美亚洲香蕉| 乱系列中文字幕在线视频| 波多野结衣一二三| 日本www在线视频| 久久国产高潮流白浆免费观看| 日韩一级二级三级| 亚洲国产中文在线二区三区免| 日韩欧美国产精品| 国产美女主播一级成人毛片| 国产精品香蕉在线| 香蕉视频在线观看www| 午夜影院a级片| 制服丝袜一区二区三区在线| 波多野结衣二区| 在线免费a视频| 熟女成人国产精品视频| 亚洲高清无码久久久| 久久夜夜视频| 国产视频欧美| 福利小视频在线播放| 国产免费黄| 国产色网站| 国产成人精品三级| 日韩黄色在线| 日韩AV无码免费一二三区| 欧美精品v欧洲精品| 亚洲国产成人精品青青草原| 欧美激情,国产精品| 亚洲国产AV无码综合原创| 国产亚洲高清在线精品99| 欧美中文字幕一区| 天堂成人av| 91精品情国产情侣高潮对白蜜| 国产精品香蕉在线| 四虎国产永久在线观看| 98精品全国免费观看视频| 伊人成色综合网| 一本综合久久| 欧美综合激情| 99久久国产综合精品2023| 久久男人视频| 国产成人久久综合777777麻豆 | 亚洲视频a| 国产菊爆视频在线观看| 亚洲国产中文精品va在线播放 | 最新无码专区超级碰碰碰| 中文字幕在线视频免费| 免费中文字幕在在线不卡| 成人永久免费A∨一级在线播放| 成人在线视频一区| 波多野结衣的av一区二区三区| 亚洲区视频在线观看| 国产成人啪视频一区二区三区| 日韩精品中文字幕一区三区| 国产精品刺激对白在线| 久99久热只有精品国产15| 午夜福利在线观看成人| 国内精品视频在线| 国产亚洲精| 伊人久久影视| 亚洲中文久久精品无玛| 国产99在线| 超碰色了色| 色偷偷av男人的天堂不卡| 欧美性猛交一区二区三区| 亚洲欧美日韩动漫| 亚洲啪啪网| 亚洲品质国产精品无码| 日韩在线永久免费播放| 午夜高清国产拍精品| 91久久天天躁狠狠躁夜夜| 国产精品大白天新婚身材| 97se亚洲综合不卡| 欧美午夜小视频| 好紧好深好大乳无码中文字幕|