999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電子病歷可視分析的臨床診斷模型①

2016-02-20 06:51:50商金秋朱衛國樊銀亭李偉亨馬翠霞滕東興
計算機系統應用 2016年12期
關鍵詞:數據挖掘可視化分析

商金秋, 朱衛國, 樊銀亭, 李偉亨, 馬翠霞, 滕東興

1(中國科學院軟件研究所 人機交互技術與智能信息處理實驗室, 北京100190)2(中國科學院大學, 北京100190)3(中原工學院 計算機學院, 鄭州450007)4(中國醫學科學院 北京協和醫學院 北京協和醫院 普通內科&信息管理處, 北京100730)

基于電子病歷可視分析的臨床診斷模型①

商金秋1,2, 朱衛國4, 樊銀亭3, 李偉亨1,2, 馬翠霞1, 滕東興1

1(中國科學院軟件研究所 人機交互技術與智能信息處理實驗室, 北京100190)2(中國科學院大學, 北京100190)3(中原工學院 計算機學院, 鄭州450007)4(中國醫學科學院 北京協和醫學院 北京協和醫院 普通內科&信息管理處, 北京100730)

針對當前醫生在臨床診療過程中缺乏系統有效的手段, 以及隱藏在大量電子病歷中的醫學知識沒有得到充分利用的現狀, 研究了利用可視分析和數據挖掘相結合的方法, 輔助醫生進行臨床診療服務. 本文以不明原因發熱疾病為例, 首先對電子病歷進行數據預處理和結構化提取, 然后結合具體需求進行可視組織與分析, 再利用數據挖掘相關算法對患者大量癥狀和發熱原因之間的關系進行學習, 幫助醫生發現病歷中潛在的醫療知識,輔助醫生進行診斷. 在上述工作的基礎上, 構建了一個面向臨床診療的可視分析與輔助診斷框架, 并給出了系統實例加以驗證, 結果表明該系統可以有效的幫助醫生分析不明原因發熱電子病歷內的知識, 有利于進一步的疾病診斷, 縮短了平均確診時間.

電子病歷; 可視分析; 數據挖掘; 輔助診斷

醫療信息化的快速發展不僅提升了醫生的工作效率, 減輕了醫生的工作負擔, 同時也改善了用戶對醫院的滿意度和信任度. 盡管我國許多大中型醫院在醫療信息化平臺建設方面已經有了較快進展, 但是大部分醫院的醫療信息系統僅僅是一種管理工具, 是對醫院日常業務的一種支撐, 未能給醫生提供更為有效的診療服務.

一方面, 目前醫生在臨床診療過程中主要依靠自身的專業知識及經驗積累, 疾病的診治缺乏系統有效的手段, 但由于醫生自身的知識更新速度很難趕上醫學知識發展速度, 在形成診斷結論、制定診療計劃時,仍然需要依賴計算機的輔助支持以提高工作的準確性和效率. 計算機輔助的臨床診療服務通過準確的、有針對性的方式提供給醫生診療建議, 可以提高醫療服務質量和效率. 然而, 當前智能化的臨床診療服務并未得到有效開展, 主要表現在: 醫學知識獲取水平不高、更新滯后; 醫學知識服務水平難以保證海量資源信息的充分利用; 醫療服務環境和用戶人群的復雜多樣性使得傳統的臨床診療服務流程與模式難以滿足廣大用戶的個性化需求.

另一方面, 電子病歷系統的廣泛應用, 產生了大量的電子病歷數據, 但當前基于電子病歷來輔助醫生進行臨床診療的服務卻比較匱乏, 電子病歷僅僅是簡單的記錄了病人的基本情況、體格檢查、用藥情況和病程等, 僅僅是記錄診療過程的作用, 隱藏在病歷中大量的醫學知識和診療經驗沒有得到充分的挖掘和利用.

本文針對以上問題, 以用戶需求為中心, 以不明原因發熱電子病歷為實例, 提出了一種面向臨床診療的可視分析與輔助診斷方法. 主要工作包括: 1)研究了大量臨床診療信息的復雜關聯關系, 特別是不明原因發熱疾病臨床診治的現狀, 給出了一種臨床診療環境下人機協同認知特性; 2)構建了符合特定數據組織方式的可視形態集及自然的交互任務集; 3)利用病歷文件訓練了輔助醫生進行臨床診斷的數據挖掘模型; 4)構建了一個面向臨床決策推理的可視分析與輔助診療框架; 5)給出了系統實例加以驗證. 結果表明本文所述方法能夠為醫療從業人員提供更加便捷的信息利用方式, 輔助其對病歷數據的分析、歸納、整理活動, 減輕醫生對不明原因發熱病歷數據進行分析的負擔, 在醫療診斷過程中提供決策支持服務.

1 相關工作

1.1 臨床決策支持系統

斯坦福大學的Shortliffe等人在20世紀70年代研發的MYCIN[1]是世界上首個功能較全面的臨床決策支持系統, 它能夠輔助醫生對細菌感染病進行診斷和治療, 在MYCIN 系統框架基礎上建立的肺功能專家系統PUFF曾在舊金山太平洋醫療中心使用過一段時間, 也是醫學專家系統首次在臨床得到應用. 近年由Archimedes Model設計推出的IndiGO[2]針對“個體化指導和決策”目標, 利用數學語言分析了臨床、診治和生理學資料, 基于分析結果設計出一個診斷模型, 以及診治方案和人體生理標準. 為了真正實現“個體化指導”的目標, IndiGO 對于每位患者, 選取了30多種不同特征來分析, 這些特征包括既往病史、高危致病因素、過往治療信息以及提示不同疾病的生物標記物,個體化指南也會自動將其推薦的治療費用和醫保報銷范圍進行比較, 這樣可以幫助患者掌握診療費用. Auminence[3]系統對患者既往史、已有癥狀和其他相關資料進行綜合分析, 從所提供的患者資料中搜索與之對應的各個可能的疾病類型及發生的可能性大小.

1.2 病歷數據可視分析

陳湖山針對電子病歷數據研究了可動態配置的集成可視化視圖, 提出了一種分層次的集成視圖動態配置方法[4]; Bui等人采用TimeLine 可視化形態展現各類醫療文檔和醫學影像[5]; 曾志榮利用可視化的方式研究了電子病歷中關系型數據, 通過一系列交互式可視化形態幫助醫生分析病歷[6]; 鄭威琳用具體的可視化形態將病人的歷史醫療信息表達出來, 使得醫生不用讀取、分析醫療報告就可直觀地了解病人的歷史以及健康狀態[7].

1.3 基于病歷數據的數據挖掘

近年來, 數據挖掘結合醫療領域的研究也越來越多, 劉立剛將數據挖掘中經典算法Apriori應用到電子病歷數據中, 挖掘了具有診斷價值的關聯規則, 以此來提高醫生的診斷效率[8]. 張連育等人將不同的數據挖掘算法運用到中醫領域不同問題上, 對比不同方法的結果, 達到了最大化利用某一種方法的效果[9].

利用可視分析和數據挖掘方法相結合的方式幫助醫生整理、組織、分析電子病歷內容的研究也越來越多. 徐天明將LDA主題模型和可視分析方法結合起來分析中文電子病歷語義層面的關系, 利用主題這一語義層面的概念來表達大量文本內容的原始病歷文件,通過計算主題向量內積的方式, 幫助醫生快速理解病歷間的相似性及對病歷進行分類[10].

2 臨床診療環境下人機協同認知特性分析

認知心理學將認知過程定義為由信息的獲取、分析、歸納、編碼、儲存、概念形成、提取和使用等一系列階段組成的, 按一定程序進行信息加工的系統.其中, 信息提取指依據一定的線索從記憶中尋找并獲取已經儲存的信息, 信息使用指利用提取的信息對信息進行認知加工[11]. 臨床診療過程中, 臨床醫生經常會面臨診斷、決策任務, 臨床診療過程中往往需要反復閱讀分析病人病歷. 如何為決策者提供自然的、輔助醫生進行思維決策的可視化形態和交互方式, 對于診斷來說具有重大意義.

人機交互的過程就是人與計算機借助各種符號和動作進行信息雙向交換的過程, 人和計算機系統是交互主體[12]. 作為可視分析的認知主體, 分析決策者一方面需要通過不斷“動手”與機器交互, 完成信息獲取、加工等決策支撐活動, 另一方面還需要不斷“動腦”來分析判斷信息進而決策, 如圖1所示.

圖1 決策分析活動中的人機協同工作模式

從人的認知角度出發, 電子病歷中海量的、具有復雜關聯關系的醫學信息給臨床醫生帶來了信息過載的問題. 計算機在處理速度、存貯容量、數值計算、邏輯推理等方面具有非常明顯的優勢, 但卻無法超越人的大腦在學習能力、創造能力、環境適應能力以及經驗總結和知識歸納等方面的能力. 人機交互過程中,當信息的表現形式與人的認知能力越接近, 人感到認知負擔越小、交互越自然, 相應地對計算機信息加工處理的能力要求也越高. 反之, 當信息的表現形式越接近計算機可處理的計算模型, 信息加工處理過程越簡單, 但卻會增加人的認知負擔.

目前可視分析系統在決策支撐方面的應用注意到了可視分析活動的漸進特點, 提供了漸 進式的使能技術來支持用戶展開深入分析活動, 但仍然較多關注系統的建設成本, 而對人類的閱讀和認知成本關注不夠[13]. 一方面由于缺乏對信息利用過程中大腦思維過程的深入研究, 另一方面缺乏對人在信息利用與分析過程中的交互習慣和方式的研究, 沒有充分利用人們長期生活中已經習得的交互方式和手段, 導致人在信息利用的過程中的思維活動經常被信息搜索和整理等基本活動所打斷, 干擾了思維活動的有效進行. 可視分析的過程可以看作是用戶與數據不斷會話的過程,因此, 自然高效的、對用戶思維活動干擾少的交互方式是降低分析決策者的交互負擔、有效提高可視分析效率的重要手段, 它需要滿足:

① 能真實有效地記錄醫療行為和醫療知識;

② 能很好的組織專家經驗, 支持信息的復用和重組;

③ 能利用相關歷史行為數據和病人診療歷史為分析決策過程提供必要的支持;

④ 能將分析過程與可視化界面關聯起來.

3 基于不明原因發熱電子病歷的可視分析

本文在分析了上述人機協同認知特性的基礎上,針對不明原因發熱疾病實際診療過程醫生的認知負擔,并結合計算機智能化處理數據的高速計算能力, 研究了利用可視分析和數據挖掘方法輔助醫生進行診療活動, 減輕醫生的認知負擔.

3.1 不明原因發熱電子病歷的收集與整理

本文研究過程中所用的電子病歷來自于北京協和醫院普通內科科室, 共288份發熱待查患者病歷, 時間從2012年3月到2015年12月, 其中在出院時確診的有260例, 未確診的有28例, 將260例出院確診患者的病歷作為數據挖掘診斷模型的訓練數據. 根據臨床醫生的醫學知識, 將出院診斷中共29個病因劃分為共四個大類, 分別是: 感染、免疫、腫瘤和其他. 每個患者的病歷包括入院記錄, 出院記錄, 病程記錄三部分. 病程文件記錄了醫生每次對患者的治療過程, 包括做了哪些檢查及用了什么藥; 出院記錄中記錄了患者出院時的診斷結論和醫囑.

3.2 不明原因發熱電子病歷預處理

醫院存儲患者電子病歷的方法通常是采用XML格式存儲在數據庫中, 本文首先采用java工具包dom4j對XML格式的原始病歷文件進行解析, 提取入院記錄中的現病史部分, 對于word、excel等格式的數據先轉換成純文本格式, 再利用NLPIR系統中的中文分詞器進行去停用詞處理, 再以特定符號為分隔符進行斷句處理; 根據醫生提供的癥狀詞典, 采用正向最大匹配算法從文本中提取出<key,value>結構, 其中key的取值為醫生提供的癥狀詞典中的癥狀, value的取值為癥狀key的患者臨床表現, 例如當key的取值為“嘔吐”這一癥狀時, value的值為“有”或“無”; 對于體格檢查中的生理指標, 直接提取其中的具體數值, 最終將原始的病歷文本處理成結構化格式, 如圖2所示,醫生參照原始病歷內容, 利用數據預處理頁面中的工具核對提取結果, 最后將核對過的結構化數據提交到服務器. 這樣的數據格式不僅是本文進行可視分析和數據挖掘的基礎, 也是幫助臨床醫生進行病歷整理和病情討論的參考.

圖2 病歷提取結果截圖

在對病歷中現病史和體格檢查進行結構化提取之后, 利用NLPIR系統中的分詞工具對病歷所有的文本內容進行分詞處理, 該工具在用戶指定了自定義詞典之后, 在完成中文分詞的基礎上, 還能夠對分詞結果進行詞性標注, 如名詞、動詞、形容詞. 在不明原因發熱電子病歷中, 對病人癥狀的描述大多采用形容詞,分析分詞結果中形容詞的使用情況可以幫助實習醫生快速掌握常用醫學術語, 熟悉醫務流程.

3.3 面向不明原因發熱電子病歷的可視化形態

本文基于上述得到的病歷處理結果, 結合不明原因發熱臨床診治的特點及臨床診療環境下人機協同認知特性, 構建了一系列可視化形態.

3.3.1 患者治療過程可視化形態

不明原因發熱患者的住院時間通常是數周到數月的時間不等, 往往要經過多個病程的治療才會出院,在病程記錄文件中, 每次的病程都記錄了當時患者的身體狀況和醫生的治療方法, 如針對哪些癥狀用了哪些藥等記錄, 所以每位住院患者的病程病歷文件中完整的記錄了從入院到出院的治療過程, 但從以文本段落的方式記錄顯示的病程中發現診治規律往往很難,通過可視化形態可以簡單直觀的展現患者的整個診治過程.

圖3 病程數據可視化

如圖3所示, 為某一患者的病程病歷的可視化結果: 圖中每個節點代表一次病程, 右鍵后可以查看本次病程的具體治療細節.

3.3.2 患者病癥描述詞分布比例可視化形態

在一份發熱待查患者的病歷中, 有大量的文本用來描述患者的相關癥狀臨床表現, 標簽云可視化形態將文本中每個詞的出現頻率作為權重, 用特定的布局算法, 在一定空間內用不同的顏色和大小編碼每個標簽, 很直觀的表示出了哪些詞是出現頻率比較高的.如圖4所示, 出現頻率比較高的所占的空間比較大.圖5用柱狀圖的方式顯示了在一份病歷中, 形容詞出現的最多的10個詞的分布情況, 從中可以看出哪些形容詞最多的用在病歷中用來描述病人的身體狀況.

圖4 病歷文本內容可視化

圖5 一份病歷中使用頻率最高的10個形容詞

3.3.3 患者診治過程中體溫變化情況可視化

醫生在患者的每次病程中的都會記錄患者當天的最高體溫, 下圖用折線圖和柱狀圖可視化形態展示了患者從入院到出院的每天最高體溫變化情況, 圖中底部的滑塊可以用來進行篩選日期幫助醫生查看感興趣時間段內的體溫變化.

圖6 患者最高體溫變化情況

3.3.4 患者體格檢查中各項生理指標可視化

為了確診患者發熱的原因, 醫生要對患者進行各項生理指標的輔助檢查, 常見的包括CRP、鐵蛋白, 血壓等十幾項化驗和檢查, 通過對比病人各項體格檢查結果和正常值的高低, 找出可能引起病人發熱的原因,所以各項輔助檢查結果是一種維數比較高的數據, 單純的從病歷文本中分析這些數據的關系顯然對醫生是一個很大的挑戰. 平行坐標可視化形態通過將每一維的數據映射到一個坐標軸上, 使得可以在有限的空間內展示大量數值型數據之間的大小和變化關系, 如圖7所示, 圖中表示的是一位發熱待查患者住院期間輔助檢查結果, 每一條不同顏色的折線代表一天中各個生理指標, 通過觀察同一個坐標軸上數據的波動情況,可以分析哪些檢查結果對于發熱待查疾病的診治有意義.

圖7 一位患者生理指標變化情況

4 基于數據挖掘算法的輔助診斷

針對當前醫生在臨床診療過程中缺乏系統有效手段的現狀, 結合當前計算機在快速運算和智能學習方面的優勢, 充分發揮人機結合的優勢, 以不明原因發熱電子病歷為例, 利用數據挖掘的相關模型從大量的患者病歷中學習眾多癥狀和診治結論之間的內在關系,輔助醫生對新的不明原因發熱患者病因進行診斷.

4.1 訓練數據處理和模型特征選擇

將3.2節中預處理后的病歷文件作為學習模型輸入的原始數據, 根據臨床醫生的經驗和模型的復雜度,結合病歷文件中各個癥狀的分布情況, 從87個癥狀中選擇了26個癥狀作為特征, 如對于發熱這一癥狀, 幾乎在每位患者病歷中都出現了, 對于診斷病因沒有區別性, 不作為模型的特征; 根據癥狀的臨床表現陰陽性, 數值化癥狀的臨床表現, 有設為1, 無設為0. 這樣, 將原始的每個文本病歷結構化為一個帶有分類標簽的多維向量.

4.2 診斷模型的選擇

不明原因發熱患者的出院診斷中往往有多個病因,各個病因的診斷可能性不同, 在數據挖掘領域中這是一個多標簽分類問題. 根據已有病歷數據的特點和規模, 選擇神經網絡算法和決策樹算法對數據進行建模,這樣可以對比分析兩種模型在處理不明原因發熱診斷問題上的效果, 找到適合該疾病診斷的最佳模型, 最后選擇學習效果比較好的模型作為輔助醫生進行診斷的模型.

神經網絡算法的實現選用了基于java的開源框架Neuroph, Neuroph是輕量級的java神經網絡的框架, 可以用來模擬常見的神經網絡架構, 用戶可以模塊化定義需要的網絡結構, 在將訓練數據處理成特定的格式后, 模型會自動進行訓練學習, 直到收斂或迭代指定的次數. 本文選用框架中提供的分類能力較好、學習過程收斂速度較快的多層感知機(Multi-Layer Perceptron)神經網絡模型, 訓練算法采用后向傳播(Back Propagation簡稱BP)算法, 通過輸出后的誤差來估計前一層的誤差,一層一層的反傳下去, 在輸入樣本不斷的刺激下, 改變網絡連接的權重, 以使網絡的輸出逐步接近期望的輸出. BP神經網絡以其非線性映射能力和自適應能力在分類問題上得到了廣泛的應用. 決策樹的學習采用ID3算法, 通過計算每個特征的信息增益選擇分裂節點, 每一次的決策是向樹的底部深度遍歷的過程, 直到遇到葉子節點, 給出數據的分類標簽.

4.3 模型訓練及結果評估

由于出院診斷明確的病歷數量較少, 為了提高模型訓練結果的精度, 模型的訓練采用交叉驗證的方式,將260份出院診斷明確的病例隨機均分成10組, 每輪選擇9組作為訓練數據, 其余的1組病歷數據作為驗證, 進行10輪的訓練和驗證, 最后計算10輪訓練的平均錯誤率. 下圖為最終2個模型的訓練結果, 決策樹和神經網絡的平均錯誤率分別是0.33和0.38, 從圖中可以看出, 整體上決策樹模型的學習效果優于神經網絡模型.

圖8 模型訓練結果對比

在模型訓練結束后, 系統保留錯誤率最低的模型參數, 醫生利用診斷模型頁面中提供的操作方法, 上傳新的病歷后, 模型輸出該病人發熱原因, 供醫生參考.

5 基于不明原因發熱電子病歷可視分析與輔助診斷框架

在以上工作基礎上, 本文開發了基于不明原因發熱電子病歷可視分析與輔助診斷系統, 系統架構圖如圖9所示, 系統分為5層.

圖9 系統架構圖

① 數據源層: 主要負責從不同的數據源以不同的格式讀取原始的電子病歷, 現在各大醫院的電子病歷系統存儲病歷的方式還未統一, 常見的格式如數據庫、word格式、excel格式、XML格式, 純文本格式等,數據源層通過不同的數據接口, 從系統外讀取電子病歷, 將其轉換成純文本的格式, 供數據處理層使用.

② 數據處理層: 對上述處理得到的純文本數據進行基本的去停用詞和標點符號處理, 對相關文本進行分詞處理, 同時基于醫生提供的癥狀詞典, 運用自然語言處理的相關方法從病歷文本中提取癥狀和癥狀描述以及某些生理指標, 如體溫數據, 為后面的可視化和模型訓練做數據準備.

③ 數據組織層: 根據上層可視化形態和交互任務的要求, 將相關數據組織成特定的格式供上層使用,將提取出來的癥狀數據編碼成數值型數據.

④ 可視形態層和模型層: 根據醫生的具體需要, 從可視化組件庫中選擇可視化形態, 利用相關布局算法和投影映射機制, 將數據組織層提供的結構化數據, 用可視化形態展現病歷內的規律和病歷間的關系; 在完成了特征選擇和特征變化之后, 通過數據挖掘中的算法模型學習病歷內不明原因發熱相關癥狀和診治結論之間的關系, 再用學習完成的模型幫助醫生對新病人的診斷.

⑤ 交互層: 提供基本交互任務集, 如平移、旋轉、過濾等, 醫生通過和視圖之間不斷的交互操作, 漸進式的完成可視分析的任務.

6 相關技術

6.1 癥狀提取算法-正向最大匹配算法

癥狀提取的目標是從病歷中的現病史和體格檢查部分中提取醫生對患者臨床癥狀的具體描述, 根據醫生提供的不明原因發熱疾病癥狀詞典, 在病歷文本中搜索癥狀詞典中的詞, 從中找到最長匹配的癥狀以及癥狀的具體表現. 正向最大匹配算法在待搜索中文字符串中, 從左到右掃描中文字符串, 當有與詞典中的詞匹配的字符串時, 暫存該詞及詞的長度, 當整個中文字符串搜索結束后, 取長度最大的詞為最終提取結果.

6.2 決策樹構造算法-ID3

決策樹構造的關鍵是從眾多特征中, 怎樣選擇合適的特征作為根節點以及分裂節點, ID3算法基于信息論中熵的概念[14], 通過計算每個特征的信息增益的方法選擇分裂節點. 下面具體介紹ID3算法的計算過程.

假設訓練數據集為D, 共有m個不同的類別Ci(i=1,…,m),|Ci,D|表示數據D中類別為i的樣本個數, |D|表示訓練集的大小, 則D的熵定義為:

其中pi為D中任何一個樣本屬于類別Ci的概率, 用|Ci,D|/|D|來估計; 假設我們在特征A上對整個數據集進行劃分, 即將A特征作為根結點, A在數據集D中有v個不同的取值{a1,a2,…,av},則特征A可以根據其取值將數據集D劃分為v個不同子集{D1,D2,…,Dv}, 即對于子集Dj的所有樣本在特征A上的取值都為aj,則特征A的熵定義為:

則特征A的信息增益定義為:

同理可以計算數據集D中其他特征的信息增益,最后選擇信息增益最大特征作為根結點; 在A劃分的v個子集上繼續使用上述方法選擇信息增益大的特征作為分裂結點, 直到某個子集中的類別全部一樣, 將類別標簽作為葉子結點.

6.3 標簽云中關鍵詞布局算法

標簽云(word cloud)可視化形態常常用來表達大量文本中出現頻率較高的關鍵有哪些, 通過詞的大小和顏色幫助用戶快速瀏覽文本中的關鍵信息, 常常用來做網站的導航和個人主頁特點展示. 其中, 用來布局的重要參數就是每個詞的權重, 本文中所用的布局算法將每個詞在病歷中出現的次數作為權重, 在完成了詞的權重和標簽云中字體大小、顏色的映射之后, 將詞表和詞表中詞的權重作為算法的輸入數據, 首先隨機的將權重最大的詞放置在某個起點位置, 通常是靠近中間或中央水平線某處, 如果該詞與任何先前放置的詞相交, 移動它, 沿著螺旋上升一步. 重復, 直到沒有交叉點. 下面的偽代碼簡單的描述了算法的流程:

7 應用實例

基于上述研究, 開發了基于不明原因發熱電子病歷可視分析與輔助診斷系統, 如圖10所示, 針對已有的電子病歷數據進行了實例驗證. 系統采用經典的MVC設計模式, 服務器端由java編寫, 前端頁面由html+css+javascript完成, 其中可視化工具選擇了成熟的d3.js和ECharts.js.

圖10 系統可視分析頁面

系統可以直接讀取服務器端后臺中存儲的從HIS系統中導出的XML格式電子病歷, 利用java工具包解析XML, 從中提取中病歷中的現病史、體格檢查等病歷內容, 再利用自然語言處理方法中的正向最大匹配算法從病歷文本中提取患者和發熱相關的癥狀以及該癥狀的具體表現, 最后在瀏覽器中以表格的形式呈現給醫生, 醫生參照原始病歷內容, 核對提取結果, 最后將核對過的提取結果存到服務器端.

同時, 醫生對處理后的病歷, 可以通過可視分析頁面左側的文件目錄選擇要分析的病歷文件, 再選擇相關的可視化形態查看分析病歷內容, 如可以通過病程可視化形態查看每次治療的具體用藥和檢查結果等, 通過折線圖和熱力圖分析病歷體溫和癥狀在治療前后的變化情況; 通過標簽云和柱狀圖分析一份病歷文件中哪些詞出現的頻率最高, 以及哪些形容詞在描述病人體征情況時用的較多. 系統支持在線上傳新的病歷文件, 系統解析后, 返回提取結果給醫生.

圖11 系統輔助診斷頁面

在輔助診斷頁面, 醫生可以利用已經訓練好的模型對新的不明原因發熱患者的病歷進行分析, 系統給出可能的發熱原因; 此外, 醫生也可以從已經處理完成的患者病歷中選擇一部分作為訓練數據, 在線訓練診斷模型, 根據返回的訓練結果, 下一步可以進行診斷或繼續訓練優化模型.

8 結論和展望

本文針對當前醫生在臨床診斷中缺少系統有效手段的問題, 提出了一種以可視分析和數據挖掘方法相結合的方式, 輔助醫生進行臨床診療, 并以不明原因發熱電子病歷為實例進行了實驗驗證. 通過和臨床醫生溝通后確定了關注的癥狀集合, 運用自然語言處理的相關算法對電子病歷進行了預處理和癥狀的結構化提取, 根據不明原因發熱疾病的特點和病歷數據內的規律, 設計了一系列相關的可視形態幫助醫生分析病歷內潛在的規律; 利用數據挖掘相關模型挖掘大量患者癥狀和出院診斷之間的關系, 用計算機的智能對新的不明原因發熱患者的病因給出參考, 在一定程度上減輕了醫生的診療負擔.

同時, 本文的研究內容還存在以下不足: 設計的可視化形態不夠豐富, 交互性還有待進一步的提高;特征選擇和模型選擇還可以采用更加科學有效的方法進行驗證, 模型還可以嘗試更多, 比如隨機森林, 樸素貝葉斯等, 在后續工作中, 收集到更多的病歷后,完善以上的不足, 更好的輔助醫生進行診斷.

1 Shortliffe EH, Axline SG, Buchanan BG, et al. An artificial intelligence program to advise physicians regarding antimicrobial therapy. Computers and Biomedical Research, 1973, 6(6): 544–560.

2 Bellows J, Patel S, Young SS. Use of IndiGO individualized clinical guidelines in primary care. Journal of the American Medical Informatics Association, 2013.

3 agchi S, Barborak MA, Daniels S D, et al. User interface for an evidence-based, hypothesis-generating decision support system. U.S. Patent Application 13/448,607. [2012-4-17].

4 陳湖山.可動態配置的電子病歷數據集成視圖研究與開發[學碩士位論文].杭州:浙江大學,2012.

5 Bui AAT, Taira RK, Churchill B, et al. Integrated visualization of problemcentric urologic patient records. Annals of the New York Academy of Sciences, 2002, 980(1): 267–277.

6 曾志榮.電子病歷中關系型數據的質量分析可視化技術[學位論文].北京:中國科學院研究生院,2012.

7 鄭威琳.病人醫療信息多維可視化表達方法與實現技術研究[博士學位論文].上海:中國科學院研究生院上海技術物理研究所,2014.

8 劉立剛,鐘銳,楊娟.基于興趣度的Apriori 算法在電子病歷數據分析中的應用.江西理工大學學報,2013,34(5):72–76.

9 張連育,呂立.基于策略模式的中醫數據挖掘平臺.計算機系統應用,2010,19(11):5–9.

10徐天明,樊銀亭,馬翠霞,等.面向電子病歷中文醫學信息的可視組織方法.計算機系統應用,2015,24(11):44–51.

11陳為,沈則潛,陶煜波.數據可視化.北京:電子工業出版社,2013.12

12 滕東興,王子璐,楊海燕,等.基于交互式可視組件的分析決策環境研究.計算機學報,2011,34(3):555–565.

13董士海,王衡.人機交互.北京:北京大學出版社,2004.

14 Han J, Kamber M, Pei J. Data Mining: Concepts and Techniques. Elsevier, 2011.

Clinical Diagnosis Model Based on Visual Analysis for Electronic Medical Record

SHANG Jin-Qiu1,2, ZHU Wei-Guo4, FAN Yin-Ting3, LI Wei-Heng1,2, MA Cui-Xia1, TENG Dong-Xing112
(Intelligence Engineering Lab, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)3(University of Chinese Academy of Sciences, Beijing 100190, China)4(School of Computer Science, Zhongyuan University of Technology, Zhengzhou 450007, China) (Division of General Internal, Medicine Department of IT Management, Peking Union Medical College Hospital, Beijing 100730, China)

To help doctors better diagnose diseases, overcome the lack of systematic and effective means in the process of clinical diagnosis and treatment and make the best of the medical knowledge in electronic medical records, a diagnosis model is proposed based on visual analysis and data mining for electronic medical record. Firstly, electronic medical records of fever of unknown origin are preprocessed into structured data by extracting patients’ symptoms. Secondly, the structured data is organized and visualized based on specific requirements. Finally, a diagnosis model is trained to discover the relationship between symptoms and causes,helping doctors find the potential medical knowledge in medical records and assisting doctors to diagnose. A visual analysis and auxiliary diagnosis framework for clinical diagnosis and treatment is designed based on the above analysis. Experiments show that the system could help doctors analyze the knowledge of electronic medical records of unknown cause, which could help doctors diagnose diseases in a shorter period of time.

electronic medical records; visual analysis; data mining; computer aided diagnosis

北京協和醫院杰出青年基金項目(JQ201509);國家高技術研究發展計劃(863)(2012AA02A608);國家自然科學基金(U1304611)

2016-03-21;收到修改稿時間:2016-04-24

10.15888/j.cnki.csa.005465

猜你喜歡
數據挖掘可視化分析
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 69国产精品视频免费| 国产中文在线亚洲精品官网| 欧美亚洲一区二区三区导航| 久久黄色小视频| 国产成人综合网| 色天堂无毒不卡| 精品一區二區久久久久久久網站| 欧美福利在线| 欧美国产日韩一区二区三区精品影视| 免费无码AV片在线观看国产| 久久99精品久久久久纯品| 98精品全国免费观看视频| 亚洲动漫h| 91精品国产情侣高潮露脸| 欧美成人日韩| 久久情精品国产品免费| 小13箩利洗澡无码视频免费网站| 亚洲热线99精品视频| a色毛片免费视频| 54pao国产成人免费视频| 91香蕉视频下载网站| 欧美乱妇高清无乱码免费| 综合色在线| 97国产成人无码精品久久久| 欧美a在线看| 5555国产在线观看| 91区国产福利在线观看午夜| 免费A∨中文乱码专区| www亚洲天堂| 免费av一区二区三区在线| 免费又黄又爽又猛大片午夜| 国产电话自拍伊人| 国产农村精品一级毛片视频| 亚洲人成高清| 婷婷开心中文字幕| 国产一区二区三区精品久久呦| 不卡国产视频第一页| 啦啦啦网站在线观看a毛片| 视频在线观看一区二区| 久久国产精品影院| 国产毛片不卡| 91精选国产大片| 国产成人91精品免费网址在线| 免费在线看黄网址| 国产午夜精品鲁丝片| 自慰网址在线观看| 亚洲美女一级毛片| 亚洲国产欧美中日韩成人综合视频| 国产成人欧美| 久久综合结合久久狠狠狠97色 | 这里只有精品在线| 亚洲侵犯无码网址在线观看| 中文字幕在线免费看| 伊人激情综合| 青青网在线国产| 亚洲精品日产AⅤ| 亚洲一区二区约美女探花| 亚洲Aⅴ无码专区在线观看q| 久久综合丝袜长腿丝袜| 亚洲日韩精品无码专区| 国产精品太粉嫩高中在线观看| 日韩精品无码免费一区二区三区| 日韩一级二级三级| 亚洲欧美自拍中文| 91免费国产在线观看尤物| 一区二区三区国产精品视频| 亚洲高清在线天堂精品| 欧美成人影院亚洲综合图| 国产特级毛片| 全午夜免费一级毛片| 成人亚洲国产| 无码久看视频| 在线播放真实国产乱子伦| 久久伊人操| 国产免费自拍视频| 亚洲无码高清一区二区| 在线va视频| 91久久性奴调教国产免费| 国产原创自拍不卡第一页| 亚洲V日韩V无码一区二区| 亚洲天堂区| 日本高清视频在线www色|