999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電子病歷數據處理方法研究

2018-12-08 09:29:34余艷霞王燕聞誼
數字技術與應用 2018年8期
關鍵詞:電子病歷數據挖掘信息技術

余艷霞 王燕 聞誼

摘要:本文針對電子病歷數據中存在的數據結構復雜、數據冗余性、數據不完整性、數據不一致性等特點,采取數據抽取、數據清理、數據集成和數據轉換等方法對這些數據進行了處理,旨在提取電子病歷數據庫中有價值的信息并挖掘隱含在其中的醫學診斷規則和模式,從而為疾病的診斷和治療提供科學的、準確的輔助決策。

關鍵詞:電子病歷;數據挖掘;信息技術

中圖分類號:R197.324 文獻標識碼:A 文章編號:1007-9416(2018)08-0035-04

1 前言

近年來,隨著醫療信息系統在我國的不斷普及信息技術在醫學領域不斷發展,很多大中型醫療機構已經構建了相當完善的數據信息系統,積累了大量的電子病歷數據。但是,國內大多數醫院并沒有對數據進行進一步的分析和研究,只是運用傳統的數據檢索和統計方法來對數據進行處理,更多的還是停留在對電子病歷數據的增加、刪除、修改和查詢上,比如說,醫院會根據病人的多次住院情況記錄來進行比較,總體上了解病人的病情發展情況,并未對這些記錄做進一步的分析,來發現其中的規律。這就產生了“數據豐富,但信息貧乏”的現象。電子病歷數據形式含有文字、圖像、影像和切片等,主要還是以文本為主,這些文本包括了病人的基本信息以及患者在醫院就診的相關信息。這些數據中存在大量復雜的、重復的、不完整的數據。如果直接在這些數據進行研究,效果肯定不會很好,甚至會出現結果的嚴重偏差,而醫學研究關系到人的生命和身體健康,因此,需要對這些數據進行處理。只有這樣,才能改進數據的質量,提高數據的利用率,保證結果的正確性和合理性。

在進行數據處理之前,需要對電子病歷系統的結構和電子病歷數據的特點有一定的了解,知道電子病歷系統中的數據結構,如出院記錄、病名名稱和手術記錄等在數據庫中對應的表名等,它屬于哪個表空間,含有哪些字段屬性,還有就是每個字段的類型和長度分別是什么。電子病歷數據的特點如下:

(1)數據不完整性、不一致性。電子病歷中的數據一般會由醫院的醫務人員進行操作,目前國內還沒一套很標準的規范,以至于不同的人會對同一種病描述的不一樣,從而會產生數據的不一致性。其次,電子病歷只是對患者病情的概括性描述,并不能完全表達患者的病情,可能還會產生遺漏,這種情況會造成數據的不完整。

(2)數據結構復雜。電子病歷數據表現的形式很多,有文本類型的,有圖像類型的,還有數字類型。這些形式的使得我們無法以統一的格式對它們進行挖掘,需要采取不同的方法。

(3)數據冗余性。隨著醫療技術的快速發展,每天都會產生大量的數據,這些數據中會存在一些重復的數據。比如說,有些疾病,比如說流行性感冒,患者表現的癥狀還有醫生給出的治療方案一般都很相似,這樣就會造成數據庫中數據的重復,還有就是患者在不同醫院進行就診也會產生重復的數據。這些情況都會造成數據的冗余。

(4)數據隱私性。電子病歷數據包含了患者的所有在醫院進行治療的信息。其中有些信息就屬于病人的隱私,如姓名、年齡、聯系方式、婚姻情況和所患疾病等,在數據處理過程中需要對這些信息進行保護。

下面分別對數據處理常用的方法包括數據抽取、數據清理、數據變換和數據規約等進行研究。

2 數據抽取方法

數據抽取方法的主要目標在從電子病歷數據中找出符合我們要求的特征屬性。考慮到電子病歷數據的數據格式多樣,本文從兩方面對數據進行抽取,具體描述如下:

(1)結構化的數據。對于已經結構化的數據,根據研究的目標從數據庫中找到相應的數據,取出我們所需的屬性的值即可。圖1所示的是從Oracle數據庫中截取的關于病人出院診斷記錄表中的部分截圖,里面包括了患者的ID號,診斷編碼和診斷病名名稱等屬性。

我們可以使用SQL語句從中選出病人的ID號和對應的診斷病名名稱,并對數據格式進行轉換,然后利用算法尋找不同疾病之間的關系。

(2)非結構化的數據。電子病歷中含有大量非結構化的數據,要想在這些數據中挖掘出有效的信息,我們需要將它們轉換為結構化的數據來進行處理。我國的電子病歷共享文檔很多都是以XML文檔的形式存在,這種非結構化的數據形式并不利于我們進行處理和分析。我們需要將XML文檔映射到關系數據庫中。在研讀了一些資料發現,將XML文檔直接映射到關系數據庫并沒有很好的方法。因此,本文所用的科研數據庫采用將XML文檔與對象之間、對象與關系數據庫之間進行映射的方法來解決這個問題。首先,通過對象的序列化和反序列化來實現XML文檔和對象之間的相互轉換,然后,通過對象關系映射(ORM)來實現對象與關系數據庫之間的相互轉化。映射流程如圖2所示。

電子病歷共享文檔結構化需要經過兩個步驟。(1)電子數據抽取:通過XSLT技術,將CDA文檔中的電子病歷數據抽取出來放在一個簡化的XML文檔中。醫療數據包含在文檔中的元素或者屬性當中,這些數的類型和意義已經在關系數據庫表中定義了,因此,只需提取電子病歷共享文檔中的數據,和關系數據庫中表中的字段對應。(2)XML數據映射到關系數據庫:運用Java中對象的發序列技術,將抽取數據后的XML文檔反序列化為Java對象,并且處理好對象之間的關系,然后通過ORM將這些java對象存儲到關系數據庫中。

對于非結構化的文本數據,需要利用自然語言處理技術(NLP)對其進行處理。對文本數據進行處理需要經歷以下幾個步驟:

(1)文本分詞。文本分詞是文本預處理過程中不可缺少的部分,與英文文本中單詞中有空格不同,漢語文本字之間是連續的,所以要想獲取特征詞,就必須對這些文本數據進行分詞是,常用得中文分詞工具有ICTCLAS2015漢語分詞系統、IKAnalyer分詞、庖丁解牛分詞等。本文中運用的是ICTCLAS分詞工具對電子病歷系統中的文本文件進行處理,ICTCLAS由中科院研發,是最早的中文分詞工具,采用C/C++進行編寫。選擇其作為分詞工具主要考慮到以下幾個方面原因:首先,自2000年誕生以來,目前全球用戶已經突破30萬人,得到很高認可;其次,該分詞工具支持許多操作系統,如Linux、Windows。另外,還支持不同的語言進行開發,如C/C++、java等主流語言開發;最后,它可以同時支持中英文分詞。

圖3表示的是電子病歷數據中部分片段截圖。

上述病歷片段在經過ICTCLAS分詞工具分詞后的結果如圖4所示。

(2)去停用詞。文本數據中并不是所有的詞都能代表數據的特征,如“你”、“我”、“他”、“的”、“地”等,這些詞需要從文本中去掉。ICTCLAS分詞工具中會有這些詞的文檔,用戶自己還可以加入自己的一些無關的停用詞。

(3)詞頻統計。這一步非常關鍵。在去除掉停用詞后,剩下的詞就是文本的精華所在,此時,判斷一個詞的重要性就要統計它們在文檔中出現的次數,即詞頻。一個詞在文本中出現的次數越多,則說明這個詞語越能表征這個文本。比如說,在糖尿病的診斷病例中,臨床癥狀會多次出現“多飲”、“多尿”等詞語。這些詞語就可以代表對糖尿病進行診斷的特征。

(4)特征轉換。就是把提取出來的特征轉換為適合算法運行的形式。

3 數據清理方法

電子病歷數據會含有一些不完整的、有噪聲的和不一致的數據,我們需要對這些數據進行數據清理。如在本文研究的電子病歷數據中的出院診斷記錄中在疾病診斷一欄就有許多缺失的數據。這些數據如果直接被用來進行數據處理的話,會很大程度上影響結果,給人產生誤導,所以說對其進行數據清理是十分必要的。

(1)缺省值處理。由于電子病歷系統中數據量特別的大,更新的數據快的特點,會產生很多缺失的數據。如XXX醫院的電子病歷系統中出院診斷記錄中有許多缺省的診斷數據。常用解決缺省值的辦法有忽略元組,這種方法在缺失數據特別少的時候特別有效;在醫學專家的指導下,人工填寫缺失值,該方法效率比較低,很花費時間。本文為了避免缺省數據對算法挖掘效果的影響,采用的辦法就是直接刪除掉缺省的數據。

(2)重復數據處理。在仔細分析了電子病歷數據庫中的表中的數據后,發現這些數據中含有許多重復的或者相似的記錄,比如說,患者中診斷結果中有“高血壓”、還有“高血壓3級”,按照醫學原理,它們屬于同一種病。所以在關聯規則的挖掘中的實驗中,我們把他們都按照“高血壓”來處理,所以刪除“高血壓3級”的記錄,類似的還有“糖尿病”與“2型糖尿病”等等。

4 數據集成方法

電子病歷數據來源十分廣泛,可以來源于某些電子儀器,可以來源醫生對病情的記錄等等,我們需要把這些數據進行整合且進行統一存儲,建立數據倉庫的過程實際上就是數據集成。本文的數據源統一來自ORACLE11G數據庫,數據進行抽取后同樣存于ORACLE11G數據庫。

5 數據轉換方法

電子病歷系統中的許多數據不能直接拿來就能進行關聯處理的,必須在進行挖掘工作前對數據進行變換,所以需要把電子病歷數據轉化為包含項的事務數據格式。電子病歷數據包括數值屬性、類別屬性等。數值屬性如患者的年齡、醫院檢測數據等,我們不可能把每個數值都當作一個項進行處理,這樣會導致數據維度太高,不利于關聯處理,我們需要根據某種標準數據進行區間劃分,不同區間分別對應一個標識。比如對患者的年齡,可以分為3個區間,A1:age<30,A2:3060。對于類別屬性,如出院診斷記錄中病名名稱,它們的值是分類的,比如說診斷結果為心臟病、高血壓等,每一種診斷結果都對應關聯處理的一個項,這樣就可以發現不同疾病間隱藏的關系。

以糖尿病數據為例,在進行數據變換之前,首先通過閱讀適當醫學資料和咨詢醫院專家來確定劃分的標準。本文對9個屬性進行數據轉換如下所示。

(1)年齡:A1:小于30歲;A2:30歲到60歲;A3:大于60歲。

(2)性別:M:男;F:女。

(3)臨床表現:Z1:多飲、多尿、多食和消瘦;Z2:疲乏無力、身體肥胖;Z3:其它。

(4)是否嗜煙:S1:是;S2:否。

(5)是否嗜酒:D1:是;D2:否。

(6)是否空腹:L1:是;L2:否。

(7)血糖含量:B1:血糖含量小于7毫摩爾/升;B2:血糖含量在7毫摩爾/升和10毫摩爾/升之間;B3:血糖含量在10毫摩爾/升和15毫摩爾/升之間;B4:血糖含量大于15毫摩爾/升之間。

(8)視力情況:E1:不正常;E2:正常。

(9)糖尿病類型:I1:1型糖尿病;I2:2型糖尿病。

數據經過這些變換后,就可應用關聯規則算法進行規則挖掘了,來發現這些屬性之間的關系了。圖5表現數據進行數據轉換后的部分結果展示。

6 結語

本文針對電子病歷數據中存在的數據結構復雜、數據冗余性、數據不完整性、數據不一致性等特點,采取數據抽取、數據清理、數據變換和數據規約等方法對這些數據進行了處理,旨在提取電子病歷數據庫中有價值的信息并挖掘隱含在其中的醫學診斷規則和模式,從而為疾病的診斷和治療提供科學的、準確的輔助決策。也就是說,醫院中關于患者的病歷數據中蘊含著豐富的信息和知識,比如說疾病的主要特征、疾病之間隱含的關系以及疾病的發展規律等,這些信息的提取可以在一定程度上幫助科研人員進行醫學研究、輔助醫生臨床診斷,從而促進醫學發展。來發現數據中有用的規則和知識。并且可以利用這些規律去輔助醫生診斷、改善醫院管理、豐富研究內容。快速、有效地從這些的數據中發現隱藏其中的、有用的信息和知識,從而提高醫療水平,因此,對電子病歷數據進行研究無論在科研方面還是在應用方面都很有意義。

參考文獻

[1]郭煜.電子病歷與手寫病歷缺陷比較及對策分析[J].基層醫學論壇,2012,(z1):91-92.

[2]Ravindranath K R. Clinical Decision Support System for heart diseases using Extended sub tree[C]//Pervasive Computing (ICPC), 2015 International Conference on. IEEE, 2015:1-5.

[3]丁衛平,祁恒,董建成,等.基于關聯規則的電子病歷挖掘算法研究與應用[J].微電子學與計算機,2007,24(3):69-73.

[4]胡光闊,王天朝,江曉云,等.基于粗糙集理論的數據挖掘技術臨床應用研究[J].中國數字醫學,2011,06(1):26-27.

[5]王欣萍,李燕.數據挖掘技術于醫學電子病歷系統的應用[J].現代預防醫學,2008,35(13):2450-2451.

[6]Hoogendoorn M, Moons L M G, Numans M E, et al. Utilizing data mining for predictive modeling of colorectal cancer using electronic medical records[M]//Brain Informatics and Health. Springer International Publishing, 2014: 132-141.

[7]Zhongguang Q, Zong-yuan M, Zhao-zhi D. The application of rough set in the Chinese medicine rheumatic arthritis diagnosis[J]. Chinese Journal of Biomedical Engineering,2001,20(4):357-363.

[8]莊軍,郭平,周楊,等.電子病歷數據預處理技術[J].計算機科學,2007,34(3):141-144.

[9]Utama P A, Distiawan B. Spark-gram: Mining frequent N-grams using parallel processing in Spark[C]//2015 International Conference on Advanced Computer Science and Information Systems (ICACSIS). IEEE, 2015: 129-136.

[10]Gui F, Ma Y, Zhang F, et al. A distributed frequent itemset mining algorithm based on Spark[C]//Computer Supported Cooperative Work in Design (CSCWD), 2015 IEEE 19th International Conference on. IEEE, 2015: 271-275.

猜你喜歡
電子病歷數據挖掘信息技術
新一代信息技術征稿啟示
新一代信息技術征稿啟示
新一代信息技術征稿啟示
探討人工智能與數據挖掘發展趨勢
信息技術在幼兒教育中的有效應用
甘肅教育(2020年2期)2020-09-11 08:00:44
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電子病歷保全與認證研究
法制博覽(2016年12期)2016-12-28 13:05:51
基于病種的全結構化病歷模板研發與應用
現階段電子病歷問題的探討及改革
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 精品国产黑色丝袜高跟鞋| 亚洲福利一区二区三区| 自拍偷拍欧美| 一区二区三区精品视频在线观看| 亚洲AV无码一区二区三区牲色| 久久情精品国产品免费| 女同国产精品一区二区| 国产真实乱子伦精品视手机观看| 国产二级毛片| 国产成人综合久久| 国产免费人成视频网| 手机永久AV在线播放| 亚洲精选无码久久久| 国产呦视频免费视频在线观看| 欧美激情,国产精品| 国产96在线 | 女人18毛片一级毛片在线| 成年免费在线观看| 亚洲中文无码h在线观看| 香蕉综合在线视频91| 四虎在线观看视频高清无码| 九色视频在线免费观看| 国产女人在线观看| 国产一区二区三区视频| 无码一区中文字幕| 亚洲AV无码久久天堂| 国产91视频观看| 99国产精品一区二区| 亚洲第一国产综合| 亚洲精品国产乱码不卡| 色综合中文综合网| 国内毛片视频| 欧美精品啪啪| 视频一区亚洲| 亚洲天堂网2014| 五月激情综合网| 天堂久久久久久中文字幕| 国产精品手机在线观看你懂的| 国产特一级毛片| 国产无码高清视频不卡| 国产精品偷伦在线观看| 99久久国产自偷自偷免费一区| 无遮挡一级毛片呦女视频| av午夜福利一片免费看| 日韩福利在线视频| 亚洲精品麻豆| 思思热精品在线8| 色欲综合久久中文字幕网| 国产天天色| 一区二区三区成人| 国产又爽又黄无遮挡免费观看| 久久精品国产999大香线焦| 亚洲欧美日本国产综合在线| 中文字幕在线日本| 99视频有精品视频免费观看| 国产成人久视频免费| 亚洲人成色在线观看| 又猛又黄又爽无遮挡的视频网站| 女人天堂av免费| 久久精品无码国产一区二区三区| 久久动漫精品| 人妻丝袜无码视频| 丁香六月激情婷婷| 亚洲人成网址| 亚洲精品午夜天堂网页| 久久精品女人天堂aaa| 色综合热无码热国产| 欧美一级99在线观看国产| 伊人久久精品亚洲午夜| 亚洲午夜久久久精品电影院| 中文字幕色站| 国产区91| 久久中文字幕2021精品| 四虎国产在线观看| 亚洲系列无码专区偷窥无码| 国产三级国产精品国产普男人 | 色婷婷视频在线| 久久国产亚洲欧美日韩精品| 99手机在线视频| 欧美精品在线视频观看| 欧美精品高清| 亚洲欧美一区二区三区麻豆|