999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文分詞的電子病歷數據挖掘技術

2016-12-07 08:31:52周小茜羅凌云
湖南科技學院學報 2016年10期
關鍵詞:數據挖掘關聯藥品

謝 劍 周小茜 童 凌 羅凌云*

?

基于中文分詞的電子病歷數據挖掘技術

謝劍周小茜童凌羅凌云*

(南華大學 計算機科學與技術學院, 湖南 衡陽421001)

電子病歷中存在海量非結構化數據,其中隱含的信息對于醫學研究與應用均具有重要的意義。文章通過比較各類中文分詞器的優劣,結合詞典擴充技術,挖掘出真實電子病歷中的疾病與藥品信息,并對疾病與疾病、疾病與藥品進行關聯分析,發掘有價值的信息。實驗結果表明該方法是行之有效的。

醫學數據;電子病歷

引 言

眾所周知,巨大的醫學數據中潛在著很多有價值的信息。這些潛在的信息對輔助病例治療和醫學研究的發展具有很重要的意義。但是從目前的狀況來看,多數的醫療機構除了對這些數據做一些簡單的錄入、修改、查詢等操作之外,并沒有進行深入的分析,使得這些醫學數據中隱含的價值并沒有被充分利用。如果不去發掘這些數據中的價值,不管對醫學還是對于學術研究來說,都是一種很大的損失。

目前數據挖掘技術正逐漸趨向于成熟[1,2],對于上述的情況,如果能夠將數據挖掘技術應用在醫學信息挖掘中[3],通過分析海量的醫學數據,總結病例就診過程中接受過的各種治療所產生的療效,挖掘出其中隱含的各種有意義的信息[4,5],可以為醫務人員對相關病例的醫療計劃的制定提供非常有用的幫助,為醫學智能輔助系統的設計實現提供支持[6-8]。

1 電子病歷

病歷是病人在醫院就醫過程中的全部記錄,病歷中不僅包含病人的年齡、性別等個人信息,還包含醫院的診斷、檢查結果、治療方法記錄等等醫療信息。傳統的病歷都是由人工手寫在紙質病歷本上,雖然對同一個診斷醫生來說書寫閱讀方便,但隨著醫療水平的進步,傳統的病歷暴露出很多的弊端,如記錄信息不完整、遺漏,手寫筆跡不工整難以識別等,則當主治醫生換成其他人或者病人住院需要轉院時,新接手的醫生從紙質病歷本中得到病人的診斷檢查信息可能會存在很大誤差或遺漏,造成誤診或者需要重新診斷而浪費大量時間和資源。

現如今,醫院都采用電子病歷存儲病人的信息,與傳統病歷相比,電子病歷具有記錄完整、查閱方便、傳輸快、存儲量大等優點。文章所用的病歷采用word文檔的格式存儲,其內容包括:病例特點、擬診討論、病例分型、診療計劃、查房記錄。雖然病歷文檔有一個整體的結構,但其中的詳細文本內容還是由醫務人員主觀錄入,是無結構的數據,以下是某個病歷中的一次查房記錄:

2015-01-24 09:12XX主任查房記錄

今隨XX主任醫師查房,患者訴右下肢浮腫,查體為輕度凹陷性水腫,無畏寒發熱及頭暈、頭痛、視物模糊、惡心、嘔吐、胸悶、胸痛、氣促等特殊不適,大小便正常。查體:腋表36.7℃,脈搏84次/分,呼吸19次/min,血壓110/70mmHg。右下肢有輕度凹陷性水腫。神清,全身皮膚鞏膜無黃染,淺表淋巴結未捫及,雙肺呼吸音清,未及明顯干濕啰音。心率64次/分,律齊,無雜音。韋兵主任醫師查房后示:(1)按心胸外科護理常規,予以普食,監測脈搏、血壓、心率;(2)完善常規檢查:三大常規、肝腎功能、血氣、電解質、血糖、肝炎免疫、HIV、梅毒、定血型、胸部CT、頭顱CT、腹部彩超、心電圖、肺功能、纖支鏡等;(3)暫予以“注射用細辛腦”解痙化痰、“苦碟子注射液”改善循環、“注射用香菇多糖”、“消癌平注射液”抗腫瘤、“鹽酸氨溴索”、“環磷腺苷葡胺”護心、“阿加曲班注射液”抗動脈閉塞。因患者之前檢查結果回報有白細胞數目減少,加用“重組人粒細胞刺激因子”促進粒細胞增加。遵執,繼觀。

電子病歷中潛藏的知識是非常具有研究和實用意義的,例如,發掘出哪個地域處于什么年齡段的病人容易患上什么病;病人在治療過程中一直出現的癥狀或發病規律;預測癥狀的發生等等,如果能挖掘出病歷文本中潛在的價值或者規律,有利于輔助醫療診斷系統的構建,給病人帶來福音。

2 病歷文本分詞

目前網絡上的中文分詞工具很多[9,10],也應用在了很多方面,如搜索引擎、手寫輸入識別、語音識別分詞、微博分詞等[11-14],但是在醫學文本中,存在許多的醫學專用詞,如藥品名稱、疾病名稱、組織器官名稱等,如果直接將分詞工具用來處理病歷文本分詞,分詞正確率和識別率會大大降低,所以有必要采取方法來解決醫學專用詞的識別。

選取上一節中的病歷來進行分詞測試。選取這段記錄的原因是,該文本中包含人名、醫藥名稱、醫學單位、人體體征等詞,這些詞對各分詞工具來說都屬于新詞,選用這段文本可以用來測試各分詞工具對新詞識別的正確率。

2.1中文分詞器比較

對結巴分詞、庖丁分詞、斯坦福分詞器Stanford Segmenter和中科院分詞系統ICTCLAS進行測試[15],對比分詞結果可以發現:

(1)結巴分詞速度最快,Stanford Segmenter的運行時間最長,因為結巴分詞雖然也是基于統計的分詞方法,但是結巴分詞工具已經在程序中直接寫出了訓練之后的模型,而斯坦福分詞器沒有,所以運行之前需要先進行花費時間多的訓練。

(2)庖丁分出的詞量最多,因為庖丁將文本中相鄰之間所有能組合出的詞都切分出來,因此庖丁分詞工具適合搜索引擎分詞而不適合用作文本數據分析前的分詞。

(3)結巴分詞不能很好的識別出時間,如“2015-01-24”切分成了“2015/ - /01 /- /24 ”。

(4)選取的文本中間存在“注射用細辛腦”、“苦碟子注射液”、“注射用香菇多糖”、“消癌平注射液”、“鹽酸氨溴索”、“環磷腺苷葡胺”、“阿加曲班注射液”,共七個藥品名稱,從測試結果中可以看出,結巴分詞、Stanford分詞和ICTCLAS分詞都沒有將這七個詞識別出來,對比之下只有庖丁分詞的測試結果中完整的切分出了這七個詞。而鑒于文本中上述七個詞都有雙引號包括,為了判斷庖丁是否真的能切分出藥品名詞,將包含上述幾個詞的句子去掉特殊的雙引號之后,庖丁和其它三種分詞工具一樣,并不能與第一次測試結果一樣完整的識別出某一個藥品名稱。

總而言之,雖然這四個分詞工具能在自然文本或者說人們經常使用的文本中有不錯的分詞效果和較高的正確率,但是對于擁有很多專業用語的醫學文本處理,如果使用自帶的詞典,各個分詞工具都不能達到比較理想的效果,所以有必要使用分詞工具提供的自定義詞典功能進行詞典擴充。

2.2詞典擴充技術

如果把病歷中的藥品作為數據挖掘感興趣的知識,例如說,要提取出病人在每個階段(醫生查房記錄)接受治療使用過的藥品,則必須在提取信息之前,在對數據預處理的過程中將各藥品名詞準確的切分出來,而在上述測試中,雖然庖丁切分出了各藥品名稱,但也僅能切分出雙引號括起來的詞,事實上,使用各分詞工具默認的詞典,四個分詞工具都不能完成對藥品名稱的識別,但它們都提供用戶自定義詞典的功能,因此,我們考慮使用藥品名詞集對分詞詞庫進行擴充。

但目前網絡上并沒有包含藥品名稱的詞典可供直接使用或者下載,所以藥品詞匯的獲取只能采用其它的方法,如網頁數據爬取。

2.2.1網頁數據提取。客戶端發出目標URL地址請求,服務器端會返回相應的靜態頁面,而這個靜態頁面中就包含了需要的藥品詞匯。

包含藥品最全的莫過于國家食品藥品監督局的數據庫了,雖然沒辦法直接提取國家藥品監督局的數據庫內容,但監督局的網站提供了數據查詢服務,藥品數據查詢結果在瀏覽器顯示內容如圖1。

共查詢到18955條藥品數據,包括國產和進口的藥品,而屬于不同的藥品生產公司但同名的藥品只占一條記錄,意味著這18955條數據不重名,我們提取這18955條數據中的藥品名稱來擴充分詞詞典,而不關心其生產的公司或者來源。

第一步,使用瀏覽器查看頁面源代碼,包含數據記錄的網頁源代碼示例如下:

仔細觀察源碼,各條記錄用標簽對包圍,且可以判定width="241">XXXX所有這樣格式的字符串中間包含的XXXX就是要提取的藥品名詞。文章采用Java來爬取數據,上述的模式對應的Java正則表達式是String PATTERN = "width="241">([^<]+)",其中“()”包圍的內容就是藥品名稱。提取整個頁面中的所有藥品名稱并寫入文件。

第二步,上述過程只能提取一個頁面的內容,而查詢結果有1264個頁面,手工翻頁提取的話工作量大效率不高,通過查看頁面地址,發現地址中有個page字段控制頁面,其它的內容都一樣,所以建立一個循環每次改變page后面的值之后再發送URL請求就可遍歷所有頁面。這樣就提取出了網站收錄的所有藥品名稱。

圖1.國家食品藥品監督局網頁內容

2.2.2自定義用戶詞典。根據測試,新詞識別效果最好的是中科院分詞器ICTCLAS,而且ICTCLAS支持用戶在自定義詞典中添加詞性標注功能,所以選擇ICTCLAS分詞器來進行病歷文檔的分詞工作。首先采集ICD10提供的比較全的疾病名稱以及前文爬取到的藥品名稱自定義詞典。疾病名稱采用add_disease做標注,藥品名稱采用add_nz做詞性標注,自定義詞典如圖2。

圖2.自定義詞典部分

最后,使用ICTCLAS 2015分詞器提供的ICTCLAS-tools.exe工具在脫機狀態下導入自定義的詞典。

3 病歷文本信息分析

對病歷文檔進行數據挖掘與分析,其大致流程如圖3所示。

圖3.病歷文檔分析流程

首先,使用擴充詞典后的分詞工具對病歷文本進行分詞操作,得到帶有詞性標注的文本。其次,進行信息的提取與分析。

3.1信息提取

(1)提取疾病與藥品名稱。對分詞后的文本操作,提取出其中所有以add_disease和add_nz標注的詞匯,得到的疾病與藥品名稱形式如表1:

表1.疾病與藥品名稱形式

疾病1疾病2...疾病n藥品1藥品2...藥品n 病例1肺結核球肺膿腫甲鈷胺注射液甘露醇注射液 病例2冠心病高血壓胃竇糜爛苦碟子注射液紅花黃色素氯化鈉注射用丹參 ... 病例n

(2)將提取出的上述形式的數據存入關系型數據庫中,但是對于不同的病例,所患疾病以及對應的治療藥品可能各不相同,而且同一個病例,可能還患有其它的多種疾病,由于這種特殊性,將上述表格拆分為數據庫中三個表格,數據庫設計如圖4所示。

圖4.數據庫設計

圖4中病例表的設計忽略了病例的性別、年齡等其它個人信息。將提取到的信息以如上的形式存入數據庫中。到這一步,摒棄了病歷文本中的一些次要或者不相關的信息,得到了有結構的關系型數據如圖5所示。對于這樣的數據,人們可以很方便的使用數據挖掘技術或工具來進行下一步的分析。

圖5.提取的疾病表(左)與藥品表(右)(部分)

3.2數據挖掘關聯分析

使用數據挖掘技術中的關聯分析法來分析上節提取出來的數據,關聯分析使用支持度和置信度兩個度量,支持度用來選取出同時出現多的項集,而置信度則用來度量規則X→Y關聯的可信度。通過計算各項關聯的置信度和支持度,與預先設定的閾值相比較,判斷兩個或多個項之間的關聯是否成立。例如,對于如下表的例子,疾病用D+數字表示,藥物用M+數字表示。

表2.病歷數據樣例

病例疾病集藥物集 1{D1}{M1} 2{D1,D2}{M2,M3} 3{D2}{M1,M2,M4} 4{D2,D3}{M5,M2} 5{D2,D4}{M6,M4}

上述共有五個病例,考慮{D2}→{M2}的關聯規則,則其支持度為:

S({D2}→{M2}) = {同時包含D2和M2的病例數量}/{所有病例數量}=3/5。置信度為: C({D2}→{M2})={同時包含D2和M2的病例數量}/{包含D2的病例數量}=3/4。預先設定支持度與置信度的最小閾值minSup和minConf,從所有的病例項中,利用算法提取去所有支持度大于或等于minSup的關聯規則,再計算這些規則的置信度,如果某條規則的置信度C也大于或等于minConf,則可以認為這條規則是成立的,而這條規則中的疾病和藥品相關聯,也就是說其中的藥品對這些疾病有治療效果。例如,對于上述的關聯規則{D2}→{M2},如果s=3/5>=minSup,c=3/4>=minConf成立,則認為藥品M2對疾病D2有治療效果。

同時,如果使用上述的分析方法,不考慮藥品集,只對疾病集進行關聯分析,可以得到某些疾病與疾病之間的關聯關系,也就是能得出患者患有某種病的同時會患有的并發疾病。采用部分數據進行分析測試過程及結果如圖6所示:

圖6.從病歷中提取出的部分疾病數據

數據關聯分析過程采用weka分析工具,輸入的數據格式如圖6,每一行表示一個實例,這里表示一個病例,每一列代表一種屬性,表示一種疾病,如果病例未患有該疾病,則使用空白格表示。

采用關聯規則挖掘的Apriori算法,各步驟如下:

(1)從包含屬性值數量為1的候選集中選出支持度大于minSup的候選集L1;

(2)將L1中的候選集兩兩組合,仍然選取出其中支持度大于minSup的候選集L2;

(3)再將L2中的候選集兩兩組合,繼續選取出其中支持度大于minSup的候選集L3:

(4)不斷將上一步產生的候選集中的每一行兩兩組合,并選取出其中支持度大于最小支持度的屬性集合,直至不能產生新的候選集。最終結果如圖7所示。

圖7.關聯規則挖掘的結果

對挖掘出的規則進行分析,如{高血壓}→{胸痛},驗證發現高血壓本身并不會導致患者出現胸痛的癥狀,而這條規則出現的原因是高血壓容易誘發冠心病等心血管疾病,這些誘發疾病則會導致胸痛癥狀的產生。

基于上述結果,雖然由于無關數據的干擾,產生的規則并不是全部有意義的,如圖7中的第2條規則{嘔吐}→{胸痛}、第10條{梅毒}→{肝炎}(這兩者只是醫院對病人采用的常規檢查,病人并未患有)等等,但上述結果中出現的高血壓、腎囊腫、冠心病、胸痛等的關聯規則,在臨床現象中確實存在。所以文章使用的挖掘流程和方法對醫院的病歷文本進行處理分析是確實可行的,能夠挖掘出有價值的信息。

4 結 論

文章探討電子病歷中的有效信息挖掘問題。比較了四類中文分詞器的優劣,采用詞典擴充技術,在其中添加藥品名稱,挖掘了電子病歷中的疾病與藥品信息,并進行關聯分析,發掘有價值的規則。實驗結果表明,該方法對于電子病歷的信息挖掘是行之有效的。

[1]Jiawei Han,Micheline Kamber,Jian Pei.數據挖掘概念與技術[M].北京:機械工業出版社,2012.

[2][土耳其]Ethem Alpaydin.機器學習導論(原書第2版)[M].北京:機械工業出版社,2014.

[3]余輝,呂揚生.數據挖掘在生物醫學領域的應用[J].國外醫學生物醫學工程分冊,2003,(2):54-59.

[4]何軍,劉紅巖,杜小勇.挖掘多關系關聯規則[J].軟件學報,2007,(11):2752-2765.

[5]何月順.關聯規則挖掘技術的研究及應用[D].南京航空航天大學,2010.

[6]朱凌云,吳寶明,綜述,曹長修,審校.醫學數據挖掘的技術、方法及應用[J].生物醫學工程學雜志,2003,(3):559-562.

[7]胡靈芝.數據挖掘方法及其在醫學領域中的應用[J].遼寧中醫藥大學學報,2010,(7):51-52.

[8]江菊琴.醫學數據挖掘綜述[J].電腦知識與技術,2011,(15):3495-3497.

[9]孫鐵利,劉延吉.中文分詞技術的研究現狀與困難[J].信息技術,2009,(7):187-189.

[10]龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術,2009,(10):2605-2607

[11]Steven Bird,Ewan Klein,Edward Loper. Natural Language Processing with Python[M].O’Reilly Media,Inc.,2009.

[12]Wang S,Paul M J,Dredze M. Exploring Health Topics in Chinese Social Media: An Analysis of Sina Weibo[C]//Workshops at the Twenty-Eighth AAAI Conference on Artificial Intelligence.2014.

[13]Paul M J,Dredze M.Drug Extraction from the Web:Summarizing Drug Experiences with Multi-Dimensional Topic Models[C]//HLT-NAACL.2013:168-178.

[14]Paul M J,Dredze M. Discovering health topics in social media using topic models[J].PloS one,2014,(8):e103408.

[15]黃翼彪.開源中文分詞器的比較研究[D].鄭州大學,2013.

(責任編校:何俊華)

TP391

A

1673-2219(2016)10-0054-06

猜你喜歡
數據挖掘關聯藥品
是不是只有假冒偽劣藥品才會有不良反應?
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
探討人工智能與數據挖掘發展趨勢
奇趣搭配
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
藥品采購 在探索中前行
中國衛生(2016年5期)2016-11-12 13:25:28
一種基于Hadoop的大數據挖掘云服務及應用
藥品集中帶量采購:誰贏誰輸?
中國衛生(2015年5期)2015-11-08 12:09:48
藥品集中采購將走向寬松
中國衛生(2014年7期)2014-11-10 02:33:02
主站蜘蛛池模板: 香蕉eeww99国产精选播放| 欧美一区中文字幕| 婷婷六月天激情| 亚洲高清资源| 99热国产这里只有精品无卡顿"| 久久久国产精品免费视频| 国产成+人+综合+亚洲欧美| 免费99精品国产自在现线| 4虎影视国产在线观看精品| 久久99国产综合精品女同| 亚洲中文字幕精品| 亚洲AⅤ无码日韩AV无码网站| 国产午夜福利片在线观看| 成人精品午夜福利在线播放| 久久精品国产精品青草app| а∨天堂一区中文字幕| 亚洲人成人无码www| 国产激情第一页| 亚洲高清中文字幕在线看不卡| 欧美中文字幕在线视频 | 亚洲天堂日本| 中文无码日韩精品| 欧美亚洲另类在线观看| 欧美在线中文字幕| 午夜激情福利视频| 久久黄色视频影| 老司国产精品视频91| 亚洲不卡av中文在线| 最新国产高清在线| 成人午夜视频免费看欧美| 岛国精品一区免费视频在线观看 | 色婷婷综合激情视频免费看| 国产精品尤物在线| 97国产精品视频自在拍| 国产香蕉一区二区在线网站| 综1合AV在线播放| 免费无码AV片在线观看国产| 国产在线精品美女观看| 大陆精大陆国产国语精品1024| 欧美成人手机在线观看网址| 色噜噜在线观看| 香蕉久久国产精品免| 国产小视频a在线观看| 99在线视频免费| 曰韩免费无码AV一区二区| 国产毛片高清一级国语 | 亚洲第一av网站| 精品国产成人国产在线| 国产免费黄| 国产人人射| 亚洲精品图区| 亚洲福利片无码最新在线播放 | 欧美国产中文| 国产拍在线| 亚洲免费黄色网| 亚洲,国产,日韩,综合一区| 日韩无码视频专区| 国产成人综合久久精品下载| 国产精品第一区| 88av在线看| 日韩欧美中文字幕一本| 老司机午夜精品网站在线观看| 久久久成年黄色视频| 成人精品在线观看| 久久精品aⅴ无码中文字幕| 国内精品久久久久久久久久影视 | 天天视频在线91频| 91色综合综合热五月激情| 九九精品在线观看| 免费看黄片一区二区三区| 午夜不卡福利| 激情午夜婷婷| 9966国产精品视频| 国产日韩欧美视频| 亚洲水蜜桃久久综合网站| 国产第一福利影院| 成人精品午夜福利在线播放| 国产在线精品99一区不卡| 亚洲黄色片免费看| 亚洲综合欧美在线一区在线播放| 人妻丰满熟妇αv无码| 亚洲v日韩v欧美在线观看|