999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量文本疾病主題自動提取研究

2019-08-26 01:35:26王明令紀懷猛吳春瓊
數字技術與應用 2019年5期
關鍵詞:文本

王明令 紀懷猛 吳春瓊

摘要:從大量中文病歷文獻中提取出重要的疾病主題,對醫療工作者學習和科研是非常重要的。為了更方便的提取出主題,本文提出結合中文分詞技術與FP-Growth算法的一種方法模型。該模型可以在大量中文病歷文獻中,首先將病歷文獻劃分為若干關鍵詞組成的項目集文檔,再使用FP-Growth算法,計算關鍵詞的頻繁項集,并生成病理字典,最后提取出文本的疾病主題。

關鍵詞:文本挖掘;中文病歷;主題提取;FP-Growth

中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2019)05-0074-02

0 引言

在醫學領域中,通過查閱病人的病歷,醫療工作者可以獲取到他們所需的信息,但大部分病歷都是以較為零散的自然語言來書寫。醫務工作者不得不采取人工閱讀及手工摘抄的方式查閱病歷。利用人工智能技術結合自然語言來對病歷文獻進行檢索和提取,是疾病診療研究的的一個重要的研究方向。

1 病歷書寫現狀與文本提取難點

現有醫療文本挖掘研究主要采用國外的醫療數據庫,如學者傅博泉[1]采用生物信息學資源庫NCBI下的子數據庫PubMed和基因-疾病關聯信息數據庫OMIM等進行文本挖掘,又如學者陸維嘉[2]采用大型生物醫學語料庫MEDLINE進行文本挖掘等。字母文字更適合文本挖掘,如學者余傳明[3]等所研究的多任務深度學習模型就對英文語種有更好的識別。

許多國內學者已對于文本文獻的主題提取進行了深入的研究。如學者焦紅[4]等以圖書情報(ISLS)領域的粗糙集研究方向為例識別其核心文獻,同時基于向量空間模型對核心文獻進行補充,并提取主題。學者呂皓[5]等利用隱含狄利克雷分布(LDA)對中國工程科技2035的11個不同領域進行話題分析,將對應的技術項文本投影到二維平面上,實現技術預見下技術項目的話題分布挖掘。學者段玉婷[6]利用兩家不同的醫學專業期刊在2012-2017年載文為數據來源,提取主題頻繁項,發現醫學信息的研究熱點。

中文病歷是一種篇幅較短的文本,而且其詞頻統計較為離散,常規的詞頻統計方法不足以提取并量化這些詞。采用關聯規則算法處理未知的文本數據時,能很好地匹配文本表述與語義之間的正確關聯,尤其是關聯規則頻繁項集的算法在并行處理大數據集時分析能力較好,而只遍歷數據集2遍的FP-Growth算法可以規避Apriori算法生成過多的候選集的缺點,提高算法的運算效率。

2 疾病主題提取

2.1 文本提取框架

大部分中文病歷,沒有明顯的標題、關鍵字、摘要等,其主要包括:主訴、既往病史、查體、檢查結果、綜上的診斷等部分。如表1病歷文本所示。

病歷文本符合一定的規律。例句,對一次中風主訴的病歷描述文本為:左側肢體無力兩天突發。

根據中科院計算所的ICTCLAS(漢語分詞系統,Institute of Computing Technology Chinese Lexical Analysis System)對例句進行分詞處理,得到:左側/肢體/無力/兩天/突發。

例句的分詞處理結果與結構如表2所示。

經由分詞處理后的文本,提煉出若干關鍵詞。其中與病理體征相關的是位置、器官的描述文本;與診斷結果相關的是器官、癥狀的描述文本;程度相關的是時間、發展的快慢的描述文本。

2.2 文本提取模型

病歷文本經由分詞劃分之后,形成由若干關鍵詞集合。經過建立疾病名稱字典、關鍵詞匹配、累計關鍵詞頻繁項、病理字典構建等幾個過程進行文本挖掘和自動提取,如圖1所示。

(1)標準疾病名稱字典。通過增加疾病名稱別名字段,擴大關鍵詞搜索與匹配的范圍。字典庫應包含一級疾病類目、疾病代碼、疾病名稱、別名、二級疾病名稱等條目字段。(2)建立關鍵詞集合。分詞后形成離散關鍵詞集合。部分中文停用詞,如“了”、“的”、“已”、“與”等,應從集合中剔除。(3)關鍵詞詞頻累計。經由分詞與剔除處理之后,進行鍵詞詞頻處理。關鍵詞根據其特點,可以分為醫學性名詞、描述性名詞、數值參數、病理描述性形容詞等。(4)病理字典構建。根據關鍵詞集合和詞頻,構建出疾病病理字典。(5)疾病主題提取。依據關鍵詞頻繁項的關聯規則分析,在海量文本中使用FP-Growth算法自動提取出疾病的主題。

3 FP-Growth關聯規則的主題提取過程

FP-Growth是對頻繁項集的挖掘來產生候選項集,經過構建FP-tree、從FP-tree中挖掘頻繁項集兩個過程。疾病主題的自動提取過程如圖2所示。

在數據預處理過程中,有些數值化參數——如“血糖達20”等,FP-Growth算法對數值化的參數無法進行頻繁項掃描。因此在對這些數值化的參數,本文采用Spss modeler的“離散化”節點,進行區間劃分,完成數據的離散化。

FP-Growth算法在構建FP-tree時采用深度優先的處理,遞歸地進行頻繁項集挖掘。通常分4步:

(1)掃描數據集。掃描數據集,列出所有頻繁項大于1的項目集。(2)項目集頻數分析。根據項目出現的頻率,定義最小支持度,由大到小對數據進行降序排序。刪除出現的次數少于最小支持度的、不重要的項目。(3)二次掃描。刪除不滿足最小支持度的項目后,根據項目出現的頻率,再次由大到小對數據進行降序排序。(4)建立FP-tree。對排序后的數據從上往下,依次添加構造FP-tree,遞歸調用FP-tree樹結構,繼續刪除小于最小支持度的項目,直到生成一條單一路徑。在算法的過程中,不需生成候選項集。

4 仿真實驗分析

本文的研究所使用的數據來自福州某醫院神經內科的200份中文病歷文本,樣本病歷符合中文病歷書寫的一般主體、內容和風格。通過分詞處理后的病歷文本,順利地形成了關鍵詞的集合,運用FP-Growth算法對其進行疾病主題提取的效果較好。提取結果經由醫生人工檢測,證明有較高的準確性。

5 結語

在醫療事業的開展過程中,產生了大量的病歷文本數據。這些病歷文本大多采用自然語言書寫,數量龐大,沒有標準化的數據結構,不利于機器學習對其進行文本挖掘。本文提出結合分詞技術產生病歷文本關鍵詞集合,再使用關聯規則的FP-Growth算法進行疾病主題自動提取的方法模型。實驗結果證明該模型有一定的效率與正確性。實驗的不足在于病歷數據的樣本有限,需要進一步擴大病例數據庫。另外,后續對病歷文本進行基因-疾病數據挖掘時,FP-Growth算法必然會顯示出FP-tree構建過大的缺點,這是需要進一步改進的問題。

參考文獻

[1] 傅博泉.基于文本挖掘的基因—疾病關聯關系研究[D].華南理工大學,2016.

[2] 陸維嘉.關聯規則挖掘結合PSO的基因-疾病關系自動提取方法[J].湘潭大學自然科學學報,2016,38(03):64-68.

[3] 余傳明,李浩男,安璐.基于多任務深度學習的文本情感原因分析[J].廣西師范大學學報(自然科學版),2019(01):50-61.

[4] 焦紅,李秀霞.基于研究主題的學科領域知識演化路徑識別——以圖書情報領域粗糙集為例[J].情報理論與實踐,2019(01):1-11.

[5] 呂皓,周曉紀.基于主題模型的技術預見文本分析[J].情報探索,2018(10):52-59.

[6] 段玉婷.基于聚類分析挖掘國內醫學信息學研究熱點[J].科技經濟導刊,2018(03):34+32.

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 亚洲欧美自拍视频| 99精品在线看| 国产精品爆乳99久久| 亚洲欧美极品| 中文字幕久久波多野结衣 | 午夜日b视频| 狠狠色丁婷婷综合久久| 欧美天堂久久| 99热这里只有精品久久免费| 国产女人18毛片水真多1| 国产精品美乳| 色婷婷视频在线| 五月婷婷丁香综合| 制服丝袜无码每日更新| 精品国产欧美精品v| 在线日韩一区二区| 手机在线国产精品| 亚洲色图欧美视频| 日日碰狠狠添天天爽| 亚洲色图欧美激情| 精品撒尿视频一区二区三区| 亚洲人成高清| 国产精品久线在线观看| 日韩二区三区| 亚洲香蕉在线| 456亚洲人成高清在线| 全午夜免费一级毛片| 中文字幕久久亚洲一区| 国模私拍一区二区 | 日日拍夜夜操| 免费xxxxx在线观看网站| 一级爆乳无码av| 这里只有精品免费视频| 欧美高清视频一区二区三区| 99r在线精品视频在线播放 | 看你懂的巨臀中文字幕一区二区| 草逼视频国产| 亚洲天堂视频网站| 97se亚洲综合在线| 日韩毛片免费视频| 狠狠色婷婷丁香综合久久韩国 | 国产嫖妓91东北老熟女久久一| 九九热免费在线视频| 国产精品无码AV中文| 911亚洲精品| 综合色亚洲| 国产精品毛片一区| 四虎精品免费久久| 久久人人爽人人爽人人片aV东京热| 综合五月天网| 思思热精品在线8| 欧美午夜在线观看| 91国内在线观看| 国产精品成人AⅤ在线一二三四| 国产幂在线无码精品| 亚洲国产成人精品一二区| 免费国产好深啊好涨好硬视频| 久久久波多野结衣av一区二区| 天堂成人av| av大片在线无码免费| 三区在线视频| 在线观看国产精品日本不卡网| 欧美成一级| 亚洲AV成人一区二区三区AV| 熟女视频91| 999国产精品| 国产精品九九视频| 51国产偷自视频区视频手机观看| 精品三级网站| 99视频精品在线观看| 久久毛片免费基地| 啪啪永久免费av| 久久特级毛片| 日韩最新中文字幕| 国产精品制服| 婷婷亚洲视频| 国产经典三级在线| 伊人久久综在合线亚洲2019| 91九色国产porny| 久久夜色精品| 99九九成人免费视频精品| 亚洲精品在线91|