王明令 紀懷猛 吳春瓊
摘要:從大量中文病歷文獻中提取出重要的疾病主題,對醫療工作者學習和科研是非常重要的。為了更方便的提取出主題,本文提出結合中文分詞技術與FP-Growth算法的一種方法模型。該模型可以在大量中文病歷文獻中,首先將病歷文獻劃分為若干關鍵詞組成的項目集文檔,再使用FP-Growth算法,計算關鍵詞的頻繁項集,并生成病理字典,最后提取出文本的疾病主題。
關鍵詞:文本挖掘;中文病歷;主題提取;FP-Growth
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2019)05-0074-02
0 引言
在醫學領域中,通過查閱病人的病歷,醫療工作者可以獲取到他們所需的信息,但大部分病歷都是以較為零散的自然語言來書寫。醫務工作者不得不采取人工閱讀及手工摘抄的方式查閱病歷。利用人工智能技術結合自然語言來對病歷文獻進行檢索和提取,是疾病診療研究的的一個重要的研究方向。
1 病歷書寫現狀與文本提取難點
現有醫療文本挖掘研究主要采用國外的醫療數據庫,如學者傅博泉[1]采用生物信息學資源庫NCBI下的子數據庫PubMed和基因-疾病關聯信息數據庫OMIM等進行文本挖掘,又如學者陸維嘉[2]采用大型生物醫學語料庫MEDLINE進行文本挖掘等。字母文字更適合文本挖掘,如學者余傳明[3]等所研究的多任務深度學習模型就對英文語種有更好的識別。
許多國內學者已對于文本文獻的主題提取進行了深入的研究。如學者焦紅[4]等以圖書情報(ISLS)領域的粗糙集研究方向為例識別其核心文獻,同時基于向量空間模型對核心文獻進行補充,并提取主題。學者呂皓[5]等利用隱含狄利克雷分布(LDA)對中國工程科技2035的11個不同領域進行話題分析,將對應的技術項文本投影到二維平面上,實現技術預見下技術項目的話題分布挖掘。學者段玉婷[6]利用兩家不同的醫學專業期刊在2012-2017年載文為數據來源,提取主題頻繁項,發現醫學信息的研究熱點。
中文病歷是一種篇幅較短的文本,而且其詞頻統計較為離散,常規的詞頻統計方法不足以提取并量化這些詞。采用關聯規則算法處理未知的文本數據時,能很好地匹配文本表述與語義之間的正確關聯,尤其是關聯規則頻繁項集的算法在并行處理大數據集時分析能力較好,而只遍歷數據集2遍的FP-Growth算法可以規避Apriori算法生成過多的候選集的缺點,提高算法的運算效率。
2 疾病主題提取
2.1 文本提取框架
大部分中文病歷,沒有明顯的標題、關鍵字、摘要等,其主要包括:主訴、既往病史、查體、檢查結果、綜上的診斷等部分。如表1病歷文本所示。
病歷文本符合一定的規律。例句,對一次中風主訴的病歷描述文本為:左側肢體無力兩天突發。
根據中科院計算所的ICTCLAS(漢語分詞系統,Institute of Computing Technology Chinese Lexical Analysis System)對例句進行分詞處理,得到:左側/肢體/無力/兩天/突發。
例句的分詞處理結果與結構如表2所示。
經由分詞處理后的文本,提煉出若干關鍵詞。其中與病理體征相關的是位置、器官的描述文本;與診斷結果相關的是器官、癥狀的描述文本;程度相關的是時間、發展的快慢的描述文本。
2.2 文本提取模型
病歷文本經由分詞劃分之后,形成由若干關鍵詞集合。經過建立疾病名稱字典、關鍵詞匹配、累計關鍵詞頻繁項、病理字典構建等幾個過程進行文本挖掘和自動提取,如圖1所示。
(1)標準疾病名稱字典。通過增加疾病名稱別名字段,擴大關鍵詞搜索與匹配的范圍。字典庫應包含一級疾病類目、疾病代碼、疾病名稱、別名、二級疾病名稱等條目字段。(2)建立關鍵詞集合。分詞后形成離散關鍵詞集合。部分中文停用詞,如“了”、“的”、“已”、“與”等,應從集合中剔除。(3)關鍵詞詞頻累計。經由分詞與剔除處理之后,進行鍵詞詞頻處理。關鍵詞根據其特點,可以分為醫學性名詞、描述性名詞、數值參數、病理描述性形容詞等。(4)病理字典構建。根據關鍵詞集合和詞頻,構建出疾病病理字典。(5)疾病主題提取。依據關鍵詞頻繁項的關聯規則分析,在海量文本中使用FP-Growth算法自動提取出疾病的主題。
3 FP-Growth關聯規則的主題提取過程
FP-Growth是對頻繁項集的挖掘來產生候選項集,經過構建FP-tree、從FP-tree中挖掘頻繁項集兩個過程。疾病主題的自動提取過程如圖2所示。
在數據預處理過程中,有些數值化參數——如“血糖達20”等,FP-Growth算法對數值化的參數無法進行頻繁項掃描。因此在對這些數值化的參數,本文采用Spss modeler的“離散化”節點,進行區間劃分,完成數據的離散化。
FP-Growth算法在構建FP-tree時采用深度優先的處理,遞歸地進行頻繁項集挖掘。通常分4步:
(1)掃描數據集。掃描數據集,列出所有頻繁項大于1的項目集。(2)項目集頻數分析。根據項目出現的頻率,定義最小支持度,由大到小對數據進行降序排序。刪除出現的次數少于最小支持度的、不重要的項目。(3)二次掃描。刪除不滿足最小支持度的項目后,根據項目出現的頻率,再次由大到小對數據進行降序排序。(4)建立FP-tree。對排序后的數據從上往下,依次添加構造FP-tree,遞歸調用FP-tree樹結構,繼續刪除小于最小支持度的項目,直到生成一條單一路徑。在算法的過程中,不需生成候選項集。
4 仿真實驗分析
本文的研究所使用的數據來自福州某醫院神經內科的200份中文病歷文本,樣本病歷符合中文病歷書寫的一般主體、內容和風格。通過分詞處理后的病歷文本,順利地形成了關鍵詞的集合,運用FP-Growth算法對其進行疾病主題提取的效果較好。提取結果經由醫生人工檢測,證明有較高的準確性。
5 結語
在醫療事業的開展過程中,產生了大量的病歷文本數據。這些病歷文本大多采用自然語言書寫,數量龐大,沒有標準化的數據結構,不利于機器學習對其進行文本挖掘。本文提出結合分詞技術產生病歷文本關鍵詞集合,再使用關聯規則的FP-Growth算法進行疾病主題自動提取的方法模型。實驗結果證明該模型有一定的效率與正確性。實驗的不足在于病歷數據的樣本有限,需要進一步擴大病例數據庫。另外,后續對病歷文本進行基因-疾病數據挖掘時,FP-Growth算法必然會顯示出FP-tree構建過大的缺點,這是需要進一步改進的問題。
參考文獻
[1] 傅博泉.基于文本挖掘的基因—疾病關聯關系研究[D].華南理工大學,2016.
[2] 陸維嘉.關聯規則挖掘結合PSO的基因-疾病關系自動提取方法[J].湘潭大學自然科學學報,2016,38(03):64-68.
[3] 余傳明,李浩男,安璐.基于多任務深度學習的文本情感原因分析[J].廣西師范大學學報(自然科學版),2019(01):50-61.
[4] 焦紅,李秀霞.基于研究主題的學科領域知識演化路徑識別——以圖書情報領域粗糙集為例[J].情報理論與實踐,2019(01):1-11.
[5] 呂皓,周曉紀.基于主題模型的技術預見文本分析[J].情報探索,2018(10):52-59.
[6] 段玉婷.基于聚類分析挖掘國內醫學信息學研究熱點[J].科技經濟導刊,2018(03):34+32.