王明令 紀懷猛 吳春瓊
摘要:從大量中文病歷文獻中提取出重要的疾病主題,對醫療工作者學習和科研是非常重要的。為了更方便的提取出主題,本文提出結合中文分詞技術與FP-Growth算法的一種方法模型。該模型可以在大量中文病歷文獻中,首先將病歷文獻劃分為若干關鍵詞組成的項目集文檔,再使用FP-Growth算法,計算關鍵詞的頻繁項集,并生成病理字典,最后提取出文本的疾病主題。
關鍵詞:文本挖掘;中文病歷;主題提取;FP-Growth
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2019)05-0074-02
0 引言
在醫學領域中,通過查閱病人的病歷,醫療工作者可以獲取到他們所需的信息,但大部分病歷都是以較為零散的自然語言來書寫。醫務工作者不得不采取人工閱讀及手工摘抄的方式查閱病歷。利用人工智能技術結合自然語言來對病歷文獻進行檢索和提取,是疾病診療研究的的一個重要的研究方向。
1 病歷書寫現狀與文本提取難點
現有醫療文本挖掘研究主要采用國外的醫療數據庫,如學者傅博泉[1]采用生物信息學資源庫NCBI下的子數據庫PubMed和基因-疾病關聯信息數據庫OMIM等進行文本挖掘,又如學者陸維嘉[2]采用大型生物醫學語料庫MEDLINE進行文本挖掘等。字母文字更適合文本挖掘,如學者余傳明[3]等所研究的多任務深度學習模型就對英文語種有更好的識別。
許多國內學者已對于文本文獻的主題提取進行了深入的研究。如學者焦紅[4]等以圖書情報(ISLS)領域的粗糙集研究方向為例識別其核心文獻,同時基于向量空間模型對核心文獻進行補充,并提取主題。……