龔樂君,張知菲
1) 南京郵電大學(xué)計算機學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,南京 210023 2) 江蘇省大數(shù)據(jù)安全與智能處理重點實驗室,南京 210023
近些年來,醫(yī)療信息化以及大批在線問診網(wǎng)站、病例交流網(wǎng)站的迅猛發(fā)展產(chǎn)生了海量的電子病歷. 電子病歷中包含了大量重要的臨床資源. 如何利用電子病歷所包含的大量潛在信息,成為目前熱門的研究方向之一. 作為文本挖掘的基礎(chǔ)任務(wù),命名實體識別在病歷文本中需要識別的實體類型主要為疾病名稱、癥狀、醫(yī)療人員采取的措施(包括檢查措施和治療措施)、藥品名稱等醫(yī)療實體.
有研究表明,在中文電子病歷中,實體分布的密集程度遠(yuǎn)高于通用領(lǐng)域文本[1]. 中文電子病歷語料中實體字符所占比例接近中文通用語料的2倍,這說明了中文電子病歷是一種知識密集型的文本,其數(shù)據(jù)具有相當(dāng)?shù)难芯績r值.
命名實體識別任務(wù),常常被作為序列標(biāo)注任務(wù)來處理[2]. 機器學(xué)習(xí)中特征的選擇情況將會直接影響實體識別的效果,因此大部分中文醫(yī)療實體識別研究集中于構(gòu)造和選擇不同特征. Wang等[3]利用字符位置信息和短分句對癥狀實體進(jìn)行識別,在中醫(yī)文本語料上達(dá)到了95.12%的F1值. 文獻(xiàn)[4?7]研究了語言符號特征、詞性特征、關(guān)鍵詞特征、詞典特征、分詞特征、詞塊特征等多特征組合與多種學(xué)習(xí)器組合對病歷實體識別的影響. 隨著深度學(xué)習(xí)[8]技術(shù)的發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)對中文醫(yī)療實體識別的相關(guān)研究[9?13]也在……