倪曉華
南京醫科大學第二附屬醫院 信息科,江蘇 南京 210011
利用GATE的XML配置文件實現病歷短語抽取的機器學習方法
倪曉華
南京醫科大學第二附屬醫院 信息科,江蘇 南京 210011
本文利用文本工程通用框架軟件的XML配置文件,來指定所學文檔使用的特征參數、學習算法,實現文本病歷醫學短語抽取的機器學習。結果計算機能很方便的在大段病程資料中快速自動獲取醫生所需的醫學短語信息。本學習算法具有較好的實用性,達到了預期要求。
電子病歷;機器學習;通用框架軟件;支持向量機
電子病歷(EMR)是指醫務人員在醫療活動過程中使用醫療機構信息系統生成的文字、符號、圖表、圖形、數據、影像等數字化信息,并能實現存儲、管理、傳輸和重現的醫療記錄。但它們不是完全結構化的數據(如病程記錄),這種文本信息方便表達概念以及事件等,是臨床治療過程的主要記錄形式,卻不適宜數據的查詢或統計。近年來隨著醫院病歷逐步的電子化,使得大規模病歷的自動分析成為可能。患者的疾病和癥狀、治療過程和治療效果,這些信息是重要的臨床證據,將這些信息高效精確地收集起來輔助醫生決策是很有意義的[1-11]。本文利用文本工程通用框架軟件(General Architecture for Test Engineering,GATE)[12]的應用實例組件、批處理學習進程資源,來實現EMR記錄中短語抽取的機器學習[13-14]。結果表明,機器學習信息抽取的結果符合預期要求,具有較好的準確性和實用性。
機器學習是一門多領域交叉學科,專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。而在機器學習領域,支持向量機是一個有監督的學習模型,通常用來進行模式識別、分類、以及回歸分析。該學習模型可以從給定的訓練數據集中學習出一個函數,當新的數據到來時就根據這個函數預測目標。監督學習的訓練集要求是包括輸入和輸出,也可以說是特征和目標,訓練集中的目標是由人標注的。監督學習主要應用于分類和預測,尤其在自然語言處理時被更加廣泛的應用。本文在中使用到的機器學習方法是一個有監督的學習模型Gate,為了使用監督機器學習,可以通過手動注釋NLP文檔[12-15]或從其他資源獲得一些標簽數據,還需要確定哪些語言特征是用于訓練(同樣的功能也應該在應用程序中使用)。在這里要實現機器學習的功能是所有的機器學習屬性都必須是Gate注釋的特性。
抽取短語機器學習的過程是:① 標簽注釋;② 確定語言特征;③ 用JAPE腳本生成想要實現的功能。
(1)腳本創建規則。本例是抽取病人入院原因短語的程序,使用腳本如下:
Rule:ru //創建規則
(
{Token.string == “因”} //讀取字符“因”
({Token})[1,20] //讀取后面1到20個字符,可自動調整
{ Token.string == “入院”} //讀取字符“入院”
):ru
-->
:ru.Ru = {rule = “Ru”} //輸出含特征的結果
短語抽取的結果,見圖1。

圖1 利用Gate實現的醫學短語抽取
病人入院原因是病人住院前的主要癥狀,對醫生的診斷起引導作用,是非常重要的病程描述。從大量的病程記錄中快速識別出來,可以高效精確地收集證據來輔助醫生決策。其他短語,如現病史、既往史、癥狀都可通過類似的方法實現。
(2)為短語機器學習創建XML配置文件。該文件應包含一個數據集,用來指定所使用的NLP特征,如Token、Lookup、major Type。一個指定學習算法的元素需進行必要的可選設置。
短語機器學習的類由一個單獨的注釋類型形式提供,如“Ru”包含一個特征“類”。
<ATTRIBUTE> \ 定義被訓練的注釋數據
<NAME>Class</NAME> \ 特征的名字
<SEMTYPE>NOMINAL</SEMTYPE> \ 特征值的類型,目前只支持NOMINAL
<TYPE>Ru</TYPE> \ 用于抽取特征的注釋類型
<FEATURE>rule</FEATURE> \ 具體的抽取特征值
<POSITION>0</POSITION> \ 相對于當前的實例注釋,用來抽取特征的實例注釋位置
<CLASS/> \ 類的標志
</ATTRIBUTE> \ 注釋數據的標志
這就是機器學習的輸出程序,其他注釋包括運行參數“Token”和“Lookup”。所有這些注釋在相同的注釋集合中,它們將作為運行時的參數傳遞。
配置文件中有一部分是數據集子元素,定義為所使用的語言特征。首先把“字符”注釋作為第一個實例,其特征是字符串,如<RANGE from=“-5” to=“5”/>從“- 5”到“5”的范圍意味著當前的字符,以及它5個前面的字符和它的5個隨后的字符將被用作當前字符實例的功能,使得周邊詞在信息抽取中的作用明顯,當為5時可使系統的性能表現最佳。
(3)預處理新文檔。用與培訓文檔相同的方式預處理新文檔,以確保相同的特征(類標簽不需存在)。將學習模型設置為應用程序并在此語料庫上運行PR,應用程序結果被添加到指定的注釋集中。參數設置操作界面,見圖2;字段抽取結果,見圖3。

圖2 應用程序參數配置圖

圖3 機器學習字段抽取結果
比較圖1和圖3,可以發現圖3的CC中無規則Ru。這意味著對于新文檔,使用的是機器學習的方法實現入院原因短語的抽取,而不是JAPE腳本生成的規則。機器學習的結果體現在輸出函數指定的注釋集中,結果是可接受的。最主要的是對于大量的電子病歷病程來說,能讓計算機學習需要抽取的內容,大大方便了醫生,同時為病人病程的查詢、輔助決策提供支持。
本文使用3種評價指標[15]:準確率(P)、召回率(R)、F值(F-Score)來評估短語抽取的效果,這些指標也是目前抽取任務所普遍采用的。P與R是檢索和分類系統中最常用的兩個度量值。P也稱查準率,指系統判斷正確的正例個數與判斷為正例的總實例數的比率;R也稱查全率,是指系統判斷正確的正例個數與語料中包含的所有正例數的比率。F值,對一個分類系統來說,準確率和召回率往往不能兩全,是相互制約的,通常用準確率和召回率的調和平均數F值來衡量系統的整體性能,是信息檢索領域一個常用的評價指標。本文機器學習抽取入院原因的P=94.59%,R=93.33%,F=93.96%。
[1] Fan J,Kalyanpur A,Gondek DC,et al.Automatic knowledge extraction from documents[J].J Res Dev,2012,56(4):501-510.
[2] Uzuner O,Solti I,Cadag E.Extracting medication info-rmation from clinical Text[J].J Am Med Inform Assoc,2010,17(5):514-518.
[3] 原歡.基于GATE的貨物動態郵件信息抽取方法與應用研究[D].南京:南京航天航空大學,2013.
[4] Ke CM,Huang FJ,Lee SS,et al.Use of data mining surveillance system in real time detection and analysis for healthcareassociated infections[J].BMC Proc,2016,(5):30-34.
[5] Tomaszewski JE,Hipp J,Tangrea M,et al. Madabhushi, machine vision and machine learning in digital pathology[J].Pathobiol Hum Dis,2016,(9):3711-3722.
[6] Taroni F,Biedermann A.Bayesian networks[J].Encycl Forensic Sci,2013,(8):351-356.
[7] Alonso AF,Rojo AJL,Rosado MA.Feature selection using support vector machines and bootstrap methods for ventricular fi brillation detection[J].Expert Syst Appl,2016,39(2):1956-1967.
[8] 徐永東,權光日,王亞東.基于HL7的電子病歷關鍵信息抽取技術研究[J].哈爾濱工業大學學報,2011,(11):89-94.
[9] 葉楓,陳鶯鶯,周根貴,等.電子病歷中命名實體的智能識別[J].中國生物醫學工程學報,2011,(2):256-262..
[10] Bouvry C,Tvardik N,Kergourlay I,et al.The SYNODOS project: System for the normalization and organization of textual medical data for observation in healthcare[J]. IRBM,2016,37(4):109-115.
[11] Hong JL,Siew EG,Egerton S.Information extraction for search engines using fast heuristic techniques[J].Data Knowl Eng,2010,69(2):169-196.
[12] Cunningham H,Maynard D,Bontcheva K.Developing language processing components with GATE Version 8[EB/OL].http:// gateacuk/sale/tao/tao.pdf.
[13] Bisin A,Guaitoli D.Information Extraction and norms of mutual protection[J].J Econ Behav Organ,2015,84(1):154-162.
[14] Wiebe J,Riloff E.Finding mutual bene fi t between subjectivity analysis and information extraction[J].Affect Comput,2015,2(4): 175-191.
[15] Sheikh M,Conlon S.A rule-based system to extract financial information[J].J Comput Inf Syst,2015,52(4):10-19.
[16] 馬續補,郭菊娥.基于GATE的任務信息抽取研究[J].情報雜志,2010,29(1):155-158.
本文編輯 韓淑英
Machine Learning Method to Realize Medical Record Phrase Extraction via Using the XML Con fi guration File of the GATE
N I X i a o-h u a
Department of Information, the Second Affiliated Hospital of Nanjing Medical University, Nanjing Jiangsu 210011, China
Based on XML con fi guration fi les of general architecture for text engineering, we speci fi ed characteristics and learning algorithm of the documents, and realized machine learning of text records phrase extraction. The result was that computer could automatically obtain the phrases that doctor required from the long course information quickly. This learning algorithm has good practicability and meets the expected demand.
electronic medical record; machine learning; general architecture for text engineering; support vector machine
TP391.1
C
10.3969/j.issn.1674-1633.2017.07.034
1674-1633(2017)07-0124-02
2016-10-25
2017-03-15
作者郵箱:nxh.2046@163.com