23
生物醫學領域積累了豐富的數字化文獻資源。隨著新知識不斷涌現,從海量自然語言文本中自動發現生物醫學概念之間的語義關系,有助于人們快速理解醫學文本內容、構建醫學知識網絡等研究。
傳統的關系抽取任務主要面向特定領域,借助自然語言處理工具人工構建關系模板,以識別特定類型的實體及其語義關系[1]。在生物醫學領域,包括美國國家醫學圖書館(National Library of Medicine,NLM)、生物整合信息學基金會(Informatics for Integrating Biology & the Beside,i2b2)等國際組織及評測會議有力推動了生物醫學實體關系抽取研究[2-4]。
近年來,針對互聯網數據包含大量復雜關系的特點,開放式信息抽取(Open Information Extraction,Open IE)研究逐漸興起[5]。不同于傳統關系抽取任務,開放式關系抽取無需預先定義關系類型,而是利用上下文中的關系短語(Relation Phrases)描述實體或概念之間的語義關系。如給定句子“吉非替尼對非小細胞肺癌細胞的體外抑制作用”,其中關系短語“體外抑制作用”表示了醫學概念“吉非替尼”和“非小細胞肺癌細胞”之間的語義關系。
Banko等于2007年首先提出了Open IE的研究思路[6],之后陸續涌現出的Text Runner[7]、WOE[8]、ReVerb[9]、R2A2[10]等英文Open IE系統,可大規模抽取以動詞為核心的關系,但無法有效提取以名詞、形容詞等為核心的關系元組。如Schmitz等提出的第二代英文開放式關系抽取系統OLLIE[11],可同時抽取以動詞、名詞、形容詞等為核心的二元開放式關系元組,并有效融入了上下文信息,其局限是易受依存分析錯誤的影響;Del Corro等提出的一種基于子句的英文開放式關系抽取方法ClausIE[12],將關系抽取分為檢測有用信息碎片和抽取關系表達形式兩個子任務;Akbik等提出了基于句法特征及依存路徑檢測高階n元實體關系的KRAKEN系統[13];Zhu等提出的StatSnowball[14]和Liu 等提出的EntSum[15]分別通過引入聯合推理機制[16]抽取深層隱含關系;卡內基梅隆大學研發的Never Ending Language Learning(NELL)系統[17-18]是本體推理的代表,基于初始本體類別和種子學習規則,從Web上抽取了超過5 000萬的事實型信息,其中近200萬抽取結果的可信度為95%;Mausam 等提出了OPENIE4[19]系統,基于語義角色標注系統SRLIE[20]實現了名詞引導的關系抽取;Saha等人提出的OPENIE5[21]系統針對數字句的提取進行改進,通過切斷連接詞以抽取多個關系元組;Cui等人[22]提出了一種基于Encoder-Decoder框架的神經網絡開放式信息抽取方法,通過學習已有Open IE系統的關系抽取結果,進一步獲得高置信度的開放式關系元組。同期出現的還有Stanford OPENIE[23]、PropS[24]等系統,并已成功應用于不同任務場景。
由于中文和英文之間存在語言學差異,已有的英文開放式關系抽取方法不能直接移植到中文領域。有研究者嘗試研究面向通用領域的中文開放式關系抽取任務。如劉安安[25]提出了面向大規模網絡文本的無監督開放式中文實體關系抽取方法(UnCORE);王明印[26]提出的結合條件隨機場(Conditional Random Fields,CRF)與Bootstrap自舉框架的半監督開放式中文實體關系抽取方法(SCOERE),在新聞網頁語料上實驗取得0.732的F值;Tseng[27]等提出的中文開放式關系抽取系統CORE,從自由文本中抽取了超過1 300萬條中文實體關系,并應用于開放領域自動問答任務。當前中文生物醫學領域主要集中在限定類型的傳統實體關系抽取研究[28-29],而尚無深入探討中文生物醫學文本的開放式概念關系抽取方法的報道。
本文針對生物醫學領域概念數量多、概念之間關系類型復雜等特點,提出了一種基于BiLSTM-CRF模型的中文生物醫學開放式概念關系抽取方法,將中文生物醫學開放式概念關系抽取轉換為詞序列到關系標簽序列的生成問題。BiLSTM-CRF模型是當前序列標注任務中的主流深度學習框架[30]。在中文生物醫學文獻數據集上的實驗結果表明,基于BiLSTM-CRF的中文開放式概念關系抽取方法具有較好的魯棒性和泛化性。
實驗數據源自中國生物醫學文獻數據庫(China Biology Medicine disc,CBM)。以“肺腫瘤”為檢索主題,于2018年1月通過中國生物醫學文獻服務系統(SinoMed)檢索2011-2017年出版的中文文獻,共遴選出4 913篇中文生物醫學文獻題錄信息,包括流水號、中文標題、中文摘要、中文關鍵詞等。經觀察發現實驗語料中的摘要結構主要有3類:第一類是無摘要文獻,即摘要內容實際為文獻正文的第一段;第二類是結構式摘要,包括目的、方法、結果、結論等;第三類是常規綜述性摘要。經統計第一類文獻1 246篇,第二類文獻3 075篇,第三類文獻592篇。
為正確識別生物醫學文本中出現的專業概念,選取了2015版CMeSH詞表的部分內容作為實驗用生物醫學詞表。遴選范圍包括解剖學、疾病、藥物等主題(A-G類)的中英文主題詞及術語(款目詞),共計50 477條生物醫學術語。經統計實驗詞表中術語的字長在1~45字之間,其中包含2~12字的術語約占總量的95%。
首先,分別對不同類型文獻進行清洗及分句處理。其中,第一類文獻摘要去除末尾的[第一段]標識,并根據標點符號進行分句;第二類文獻根據摘要內容標記(即“目的”“方法”“結果”“結論”)進行分塊,提取句子的同時標注對應的標記;第三類文獻直接根據標點符號進行分句。
其次,選取領域泛化性能較好的自然語言處理工具(Language Technology Platform,LTP)語言技術平臺[31]作為文本預處理工具,并利用實驗詞表及少量人工標注的生物醫學文本語料對其進行領域優化,進而對分句結果進行中文分詞及詞性標注等預處理。
本文關注同一句子中的二元開放式概念關系。基于Pipeline思想,設計了中文生物醫學開放式概念關系抽取框架(圖1)。
首先從中文生物醫學文本中自動識別生物醫學概念,并篩選包含兩個及以上概念的句子作為候選關系句;其次從候選關系句中抽取非限定類型的中文生物醫學開放式概念關系元組,并與人工標注結果進行對比評價。

圖1 中文生物醫學開放式概念關系抽取框架
針對生物醫學文本中概念數量龐大且類型多樣的特點,采用結合詞典及規則匹配的方法從中文生物醫學文本中自動識別生物醫學概念,流程如圖2所示。
其中,詞典匹配方法是基于實驗詞表對句子中的短語進行正向最大字符串匹配,保留最大匹配短語及其位置信息。該方法對長術語的匹配精度較高,但無法覆蓋未登錄概念。

圖2中文生物醫學概念識別
規則匹配方法是通過分析實驗詞表、文獻標題及關鍵詞中的術語詞性組合及頻次分布規律,對生物醫學術語的構詞規則進行總結,再基于構詞規則對句子短語進行正則匹配。該方法有助于發現未登錄術語。經分析發現,實驗詞表中99%的術語包含名詞、動詞或形容詞,組合形式有“名詞+名詞”(如“淋巴組織”)、“形容詞+名詞”(如“小細胞癌”)、“名詞+動詞”(如“喉頭痙攣”)等。此外,組合中常見英文字符和標點符號(如括號“()”),而語氣詞、狀態詞、嘆詞、擬聲詞和代詞等很少見。選取頻次大于5的詞性規則形成正則表達式,共生成無重復的術語構詞規則3 248條,由此對句子短語進行正則匹配。
利用上述兩種方法對實驗語料中的每個句子進行術語匹配后合并去重,篩選包含兩個以上生物醫學概念的句子作為候選關系句子。
BiLSTM-CRF模型結合了BiLSTM網絡(Bidirectional LSTM Network)與CRF模型的優點。其中,BiLSTM層融合了兩組方向相反的長短時記憶(Long Short-Term Memory,LSTM)網絡,可同時學習過去和將來的信息;CRF層能夠學習句子級標簽的上下文信息,在BiLSTM層上增加CRF層可以輸出更加合理的標簽。BiLSTM-CRF的網絡結構包括輸入層(詞/字向量表示)、BiLSTM層以及CRF層(圖3)。

圖3 BiLSTM-CRF網絡結構

(1)
(2)
(3)
結合詞典匹配與規則匹配方法,從4 913篇實驗文獻的41 733條原始句子中識別了97 373個生物醫學概念(術語)。隨機選取200篇文獻的概念識別結果進行人工評價,初步評價結果見表1。其中,合并兩種匹配方法的概念識別綜合F1值為0.7604。從原始句子中遴選包含2個以上概念的句子,共獲得20 838條候選關系句子。

表1 中文生物醫學概念識別結果
由3位有醫學專業背景的標注人員對上述候選關系句子進行人工標注,采用以下標簽對關系短語進行標識:REL_S表示概念間的關系短語為單一詞;REL_B表示關系短語為多個詞,當前詞為首詞;REL_I表示關系短語為多個詞,當前詞非首詞;REL_E表示關系詞為多個詞,當前詞為結尾詞;REL_O表示當前詞不屬于關系詞。
實驗平臺配置如下:使用Windows Server 2012 R2 Datacenter為服務器操作系統、 Intel Xeon Gold 6130 CPU 2.10GHz為處理器,內存512GB。利用PyTorch 0.4.0實現了基于BiLSTM-CRF的中文生物醫學開放式概念關系抽取模型,參數設置為學習率0.001、批量大小為32、訓練步數為10 000。對比實驗為基于CRF模型的概念關系抽取方法和基于LSTM網絡的概念關系抽取方法。其中,CRF模型利用CRF++ 0.58實現,訓練特征包括詞、詞長、POS、依存分析等;利用Tensorflow1.8.0實現基于LSTM的關系抽取模型,參數設置為學習率0.001、批量大小為20、訓練步數為10 000。以上每種方法均進行了10倍交叉驗證。
以準確率(Precision)、召回率(Recall)和F1(Micro F1 score)值作為實驗評價指標,實驗結果如表2所示。從表2可以看出,基于BiLSTM-CRF的中文生物醫學開放式概念關系抽取方法的準確率、召回率及F1值均明顯高于其他方法,說明該方法對關系短語序列的標注效果較好,并具備更強的魯棒性和泛化能力。

表2 中文生物醫學開放式概念關系抽取結果
基于不同方法的關系抽取結果樣例見表3。與人工標注的概念關系元組對比,可以看出對于句法結構較清晰的句子(樣例1),說明3種方法的關系短語提取效果普遍較好。對于包含并列、嵌套等復雜結構的句子(樣例3),往往提取到不完整或錯誤的關系詞。此外,由于概念識別階段錯誤的影響,也會導致關系元組提取錯誤。
總體而言,基于BiLSTM-CRF的關系抽取方法對于關系語義塊的邊界識別更準確,從而能夠提取更多關系元組。
通過對實驗結果的定量和定性分析發現,影響中文開放式概念關系抽取效果的因素主要包括以下方面:一是生物醫學文本中常見省略句子謂語的現象,不利于提取以動詞為核心的關系短語;二是對于過長或結構復雜的句子,如并列結構、嵌套子句等,正確提取關系詞的難度較大;三是不同類別概念之間的關系描述有很大差異;四是概念識別階段的錯誤也會影響關系詞識別的準確性。

表3 中文生物醫學開放式概念關系抽取樣例
面向中文生物醫學開放式概念關系抽取任務,實現了基于BiLSTM-CRF模型的開放式概念關系抽取模型。在中文生物醫學文獻數據集上的實驗結果表明,得益于雙向LSTM組件,基于BiLSTM-CRF模型的中文生物醫學開放式概念關系抽取方法可以有效利用過去和未來的輸入特性,并結合CRF層的句子級標簽信息,F1值達到0.5221,對關系短語序列的標注效果優于傳統的CRF模型和LSTM網絡,具備更強的魯棒性和泛化性。
當前研究采用Pipeline兩階段框架,先識別句子中的概念,再預測概念之間的關系。其局限是需要遍歷所有概念對,時間長,復雜度較高,而且在概念識別階段產生的錯誤會傳播到關系抽取階段。鑒于目前有研究探討概念與關系的聯合抽取方法,我們將在后續研究中嘗試利用聯合學習的方法抽取中文生物醫學概念及其開放式關系短語。此外,針對并列及嵌套關系的抽取問題,也將嘗試結合領域知識并引入深層子句分析等策略。