周永稱 范少萍 晏歸來 安新穎
(中國醫(yī)學科學院/北京協和醫(yī)學院醫(yī)學信息研究所 北京 100020)
隨著生物醫(yī)學文獻數量快速增長,大量有價值的生物醫(yī)學知識被隱藏在海量文獻中,如基因與疾病、基因與藥物、疾病與藥物、基因與蛋白質之間的作用關系等。生物醫(yī)學文本信息抽取已成為生物醫(yī)學信息學領域與計算機領域的研究熱點[1]。D.Swanson基于生物醫(yī)學文獻利用實體間的共現關系發(fā)現深海魚油與雷諾氏病之間存在相關關系,這為雷諾氏病的治療提供新方法[2]。此后基于生物醫(yī)學文獻陸續(xù)發(fā)現鎂元素與偏頭疼之間、血液中生長調節(jié)素水平與精氨酸之間均存在先前未知的相關關系[3]。利用監(jiān)督或半監(jiān)督學習方法構建學習器的過程中需要標注語料作為機器學習算法的訓練數據,以驗證算法的性能。標注語料的規(guī)模與質量對評測機器學習算法的效果與性能至關重要。國外已有的生物醫(yī)學文本語料庫根據標注語料的實體類型及關系類型的不同可分為多種類型,如標注蛋白質及其相互關系的AIMED[4]、BioInfer[5]、HPRD50[6]、IEPA[7]和LLL語料庫[8]等;標注基因型及表型的MKH[9]、Phenominer語料庫[10]等以及標注文本語料中縮寫實體的Ab3P[11]、BIOADI[12]、Medstract語料庫[13]等。這些語料庫的規(guī)模、標注的實體數、關系數等,見表1。上述語料庫已被用于文本挖掘競賽中的評測語料庫,如HPRD50語料庫作為RelEx系統的測試語料庫;LLL語料庫被用于第4屆邏輯學習語言研討會生物醫(yī)學文本關系挖掘競賽的共享數據集;Medstract語料庫則是國際上生物醫(yī)學命名實體識別領域應用較為廣泛的評測數據集,為相關機器學習算法的開發(fā)與評測提供標準與依據。由表1可知現有生物醫(yī)學文本語料庫的規(guī)模較小,標注的實體、關系類型單一且數量較少,以此為基礎訓練的機器學習算法對實體識別和關系抽取會局限在特定的實體及關系類型,魯棒性較差,無法全面挖掘出文獻中隱含的知識。但隨著基因組學、蛋白質組學、代謝組學等多組學的發(fā)展以及精準醫(yī)學項目對于疾病、基因、分子等多種實體類型之間關系的研究,生物醫(yī)學文獻中涉及的實體、關系類型不再單一。因此構建一個更大規(guī)模、覆蓋面更廣的文本語料庫對于機器學習算法的研究大有裨益,以支持精準醫(yī)學知識網絡相關研究。基于此本研究在國家重點研發(fā)計劃“精準醫(yī)學”的項目資助下,構建規(guī)模更大、實體與關系類型覆蓋面更廣的精準醫(yī)學文本語料庫,以支撐相關機器學習算法與知識圖譜的開發(fā)與構建工作,從而推動精準醫(yī)學研究的進一步發(fā)展。

表1 部分語料庫分類、名稱、規(guī)模、標注內容
通過調研多種語料庫,筆者總結出文本語料庫的構建流程大致可分為標注語料選擇、文本標注和一致性檢驗3個步驟,其中文本標注包括標注工具選擇、語料預處理、語料標注和標注校對。本研究按照這3個步驟開展精準醫(yī)學文本語料庫構建工作。選取2 000篇癌癥領域研究文獻作為標注語料,利用課題組提供的精準醫(yī)學本體開展精準醫(yī)學文本語料庫構建研究。
課題組精準醫(yī)學本體V1.0版涉及6大類實體類型:細胞機制(Cellular Mechanisms)、化合物和藥物(Chemicals and Drugs)、疾病(Diseases)、遺傳機制(Genetic Mechanisms)、人類表型(Human Phenotypes)、分子機制(Molecular Mechanisms)。為保證文獻對實體類型的覆蓋面,盡量避免實體數量分布不均衡,本研究制定以下文獻篩選流程:第一,利用比較毒理組學數據庫(Comparative Toxicogenomics Database,CTD)[14]檢索相關文獻,根據文獻所在期刊IF值、發(fā)表年份、文獻所含實體類型對相關文獻進行篩選。CTD由北卡羅萊納州立大學的國立環(huán)境健康科學研究所資助開發(fā),數據經過人工編審并且每年更新數次,可以確保數據質量與有效性。同時可顯示文獻所包含的疾病、化合物及基因類型,可在一定程度上確保所檢文獻的實體覆蓋面。第二,將篩選得到的訓練集文獻作為輸入集,利用文獻相似性算法檢索相似文獻。通過CTD檢索到相關文獻后,經過文獻篩選最終得到的訓練集文獻數量較少,直接將其作為標注文獻集無法滿足精準醫(yī)學文本語料庫對語料規(guī)模的需求,因此需要進行文獻相似性檢索以擴展標注文獻集的內容。文獻相似性檢索工具有多種,如Medline Ranker[15]、PubFinder[16]、MScanner[17]等,上述工具可自動從輸入的一組摘要中提取主題并在Medline數據庫中進行相似性檢索。但MScanner工具在進行摘要的判斷性特征抽取時主要利用摘要的注釋,如MeSH主題詞或期刊標識符;PubFinder工具開發(fā)的時間較早,近年來缺少更新;而Medline Ranker直接從文本中提取特征詞,減少對摘要的依賴性,且工具較新,因此選用Medline Ranker工具獲取相似文獻。第三,將訓練集文獻及相似文獻提交給專家判讀,確定最終的標注文獻集。訓練集文獻包括210篇經篩選的肝癌相關文獻及158篇經篩選的腸癌相關文獻,相似文獻集包括1 000篇肝癌研究相似文獻及1 000篇腸癌研究相似文獻,共計2 368篇。將2 368篇文獻提交給專家判讀,專家主要包括中國醫(yī)學科學院基礎醫(yī)學研究所及吉林大學從事肝癌研究以及醫(yī)學分子生物學研究的專家共3名。3位專家從研究內容及實體覆蓋面兩個方面確定納入文獻,經過專家判讀后形成規(guī)模為2 000篇的標注文獻集。文獻篩選流程,見圖1。

圖1 標注文獻篩選流程
2.3.1 標注工具 利用標注工具可提高語料標注效率及準確性,因此選擇或者開發(fā)語料標注工具是構建大規(guī)模語料庫的前提。目前用于生物醫(yī)學文本語料標注工作的標注工具有多種,其中開源的并且已被用于生物醫(yī)學文本標注的工具有Argo[18]、CALLISTO[19]、GAET[20]、MyMiner[21]、Semantator[22]、BRAT[23]等,其性能對比,見表2[24]。

表2 部分生物醫(yī)學文本標注工具對比
可知相比于其他標注工具,BRAT在對關系的標注及響應速度上有較大優(yōu)勢。此外BRAT工具在安裝與配置上較其他標注工具更簡單。基于此,本文選擇的標注工具為BRAT文本標注工具。BRAT基于Web,其生成的標注結果可以將非結構化的原始文本結構化,實現對文本的結構化標注并供計算機處理。BRAT既支持用戶對文本進行手工標注,也可以利用其配置的工具對文本進行自動標注,或者對其他標注工具的標注結果進行可視化展示。通過對配置文件進行修改可定義標注的實體名稱以及實體間的關系類型。該工具已被成功用于多種語料庫的構建(包括Anatomical Entity Mention (AnEM) corpus、CellFinder corpus、Multi-Level Event Extraction corpus)。本文利用該標注工具進行2 000篇標注集文獻的標注。
2.3.2 標注流程及結果 語料標注流程分為語料預處理和語料標注兩部分。語料預處理目的在于將待標注的生物醫(yī)學文獻進行格式轉換,將語料格式轉換為BRAT工具可讀取的.TXT格式文件并將文獻標題及摘要部分進行斷句切分。由于本研究的目的在于構建一個可作為金標準的精準醫(yī)學文本語料庫,因此語料標注研究采用人工標注方法。人工標注模式可分為3種:傳統的領域專家標注、眾包標注以及團體標注[25],根據精準醫(yī)學文本語料標注工作專業(yè)性強且工作量大的特點,分別從中國醫(yī)學科學院醫(yī)學信息研究所、中國軍事醫(yī)學科學院、中國醫(yī)科大學、吉林大學、廣東藥科大學等院校招募具有醫(yī)學背景的碩士研究生若干名作為標注人員分批次進行標注培訓。在標注過程中,BRAT工具配置4個外部鏈接:MeSH、NCIt、SNOMEDCT、Wikipedia以幫助標注人員遇到自由詞或模糊概念詞時快速有效地確定正確的概念與語義類型。借助外部鏈接確定實體類型并標注,標注效果,見圖2。由于配置的外部鏈接中不能完全涵蓋精準醫(yī)學本體涉及的實體類型,標注過程中需要標注人員更多地利用標注規(guī)范開展實體及關系標注。語料庫標注規(guī)范是標注人員遵循的最重要的原則,直接影響標注結果質量。為確保標注結果的科學性、有效性與可用性,本研究在精準醫(yī)學本體V1.0版本以及2 000篇文獻標注的基礎上逐步完善語料庫標注規(guī)范,形成精準醫(yī)學語料庫標注規(guī)范V1.0版本并根據形成的標注規(guī)范對2 000篇文獻開展2次標注。精準醫(yī)學語料庫標注規(guī)范V1.0版本主要包括3部分:精準醫(yī)學本體語義類型、關系來源及概念解析、實體標注規(guī)范以及關系標注規(guī)范。第1部分主要根據精準醫(yī)學本體對概念詞的來源進行標準化,以輔助標注人員在遇到模糊自由詞時可以快速有效地確定正確的概念及語義類型;第2部分與第3部分主要針對6大類實體和下位類實體以及關系類型給出其定義以及標注示例,輔助標注人員了解概念內容與語義場景。此外,針對6大類實體類型中均存在的“全稱(縮寫)”形式詞語的標注,初步確定標注3次的原則,即“全程”、“縮寫”、“全稱(縮寫)”均需標注;針對“名稱+類型”形式詞語的標注,經過與后續(xù)機器學習算法開發(fā)項目組成員的確認,確定“名稱+類型”形式詞語一起標注為一個實體的原則,見圖3。

圖2 實體標注效果

圖3 “名稱+類型”形式詞語標注
2 000篇標注語料中標注的實體及關系數量,見表3、表4。可看出所選的2 000篇語料標注的實體及關系總量較大,各個實體類型均有涉及且數量較多,確保語料對于實體的覆蓋面。

表3 2 000篇語料實體及關系總量統計

表4 500篇語料各類型實體數量統計
用來對語料的標注質量進行把關。在語料標注過程中,為確保語料標注的正確性以及方便后續(xù)一致性檢驗工作,每篇文獻均由兩名標注者“背靠背”標注完成。常見的一致性檢驗方法有Kappa檢驗[26]、F-measure[27]等。Kappa檢驗用Kappa統計量來反應一致性程度的高低,計算方法見式(1)、式(2)、式(3):
(1)
(2)
(3)
Kappa檢驗經常用于臨床中對兩種診斷方法診斷某疾病的一致性評判,n表示接受兩種方法診斷的患者數。如用A、B方法針對C疾病檢測,其結果,見表5。

表5 A、B方法針對C疾病的檢測結果
用F-measure方法進行一致性檢驗的前提是存在金標準,因為F-measure是關于精確率和召回率的加權調和平均值,在沒有金標準存在的語料標注工作中各標注者標注工作的精確率和召回率無法計算,因此F-measure方法也不適用于本研究的一致性檢驗環(huán)節(jié)。基于此,用Jaccard Score算法[28]進行語料標注的一致性檢驗,其計算方法,見式(4):
(4)
其中Ai表示在語料實體類型的標注過程中被標注者i標注為實體類型A的實體集;Aj表示在語料實體類型的標注過程中被標注者j標注為實體類型A的實體集;Ai∩Aj表示對于實體類型A,兩個標注者標注完全一致的實體集;Ai∪Aj表示兩個標注者標注為實體類型A的所有實體。為確保標注結果的可靠性及標注質量,在一致性檢驗的計算過程中使用嚴格一致性檢驗,即在確認兩個標注者對于某個實體的標注是否完全一致時必須綜合考量標注的實體類型、出現位置、覆蓋范圍,當兩個標注者對該實體的標注在這3方面完全一致時才視為標注一致。由于每篇文獻均由兩名標注者“背靠背”標注完成,在標注者嚴格遵守標注規(guī)范的前提下,一致性檢驗結果可以反映標注規(guī)范的有效性及準確性,一致性較低的文獻進行再次加工以提高標注質量。在已標注語料文獻集中隨機抽取300篇完成“背對背”標注的文獻,利用Jaccard Score算法計算一致性,各類實體及關系的平均一致性,見表6。可知部分實體的一致性較高,如“Diseases”類型實體,部分實體的一致性程度略有不足,如“Molecular Mechanisms”及“Human Phenotype”類型實體。針對一致性較低類型剖析其原因:從本體角度來說,這兩類實體的下位類實體類型較多,部分下位類與其他大類下位類內容存在交叉,且下位類實體層級結構較深,這導致不同標注人員在標注時容易將同一概念詞標注為不同類型或不同層級的實體;從文獻角度來說,同一篇文獻無法涵蓋本體涉及的全部實體類型,對不同類型實體的覆蓋各有側重,相較于其他實體類型而言,文獻對于“Molecular Mechanisms”類型及“Human Phenotype”類型實體的覆蓋不足,這導致標注為這兩個類型實體的數量較少。根據Jaccard Score算法計算一致性時,當標注不一致的實體數量相同時文獻中實體數量越少的實體類型其標注一致性計算結果越低。

表6 300篇癌癥文獻實體及關系的平均一致性
國內對精準醫(yī)學文本語料庫構建研究較少,本研究在參考與調研多個國外經典標注語料庫的基礎上,經過語料選擇、語料預處理、語料標注、一致性檢驗等過程完成2 000篇癌癥相關文獻的語料標注,構建一定規(guī)模的精準醫(yī)學文本語料庫。該語料庫有以下特點:一是語料規(guī)模更大。目前已經完成2 000篇語料的標注工作,標注的語料句子約20 000個。二是實體、關系覆蓋面更廣。在進行語料選擇時充分考慮文獻對實體的覆蓋面,標注結果中,包含約23 725個不重復實體與22 622種關系,更利于潛在的有價值生物醫(yī)學知識的挖掘。三是標注結果具有較好的一致性。利用“背靠背”標注方式進行語料的人工標注并檢驗一致性,對一致性低的語料進行再加工,保證語料的標注質量。在今后的標注工作中將從以下3個方面進一步完善:第一,開發(fā)新的文獻相似性算法,完善標注文獻選擇工作,使得實體與關系覆蓋面更加均衡有效。標注文獻的選擇是精準醫(yī)學文本語料庫構建工作的第1步,也是語料庫構建的基礎。標注語料質量直接影響最終的標注效果。因此開發(fā)新的文獻相似性算法以完善標注文獻的選擇工作對精準醫(yī)學文本語料庫的構建大有裨益。第二,調整文獻篩選策略。隨著項目組精準醫(yī)學本體版本的變更與完善,本體涵蓋的實體及關系范圍越來越廣、越來越細,且精準醫(yī)學研究較為注重生物通路及遺傳突變,因此在后續(xù)語料庫標注過程中需要根據精準醫(yī)學研究重點及本體內容及時調整文獻篩選策略。第三,進一步擴大精準醫(yī)學文本語料庫覆蓋疾病類型。精準醫(yī)學的本質是利用生物信息、現代遺傳技術以及基因組等組學技術精確定位疾病的致病位點以及治療靶點,以實現疾病的個性化治療。其短期目標致力于為癌癥疾病提供更好的治療方法,長期目標則致力于為多種疾病的治療提供服務。因此精準醫(yī)學文本語料庫覆蓋的類型也需相應增加。目前標注疾病類型僅限于癌癥,未來將增加呼吸系統疾病、心血管疾病等類型,充分滿足精準醫(yī)學疾病譜研究需要。