999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習生物醫學實體關系抽取研究綜述

2021-11-12 14:52:12張益嘉魯明羽
計算機工程與應用 2021年21期
關鍵詞:文本方法模型

隗 昊,周 愛,張益嘉,陳 飛,屈 雯,魯明羽

大連海事大學 信息科學技術學院,遼寧 大連116026

隨著生物醫學和互聯網技術的發展,近年來,生物醫學領域相關資料、文獻、數據等數字化文本信息呈現出指數級增長趨勢[1]。海量的生物醫學文獻中蘊含著豐富的、前沿的生物醫學知識,是相關從業人員重要的知識來源,要從中迅速準確地獲取真正需要的特定知識,必須借助于智能化的文本挖掘等有效技術手段和工具來應對信息爆炸時代的挑戰。作為文本挖掘的關鍵基礎和重要內容,信息抽取的相關任務日漸成為人們關注的熱點。

信息抽取[2](Information Extraction,IE)肇始于20世紀60年代中期,是指從非結構化或半結構化文本中提取關鍵信息并整合為結構化信息的一項綜合技術,目前已被廣泛應用于信息檢索、問答系統、輿情分析等多個重要任務。其中,命名實體識別(Named Entity Recognition,NER)和關系抽?。≧elation Extraction,RE)作為信息抽取的核心任務和基礎工作,也順理成章地成為研究重點之一。在生物醫學領域,信息抽取工作包括從醫學文獻中識別疾病名、藥品名、化合物名等實體,并抽取實體間的交互作用關系等(如圖1所示),這對于生物醫學數據挖掘和知識發現研究的展開有著非常重要的意義和應用價值。例如,識別并抽取蛋白質之間的相互作用關系可以構建蛋白質復雜網絡,以此進行復合物發現工作;提取藥物和藥物以及藥物和疾病之間的相互作用關系可以開發“藥物-疾病”知識圖譜,并由此進行“老藥新用”研究;藥物之間的相互作用關系可以發現藥物之間的不良反應,可應用于指導病人科學服藥的在線診療系統。因此,以命名實體識別和關系抽取為代表的生物醫學信息抽取工作在領域知識圖譜構建、藥物重定位、智能醫療等研究中具有非常重要的意義和作用。

圖1 生物醫學實體關系抽取Fig.1 Biomedical entity relation extraction

近年來,隨著計算機硬件性能和計算能力的提升,由Hinton等人[3]提出的深度學習方法迅速成為研究熱點,因其幾乎不需要任何人工參與模型的訓練過程且性能優異、效果穩定而被廣泛應用于圖像處理、自然語言處理(Natural Language Processing,NLP)等領域。常見的深度神經網絡模型有卷積神經網絡[4](Convolutional Neural Network,CNN)、Transformer網絡[5]、循環神經網絡[6](Recurrent Neural Network,RNN)及其變種的長短時記憶網絡[7](Long Short-Term Memory,LSTM)和門控循環單元網絡[8](Gated Recurrent Unit,GRU)等。隨著深度學習時代的來臨,神經網絡模型為生物醫學領域的命名實體識別和關系抽取工作也帶來了新的突破。本文將對基于深度學習方法的生物醫學命名實體識別和關系抽取的發展歷程和研究進展分別進行歸納和概括。

1 命名實體識別

1.1 生物醫學命名實體識別簡介

在生物醫學領域,識別領域文本中的實體是整個生物醫學文本挖掘工作的基礎和關鍵,命名實體識別任務主要包括識別生物醫學文本中的基因、蛋白質、疾病、藥物、化合物等名稱,一直是NLP領域中的研究熱點。由于生物醫學文本的自身存在復雜性高、縮寫詞多、領域性強等特點,與通用領域相比,生物醫學領域實體識別任務存在以下諸多難點,如:領域專有實體數量多且識別困難;短語類實體較多且邊界難以劃分;領域實體缺少統一的命名規則,產生許多存在歧義的命名實體;存在大量縮寫、嵌套、含特殊字符的命名實體等。示例如圖2所示。

圖2 生物醫學命名實體識別難點示例Fig.2 Difficulties of biomedical named entity recognition

1.2 生物醫學命名實體識別主要評估指標

生物醫學命名實體識別的評價標準為當模型對基于BIO或IOBES等方案標注的實體邊界及預先定義的實體類型均正確識別時,方可判定預測結果為正確。評估模型性能常用的指標為準確率(P)、召回率(R)和F1值,具體的計算方法如下:

其中,TP表示模型預測為正例的真實正例個數,即正確預測的樣本個數;FP表示模型預測為正例的真實負例個數;FN表示模型預測為負例的真實正例個數。FP+FN為模型預測錯誤的樣本總數。

1.3 生物醫學命名實體識別研究進展

早期生物醫學的實體識別工作均是由人工構造詞典或規則的方法完成[9-13]。這類方法均需要由領域專家參與構建領域詞典或規則模板,費時費力且對領域知識依賴性強,擴展性和可移植性差,后期多被用于數據清洗,并與機器學習方法結合以提升模型性能。隨著計算機技術的快速發展,傳統機器學習方法被用于生物醫學領域實體識別工作[14-15]。這類模型通過數據預處理進行特征選擇,由機器代替部分人工完成對輸入樣本的學習和訓練,這相對降低了人工負擔和工作成本,在一定程度上提升了工作效率,但該類方法依舊依賴于特征工程,無法完全擺脫人工參與。

在基于深度學習方法的生物醫學NER研究方面,Yao等人[16]利用神經網絡對大量生物醫學文本訓練生成詞向量,然后構建多層CNN進行命名實體識別。Li等人[17]采用雙向長短期記憶網絡(BiLSTM)方法構建NER模型。Zhao等人[18]在疾病名和化合物識別任務中提出了多標簽CNN方法,將實體識別任務作為分類任務處理,使用多標簽機制獲取相鄰輸出標簽間的關系。隨著研究的不斷深入,神經網絡模型被發現無法處理序列標注任務中的標簽間強依賴問題,即預測標簽不僅與當前時刻的輸入特征相關,還與先前時刻的預測標簽相關。為了解決上述問題,研究者們考慮到條件隨機場模型(Conditional Random Field,CRF)在序列標注問題中的優勢,借鑒其主要思想,將標簽轉移得分加入到了目標函數中進行標簽預測,提出了BiLSTM-CRF架構,如圖3所示。Zeng等人[19]在藥物名識別任務中構建了BiLSTMCRF模型,將雙向LSTM與CRF結合,并使用了詞向量和字符向量兩種特征表示,在2011和2013DDI實體識別任務中均取得了較好的效果。Lyu等人[20]使用基于大量生物醫學未標注數據預訓練的詞向量和字符向量作為特征表示輸入,構建了BiLSTM-RNN神經網絡模型,最后通過CRF層解析句子標簽,在JNLPBA和BC2GM數據集上F1值達到73.79%和86.55%。Li等人[21]提出CNN-BiLSTM-CRF模型,利用CNN獲取字符級特征表示用于捕獲生物醫學領域詞匯的內部結構特征,與詞向量結合后通過BiLSTM-CRF模型完成實體識別,在不依賴任何特征工程的前提下在JNLPBA和BC2GM數據集上F1值達到74.40%和89.09%。

圖3 BiLSTM-CRF模型基本框架Fig.3 Framework of BiLSTM-CRF model

對于生物醫學實體識別,文本序列中的不同字符攜帶信息的重要性和影響程度不同,通常存在大量的冗余信息,如何在神經網絡特征學習中突出局部關鍵信息的作用成為提高NER模型性能的關鍵。Rei等人[22]基于BiLSTM-CRF的基礎架構,提出將詞級向量和字符級向量的拼接方式改為基于注意力機制的權重重分配求和,用于突出在特定的生物醫學領域下關鍵信息的重要程度,模型在四個生物醫學領域公共數據集上均取得了較好的效果。Pandey等人[23]基于BiLSTM結合注意力機制構建了Encoder-Decoder模型,最后使用Skip-Chain CRF獲取標簽序列,在根據Medline數據庫和電子健康記錄(EHR)構建的兩個數據集中的實體識別效果較Baseline均有明顯提升。由于生物醫學領域實體存在命名規則不統一以及大量縮寫形式,Luo等人[24]在面向文檔級化合物命名實體識別中,構建了BiLSTM-CRF與注意力機制相結合的NER模型,通過引入注意力機制獲取全局信息以保障文檔級數據中相同實體標記的一致性,并提供了四種注意力權重的計算方法,在CHEMDNER和CDR語料中分別取得了91.14%和92.57%的F1值,證明了注意力機制的有效性。近期,隨著ELMo、BERT等預訓練語言模型的出現,基于情境化向量表示的神經網絡模型也被廣泛地應用于生物醫學領域。Lee等人[25]基于大量的生物醫學未標注語料訓練了BioBERT語言模型,Jin等人[26]基于PubMed摘要訓練了BioELMo語言模型,Hakala等人[27]針對生物醫學實體識別任務構建了多語種BERT。這類生物醫學預訓練語言模型在各項主流NLP任務上均取得了先進的性能。Yu等人[28]將BERT引入了BiLSTM-CRF模型,基于上下文語境動態更新的向量表示輔助模型在電子病歷實體識別任務上實現了最佳性能。而Naseem等人[29]則整合了詞向量、字符向量、BioELMo和BioBERT多種特征表示,并構建了基于注意力機制的BiLSTM-CRF,該模型在多種生物醫學NER數據集上均取得了較好的性能。這類方法需要依賴高性能設備和大規模運算,但是大大提升了模型的特征捕獲和編碼能力。

深度學習方法雖然避免了對領域專家、專業知識和特征工程的依賴,但一般需要大量預先標注的訓練語料,所以在基于深度學習方法的命名實體識別任務中如何在獲取更多訓練樣本的同時降低噪聲數據的影響也是最近研究的重點。除了上述基于單任務學習的深度學習方法外,由于特定領域訓練樣本不充分,許多學者采用遷移學習、多任務學習的方式訓練模型,將與目標任務關聯密切的輔助任務聯合起來協同訓練,在減輕對帶標注的訓練數據依賴的同時獲取更多額外信息。Wang等人[30]基于BiLSTM-CRF構建了三種多任務學習框架,并通過參數共享的方式建立全局模型,分別學習不同生物醫學實體類型的特征表示,通過對不同類型實體間詞級和字符級的信息共享,模型性能得到明顯提升,在包含四種生物醫學實體類型的五個標準數據集上取得了先進的實驗結果。由于生物醫學領域缺少充足的標注訓練樣本。Wei等人[31]提出了基于多任務學習的多通道BiGRU-CRF模型,首先分別利用生物醫學領域預訓練詞向量、字符向量和ELMo拼接后生成豐富的輸入特征,并且使用單獨的雙向門控循環單元網絡(BiGRU)對其進行訓練,然后引入了類別標簽相似的額外生物醫學語料庫輔助訓練,該方法在JNLPBA和NCBI-Disease數據集上F1值達到76.0%和88.7%。Giorgi等人[32]從提升模型的泛化性出發,以當前主流的實體識別模型BiLSTM-CRF為基線,從多任務學習、遷移學習和變分Dropout三個方面進行改進,最終模型性能在多種生物醫學數據集上均有提升,該項評估也驗證了遷移學習、多任務學習等策略應用在訓練樣本較少的生物醫學領域中的有效性。

表1 列舉了近年來研究所采用的部分代表性數據集,包括名稱、實體類型以及下載鏈接。表2歸納和總結了基于深度學習的生物醫學命名實體識別方法的類型、代表工作和優缺點。

表1 生物醫學領域命名實體識別部分代表性數據集Table 1 Mainstream corpora of biomedical named entity recognition

表2 生物醫學命名實體識別方法總結及優缺點概述Table 2 Summary and limitations of biomedical named entity recognition methods

2 關系抽取

2.1 生物醫學關系抽取簡介

生物醫學領域關系抽取任務在于判斷文本中兩個實體之間的關系,比如在藥物文本中判斷兩個藥物之間是相互促進、減弱還是會產生副作用等。生物醫學關系抽取揭示了醫學領域疾病、藥物、基因等重要實體之間的語義關系[33],在醫學知識圖譜構建、可視化關系網絡生成、老藥新用等研究中具有重要作用。典型的生物醫學關系抽取任務有蛋白質交互關系抽取[34](Protein-Protein Interaction,PPI)、藥物相互作用抽取[35](Drug-Drug Interaction,DDI)、化合物疾病交互關系抽取[36](Chemical-Disease Relation,CDR)等。

生物醫學文本資源豐富,但其中蘊含的信息錯綜復雜,存在大量領域性詞匯,對專業知識積累要求較高。與通用領域相比,生物醫學領域關系抽取任務存在以下諸多難點,如:文本句式冗長復雜、存在關系的實體對分布密集以及存在大量重疊關系等。相關研究表明,生物醫學語料中所包含的實體數量為通用領域的2~3倍,存在關系的實體對更為通用領域4~6倍[37]。示例如圖4所示,例中復雜的長句下不僅且包含大量生物醫學領域特定詞匯和縮寫形式,而且存在密集分布的重疊關系實體對,此類情況在生物醫學文本中非常常見,大大增加了關系抽取工作的難度。

圖4 生物醫學關系抽取難點示例Fig.4 Difficulties of biomedical relation extraction

2.2 生物醫學關系抽取主要評估指標

生物醫學關系抽取的評價標準為當模型能夠正確識別測試樣本的預定義關系類型時,方可判定預測結果為正確。與命名實體識別任務類似的,評估關系抽取模型性能常用的指標為準確率、召回率和F1值,依據模型提供的TP、FP和FN計算相應的指標。

2.3 生物醫學關系抽取研究進展

早期的生物醫學領域關系抽取工作均是基于詞典和規則層面,即領域專家組織專業研究團隊根據生物醫學領域相關的詞典、知識庫、本體庫等通過自然語言處理工具預處理后由人工設計規則模板完成醫學實體間關系的抽取[38-40]。上述基于生物醫學詞典和規則的關系抽取方法在詞典規模大、模板設計準確的情況下具有較高的準確性,但是可移植性和可擴展性差且要求工作人員具備專業的生物醫學領域知識,無法識別模板外的生物醫學實體關系,在海量的數字化醫學資源中效果不佳,而且在實際研究過程中,生物醫學領域詞典的構建和規則模板的設計耗費了大量精力和人力。隨著計算機技術的發展,傳統機器學習方法在一定程度上減輕了研究者們的人工負擔,降低了生物醫學領域關系抽取任務的專業性壁壘。

傳統機器學習方法將生物醫學關系抽取作為文本n元分類問題處理,通過模型從標注好的語料中抽取豐富特征訓練后得到n元分類器[41-42]。另外,通過自行設計適應生物醫學領域特性的核函數用于實體間關系的抽取也是傳統機器學習方法的主要研究內容之一,通過向高維特征空間的映射實現對分類樣本的線性可分,是一種計算高維空間內積的方法[43-45]?;趥鹘y機器學習方法的生物醫學關系抽取與基于詞典和規則的方法相比雖然一定程度上減少了人工負擔,避免了構建大規模詞典和設計大量規則模板,但仍需要大量的特征工程,且在處理語料方面產生了較多的資源消耗。

近年來,隨著深度學習方法在各個領域的迅速風靡,研究者們開始將其應用于生物醫學關系抽取工作。深度神經網絡僅需少量甚至無需任何特征工程,即可自發地從領域文本中提取特征訓練模型,且依舊保持較高的準確性和穩定性。在生物醫學領域,CNN、LSTM和Transformer成為了當前關系抽取的三大主流神經網絡架構。Liu等人[46]結合生物醫學領域預訓練詞向量和位置向量表示構建了Text-CNN模型用于藥物間相互作用提取,位置向量可以反映出輸入樣本中每個單詞與目標實體對間的距離,適用于實體對分布密集的生物醫學長句,模型在DDI2013數據集上F1值達到了69.75%。Hua等人[47]提出基于最短依存路徑(Shortest Dependency Path,SDP)的CNN模型用于蛋白質相互作用提取,SDP可以直接提取出層次結構復雜的生物醫學長句式中的核心依存結構,將其與詞向量組合作為特征輸入,在AIMed和BioInfer數據集上F1值分別達到66.6%和75.3%。Zhao等人[48]提出一種兩階段句法CNN,將詞向量與句法信息、位置、詞性等多種外部特征結合,使用Enju和Word2vec生成句法詞向量,最后使用卷積操作提取特征完成關系分類。Lim等人[49]提出一種改進的二叉樹LSTM,將詞向量結合了位置、句法信息等特征,并為藥物相互作用關系的檢測和分類提供了多種模式,在DDI2013評測數據中關系檢測F1值達到83.8%,關系分類F1值達到73.5%。Asada等人[50]將注意力機制與CNN結合用于藥物相互作用提取,通過注意力機制突出目標句子中的關鍵信息。Yi等人[51]基于BiGRU構建了多層注意力機制的關系抽取模型,提供了詞級和句級兩種注意力權重的計算方式,最終模型在DDI2013數據集上取得了72.20%的F1值。Christopoulou等人[52]基于多任務學習策略構建了集成學習模型,采用基于注意力機制的BiLSTM進行句子內的關系抽取,同時引入Transformer用于提取句子間的實體關系,該模型在臨床關系抽取評測任務上取得了較好的性能。上述基于外部知識或注意力機制的關系抽取方法在一定程度上提升了模型性能,但受限于對上下文情境建模不佳等問題,在面對生物醫學的復雜長句時未能表現出良好的效果。

近期,生物醫學領域使用圖神經網絡進行圖結構表示的關系抽取研究在與日俱增。Song等人[53]在BiLSTM的基礎上結合了圖循環神經網絡GRN,基于圖的神經網絡架構可以更好地建模層次結構復雜的生物醫學長句,有效地提升模型的特征提取能力。Park等人[54]分析了生物醫學領域的樣本特點并充分地考慮到輸入樣本的上下文語境信息和空間結構信息,提出了一種注意力圖卷積神經網絡模型AGCN,基于注意力機制設計了新的剪枝策略用于捕獲重要的句法特征,模型在DDI2013數據集上實現了76.86%的SOTA性能。另外,與命名實體識別任務類似的,當前預訓練語言模型在諸多領域的先進方法中占據著主導地位,Zhang等人[55]基于ELMo和多頭注意力機制構建了BiLSTM模型用于提取化合物-蛋白質相互作用關系(Chemical-Protein Interaction,CPI),通過引入情境化向量表示使模型性能達到65.9%。Sun等人[56]在BERT的基礎上引入了包含蛋白質和化合物等概念信息的生物醫學領域知識,并通過高斯概率分布對特征表示進行權重重分配,模型在CPI數據集上取得了76.56%的先進性能。上述基于圖結構或預訓練語言模型的方法通過對上下文情境全局建模,可以大幅地提升模型性能,已成為當前的熱門研究點之一,但此類方法對標注訓練數據的要求較高且需要依賴高性能的運算環境。

隨著遠程監督學習在通用領域的長足發展,學者們在生物醫學領域亦有嘗試。Lamurias等人[57]提出了基于遠程監督的miRNA-基因關系抽取模型,可以有效地從未標注的生物醫學文獻語料中提取關系。為了減少遠程知識庫中有標記數據的噪聲,Li等人[58]提出了多種啟發式算法對生物醫學樣本進行預處理,在一定程度上緩解了遠程監督學習標記準確性不佳的問題。Sousa等人[59]將遠程監督學習與眾包機制相結合,眾包可以糾正或丟棄由遠程知識庫標記產生的噪聲數據,將上述方法產生的新的標注數據應用在兩個先進的生物醫學模型中,二者均實現了更好的性能。

生物醫學關系抽取作為信息抽取的核心工作,其重要性對數據挖掘的各項復雜技術影響深遠,意義重大,將會繼續成為未來的研究熱點。對近年來生物醫學領域關系抽取任務的研究進展進行概括和分析,歸納出了該任務的基本流程和框架(圖5),以及主要深度學習方法的類型、代表工作和優缺點(表3)。最后,總結了該領域的部分代表性數據集的關系類型和下載鏈接,如表4所示。

表3 生物醫學關系抽取方法總結及優缺點概述Table 3 Summary and limitations of biomedical relation extraction

表4 生物醫學關系抽取部分代表性數據集Table 4 Mainstream corpora of biomedical relation extraction

圖5 生物醫學關系抽取基本框架Fig.5 Framework of biomedical relation extraction

3 生物醫學實體關系聯合抽取

目前,生物醫學實體識別和關系抽取通常被研究者們視為獨立存在的任務單獨研究,但在實際的生物醫學信息抽取和文本挖掘工作中,命名實體識別作為關系抽取的研究基礎和關鍵,二者之間聯系密切,實體識別的準確與否對關系抽取結果起著至關重要的作用。當前對于上述兩個子任務的處理方式大多為流水線處理,即先對海量生物醫學文本數據進行命名實體識別,將識別結果兩兩組合為實體對,再進行實體對間關系的抽取,最后形成實體對和關系的三元組[60]。

流水線方式不僅會造成誤差疊加,導致錯誤層級傳播,而且忽視了兩個原本聯系密切的子任務間的關系。為了解決上述問題,研究者們考慮對生物醫學文本進行實體識別和關系抽取的聯合學習,即將二者結合起來,構建一個適合這兩個任務的聯合模型。

在前期研究中,Kordjamshidi等人[61]提出一種基于SpRL算法[62]的聯合學習方法用于生物醫學關系提取,根據不同層次構造了四大類共25種生物醫學特征用于實體關系聯合抽取,在BioNLP-ST 2013任務評測中表現較之前系統有了明顯提升。Liu等人[63]基于結構感知機實現藥物實體和關系的聯合學習,設計打分函數并使用beamsearch方法縮小遍歷范圍,分別從實體特征和關系特征兩方面選取了中心詞、模式、領域詞典、并列結構、依存結構等適應生物醫學領域特性的8種特征用于實體識別和關系抽取,模型在DDI2013的DrugBank部分測評中藥品名識別和藥物關系抽取F1值達到90.5%和50.3%,均高于基于CRF構建的順序處理基準模型?;谏鲜鰝鹘y機器學習方法構造的生物醫學實體和關系聯合抽取模型,可以有效地緩解誤差疊加問題,但是需要大量的特征工程,對于人力成本要求較高。最近,人們考慮使用較少特征工程的神經網絡模型進行生物醫學實體識別和關系抽取的聯合學習任務。Li等人[64]構建了基于Bi-LSTM-RNN的聯合學習模型,用于藥物不良事件提取(Adverse Drug Extraction,ADE)和細菌-群落關系提?。˙acteria-Biotope,BB),該模型首先將詞向量與字符向量和位置向量結合完成命名實體識別,然后開始抽取實體對之間存在的特定關系,結合依存句法分析通過最短依存路徑在同一結構的模型中完成關系抽取工作,通過共享訓練參數的方式實現聯合學習目的。Bekoulis等人[65]在聯合抽取模型中通過使用對抗訓練(Adversarial Training,AT)的正則化方法給訓練數據增加擾動,提高BiLSTM模型的魯棒性。以上參數共享的方法雖然使實體識別和關系抽取兩個任務之間通過共享訓練參數實現共享,但實際還是將兩任務先后分開處理,這仍然會產生錯誤傳遞和信息冗余問題。Luo等人[66]提出一種基于標注策略的生物醫學聯合學習模型,將命名實體識別和關系抽取聯合抽象為一種序列標注任務,通過合并兩個任務的類型標簽設計了一種新的標注方案和提取規則,并且以詞向量、字符向量和ELMo為輸入特征構建了基于注意力機制的BiLSTM-CRF模型,該方法顯著提高了聯合抽取的性能并在一定程度上緩解了生物醫學關系抽取中的實體重疊問題,但在面對復雜關系重疊問題時仍未有良好的解決方案?;趨倒蚕砘驑俗⒉呗缘穆摵蠈W習方法可以充分利用命名實體識別和關系抽取兩個子任務間的密切聯系,已逐漸成為信息抽取領域的重點研究方向之一。

4 挑戰與展望

近年來,隨著深度學習等技術的不斷發展,以命名實體識別和關系抽取為代表的生物醫學領域信息抽取的各項任務取得了長足的進步,但仍面臨諸多問題和挑戰,在技術和方法方面仍有廣闊的提升空間?;谇笆龇治?,本文認為生物醫學領域命名實體識別和關系抽取仍有許多問題值得深入研究。

(1)在命名實體識別方面,由于生物醫學文本句式多變、實體邊界模糊、無統一的命名規則且存在大量的縮寫和簡略形式,面對當前指數級增長的數字化文本,通過引入豐富的領域知識表示或通過外部知識庫指導等方式對實體進行消歧和鏈接,以保持命名實體的一致性是后期性能提升需要面臨和解決的問題之一。另外,當前生物醫學領域的命名實體識別研究仍局限在以文本數據為載體的單模態模式下,然而生物醫學研究源遠流長,積累了海量的領域資源,為了更充分地結合和利用這些豐富的領域先驗知識,引入生物醫學圖像、音頻等文本數據以外的其他多媒體信息的多模態命名實體識別也將是今后的主要研究方向之一。最后,受到語言問題的限制,世界各地的研究者們在生物醫學領域的研究所產生的學術文獻、電子病歷、診療記錄等數字化數據資源無法實現真正意義上的知識共享。將生物醫學命名實體識別研究由單語言模式擴展到跨語言模式下,通過研究不同語言空間的語義相似度,構建跨語言語義表示模型進行多語言環境下的命名實體識別工作將是未來有意義的挑戰性工作之一。

(2)在關系抽取方面,遠程監督學習雖然可以有效地緩解生物醫學這類特定領域帶標注的訓練樣本不足的問題,但仍然存在遠程知識庫錯誤標注和錯誤傳播問題,現有的解決方案大都采用多示例學習或啟發式學習等方法緩解噪聲問題,但此類方法都不可保證初始訓練樣本的標注準確性,下一步可基于強化學習或主動學習思想,使遠程監督模型進行引導性學習,或可成為遠程監督在生物醫學領域關系抽取任務上新的嘗試。另外,當前研究大多集中在單句層面,而在生物醫學文本中跨句子間的實體也存在大量復雜多樣的語義關系,采用指代消解、實體鏈接等方法與實體關系聯合訓練或利用圖神經網絡的全局建模優勢提升跨句子實體間關系抽取效果將是當前需要探索的重要方向之一。最后,當前生物醫學領域的關系抽取工作均需要預先定義固定標簽的關系類別,如此深度神經網絡模型只能抽取特定類別的生物醫學關系。面對海量的關系類型復雜多樣的生物醫學數據,開發和構建基于半監督、弱監督或無監督的開放式關系抽取模型將是當前值得重點探索和研究的方向之一。

(3)當前實體關系抽取方法由先前的流水線模式發展到后來的聯合學習模式,有效減少了誤差層疊,但在模型內部仍存在無法有效地提取復雜的重疊關系等問題。未來可針對生物醫學文本表述特征改進訓練樣本的標注方法,提出可區分重疊關系的細粒度標注方案,或通過針對每一種關系類型構造單獨的特征子空間以避免重疊關系的問題,進一步改進和完善命名實體識別和關系抽取聯合學習方法。

(4)除了上述從任務角度的研究展望外,從方法角度來看,學習能力強大的深度神經網絡模型往往需要依賴大量標注好的訓練樣本,由于特定領域下訓練語料匱乏且標注語料需要依賴大量的領域專家參與,為了節省標注成本并打破領域知識壁壘,基于?。悖颖緦W習、自監督學習或是針對現有標注數據引入其他解釋性輔助知識的生物醫學信息抽取工作將是未來的研究方向之一。另外,當前人工智能研究方興未艾,深度學習技術迅速發展,深度神經網絡模型在諸多領域都取得了優越的表現,但是其“黑盒”機制下參數學習的不可解釋性依舊是當前亟待解決的問題之一。在生物醫學領域,采用深度學習技術進行數據挖掘和知識發現,除了展示實驗結果外,對其背后的生物學機制進行解釋顯得更為重要。因此,面向生物醫學領域開發可解釋的深度神經網絡架構,例如從神經網絡與不確定性知識推理相結合的角度出發展開研究將是當前充滿意義和前景的探索方向之一。

(5)中文生物醫學信息抽取由于語料庫缺乏、中文句式復雜等問題仍落后于英文方面研究,而國內面向中醫中藥相關領域的數字化文本也在迅速增長,當前藥物發現、知識圖譜構建、在線醫療等工作正全面展開,信息抽取作為基礎工作亟待研究,后期可面向數字化中文生物醫學文本構建標注語料或訓練大規模語言模型,針對基于中文生物醫學文本的命名實體識別和關系抽取等問題展開研究。

5 結束語

作為生物醫學文本挖掘的基礎工作,信息抽取各項任務的研究價值也正得到越來越多的認可和重視。本文分析了近幾年來命名實體識別和關系抽取在生物醫學領域的研究現狀,總結出國內外研究人員的工作進展,分析了當前面臨的主要問題,并探索了未來的研究方向。在了解生物醫學信息抽取的發展歷程和研究現狀的同時,也要總結分析NLP相關領域甚至其他領域的研究成果,為生物醫學信息抽取各項任務更加深入地研究帶來新的機遇,以創新理念引領信息抽取研究不斷取得進步。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产91丝袜在线播放动漫| 一本久道热中字伊人| 色悠久久久| 又粗又硬又大又爽免费视频播放| 欧美成人午夜视频免看| 亚洲无码精彩视频在线观看| 亚洲成AV人手机在线观看网站| 国产人碰人摸人爱免费视频| 国产成人综合亚洲欧洲色就色| 国产99热| 成人日韩精品| 天堂va亚洲va欧美va国产| 激情综合图区| 国产激情影院| 欧美精品另类| 国产在线第二页| 久久国产精品影院| 热九九精品| 亚洲男人的天堂视频| 亚洲三级片在线看| 国产成人夜色91| 五月天久久综合国产一区二区| 久久伊伊香蕉综合精品| 欧美区一区二区三| 国产大全韩国亚洲一区二区三区| 久久精品亚洲热综合一区二区| 久久综合AV免费观看| 无码中文AⅤ在线观看| 全部免费特黄特色大片视频| 91香蕉视频下载网站| 极品尤物av美乳在线观看| 夜夜操天天摸| 欧洲精品视频在线观看| 88国产经典欧美一区二区三区| 一级毛片在线免费看| 99精品这里只有精品高清视频| 美女潮喷出白浆在线观看视频| 真实国产精品vr专区| 国产SUV精品一区二区6| 一本大道视频精品人妻| 国产成人AV男人的天堂| 国产第八页| 91亚洲精品国产自在现线| 午夜老司机永久免费看片| 尤物精品视频一区二区三区| 午夜毛片免费看| 九色在线视频导航91| 亚洲第一极品精品无码| 国产一级视频在线观看网站| 青青操国产视频| 青青青国产视频| 国产真实自在自线免费精品| 国产无人区一区二区三区| 中文成人在线| 国产一区二区免费播放| 欧美特黄一免在线观看| 囯产av无码片毛片一级| av色爱 天堂网| 夜夜操天天摸| 国产精品无码一二三视频| 天天色综合4| 中文字幕亚洲另类天堂| 久久99热66这里只有精品一| 国产在线观看成人91| 成年女人a毛片免费视频| 欧美色亚洲| 亚洲天堂自拍| 日韩欧美中文字幕在线精品| 亚洲区视频在线观看| 久久精品嫩草研究院| 99久久精品无码专区免费| 热伊人99re久久精品最新地| 国产精品亚洲va在线观看| 日本成人精品视频| 18黑白丝水手服自慰喷水网站| 欧美福利在线| 自偷自拍三级全三级视频 | 免费又爽又刺激高潮网址| 亚洲天堂在线免费| 亚洲天堂网在线视频| 天天视频在线91频| 久久久国产精品无码专区|