999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM-CRF的中文生物醫學開放式概念關系抽取

2018-05-07 01:44:4823
中華醫學圖書情報雜志 2018年11期
關鍵詞:概念實驗方法

23

生物醫學領域積累了豐富的數字化文獻資源。隨著新知識不斷涌現,從海量自然語言文本中自動發現生物醫學概念之間的語義關系,有助于人們快速理解醫學文本內容、構建醫學知識網絡等研究。

傳統的關系抽取任務主要面向特定領域,借助自然語言處理工具人工構建關系模板,以識別特定類型的實體及其語義關系[1]。在生物醫學領域,包括美國國家醫學圖書館(National Library of Medicine,NLM)、生物整合信息學基金會(Informatics for Integrating Biology & the Beside,i2b2)等國際組織及評測會議有力推動了生物醫學實體關系抽取研究[2-4]。

近年來,針對互聯網數據包含大量復雜關系的特點,開放式信息抽取(Open Information Extraction,Open IE)研究逐漸興起[5]。不同于傳統關系抽取任務,開放式關系抽取無需預先定義關系類型,而是利用上下文中的關系短語(Relation Phrases)描述實體或概念之間的語義關系。如給定句子“吉非替尼對非小細胞肺癌細胞的體外抑制作用”,其中關系短語“體外抑制作用”表示了醫學概念“吉非替尼”和“非小細胞肺癌細胞”之間的語義關系。

Banko等于2007年首先提出了Open IE的研究思路[6],之后陸續涌現出的Text Runner[7]、WOE[8]、ReVerb[9]、R2A2[10]等英文Open IE系統,可大規模抽取以動詞為核心的關系,但無法有效提取以名詞、形容詞等為核心的關系元組。如Schmitz等提出的第二代英文開放式關系抽取系統OLLIE[11],可同時抽取以動詞、名詞、形容詞等為核心的二元開放式關系元組,并有效融入了上下文信息,其局限是易受依存分析錯誤的影響;Del Corro等提出的一種基于子句的英文開放式關系抽取方法ClausIE[12],將關系抽取分為檢測有用信息碎片和抽取關系表達形式兩個子任務;Akbik等提出了基于句法特征及依存路徑檢測高階n元實體關系的KRAKEN系統[13];Zhu等提出的StatSnowball[14]和Liu 等提出的EntSum[15]分別通過引入聯合推理機制[16]抽取深層隱含關系;卡內基梅隆大學研發的Never Ending Language Learning(NELL)系統[17-18]是本體推理的代表,基于初始本體類別和種子學習規則,從Web上抽取了超過5 000萬的事實型信息,其中近200萬抽取結果的可信度為95%;Mausam 等提出了OPENIE4[19]系統,基于語義角色標注系統SRLIE[20]實現了名詞引導的關系抽取;Saha等人提出的OPENIE5[21]系統針對數字句的提取進行改進,通過切斷連接詞以抽取多個關系元組;Cui等人[22]提出了一種基于Encoder-Decoder框架的神經網絡開放式信息抽取方法,通過學習已有Open IE系統的關系抽取結果,進一步獲得高置信度的開放式關系元組。同期出現的還有Stanford OPENIE[23]、PropS[24]等系統,并已成功應用于不同任務場景。

由于中文和英文之間存在語言學差異,已有的英文開放式關系抽取方法不能直接移植到中文領域。有研究者嘗試研究面向通用領域的中文開放式關系抽取任務。如劉安安[25]提出了面向大規模網絡文本的無監督開放式中文實體關系抽取方法(UnCORE);王明印[26]提出的結合條件隨機場(Conditional Random Fields,CRF)與Bootstrap自舉框架的半監督開放式中文實體關系抽取方法(SCOERE),在新聞網頁語料上實驗取得0.732的F值;Tseng[27]等提出的中文開放式關系抽取系統CORE,從自由文本中抽取了超過1 300萬條中文實體關系,并應用于開放領域自動問答任務。當前中文生物醫學領域主要集中在限定類型的傳統實體關系抽取研究[28-29],而尚無深入探討中文生物醫學文本的開放式概念關系抽取方法的報道。

本文針對生物醫學領域概念數量多、概念之間關系類型復雜等特點,提出了一種基于BiLSTM-CRF模型的中文生物醫學開放式概念關系抽取方法,將中文生物醫學開放式概念關系抽取轉換為詞序列到關系標簽序列的生成問題。BiLSTM-CRF模型是當前序列標注任務中的主流深度學習框架[30]。在中文生物醫學文獻數據集上的實驗結果表明,基于BiLSTM-CRF的中文開放式概念關系抽取方法具有較好的魯棒性和泛化性。

1 數據

1.1 實驗數據收集

實驗數據源自中國生物醫學文獻數據庫(China Biology Medicine disc,CBM)。以“肺腫瘤”為檢索主題,于2018年1月通過中國生物醫學文獻服務系統(SinoMed)檢索2011-2017年出版的中文文獻,共遴選出4 913篇中文生物醫學文獻題錄信息,包括流水號、中文標題、中文摘要、中文關鍵詞等。經觀察發現實驗語料中的摘要結構主要有3類:第一類是無摘要文獻,即摘要內容實際為文獻正文的第一段;第二類是結構式摘要,包括目的、方法、結果、結論等;第三類是常規綜述性摘要。經統計第一類文獻1 246篇,第二類文獻3 075篇,第三類文獻592篇。

1.2 實驗詞表

為正確識別生物醫學文本中出現的專業概念,選取了2015版CMeSH詞表的部分內容作為實驗用生物醫學詞表。遴選范圍包括解剖學、疾病、藥物等主題(A-G類)的中英文主題詞及術語(款目詞),共計50 477條生物醫學術語。經統計實驗詞表中術語的字長在1~45字之間,其中包含2~12字的術語約占總量的95%。

1.3 文本預處理

首先,分別對不同類型文獻進行清洗及分句處理。其中,第一類文獻摘要去除末尾的[第一段]標識,并根據標點符號進行分句;第二類文獻根據摘要內容標記(即“目的”“方法”“結果”“結論”)進行分塊,提取句子的同時標注對應的標記;第三類文獻直接根據標點符號進行分句。

其次,選取領域泛化性能較好的自然語言處理工具(Language Technology Platform,LTP)語言技術平臺[31]作為文本預處理工具,并利用實驗詞表及少量人工標注的生物醫學文本語料對其進行領域優化,進而對分句結果進行中文分詞及詞性標注等預處理。

2 研究框架

本文關注同一句子中的二元開放式概念關系。基于Pipeline思想,設計了中文生物醫學開放式概念關系抽取框架(圖1)。

首先從中文生物醫學文本中自動識別生物醫學概念,并篩選包含兩個及以上概念的句子作為候選關系句;其次從候選關系句中抽取非限定類型的中文生物醫學開放式概念關系元組,并與人工標注結果進行對比評價。

圖1 中文生物醫學開放式概念關系抽取框架

3 方法

3.1 中文生物醫學概念識別

針對生物醫學文本中概念數量龐大且類型多樣的特點,采用結合詞典及規則匹配的方法從中文生物醫學文本中自動識別生物醫學概念,流程如圖2所示。

其中,詞典匹配方法是基于實驗詞表對句子中的短語進行正向最大字符串匹配,保留最大匹配短語及其位置信息。該方法對長術語的匹配精度較高,但無法覆蓋未登錄概念。

圖2中文生物醫學概念識別

規則匹配方法是通過分析實驗詞表、文獻標題及關鍵詞中的術語詞性組合及頻次分布規律,對生物醫學術語的構詞規則進行總結,再基于構詞規則對句子短語進行正則匹配。該方法有助于發現未登錄術語。經分析發現,實驗詞表中99%的術語包含名詞、動詞或形容詞,組合形式有“名詞+名詞”(如“淋巴組織”)、“形容詞+名詞”(如“小細胞癌”)、“名詞+動詞”(如“喉頭痙攣”)等。此外,組合中常見英文字符和標點符號(如括號“()”),而語氣詞、狀態詞、嘆詞、擬聲詞和代詞等很少見。選取頻次大于5的詞性規則形成正則表達式,共生成無重復的術語構詞規則3 248條,由此對句子短語進行正則匹配。

利用上述兩種方法對實驗語料中的每個句子進行術語匹配后合并去重,篩選包含兩個以上生物醫學概念的句子作為候選關系句子。

3.2 基于BiLSTM-CRF的中文生物醫學開放式概念關系抽取

BiLSTM-CRF模型結合了BiLSTM網絡(Bidirectional LSTM Network)與CRF模型的優點。其中,BiLSTM層融合了兩組方向相反的長短時記憶(Long Short-Term Memory,LSTM)網絡,可同時學習過去和將來的信息;CRF層能夠學習句子級標簽的上下文信息,在BiLSTM層上增加CRF層可以輸出更加合理的標簽。BiLSTM-CRF的網絡結構包括輸入層(詞/字向量表示)、BiLSTM層以及CRF層(圖3)。

圖3 BiLSTM-CRF網絡結構

(1)

(2)

(3)

4 實驗

4.1 概念識別

結合詞典匹配與規則匹配方法,從4 913篇實驗文獻的41 733條原始句子中識別了97 373個生物醫學概念(術語)。隨機選取200篇文獻的概念識別結果進行人工評價,初步評價結果見表1。其中,合并兩種匹配方法的概念識別綜合F1值為0.7604。從原始句子中遴選包含2個以上概念的句子,共獲得20 838條候選關系句子。

表1 中文生物醫學概念識別結果

4.2 開放式概念關系抽取

由3位有醫學專業背景的標注人員對上述候選關系句子進行人工標注,采用以下標簽對關系短語進行標識:REL_S表示概念間的關系短語為單一詞;REL_B表示關系短語為多個詞,當前詞為首詞;REL_I表示關系短語為多個詞,當前詞非首詞;REL_E表示關系詞為多個詞,當前詞為結尾詞;REL_O表示當前詞不屬于關系詞。

實驗平臺配置如下:使用Windows Server 2012 R2 Datacenter為服務器操作系統、 Intel Xeon Gold 6130 CPU 2.10GHz為處理器,內存512GB。利用PyTorch 0.4.0實現了基于BiLSTM-CRF的中文生物醫學開放式概念關系抽取模型,參數設置為學習率0.001、批量大小為32、訓練步數為10 000。對比實驗為基于CRF模型的概念關系抽取方法和基于LSTM網絡的概念關系抽取方法。其中,CRF模型利用CRF++ 0.58實現,訓練特征包括詞、詞長、POS、依存分析等;利用Tensorflow1.8.0實現基于LSTM的關系抽取模型,參數設置為學習率0.001、批量大小為20、訓練步數為10 000。以上每種方法均進行了10倍交叉驗證。

以準確率(Precision)、召回率(Recall)和F1(Micro F1 score)值作為實驗評價指標,實驗結果如表2所示。從表2可以看出,基于BiLSTM-CRF的中文生物醫學開放式概念關系抽取方法的準確率、召回率及F1值均明顯高于其他方法,說明該方法對關系短語序列的標注效果較好,并具備更強的魯棒性和泛化能力。

表2 中文生物醫學開放式概念關系抽取結果

基于不同方法的關系抽取結果樣例見表3。與人工標注的概念關系元組對比,可以看出對于句法結構較清晰的句子(樣例1),說明3種方法的關系短語提取效果普遍較好。對于包含并列、嵌套等復雜結構的句子(樣例3),往往提取到不完整或錯誤的關系詞。此外,由于概念識別階段錯誤的影響,也會導致關系元組提取錯誤。

總體而言,基于BiLSTM-CRF的關系抽取方法對于關系語義塊的邊界識別更準確,從而能夠提取更多關系元組。

通過對實驗結果的定量和定性分析發現,影響中文開放式概念關系抽取效果的因素主要包括以下方面:一是生物醫學文本中常見省略句子謂語的現象,不利于提取以動詞為核心的關系短語;二是對于過長或結構復雜的句子,如并列結構、嵌套子句等,正確提取關系詞的難度較大;三是不同類別概念之間的關系描述有很大差異;四是概念識別階段的錯誤也會影響關系詞識別的準確性。

表3 中文生物醫學開放式概念關系抽取樣例

5 結論

面向中文生物醫學開放式概念關系抽取任務,實現了基于BiLSTM-CRF模型的開放式概念關系抽取模型。在中文生物醫學文獻數據集上的實驗結果表明,得益于雙向LSTM組件,基于BiLSTM-CRF模型的中文生物醫學開放式概念關系抽取方法可以有效利用過去和未來的輸入特性,并結合CRF層的句子級標簽信息,F1值達到0.5221,對關系短語序列的標注效果優于傳統的CRF模型和LSTM網絡,具備更強的魯棒性和泛化性。

當前研究采用Pipeline兩階段框架,先識別句子中的概念,再預測概念之間的關系。其局限是需要遍歷所有概念對,時間長,復雜度較高,而且在概念識別階段產生的錯誤會傳播到關系抽取階段。鑒于目前有研究探討概念與關系的聯合抽取方法,我們將在后續研究中嘗試利用聯合學習的方法抽取中文生物醫學概念及其開放式關系短語。此外,針對并列及嵌套關系的抽取問題,也將嘗試結合領域知識并引入深層子句分析等策略。

猜你喜歡
概念實驗方法
記一次有趣的實驗
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
做個怪怪長實驗
學習集合概念『四步走』
聚焦集合的概念及應用
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 香港一级毛片免费看| 亚洲一区黄色| 欧美性天天| 欧美人与牲动交a欧美精品| 精品91在线| 9啪在线视频| 欧美日本二区| 国产人妖视频一区在线观看| 国产幂在线无码精品| 亚洲人成日本在线观看| 午夜啪啪福利| 91成人在线观看| 麻豆精品在线播放| 欧美亚洲中文精品三区| 午夜三级在线| 色偷偷av男人的天堂不卡| 成人精品免费视频| 国产午夜福利片在线观看| 国产成人91精品| 亚洲精品动漫| 国产在线97| 女人爽到高潮免费视频大全| 黄片在线永久| 欧美翘臀一区二区三区| 国产亚洲欧美在线专区| 青青极品在线| 91精品日韩人妻无码久久| 国产在线视频欧美亚综合| 国产精品一线天| 亚洲色无码专线精品观看| 成人自拍视频在线观看| 免费看一级毛片波多结衣| 波多野结衣爽到高潮漏水大喷| 免费在线观看av| 无码有码中文字幕| 小说区 亚洲 自拍 另类| 台湾AV国片精品女同性| 国产精品爽爽va在线无码观看 | 久久频这里精品99香蕉久网址| 国产尤物jk自慰制服喷水| 亚洲欧洲日产国码无码av喷潮| 中文精品久久久久国产网址| 97综合久久| 亚洲视频免| 久久男人资源站| 精品福利网| 亚洲欧美另类色图| 久久情精品国产品免费| 精品国产福利在线| 欧美日韩在线国产| 亚洲精品视频在线观看视频| 久久精品人人做人人爽97| 日本国产在线| 亚洲日韩精品欧美中文字幕| 成人午夜精品一级毛片| 午夜精品福利影院| 免费一级成人毛片| 色噜噜狠狠色综合网图区| 国产二级毛片| 国产激情无码一区二区APP| 免费不卡在线观看av| 成人伊人色一区二区三区| 亚洲人成影视在线观看| 中文字幕在线视频免费| 精品国产免费人成在线观看| 中文字幕不卡免费高清视频| 麻豆精品视频在线原创| 精品偷拍一区二区| 国内嫩模私拍精品视频| 大香网伊人久久综合网2020| 伊人久综合| 永久免费无码日韩视频| 国产视频大全| 国产精品无码制服丝袜| 欧美区在线播放| 国产美女91视频| 狠狠躁天天躁夜夜躁婷婷| 亚洲精品无码抽插日韩| 久久99蜜桃精品久久久久小说| 欧美精品另类| 综合亚洲网| 美美女高清毛片视频免费观看|