999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫文本實體關系的聯合抽取

2021-11-07 03:11:29盧苗苗牛亞琴王亞文王培
電腦知識與技術 2021年25期

盧苗苗 牛亞琴 王亞文 王培

摘要:中醫典籍凝聚了古人的智慧結晶及臨床經驗。近年來,中醫領域的實體識別和關系抽取任務受到了廣泛關注,并且一些聯合抽取方法得到了應用。為了進一步提高實體關系聯合抽取的效果,采用一種分層二進制標注框架對中醫領域的實體關系進行聯合抽取,充分結合了預訓練語言模型的優勢,解決了三元組重疊問題。實驗證明,該框架能有效地解決三元組重疊問題,在不同重疊模式下的中醫語料數據集上F1值均超過了75%。

關鍵詞:中醫文本;聯合抽取;實體識別;關系抽取;三元組重疊

中圖分類號:TP3? ? ? ?文獻標識碼:A

文章編號:1009-3044(2021)25-0179-02

1引言

一直以來,醫學實體關系抽取的相關研究大多都是面向英文醫學文獻的,且多為西醫知識的獲取。隨著自然語言處理(NLP)的廣泛應用,面向中文醫學文獻的研究需求不斷增加。在NLP任務中,命名實體識別和關系抽取任務是構建知識庫的必不可少的步驟,同時也是最重要的部分,并且基于這兩個任務的聯合抽取方法越來越受到關注。當前針對中醫領域的相關實體識別以及實體之間的關系抽取的研究仍然非常稀少。為了能夠獲取大量的中醫語料,并進行深入挖掘,在未標注的語料中先進行預訓練,然后與下游任務模型進行結合。

實體關系聯合抽取可以自動化地從輸入文本中抽取出包含某種關系類型的實體對,構成實體關系三元組。因此,科研人員提出了使用聯合模型,利用兩個任務之間的潛在信息來解決這個難題,但是傳統的聯合模型一般又嚴重依賴于復雜的特征工程。Miwa[1]等人沒有直接對整個句子建模,沒有考慮同一句子中其他實體對的關系。2017年,Katiyar[2]直接對整個句子建模,但是無法處理多關系的問題。Wang[3]等人通過設計一個有向圖機制將聯合抽取任務轉換為一個有向圖問題,使用基于轉移的解析框架來解決,但是只解決了一個實體和多個實體之間存在關系的重疊問題,并沒有解決同一實體對存在多個關系的重疊問題。2018年,Zeng[4]等人是第一個在關系三重提取中考慮重疊三重問題的人,并嘗試通過具有復制機制的序列到序列(Seq2Seq)模型來提取三元組。

本文所采用的框架思想來源于Wei[5]等人提出了一個分層二進制標注框架,該框架由基于BERT模型的編碼器模塊和分層解碼器模塊組成。其中,分層解碼器模塊又由主題標記模塊和對象標記模塊組成,圖1展示了框架的整體結構,下文稱為聯合框架。

2聯合框架

在這種聯合框架下,首先,確定中醫文本句子中所有可能的主題實體,比如“前胡清肺熱,化痰熱,推陳致新之藥也”,然后針對“前胡”這個主題實體,應用關系特定標記器來同時識別所有可能的關系和相應的對象。

2.1 編碼器模塊

采用預訓練的BERT模型對輸入的中醫文本上下文進行編碼。從句子中提取特征信息,并將提取的[hN]、[vksub]等信息放入后續的標記模塊中。BERT是基于多層雙向Transformer的語言表示模型,其中[x]表示輸入向量。具體操作如公式(1)(2)所示:

其中[S]是輸入句子中子詞索引的一元向量的矩陣,[Ws]是詞嵌入矩陣,[Wp]是位置嵌入矩陣,其中[p]代表輸入序列中的位置索引,[hα ]是隱藏狀態向量,即輸入句子在第[α]層的上下文表示,[N]是Transformer塊的數量,[Trans(·)]—Transformer塊。

2.2 解碼器模塊

分層解碼器由主題標記模塊和特定于關系的標記模塊組成。主題標記模塊通過直接解碼[N]層BERT編碼器產生的編碼向量[hN]來識別輸入句子中的所有可能主體。更準確地說,它通過選擇兩個相同的二進制分類器分別為每個標簽分配0或者1的標簽來指示主實體的開始和結束位置,從而分別檢測實體的開始和結束位置。主題標記器對每個標簽的詳細操作如公式(3)(4)所示:

其中[pistart_s]和[piend_s]分別表示將輸入序列中的第[i]個標簽識別為對象的開始和結束位置的概率。如果概率超過某個閾值,則將為相應的標簽分配為1,否則分配為0。[xi]是輸入序列中第[i]個標簽的編碼表示,即[xi=hN[i]],其中[W]表示可訓練的權重,[b]是偏差,而[σ]是sigmoid激活函數。

3實驗

3.1實驗數據

本文以中醫古籍文本為實驗對象,研究中醫文本實體關系的聯合抽取。首先通過中醫相關的醫學專業網站對中醫文本爬取了總計約700本中醫古籍。并用正則的表達式對字符串進行清洗,除去漢字以外的字符、換行符以及空格等。例如,將“淡白而瘦小,- -氣血兩虛”這句話,經過正則方式處理完之后就變成了“淡白而瘦小,氣血兩虛”。接著以句子為單位對文檔按照句號,問號進行拆分,得到大約180萬個句子。由于中醫文本具有中國古代的語言風格,通常也會出現一些虛詞,停用詞,且對句子含義的理解毫無意義,我們通過剔除停用詞表中出現的詞,進行特征提取,這本質上也屬于特征選擇工作的一部分。最后,對句子使用jieba分詞工具加載詞典的方法來為中醫文本分詞,得到對應的詞序列。

經過以上處理,得到一批訓練、測試數據,將數據按照關系三元組是否存在共享同一實體的情況,即存在重疊關系,按照不同重疊模式將句子劃分為兩類:一對一實體無關系重疊,多實體多關系重疊共享,并對這些中醫實體關系三元組進行詳細實驗。

3.2實驗結果

為進了證明聯合框架具有良好的解決三元組重疊問題的能力,本文分別在不同重疊情況的中醫語料數據集上統計聯合框架的查準率、召回率和F1值。表1為聯合框架在中醫語料數據集上不同重疊模式下的F1值。

實驗結果表明,在不同重疊程度的中醫數據集上F1值都高于75%,說明該聯合框架具有優越的解決三元組重疊問題的能力。

主站蜘蛛池模板: 狠狠v日韩v欧美v| 色综合久久综合网| 嫩草影院在线观看精品视频| 999国内精品视频免费| 欧美激情二区三区| 国产亚洲精品精品精品| 午夜丁香婷婷| 久久综合一个色综合网| 久久成人免费| 亚洲区第一页| 亚洲成a人在线播放www| 欧美精品亚洲日韩a| 综合亚洲网| 亚洲制服中文字幕一区二区| 久久精品人人做人人爽| 国产视频你懂得| 91探花在线观看国产最新| 手机永久AV在线播放| 日本91在线| 香蕉视频在线精品| 一级毛片a女人刺激视频免费| 亚洲无码四虎黄色网站| 日韩福利在线观看| 亚洲精品久综合蜜| 久久人与动人物A级毛片| 成人午夜视频免费看欧美| 欧美亚洲一区二区三区导航| 韩日午夜在线资源一区二区| 日本黄色不卡视频| 无码高潮喷水专区久久| 亚洲精品片911| 亚洲中文精品人人永久免费| 久久国产精品波多野结衣| 99伊人精品| 欧美日韩免费观看| 欧美性猛交xxxx乱大交极品| 伊人中文网| 国产极品美女在线| 国内精品久久久久久久久久影视| 久久亚洲美女精品国产精品| 亚洲无码免费黄色网址| 国产亚洲精品无码专| 麻豆AV网站免费进入| 找国产毛片看| 欧美丝袜高跟鞋一区二区| 国产区在线看| 精品国产福利在线| 99一级毛片| 国产精品乱偷免费视频| 亚洲天堂日韩av电影| 日韩大片免费观看视频播放| 国产欧美一区二区三区视频在线观看| 91麻豆国产视频| 狂欢视频在线观看不卡| 久久精品人人做人人| 亚洲欧美一区在线| 黄色免费在线网址| 国产色图在线观看| 在线毛片免费| 人人91人人澡人人妻人人爽| 亚洲一欧洲中文字幕在线| 国产97视频在线| 国产v欧美v日韩v综合精品| 日本a级免费| 国产真实乱人视频| 欧美精品高清| 91在线一9|永久视频在线| 欧美国产综合色视频| 真实国产乱子伦视频| 国内精品久久久久久久久久影视 | 国产美女视频黄a视频全免费网站| 国产午夜福利亚洲第一| 国产美女在线免费观看| 综合久久五月天| 久久香蕉国产线看观看亚洲片| AV片亚洲国产男人的天堂| 四虎国产精品永久一区| 国产午夜福利片在线观看| 一级毛片不卡片免费观看| 日韩黄色精品| 久青草免费在线视频| 久久一级电影|