999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SimBERT的中醫醫案實體間關系抽取

2023-01-02 12:06:38龔慶悅李鐵軍王紅云
軟件導刊 2022年11期
關鍵詞:文本模型

劉 逍,龔慶悅,李鐵軍,王紅云

(1.南京中醫藥大學人工智能與信息技術學院,江蘇南京 210046;2.南京中醫藥大學第二附屬醫院(江蘇省第二中醫院),江蘇南京 210017)

0 引言

中醫作為一門學科,在傳承過程中,往往需要大量醫案經驗作為學習材料。中醫的發展以如今的眼光看來可以算作大數據分析的一種,即通過海量的同證候相似患者的四診信息,總結出適用于此證候的通用及更細化的治療手段。如果有充足的同一證候的不同患者醫案,提取其中的癥狀三元組,通過深度學習方法抽取其中的實體及關系,有助于構建中醫醫案知識圖譜,更有利于四診信息與治療手段的實體關系預測。

實體關系抽取是自然語言處理中讀取文本獲得重要信息的核心任務之一,其目的是發現和識別隱含在實體之間的關系。其定義如下:給定一個句子S,其中包含實體A(EntityA)和實體B(EntityB),預測兩個實體間的關系r ∈R(R 代表數據集中所有關系的集合)。或者說,抽取實體之間的關系是將非結構化的文本信息轉化為結構化的信息,最終以關系三元組〈S,P,O〉的形式來描述。其中,S和O為主、客實體,P為預測出的兩個實體之間的關系。實體關系抽取研究成果對命名體識別和關系抽取[1]、推薦系統[2]、機器翻譯[3]和知識圖譜[4]等相關領域的研究都有重要意義。

根據給定句子中實體是否已被明確標注,可作如下分類:若原始文本中已標記出實體,則稱該任務為實體關系分類,或者稱其為流水線式關系抽取;若原始文本中未標記出實體,關系抽取任務既要完成實體識別,又要完成關系抽取,則該任務被稱為聯合關系抽取。

1 相關工作

在中醫領域的關系抽取任務中,有學者采用流水線式關系抽取模型對中醫文本進行關系抽取。Xie 等[6]使用長短期記憶網絡(Long-Short Term Memory,LSTM)對已標注好的數據進行實體識別,再對提取的實體進行關系分類以完成整個三元組的提取。在分類過程中,通過卷積神經網絡(Convolutional Neural Network,CNN)對一詞多義的實體關系進行知識融合。Zhang 等[7]使用條件隨機場(Conditional Random Field,CRF)進行實體識別和抽取,采用爬蟲爬取實體屬性,并使用帶注意力機制的BiLSTM 進行關系抽取,通過實體屬性實現對一詞多義的處理。Wang 等[8]采用綜合交叉熵損失函數與分段注意力機制的SEGATT層進行關系分類,并使用CNN 進行知識融合。2018 年,Google 公司發布預訓練模型BERT(Bi-directional Encoder Representations from Transformers),此模型在自然語言處理的分類、命名體識別、關系抽取等任務中相較以往可獲得更好的效果。Liu 等[9]采用BERT+BiLSTM+CRF 進行實體識別和關系抽取。

也有學者采用聯合模型進行關系抽取。Lu 等[10]提出一個基于分層二進制標注框架(Hierarchical Binary Tagging Framework,HBT)的中醫文本聯合抽取方法;Tan 等[11]構建基于Bert-wwm-ext 與損失優化的多頭選擇中醫知識聯合抽取模型;Yang 等[12]提出一種融合數據增強和注意力機制的實體關系聯合抽取方法;Pang 等[13]提出一種基于三元組信息抽取策略的新型實體抽取模型,以解決傳統命名實體識別方法應用于高血壓中醫電子病歷醫療實體識別時出現的實體離散問題。

本文將改進后的BERT 模型應用于中醫關系抽取任務,利用SimBERT 模型獲取中醫文本中漢字的向量表示,從而降低中醫文本連續字符串分詞界限不明確對實體關系抽取造成的影響。該模型首先利用SimBERT 模型作為嵌入層獲得中醫文本的語義表示,再經過相似檢索模塊獲取相似句,與原句共同傳入關系抽取模塊,最終通過Softmax函數輸出實體關系類型。本文提出的半監督學習框架下基于SimBERT 的中醫實體關系分類方法在李鐵軍醫案數據集上取得了較好效果。本文貢獻如下:①構建李鐵軍醫案數據集;②構建半監督學習框架下基于SimBERT 的中醫實體關系抽取模型,并獲得較好的F1 值,證明了模型的有效性;③實驗結果表明,半監督學習框架下基于Sim-BERT 的中醫實體關系抽取模型能較好地解決樣本不均衡和多詞一義的問題。

2 總體設計

半監督學習[14]是用一部分有標簽樣本和更多無標簽樣本訓練模型,通過半監督學習,利用有標簽樣本提供的監督信息給無標簽樣本打上偽標簽,在一定程度上緩解了樣本的不均衡問題,最終提升模型的分類效果。

415 份醫案根據診斷結果劃分疾病類型,其中176 份肝陽亢,89 份乙肝大三陽,45 份胸痹,44 份乙肝小三陽,20份房顫。其他41 份醫案中每類醫案少于5 份,不進入類型統計。由統計結果可知,本醫案數據集存在樣本數量分布不均衡的問題,這也是現實數據集中的常見問題。同時,數據集中存在多詞一義現象,如“上盛下虛,肝陽上亢,腎氣虛弱”與“肝陽上亢,腎水虛虧,上實下虛”是同一證候的不同描述形式。針對如上問題,本文設計了半監督學習框架下基于SimBERT 的關系抽取模型,模型整體流程如圖1所示。

Fig.1 Flow of relation extraction model based on SimBERT in semisupervised learning framework圖1 半監督學習框架下基于SimBERT的關系抽取模型流程

首先,使用改進后的SimBERT 對不均衡文本進行相似文本生成,以解決樣本不均衡問題。生成的相似文本通過3 個在原始數據集上預訓練后的關系抽取模型(BERT、Chinese-base-BERT、BERT-wwm)進行抽取,將3 個模型中兩個及以上預測為正例的樣本作為偽標簽正例。然后將得到的偽標簽樣本都加入到候選數據集中,將偽標簽樣本和真實標簽樣本輸入關系抽取模型中進行訓練,并將訓練后F1 值大于0.90 的偽標簽樣本加入到真實數據集中,F1值不足0.90 的偽標簽樣本則舍去,構建文本增強后的中醫文本數據集。接下來將增強后的數據集放入4 個模型(BERT、Chinese-base-BERT、BERT-wwm、SimBERT)中進行關系抽取。最后的實驗結果表明,通過SimBERT 的相似句檢索功能計算文本相似度,將相似度較高的句子進行匹配后再進行關系抽取,可獲得更好的關系抽取效果。

本實驗采用的SimBERT 模型是以目前流行的BERT模型為基礎,以UniLM 思想為核心,兼具相似句生成和檢索能力的關系抽取模型。

2.1 SimBERT文本增強原理

SimBERT 屬于有監督訓練,其文本增強[15]能力通過特殊的Attention Mask 來實現。Attention Mask 使模型具有Seq2Seq 的能力,Seq2Seq 任務是輸入一段文本,模型會輸出另外一段文本。利用編碼器加上解碼器的結構,編碼器會將輸入的一段文本編碼成固定大小的向量hn,然后解碼器會根據該向量hn,通過自回歸的方式解碼生成對應文本。以本文的醫案數據集為例,輸入是“肝陽上亢”,目標句子是“肝陽偏亢”,SimBERT 會將兩個句子拼成:[CLS]肝陽上亢[SEP]肝陽偏亢[SEP],然后接如圖2 所示的Attention Mask。

SimBERT 做Seq2Seq 任務模型圖如圖3 所示,“[CLS]肝陽上亢[SEP]”這幾個token 之間是雙向的Attention,而“肝陽偏亢[SEP]”這幾個token 是單向Attention,從而允許遞歸地預測“肝陽偏亢[SEP]”這幾個token。

Fig.2 Attention Mask of SimBERT圖2 SimBERT的Attention Mask

2.2 SimBERT實體關系抽取模型結構圖

基于SimBERT 的中醫實體關系抽取模型結構如圖4所示。該模型分為2 個模塊:相似檢索模塊和關系抽取模塊。句子S1 通過相似檢索模塊獲取與之相似度最高的句子S2,然后S1 與S2 共同傳入到關系抽取模塊中,最終獲取關系類型。輸入的數據在預處理過程中,通過在文本序列首位加入特殊標記“[CLS]”來表示一條文本或一個句子對,并且在句子的分隔處加上“[SEP]”來表示句子的銜接。將標注后的中醫文本輸入模型后,經過詞嵌入層將文本中的單詞標記化,其中包含標記詞的嵌入向量、句子詞的嵌入向量以及位置詞的嵌入向量。Toki表示句子的第i個標記,并且在訓練過程中,會隨機地遮擋部分,Ei表示第i個標記的嵌入向量,Hi表示第i個標記在經過模型處理后最終得到的特征向量。

Fig.3 Diagram of Seq2Seq's task on SimBERT圖3 SimBERT做Seq2Seq任務模型圖

2.3 SimBERT相似檢索模塊

如圖4 所示,SimBERT 把整個batch 內的[CLS]向量都拿出來,得到一個句向量矩陣V∈Rb×d(b 是batch_size,d是hidden_size),然后對d 維度作L2 歸一化。L2 歸一化公式如式(1)所示:

得到,然后兩兩作內積。內積公式如式(2)所示:

Fig.4 Structure of TCM entity relation extraction model based on SimBERT圖4 基于SimBERT的中醫實體關系抽取模型結構

2.4 SimBERT關系抽取模塊

如圖5 所示,將S1 與相似檢索獲得的S2 傳入到關系抽取模塊,并為句子中每個實體添加標簽。第一個實體前后加特殊符號“$”,第二個實體前后加特殊符號“#”。如S1:“$舌$淡紅而#晦#”,S2:“$舌$#晦暗#淡紅”。輸出包括3 部分:第1 部分為[CLS]標簽,第2 部分為第一個實體的向量,第3 部分為第二個實體的向量。第一部分可以保存整個句子的語義內容,后兩部分則是保存實體信息。

(1)[CLS]表征。該部分為單一向量,直接將其傳入前饋神經網絡中,公式如式(3)所示:

Fig.5 SimBERT relation extraction module structure圖5 SimBERT關系抽取模塊結構

(2)實體信息。將每個實體內部全部向量進行平均后,傳入前饋神經網絡中,公式如式(4)、式(5)所示:

其中i、j、k、m 分別為第一個實體的首字符位置、第一個實體的末字符位置、第二個實體的首字符位置、第二個實體的末字符位置。同時,權重系數為共享參數W0=W1=W2,偏向也為共享參數b0=b1=b2。

3 實驗與分析

3.1 實驗數據

本文以名老中醫李鐵軍的心血管醫案為實驗對象,研究中醫醫案的實體關系抽取。首先通過正則表達式對400多個醫案進行數據清洗,去除不相關字母、數字和字符。處理結束后以句子為單位,按照《中醫診斷學》[16]中對四診信息的劃分方式,參考中醫古籍分詞規范標準[17]對醫案中的脈診、舌診表現等全部四診信息進行拆分并標注,得到5 400多個句子,構建中醫心血管醫案數據集。

3.2 數據標注內容

3.2.1 概述

根據《中醫診斷學》對四診信息的設定,定義了22 類細粒度實體類型,8 類關系類型,對劃分的細粒度實體進行重組,共產生19 類三元組。具體三元組類型有:(感受,表現,部位)、(浮脈,脈象,脈位置)、(沉脈,脈象,脈位置)、(遲脈,脈象,脈位置)、(數脈,脈象,脈位置)、(虛脈,脈象,脈位置)、(實脈,脈象,脈位置)、(相兼脈,脈象,脈位置)、(舌神,舌象,舌質)、(舌色,舌象,舌質)、(舌形,舌象,舌質)、(舌態,舌象,舌質)、(苔質,舌象,舌苔)、(苔色,舌象,舌苔)、(證候,對應,癥狀)、(治法,選取,癥狀)、(治法,應選,證候)、(處方,選擇,治法)和(處方,決定,證候)。

3.2.2 實體類型

按照《中醫診斷學》的劃分方法,根據癥狀類別所在部位的不同,將醫案中的關系類型大致分為脈診、舌診和其他。其中脈診實體類型有:浮脈、沉脈、遲脈、數脈、虛脈、實脈、相兼脈。舌診實體類型有:舌神、舌色、舌形、舌態、苔質、苔色。其他實體類型有:證候、治法、處方、癥狀、感受、部位。依據前文對實驗數據的定義進行實體類型統計,如表1-表3所示。

Table 1 Statistics of pulse diagnosis entity types表1 脈診實體類型統計

Table 2 Statistics of tongue diagnosis entity types表2 舌診實體類型統計

Table 3 Statistics of other entity types表3 其他實體類型統計

3.2.3 關系類型

為確保設定實體能相互對應,根據設定的目標設置為<位置,關系,表現>的三元組形式,其中關系類型有表現、脈象、舌象、對應、選取、應選、選擇、決定。依據前文對實驗數據的定義進行關系類型統計,如表4所示。

Table 4 Statistics of relationship types表4 關系類型統計

3.2.4 數據標注方案

采取單人標注與監督校對相結合的方式進行數據標注,如圖6 所示。以肝陽亢疾病類型中某一醫案標注為例,此醫案原句為:“全身乏力,耳鳴,頭暈。寸關沉取細弦而澀,兩尺微。舌兩邊暗,舌心裂。肝腎陰虛,肝陽上亢。治當滋補腎陰,平肝潛陽。方用地黃飲子進退。”將此醫案按照脈診、舌診和其他劃分后進行標注,再將標注后的句子與原文本一同放入模型中訓練,用此模型抽取實體和關系。

Fig.6 Example map of medical case annotation圖6 醫案標注示例圖

3.3 實驗結果

3.3.1 文本增強效果分析

本文主要采用基于相似句生成的SimBERT 模型進行文本增強。在進行數據預處理,劃分訓練集、驗證集和測試集之后,通過文本數據增強技術將醫案數據集的數據量擴充至原來的2.5 倍,重新進行模型訓練,并與未進行數據增強的模型進行比較與分析。增強前數據與增強后數據對比如表5所示。

Table 5 Text enhanced data comparison display表5 文本增強數據對比展示

3.3.2 關系抽取模型效果對比分析

為對比原始數據集和增強后數據集中中醫文本關系抽取任務的效果,本文設計了4 種對比模型,并在訓練集上進行訓練。通過驗證集優化模型參數,在測試集上使用F1 指標進行模型效果評價。具體實驗結果如表6、表7 所示。由表7 可見,使用SimBERT 進行文本增強后,關系抽取效果更佳,這是因為SimBERT 通過相似句檢索功能在關系抽取過程中對相似度較高的句子進行匹配分類,從而獲得比其他模型更好的關系抽取效果。

Table 6 Experimental results of different models on the original data sets表6 不同模型在原始數據集上的實驗結果

Table 7 Experimental results of different models on enhanced data sets表7 不同模型在增強后數據集上的實驗結果

4 結語

本文構建了半監督學習框架下基于SimBERT 的關系抽取模型,對中醫心血管醫案的語義特征和句法結構等進行分析。針對中醫醫案數據集樣本數量不均衡和中醫文本關系抽取過程中的多詞一義問題,通過SimBERT 的相似文本生成功能進行文本增強,以解決數據集樣本數量不均衡問題,并通過相似句檢索功能對中醫文本中相似度較高的句子進行匹配,以解決多詞一義問題,從而獲得更好的關系抽取效果。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩高清中文字幕| 日韩精品久久久久久久电影蜜臀| 99青青青精品视频在线| 成人精品亚洲| 亚洲天堂自拍| www.日韩三级| 国产精品原创不卡在线| 波多野结衣第一页| 中文字幕乱妇无码AV在线| 999精品视频在线| 又黄又湿又爽的视频| 欧美精品成人一区二区在线观看| 97国产精品视频自在拍| 久久精品只有这里有| 国产精品久久久精品三级| 不卡午夜视频| 2020国产精品视频| а∨天堂一区中文字幕| 国产在线精品99一区不卡| 亚洲欧美另类日本| 一本久道久久综合多人| 欧美高清三区| 乱人伦99久久| 91精品在线视频观看| 久久99久久无码毛片一区二区| 日韩无码视频播放| 国产经典免费播放视频| 成人av专区精品无码国产| 九九九精品成人免费视频7| 就去色综合| 性喷潮久久久久久久久| 国产香蕉在线视频| 欧洲日本亚洲中文字幕| 国产av一码二码三码无码| 91色在线视频| 亚洲水蜜桃久久综合网站| 日韩第九页| 一区二区日韩国产精久久| 国产乱子精品一区二区在线观看| 在线视频亚洲色图| 国产黄色免费看| 精品少妇三级亚洲| 精品久久国产综合精麻豆| 国产尤物视频网址导航| 精品伊人久久久久7777人| 色婷婷成人网| 一本久道久综合久久鬼色| 九九久久99精品| 91免费观看视频| 日本少妇又色又爽又高潮| 美女被躁出白浆视频播放| 亚洲人成影视在线观看| 97久久精品人人| 美女啪啪无遮挡| 日韩无码精品人妻| 亚洲精品高清视频| 美女高潮全身流白浆福利区| 精品欧美视频| 亚洲高清在线天堂精品| 国产尤物视频在线| 亚洲国产成人在线| 最新亚洲人成无码网站欣赏网| 色综合久久88| 欧洲高清无码在线| 在线观看国产黄色| 曰AV在线无码| 成人午夜视频网站| 色婷婷亚洲十月十月色天| 97超级碰碰碰碰精品| 久久精品人人做人人综合试看| 一级毛片免费不卡在线 | 无码内射中文字幕岛国片| 精品一区二区三区水蜜桃| 99青青青精品视频在线| 亚洲娇小与黑人巨大交| 亚洲高清日韩heyzo| 日本午夜影院| 国产精品hd在线播放| 国产另类乱子伦精品免费女| 在线观看视频99| 22sihu国产精品视频影视资讯| 91精品人妻一区二区|