999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向中醫(yī)文本的實(shí)體關(guān)系深度學(xué)習(xí)聯(lián)合抽取方法

2023-04-07 03:04:34楊延云杜建強(qiáng)羅計(jì)根
關(guān)鍵詞:方法模型

楊延云 杜建強(qiáng) 聶 斌 羅計(jì)根 賀 佳

(江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院 江西 南昌 330004)

0 引 言

為推進(jìn)國(guó)家中醫(yī)藥信息化的發(fā)展,各種中醫(yī)藥信息化平臺(tái)的建設(shè)接踵而至,例如,中醫(yī)輔助診療系統(tǒng)、中醫(yī)智能問(wèn)答系統(tǒng)、中醫(yī)電子病歷系統(tǒng)等。中醫(yī)文獻(xiàn)作為中醫(yī)傳承載體,記錄了證型、方劑、中藥、病因、病機(jī)和治則治法等數(shù)據(jù),且存在著大量實(shí)體重疊的問(wèn)題。而實(shí)體和關(guān)系抽取作為底層最基礎(chǔ)的任務(wù),能夠快速地從半結(jié)構(gòu)化、非結(jié)構(gòu)化的中醫(yī)文本中提取出實(shí)體以及它們之間的語(yǔ)義關(guān)系,對(duì)中醫(yī)文獻(xiàn)數(shù)據(jù)的有效利用和中醫(yī)藥的信息化研究具有促進(jìn)作用和重要意義。

1 相關(guān)研究

1.1 流水線方法研究

實(shí)體關(guān)系抽取作為信息抽取的重要子任務(wù)[1],處理該任務(wù)的方法主要可以分為流水線方法和實(shí)體關(guān)系聯(lián)合抽取方法兩類(lèi)。流水線方法即將實(shí)體關(guān)系抽取任務(wù)分為命名實(shí)體識(shí)別[2](Named Entity Recognition,NER)和關(guān)系抽取[3](Relation Extraction,RE)兩個(gè)子任務(wù),即給定一段半結(jié)構(gòu)化或非結(jié)構(gòu)化文本,首先通過(guò)命名實(shí)體識(shí)別提取出文本中的實(shí)體,然后對(duì)每個(gè)候選實(shí)體對(duì)進(jìn)行關(guān)系分類(lèi)。

典型的命名實(shí)體識(shí)別方法主要分為三類(lèi):基于規(guī)則的方法;基于統(tǒng)計(jì)學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。其中,基于規(guī)則的方法大多是利用語(yǔ)言學(xué)知識(shí),通過(guò)語(yǔ)言規(guī)則識(shí)別實(shí)體;基于統(tǒng)計(jì)學(xué)習(xí)的方法主要有隱馬爾可夫模型(Hidden Markov Models,HMM)[4]、最大熵模型(Maximum Entropy Model,MEM)、支持向量機(jī)(Support Vector Machine,SVM)[5]和條件隨機(jī)場(chǎng)[6]等,該方法依賴(lài)復(fù)雜的特征工程。近幾年,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory)等神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于實(shí)體識(shí)別任務(wù),并展現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。

關(guān)系抽取方法主要可以分為經(jīng)典的關(guān)系抽取方法和基于深度學(xué)習(xí)的抽取方法。經(jīng)典的關(guān)系抽取方法主要包括有監(jiān)督、半監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督4種[7],這幾種方法存在特征提取誤差傳播的問(wèn)題,很大程度上影響最終關(guān)系抽取的結(jié)果。基于深度學(xué)習(xí)的方法避免了人工特征提取,Zeng等[8]于2014年首次使用CNN進(jìn)行關(guān)系分類(lèi)。Vu等[9]采用深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Deep Recurrent Neural Networks,DRNN)進(jìn)行關(guān)系抽取。

流水線方法雖然在模型選擇和實(shí)驗(yàn)操作比較靈活、簡(jiǎn)單,但是這種方法存在以下幾個(gè)問(wèn)題:① 導(dǎo)致錯(cuò)誤累積;② 忽略了兩個(gè)子任務(wù)間的相關(guān)性;③ 產(chǎn)生大量冗余信息。例如文本:“方劑麻杏石甘湯是由麻黃、杏仁等多味中藥組成”,采用流水線方法的具體流程如圖1所示。假如在命名實(shí)體識(shí)別階段模型沒(méi)有識(shí)別出實(shí)體“麻杏石甘湯”,由于關(guān)系抽取完全依賴(lài)實(shí)體識(shí)別的結(jié)果,則所有包含“麻杏石甘湯”的三元組皆無(wú)法得到,因此導(dǎo)致錯(cuò)誤累積;已知文本中存在“方劑/中藥”這一關(guān)系,可以推理第一個(gè)實(shí)體的類(lèi)別是“方劑”類(lèi),第二個(gè)實(shí)體的類(lèi)型是“中藥”類(lèi),而采用流水線方法無(wú)法利用該信息進(jìn)行推理;關(guān)系抽取是對(duì)每個(gè)候選實(shí)體對(duì)進(jìn)行關(guān)系分類(lèi),不屬于預(yù)定義關(guān)系的實(shí)體組合就是冗余信息,如(麻黃,None,杏仁)。

圖1 流水線方法流程

1.2 聯(lián)合抽取方法研究

針對(duì)以上流水線方法存在的問(wèn)題,實(shí)體關(guān)系聯(lián)合抽取直接抽取給定文本中含有的實(shí)體和實(shí)體間語(yǔ)義關(guān)系的三元組(Entity1,Relation,Entity2),不僅能夠充分考慮二者的相關(guān)性,將二者聯(lián)合學(xué)習(xí),還使兩個(gè)子任務(wù)的性能得到了不同程度的提升。

Ren等[10]提出CoType框架。Miwa等[11]使用填表方法,將實(shí)體識(shí)別和關(guān)系抽取進(jìn)行聯(lián)合學(xué)習(xí),但是都基于人工提取特征,依賴(lài)于復(fù)雜的特征工程,還需使用各種自然語(yǔ)言處理工具包。隨著深度學(xué)習(xí)方法的興起,Miwa等[12]使用BiLSTM實(shí)現(xiàn)實(shí)體識(shí)別,通過(guò)共享輸入層和LSTM編碼層的參數(shù),連用Bi-TreeLSTM結(jié)構(gòu)實(shí)現(xiàn)關(guān)系抽取。Katiyar等[13]針對(duì)Miwa等[12]利用依存樹(shù)結(jié)構(gòu)的缺點(diǎn)提出融合注意力機(jī)制的RNN方法實(shí)現(xiàn)實(shí)體關(guān)系聯(lián)合抽取。Zheng等[14]采用BiLSTM對(duì)輸入層進(jìn)行編碼,選用LSTM進(jìn)行解碼,實(shí)現(xiàn)實(shí)體識(shí)別;通過(guò)共享BiLSTM編碼器參數(shù),利用CNN模塊對(duì)編碼層結(jié)果進(jìn)行關(guān)系分類(lèi)。文獻(xiàn)[15]通過(guò)引入互反饋機(jī)制,反饋更新共享層的參數(shù)來(lái)提升聯(lián)合抽取的效果。基于參數(shù)共享的實(shí)體和關(guān)系聯(lián)合抽取方法增強(qiáng)了實(shí)體識(shí)別和關(guān)系抽取兩個(gè)子任務(wù)的相關(guān)性,改善了傳統(tǒng)流水線方法錯(cuò)誤累積的不足。但是由于該方法都是利用共享底層模型參數(shù)來(lái)增強(qiáng)兩者的相關(guān)性,實(shí)質(zhì)上仍是先進(jìn)行NER,再利用NER的結(jié)果進(jìn)行RE,因此仍會(huì)產(chǎn)生不存在關(guān)系的實(shí)體對(duì)冗余信息,也存在錯(cuò)誤傳遞。

Zheng等[16]首次將實(shí)體關(guān)系聯(lián)合抽取轉(zhuǎn)化為序列標(biāo)注問(wèn)題,還設(shè)計(jì)了帶有偏置損失函數(shù)的端到端模型,實(shí)現(xiàn)了真正意義上的實(shí)體關(guān)系聯(lián)合抽取。但在最終三元組的抽取時(shí)采用就近距離策略,且規(guī)定一個(gè)實(shí)體只能存在一個(gè)三元組中,導(dǎo)致大量關(guān)系數(shù)據(jù)丟失,無(wú)法解決實(shí)體重疊問(wèn)題。曹明宇等[17]借鑒Zheng等[16]的方法,改進(jìn)標(biāo)注策略,采用BiLSTM-CRF模型有效緩解了同一實(shí)體參與多個(gè)關(guān)系的重疊問(wèn)題,在生物醫(yī)學(xué)領(lǐng)域的藥物實(shí)體關(guān)系數(shù)據(jù)集上取得了較好的效果。

鑒于傳統(tǒng)流水線方法的不足和中醫(yī)文本中存在大量實(shí)體重疊的問(wèn)題,本文提出一種基于字詞向量拼接的中醫(yī)實(shí)體關(guān)系聯(lián)合抽取方法。首先將字詞向量拼接作為輸入,再采用改進(jìn)的序列標(biāo)注策略在BiLSTM-CRF(Bi-directional Long Short-Term Memory Conditional Random Fields,BiLSTM-CRF)模型上對(duì)中醫(yī)文本進(jìn)行標(biāo)注,最后通過(guò)自定義的抽取規(guī)則進(jìn)行關(guān)系三元組提取。

2 中醫(yī)實(shí)體及關(guān)系聯(lián)合抽取方法

該方法使用改進(jìn)的序列標(biāo)注策略,將中醫(yī)的實(shí)體關(guān)系聯(lián)合抽取轉(zhuǎn)換成序列標(biāo)注任務(wù),詞向量與字符向量并聯(lián)拼接作為雙向LSTM-CRF輸入,利用雙向LSTM神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,以及CRF在序列標(biāo)注上的突出優(yōu)勢(shì),結(jié)合優(yōu)化的抽取規(guī)則完成中醫(yī)實(shí)體關(guān)系聯(lián)合抽取。整體方法流程如圖2所示。

圖2 方法流程

該方法的整體流程為:

1) 對(duì)輸入的文本句子利用Word2vec進(jìn)行向量轉(zhuǎn)化,分別生成字向量和詞向量;

2) 將生成的向量以字為基本語(yǔ)義單元進(jìn)行字詞向量并聯(lián)拼接;

3) 采用改進(jìn)的標(biāo)注策略,通過(guò)BiLSTM-CRF模型對(duì)每個(gè)句子進(jìn)行序列標(biāo)注;

4) 根據(jù)序列標(biāo)注結(jié)果,結(jié)合自定義的抽取規(guī)則來(lái)抽取關(guān)系三元組。

2.1 模型輸入

One-hot編碼得到的是稀疏向量,向量的維度完全取決于語(yǔ)料庫(kù)的大小,且每個(gè)詞的向量之間都是獨(dú)立的,相近意思的詞語(yǔ)也沒(méi)有關(guān)聯(lián)關(guān)系。相較于One-hot編碼,Word2vec得到的詞向量降低了向量的維度,且語(yǔ)義相近的詞語(yǔ)被映射在相近的位置。

本文訓(xùn)練向量所用語(yǔ)料來(lái)源于《中醫(yī)證候鑒別診斷學(xué)》《中醫(yī)150證候辨證論治輯要(何曉暉)》和《中醫(yī)藥學(xué)概論》三本中醫(yī)相關(guān)書(shū)籍。而采用分詞工具得到的中文分詞結(jié)果并非完全正確,且單獨(dú)用詞作為語(yǔ)義單元也忽略了詞內(nèi)字間的聯(lián)系;單獨(dú)用字作為語(yǔ)義單元,又不能準(zhǔn)確地表達(dá)當(dāng)前的語(yǔ)境,因此本文采用了字詞向量并聯(lián)拼接作為模型輸入,將字和詞的信息有效地結(jié)合起來(lái)。中醫(yī)語(yǔ)料利用jieba分詞工具,并加載自定義的中醫(yī)領(lǐng)域自定義詞典進(jìn)行分詞,自定義詞典主要包含大量的證型、方劑等信息,通過(guò)Word2vec訓(xùn)練得到100維詞向量。中醫(yī)語(yǔ)料使用Word2vec訓(xùn)練得到100維字向量。最終,本文采用以字向量為基本語(yǔ)義單元與該字所在詞的詞向量進(jìn)行并聯(lián)拼接得到200維字向量作為模型的輸入,字詞向量并聯(lián)拼接豐富了詞的語(yǔ)義信息,提取有效特征,如圖3所示。例如文本:“四逆散中重用柴胡為君藥”,則該句中作為模型輸入“胡”的向量由“胡”的字向量與“胡”所在的詞“柴胡”的詞向量構(gòu)成。

圖3 字詞向量拼接

2.2 標(biāo)注策略

本文在Zheng等[16]提出的標(biāo)注策略和曹明宇等[17]的標(biāo)注策略基礎(chǔ)上進(jìn)行改進(jìn),將實(shí)體關(guān)系聯(lián)合抽取轉(zhuǎn)化為序列標(biāo)注的問(wèn)題,對(duì)每個(gè)字符根據(jù)標(biāo)注策略進(jìn)行標(biāo)注。如圖4所示。

圖4 標(biāo)注實(shí)例

其中“O”表示該字不與其他字構(gòu)成實(shí)體,且在該句中與其他任何實(shí)體不存在預(yù)定義的關(guān)系;此外,每個(gè)標(biāo)簽共包含三部分的內(nèi)容:該字在實(shí)體中的位置、關(guān)系類(lèi)別、實(shí)體在三元組中的位置。該字在實(shí)體中的位置采用“BIES”策略進(jìn)行表示,“B”代表實(shí)體開(kāi)始,“I”代表實(shí)體中部,“E”代表實(shí)體末尾,“S”代表單個(gè)字構(gòu)成實(shí)體;關(guān)系類(lèi)別是根據(jù)中醫(yī)語(yǔ)料預(yù)先定義好的,本文共涉及5種關(guān)系,分別為方劑/中藥、證型/方劑、證型/癥狀、病因/證型和M,M表示該實(shí)體與多個(gè)實(shí)體組成關(guān)系不同的三元組;實(shí)體在三元組中的位置有3種:1、2和P,其中P表示該實(shí)體與多個(gè)實(shí)體組成三元組且處于不同的位置。此種標(biāo)注策略有效緩解了實(shí)體重疊的問(wèn)題。

2.3 BiLSTM-CRF

本文采用BiLSTM-CRF模型進(jìn)行中醫(yī)文本的序列標(biāo)注任務(wù),具體模型結(jié)構(gòu)如圖5所示。

LSTM網(wǎng)絡(luò)是RNN的一種變種[18],引入了細(xì)胞狀態(tài)概念,通過(guò)決定哪些信息需要被記憶,哪些需要被遺忘來(lái)解決RNN梯度爆炸和梯度消失的問(wèn)題。LSTM主要通過(guò)遺忘門(mén)、輸入門(mén)和輸出門(mén)來(lái)達(dá)到信息傳遞目的。具體計(jì)算公式如下:

ft=sigmoid(Wf[ht-1,xt]+bf)

(1)

it=sigmoid(Wi[ht-1,xt]+bi)

(2)

ot=sigmoid(Wo[ht-1,xt]+bo)

(5)

ht=ot*tanh(Ct)

(6)

BiLSTM使用softmax進(jìn)行歸一化處理得到每個(gè)字對(duì)應(yīng)每個(gè)標(biāo)簽的概率,然而每個(gè)標(biāo)簽并非獨(dú)立存在,它們之間存在一定的約束,例如“E-方劑/中藥-1”之前一定是“I-方劑/中藥-1”,“B-方劑/中藥-1”之后一定是“I-方劑/中藥-1”。而CRF可以更好地學(xué)習(xí)各標(biāo)簽之間的依賴(lài)關(guān)系,進(jìn)行全局優(yōu)化,使標(biāo)注處理更加準(zhǔn)確和高效。

2.4 抽取規(guī)則

Zheng等[16]默認(rèn)一個(gè)實(shí)體只存在一個(gè)三元組中,關(guān)系抽取采取就近距離原則,這樣便損失了大量實(shí)體關(guān)系信息,而中醫(yī)文本中存在大量一個(gè)實(shí)體與多個(gè)實(shí)體構(gòu)成關(guān)系三元組的情況。曹明宇等[17]在此基礎(chǔ)上進(jìn)行改進(jìn),取得了較好的效果,但在匹配最近實(shí)體時(shí)設(shè)置了匹配方向而導(dǎo)致一些三元組丟失。

依據(jù)上述分析以及中醫(yī)文本的信息抽取需要,本文在采用就近原則抽取的基礎(chǔ)上,自定義了以下3條抽取規(guī)則:

規(guī)則1:對(duì)于命名實(shí)體識(shí)別任務(wù),當(dāng)實(shí)體標(biāo)簽的三個(gè)部分信息均正確時(shí)進(jìn)行抽取;對(duì)于聯(lián)合抽取任務(wù),當(dāng)組成三元組的實(shí)體1、實(shí)體2和關(guān)系類(lèi)別均正確時(shí)進(jìn)行抽取。

規(guī)則2:組成三元組的關(guān)系類(lèi)別約束。關(guān)系類(lèi)別相同,或者其中一個(gè)或者兩個(gè)實(shí)體的關(guān)系類(lèi)別為M,即本文預(yù)定義的4種關(guān)系類(lèi)型可以與其相同的關(guān)系類(lèi)型匹配也可以與M匹配。

規(guī)則3:組成三元組的實(shí)體位置約束:實(shí)體位置分別為1和2,或者其中一個(gè)或者兩個(gè)實(shí)體的實(shí)體位置為P,即1可以與2匹配,也可以與P匹配,2和P同理。如圖2樣例所示,麻黃湯可與麻黃組成關(guān)系三元組(麻黃湯,方劑/中藥,麻黃),與桂枝組成關(guān)系三元組(麻黃湯,方劑/中藥,桂枝),與風(fēng)寒表實(shí)證組成關(guān)系三元組(風(fēng)寒表實(shí)證,證型/方劑,麻黃湯)。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文使用的語(yǔ)料源于中醫(yī)古籍、中醫(yī)相關(guān)教材等整理的2 968個(gè)句子,均經(jīng)人工按照本文的標(biāo)注策略進(jìn)行標(biāo)注。該中醫(yī)語(yǔ)料共包含方劑、中藥、證型、癥狀和病因5類(lèi)實(shí)體,方劑/中藥、證型/方劑、證型/癥狀、病因/證型和M共5類(lèi)關(guān)系,其中M表示該實(shí)體與多個(gè)實(shí)體組成關(guān)系不同的三元組。具體的占比見(jiàn)表1,按照7 ∶3的比例劃分訓(xùn)練集和測(cè)試集。

表1 各關(guān)系類(lèi)型語(yǔ)料占比(%)

3.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)是準(zhǔn)確率(Precision,P)、召回率(Recall,R)、F1值。對(duì)于命名實(shí)體識(shí)別任務(wù),當(dāng)實(shí)體標(biāo)簽的三個(gè)部分信息均正確時(shí)認(rèn)為其正確;對(duì)于聯(lián)合抽取任務(wù),當(dāng)組成三元組的實(shí)體1、實(shí)體2和關(guān)系類(lèi)別均正確時(shí)認(rèn)為其正確。具體三元組的P、R、F1的計(jì)算公式為:

式中:npredictright表示預(yù)測(cè)得到且正確三元組的數(shù)目;npredict表示預(yù)測(cè)得到三元組的數(shù)目;nright表示實(shí)際三元組的數(shù)目。

3.3 實(shí)驗(yàn)設(shè)置

向量輸入由Word2vec訓(xùn)練得到100維字向量和100維詞向量拼接而成200維字向量。模型訓(xùn)練涉及的主要超參數(shù):學(xué)習(xí)率設(shè)置為0.001;dropout設(shè)置為0.5;優(yōu)化器(optimizer)設(shè)置為Adam等。

3.3.1向量輸入對(duì)比實(shí)驗(yàn)

為了驗(yàn)證字詞向量拼接作為模型輸入的有效性,通過(guò)多組不同維度的單獨(dú)字向量作為輸入和字詞向量拼接作為輸入對(duì)比實(shí)驗(yàn)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果見(jiàn)表2。

表2 輸入對(duì)比實(shí)驗(yàn)

其中char表示字向量,char_concat_word表示字詞向量拼接。由表2可知,字詞向量拼接作為輸入的效果均優(yōu)于單獨(dú)字向量作為輸入。本文最終目的是提取關(guān)系三元組,因此選用字向量100維和詞向量100維并聯(lián)拼接作為模型輸入。

如表2所示,與實(shí)體識(shí)別相比,三元組抽取具有更高的精確率,但其召回結(jié)果低于實(shí)體識(shí)別任務(wù),這意味著存在預(yù)測(cè)的實(shí)體并不能構(gòu)成實(shí)體對(duì),只找到了Entity1而沒(méi)有找到相應(yīng)的Entity2,或者Entity2而沒(méi)有找到相應(yīng)的Entity1。因此,實(shí)體對(duì)具有比單個(gè)實(shí)體更高的精度率和更低的召回率。

3.3.2模型對(duì)比實(shí)驗(yàn)

將本文方法與兩種流水線方法進(jìn)行對(duì)比實(shí)驗(yàn),方法一:BiLSTM-CRF序列標(biāo)注用于實(shí)體識(shí)別,在實(shí)體識(shí)別結(jié)果的基礎(chǔ)上使用SVM進(jìn)行關(guān)系抽取。方法二:BiLSTM-CRF序列標(biāo)注用于實(shí)體識(shí)別,在實(shí)體識(shí)別結(jié)果的基礎(chǔ)上利用LSTM進(jìn)行關(guān)系抽取。這兩種方法所用語(yǔ)料均為中醫(yī)語(yǔ)料,序列標(biāo)注時(shí)采用“實(shí)體中字的位置-實(shí)體類(lèi)別”的標(biāo)注策略。

由表3實(shí)驗(yàn)結(jié)果可以得出,本文采用的聯(lián)合抽取方法較傳統(tǒng)的流水線方法F1值有較大的提升,較方法二(BiLSTM-CRF+LSTM)F1值提升4.49%,較方法一(BiLSTM-CRF+SVM)F1值提升接近10%,說(shuō)明了本文方法的有效性。

表3 模型對(duì)比實(shí)驗(yàn)(%)

3.3.3抽取規(guī)則對(duì)比實(shí)驗(yàn)

采用本文提出的標(biāo)注策略,字詞向量拼接作為輸入,通過(guò)BiLSTM-CRF模型進(jìn)行序列標(biāo)注,分別采用Zheng等[16]、曹明宇等[17]和本文的抽取規(guī)則進(jìn)行三元組抽取對(duì)比實(shí)驗(yàn),如表4所示。

表4 抽取規(guī)則對(duì)比實(shí)驗(yàn)(%)

根據(jù)表4可知,使用本文的抽取規(guī)則實(shí)驗(yàn)效果整體更佳。前兩種方法P值偏高的原因如下:Zheng等[16]默認(rèn)一個(gè)實(shí)體只存在一個(gè)三元組,且在三元組抽取時(shí)采用就近原則;曹明宇等[17]在標(biāo)注策略中增加了實(shí)體類(lèi)別的信息,且在三元組抽取時(shí)規(guī)定實(shí)體位置1只能向后匹配,實(shí)體位置2只能向前匹配。為了進(jìn)一步對(duì)比這3種方法的抽取結(jié)果,表5舉例進(jìn)行說(shuō)明。

由表5可知:本文方法可以抽取到Zheng等[16]和曹明宇等[17]丟失的部分信息,改善了實(shí)體重疊的問(wèn)題,但還是存在關(guān)系三元組損失的現(xiàn)象,仍需進(jìn)一步改進(jìn)。

4 結(jié) 語(yǔ)

本文使用改進(jìn)的序列標(biāo)注策略,將中醫(yī)的實(shí)體關(guān)系聯(lián)合抽取轉(zhuǎn)換成序列標(biāo)注任務(wù),詞向量與字符向量并聯(lián)拼接作為BiLSTM-CRF輸入,利用BiLSTM神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,以及CRF在序列標(biāo)注上的突出優(yōu)勢(shì),結(jié)合優(yōu)化的抽取規(guī)則完成中醫(yī)實(shí)體關(guān)系聯(lián)合抽取,不僅克服了傳統(tǒng)流水線方法的弊端,很大程度地緩解了實(shí)體重疊的問(wèn)題,并在中醫(yī)語(yǔ)料上達(dá)到80.42%的F1值。

但是,本文的方法仍存在丟失三元組的現(xiàn)象。此外該方法依賴(lài)人工標(biāo)注語(yǔ)料,而現(xiàn)實(shí)中存在大量無(wú)標(biāo)簽數(shù)據(jù),可以借助遠(yuǎn)程監(jiān)督的方法來(lái)緩解該問(wèn)題。探究每個(gè)字符在句中的位置信息是否對(duì)實(shí)體關(guān)系聯(lián)合抽取有促進(jìn)作用是未來(lái)的工作。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 国产毛片高清一级国语| 亚洲第一成年免费网站| 国产清纯在线一区二区WWW| 在线国产91| 毛片手机在线看| 无码精油按摩潮喷在线播放| 亚洲精品午夜天堂网页| 亚洲无码精品在线播放| 国产美女叼嘿视频免费看| 国产69囗曝护士吞精在线视频| 欧美成人区| 国产本道久久一区二区三区| 最新痴汉在线无码AV| 国产成年无码AⅤ片在线 | 国产成人精品一区二区三区| 美女被操黄色视频网站| 性欧美在线| 毛片视频网址| 中文字幕中文字字幕码一二区| 久久中文字幕不卡一二区| 国产国产人成免费视频77777| 3D动漫精品啪啪一区二区下载| 在线观看欧美国产| 日韩欧美国产精品| 欧美一级爱操视频| 青青青视频蜜桃一区二区| 亚洲综合日韩精品| 天天躁夜夜躁狠狠躁躁88| 毛片手机在线看| 亚洲中久无码永久在线观看软件| 久久精品这里只有国产中文精品| 91久久偷偷做嫩草影院| 91精品国产麻豆国产自产在线 | 成色7777精品在线| 蝴蝶伊人久久中文娱乐网| 国产亚洲精品97在线观看| 亚洲码一区二区三区| 亚洲天堂首页| 欧美特黄一级大黄录像| 婷婷综合缴情亚洲五月伊| 9cao视频精品| 成人免费视频一区二区三区| 国产第四页| 国产精品 欧美激情 在线播放| 996免费视频国产在线播放| 欧美中文一区| 欧美日韩精品在线播放| 久久精品无码一区二区日韩免费| 亚洲日韩第九十九页| 久久大香伊蕉在人线观看热2| 99久久人妻精品免费二区| 亚洲欧洲日产国码无码av喷潮| 第九色区aⅴ天堂久久香| 97视频免费看| 国产91视频观看| 午夜国产精品视频| 无码中文字幕加勒比高清| 激情乱人伦| 国产乱子精品一区二区在线观看| 欧美一级色视频| 亚洲无码日韩一区| 99久久国产精品无码| 国产夜色视频| 精品综合久久久久久97超人| 欧美午夜网| 欧美日韩理论| 亚洲一区二区三区国产精华液| 欧美成人午夜在线全部免费| 国产女人18毛片水真多1| 国产午夜一级淫片| 国产一级裸网站| 精品国产99久久| 婷婷亚洲天堂| 精品国产污污免费网站| 青青极品在线| 亚洲天堂首页| 91视频国产高清| 99热国产这里只有精品9九| 国产91精品久久| 亚洲天堂网在线视频| 不卡视频国产| 91精品亚洲|