999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機(jī)制的農(nóng)業(yè)文本命名實(shí)體識(shí)別

2021-02-01 12:03:00趙鵬飛趙春江吳華瑞
關(guān)鍵詞:文本農(nóng)業(yè)模型

趙鵬飛 趙春江,2 吳華瑞 王 維

(1.山西農(nóng)業(yè)大學(xué)工學(xué)院, 太谷 030801; 2.國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097;3.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097)

0 引言

隨著農(nóng)業(yè)信息化技術(shù)的快速發(fā)展,農(nóng)戶可通過農(nóng)技服務(wù)平臺(tái)進(jìn)行在線問答咨詢。面對(duì)海量的問題數(shù)據(jù),快速而準(zhǔn)確地定位關(guān)鍵詞、挖掘深層的語義關(guān)系是農(nóng)業(yè)智能問答系統(tǒng)亟需解決的問題[1]。農(nóng)業(yè)命名實(shí)體識(shí)別作為一種智能化信息抽取方法,其主要任務(wù)是從非結(jié)構(gòu)化的問答數(shù)據(jù)中識(shí)別不同類型的實(shí)體,如農(nóng)作物病蟲害、作物品種、農(nóng)藥名稱等,這是構(gòu)建智能問答系統(tǒng)的關(guān)鍵技術(shù)環(huán)節(jié),是農(nóng)業(yè)文本信息挖掘領(lǐng)域的熱點(diǎn)研究方向。

在農(nóng)業(yè)領(lǐng)域,許多研究者利用機(jī)器學(xué)習(xí)進(jìn)行實(shí)體識(shí)別研究。文獻(xiàn)[2]提出基于條件隨機(jī)場(chǎng)的識(shí)別方法,通過添加詞性、左右指界詞等模板特征,對(duì)農(nóng)作物、病蟲害及農(nóng)藥3類實(shí)體進(jìn)行識(shí)別。文獻(xiàn)[3]采用BIO和BMES兩種實(shí)體標(biāo)注方式,基于CRF模型對(duì)數(shù)據(jù)集中農(nóng)作物、家禽、病蟲害等實(shí)體進(jìn)行識(shí)別。文獻(xiàn)[4]將農(nóng)業(yè)本體概念作為子特征加入CRF模型中,對(duì)涉農(nóng)商品名稱進(jìn)行抽取和類別標(biāo)注。但是,傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法依賴手工設(shè)計(jì)的特征模板,在提高模型性能的同時(shí)也導(dǎo)致整個(gè)模型的魯棒性和泛化能力下降[5]。

農(nóng)業(yè)實(shí)體構(gòu)詞復(fù)雜、種類眾多,導(dǎo)致農(nóng)業(yè)領(lǐng)域?qū)嶓w識(shí)別研究更具有挑戰(zhàn)性,主要體現(xiàn)在:由于缺乏規(guī)范的農(nóng)業(yè)詞典,采用分詞工具對(duì)農(nóng)業(yè)語料進(jìn)行分詞出現(xiàn)分詞錯(cuò)誤的現(xiàn)象,影響了模型性能;同一實(shí)體在文本中所處位置不同,以單句為處理單元的識(shí)別方法無法聚焦全文語境,存在實(shí)體標(biāo)注不一致問題。

隨著深度學(xué)習(xí)算法的改進(jìn),網(wǎng)絡(luò)模型能夠自動(dòng)學(xué)習(xí)到更深層次的特征信息,在很多領(lǐng)域?qū)嶓w識(shí)別任務(wù)取得了理想的效果[6-12]。

近年來,注意力機(jī)制在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用[13-15]。文獻(xiàn)[16]基于BiLSTM-CRF框架,通過添加注意力機(jī)制學(xué)習(xí)有效的字符特征向量。文獻(xiàn)[17]提出基于雙向注意機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)模型,該模型能更好地獲取標(biāo)簽之間的關(guān)系。文獻(xiàn)[18]提出了多注意力模型,在阿拉伯語實(shí)體識(shí)別任務(wù)中取得較好的結(jié)果。文獻(xiàn)[19]利用卷積神經(jīng)網(wǎng)絡(luò)提取漢字分解后的特征信息,基于自注意力機(jī)制識(shí)別醫(yī)學(xué)電子病歷的相關(guān)實(shí)體。

上述基于深度學(xué)習(xí)的方法為農(nóng)業(yè)領(lǐng)域開展命名實(shí)體識(shí)別研究提供了參考依據(jù),但在農(nóng)業(yè)文本向量化表示方面并未提出有效的方法來獲取字符之間豐富的語義特征,并且相關(guān)模型在農(nóng)業(yè)領(lǐng)域數(shù)據(jù)集上沒有進(jìn)行驗(yàn)證,不足以說明農(nóng)業(yè)領(lǐng)域命名實(shí)體識(shí)別的相關(guān)問題。

本文在農(nóng)業(yè)領(lǐng)域命名實(shí)體識(shí)別任務(wù)中,基于深度學(xué)習(xí)方法,在BiLSTM-CRF網(wǎng)絡(luò)模型基礎(chǔ)上,有針對(duì)性地引入大量無標(biāo)注農(nóng)業(yè)語料,通過預(yù)訓(xùn)練方式對(duì)農(nóng)業(yè)實(shí)體字符分布式表示進(jìn)行擴(kuò)充,并引入文檔級(jí)注意力機(jī)制重點(diǎn)關(guān)注實(shí)體關(guān)鍵字信息,通過余弦距離相似度得分獲取文本中實(shí)體之間的相關(guān)系數(shù),進(jìn)一步對(duì)模型結(jié)構(gòu)和訓(xùn)練參數(shù)進(jìn)行優(yōu)化和改進(jìn),構(gòu)建基于注意力機(jī)制的Att-BiLSTM-CRF混合網(wǎng)絡(luò)模型,以期實(shí)現(xiàn)農(nóng)業(yè)文本命名實(shí)體的精準(zhǔn)識(shí)別。

1 數(shù)據(jù)采集與預(yù)處理

1.1 數(shù)據(jù)采集

農(nóng)業(yè)命名實(shí)體識(shí)別缺少公開的語料數(shù)據(jù)集,本文通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注3個(gè)步驟,建立農(nóng)業(yè)領(lǐng)域?qū)嶓w識(shí)別語料庫。本文的語料數(shù)據(jù)主要通過爬蟲框架,抓取各大農(nóng)業(yè)網(wǎng)站(中國(guó)農(nóng)業(yè)信息網(wǎng)、中國(guó)農(nóng)業(yè)知識(shí)網(wǎng)、中國(guó)作物種質(zhì)資源信息網(wǎng)、國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心等)關(guān)于農(nóng)作物病蟲害和農(nóng)作物品種的文本語料。其中,標(biāo)注語料庫作為實(shí)驗(yàn)數(shù)據(jù)集,包含4 604篇農(nóng)業(yè)文本,共33 096個(gè)句子;未標(biāo)注語料庫作為預(yù)訓(xùn)練數(shù)據(jù)集,包含26 025條語料,共300萬個(gè)中文字符。

1.2 數(shù)據(jù)預(yù)處理

通過爬蟲抓取的語料數(shù)據(jù),包含大量的網(wǎng)站標(biāo)簽、鏈接、特殊字符等非文本的結(jié)構(gòu)數(shù)據(jù),不利于數(shù)據(jù)標(biāo)注。通過Python正則表達(dá)式、字符格式規(guī)范化等操作,刪除非文本數(shù)據(jù),獲取規(guī)范化的農(nóng)業(yè)語料庫。

1.3 數(shù)據(jù)標(biāo)注

本文采用人工標(biāo)注的方式進(jìn)行語料庫的標(biāo)注,語料庫包含實(shí)體共26 309個(gè),其中,病害名稱4 129個(gè),蟲害名稱4 275個(gè)、農(nóng)藥名稱11 952個(gè)、農(nóng)作物品種名稱5 953個(gè),不同類型實(shí)體統(tǒng)計(jì)如表1所示。使用BIEO標(biāo)記方案表示命名實(shí)體,B表示實(shí)體名稱的開始,I和E分別表示實(shí)體的內(nèi)部和實(shí)體的結(jié)束標(biāo)記,O表示語料中的非實(shí)體。語料庫注釋示例如圖1所示。為更好地識(shí)別實(shí)體所屬類別,將類別信息添加在實(shí)體標(biāo)簽上,實(shí)體類型描述如下:病害名稱實(shí)體-Disease、蟲害名稱實(shí)體-Pest、農(nóng)藥名稱實(shí)體-Pesticide、農(nóng)作物品種名稱實(shí)體-Crop。其中,B-Disease和B-Crop分別表示病害和農(nóng)作物品種的命名實(shí)體的開始。

表1 語料庫統(tǒng)計(jì)信息Tab.1 Corpus statistics

2 模型框架

本文模型包含字嵌入層、BiLSTM層、Attention層和CRF層4部分,模型結(jié)構(gòu)如圖2所示。

2.1 字嵌入層

2.1.1預(yù)處理

在英文NER任務(wù)中,由于每個(gè)單詞被空格分隔,很多研究將詞向量與字符向量拼接作為模型輸入,提高模型的性能。與英文單詞不同,中文詞語之間沒有明顯的分隔標(biāo)記,而且詞語具有較強(qiáng)的領(lǐng)域性。因此,為更好地處理中文實(shí)體識(shí)別任務(wù),多數(shù)方法都將分詞作為語料處理的基本步驟。但是,現(xiàn)有分詞技術(shù)不能準(zhǔn)確地進(jìn)行切分,會(huì)產(chǎn)生各種各樣的錯(cuò)誤[20]。

例如,病害實(shí)體“水稻細(xì)菌性褐條病”分詞結(jié)果為“水稻/細(xì)菌性/褐/條/病”,農(nóng)作物品種實(shí)體“兩優(yōu)培九”分詞結(jié)果為“兩/優(yōu)/培九”。這些實(shí)體被錯(cuò)誤地拆分,從而導(dǎo)致模型不能正確獲取實(shí)體的特征表示,基于字的實(shí)體識(shí)別可以有效地避免這類問題。

本文使用字向量作為模型初始輸入,采用預(yù)訓(xùn)練方式,以字為單位進(jìn)行切割,獲取特征表示,緩解分詞準(zhǔn)確度對(duì)性能的影響。

2.1.2字向量表示

農(nóng)業(yè)文本數(shù)據(jù)需進(jìn)行文本向量化,將相應(yīng)字符映射為一定維度的實(shí)數(shù)向量,才能被計(jì)算機(jī)處理。本文采用Word2vec的CBOW模型[21-22],在模型架構(gòu)基礎(chǔ)上,針對(duì)字向量維度,進(jìn)一步優(yōu)化和驗(yàn)證,通過對(duì)這些無標(biāo)注的語料進(jìn)行無監(jiān)督訓(xùn)練,得到相應(yīng)的分布式表示,最終生成特定維度的字向量,構(gòu)建字向量表。CBOW模型的框架如圖3所示,主要有輸入層、映射層和輸出層3層。

在CBOW模型中,目標(biāo)字由上下文推測(cè)得到,已知當(dāng)前字wm,利用周圍2n(n為窗口尺寸)個(gè)字wm-n、wm-n+1、…、wm+n-1、wm+n預(yù)測(cè)wm當(dāng)前字出現(xiàn)的概率。以病害實(shí)體“小麥霜霉病”為例,通過字“霜”的上下文“小”、“麥”、“霉”、“病”4個(gè)字,來預(yù)測(cè)所有字出現(xiàn)的概率,其中目標(biāo)字“霜”出現(xiàn)的概率最大。

在預(yù)訓(xùn)練過程中,CBOW模型字級(jí)窗口設(shè)置為2,構(gòu)建字向量表,每個(gè)字對(duì)應(yīng)唯一的向量表示。本文驗(yàn)證了不同維度字向量對(duì)模型性能造成的影響,維度設(shè)置為50、100、150和200,經(jīng)過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),字向量維度設(shè)置為100時(shí)模型的性能最優(yōu)。因此,通過預(yù)訓(xùn)練方式,獲取農(nóng)業(yè)文本100維度的字向量特征表示,適用于農(nóng)業(yè)領(lǐng)域命名實(shí)體識(shí)別。

2.2 BiLSTM層

LSTM是一種特殊的循環(huán)網(wǎng)絡(luò)模型,克服了RNN模型在訓(xùn)練過程存在的梯度爆炸問題[23]。農(nóng)業(yè)實(shí)體的構(gòu)詞方式復(fù)雜多樣,針對(duì)目標(biāo)實(shí)體的識(shí)別,需要考慮實(shí)體不同位置的上下文信息,來獲取更深層次的特征表示。LSTM是單向的循環(huán)神經(jīng)網(wǎng)絡(luò),只能獲取目標(biāo)詞過去的文本信息。例如,病害實(shí)體“玉米根腐病”,LSTM只能訪問“腐”的前一個(gè)字“根”的特征信息,不能預(yù)測(cè)下一個(gè)字“病”的出現(xiàn)。目標(biāo)詞的上下文信息對(duì)實(shí)體識(shí)別具有不同程度的影響,為了準(zhǔn)確識(shí)別出農(nóng)業(yè)命名實(shí)體,構(gòu)建了雙向LSTM(BiLSTM)網(wǎng)絡(luò)模型,進(jìn)行正向和反向2個(gè)不同方向的文本表示,充分獲取目標(biāo)詞過去和將來的特征信息。

LSTM網(wǎng)絡(luò)的主要結(jié)構(gòu)可以形式化地表示為

it=σ(Wiht-1+Uixt+bi)

(1)

ft=σ(Wfht-1+Ufxt+bf)

(2)

(3)

(4)

ot=σ(Woht-1+Uoxt+bo)

(5)

ht=ot⊙tanh(ct)

(6)

式中σ——sigmod激活函數(shù)

tanh——雙曲正切激活函數(shù)

it、ft、ot、ct——在t時(shí)刻的輸入門、忘記門、輸出門、記憶細(xì)胞

Ui、Uf、Uc、Uo、Wi、Wf、Wo、Wc——不同控制門對(duì)應(yīng)的權(quán)重矩陣

bi、bf、bo、bc——偏置向量

xt——t時(shí)刻的輸入向量

ht——t時(shí)刻的輸出結(jié)果

⊙——點(diǎn)乘運(yùn)算符

字嵌入層的向量x,將作為t時(shí)刻BiLSTM層的輸入,通過正向LSTM輸出特征序列和反向輸出序列,得到隱藏層拼接的向量,經(jīng)過tanh激活函數(shù)進(jìn)行加權(quán)得到最終的輸出結(jié)果ht,將作為Attention層的輸入。

2.3 Attention層

在命名實(shí)體識(shí)別任務(wù)中,由于中文構(gòu)詞方式靈活多變,同一實(shí)體具有多種表述方式,實(shí)體在文本不同位置可能多次出現(xiàn)。以單句為訓(xùn)練單元的識(shí)別模型,關(guān)注實(shí)體在該句的上下文表示,忽略全文的語境信息,容易造成同一文本實(shí)體標(biāo)注不一致的問題。

例如,水稻稻瘟病的描述如下:水稻又見“【火燒瘟】”,早稻警惕【稻瘟病】流行,一定要早做預(yù)防。當(dāng)前江西早稻,……禾苗都可以點(diǎn)火燒了,名符其實(shí)的“【火燒瘟】”。【水稻稻瘟病】又稱【稻熱病】、【火燒瘟】,癥狀表現(xiàn)為中央呈灰白色病斑,邊緣呈顯著褐色,且發(fā)病部位在潮濕的環(huán)境下會(huì)產(chǎn)生灰色的霉?fàn)钗铩?/p>

文本中,水稻稻瘟病又稱火燒瘟,火燒瘟作為病害實(shí)體,在文本中不同句子的不同位置多次出現(xiàn)。以句子為處理單元的模型,在脫離上下文語境的情況下,對(duì)【火燒瘟】病害實(shí)體出現(xiàn)錯(cuò)標(biāo)或者漏標(biāo)的現(xiàn)象。為解決實(shí)體標(biāo)注不一致的問題,通常采用基于規(guī)則制定的方法,但是特定領(lǐng)域的規(guī)則制定較為復(fù)雜,需要較強(qiáng)的領(lǐng)域知識(shí),不同的領(lǐng)域規(guī)則不具有通用性。

針對(duì)農(nóng)業(yè)文本中實(shí)體命名方式多樣化、實(shí)體分布不均勻的特點(diǎn),在注意力模型基本架構(gòu)上進(jìn)行擴(kuò)展,引入文檔級(jí)全局信息,并增加余弦距離得分的相似性評(píng)估,對(duì)處于不同位置的同一實(shí)體重點(diǎn)關(guān)注。基于注意力的學(xué)習(xí)模型,能夠忽略文本中無關(guān)的信息,關(guān)注實(shí)體關(guān)鍵信息,模型以整篇文本作為訓(xùn)練單元,考慮實(shí)體上下文的語境信息,緩解實(shí)體標(biāo)注不一致問題。

本文用D=(S1,S2,…,Sd)表示文檔包含d個(gè)句子,每個(gè)句子S=(w1,w2,…,wm)包含m個(gè)字,文檔中包含字的總數(shù)是N。對(duì)于文檔中的實(shí)體,通過注意矩陣A處理BiLSTM層輸出的特征序列,來計(jì)算當(dāng)前目標(biāo)字與文檔中所有字之間的相關(guān)性,獲取目標(biāo)字wi基于文檔層面的全局特征表示gi,計(jì)算公式為

(7)

其中

(8)

(9)

式中Ai,j——當(dāng)前字wi與文檔中字wj注意力權(quán)重

hj——BiLSTM層輸出

score(wi,wj)——采用余弦距離判定的字wi與字wj相似性得分

Wa——訓(xùn)練過程中學(xué)習(xí)到的參數(shù)

最后,目標(biāo)字wi在文檔級(jí)注意力層的輸出為ci,通過tanh函數(shù)來獲取置信度ei,計(jì)算公式為

ci=tanh(Wg[gi,hi])

(10)

ei=tanh(Weci)

(11)

式中Wg、We——訓(xùn)練時(shí)學(xué)習(xí)到的參數(shù)矩陣

2.4 CRF層

在CRF層,采用狀態(tài)轉(zhuǎn)換矩陣來預(yù)測(cè)當(dāng)前標(biāo)簽,獲得全局最優(yōu)的標(biāo)記序列[24]。設(shè)定P為Attention層的輸出矩陣,維度為m×k,m表示輸入句子包含字的數(shù)量,k表示標(biāo)簽集合的元素?cái)?shù)。對(duì)于輸入文檔D,對(duì)應(yīng)的輸出標(biāo)簽序列y=(y1,y2,…,yn) 的概率為

(12)

式中X——輸入的文本序列

Ayi,yi+1——從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的分?jǐn)?shù),Ayi,yi+1的值越大表示標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的可能性越大

Pi,yi——第i個(gè)字被預(yù)測(cè)為第yi個(gè)標(biāo)簽的分?jǐn)?shù)

然后,利用Softmax函數(shù),得到序列y的條件概率。最后,使用Viterbi[25]算法將得分最高的序列y*作為模型最終的標(biāo)注結(jié)果。

2.5 模型參數(shù)配置及評(píng)價(jià)

模型的參數(shù)配置如表2所示,參數(shù)通過反復(fù)實(shí)驗(yàn)確定的,字向量維度設(shè)置為100。模型使用雙向的LSTM網(wǎng)絡(luò),隱藏層維度設(shè)置為128。為減輕模型過擬合問題,引入Dropout機(jī)制[26],Dropout的值直接影響到模型性能,設(shè)置為0.5。選取ADAM[27]優(yōu)化算法,學(xué)習(xí)率為0.002。模型訓(xùn)練批處理參數(shù)為16,迭代次數(shù)設(shè)置為50。

表2 參數(shù)配置Tab.2 Parameter setting

與其他實(shí)體識(shí)別方法相似,采用準(zhǔn)確率P、召回率R、F值作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)[28]。

3 實(shí)驗(yàn)結(jié)果

在不依賴人工設(shè)計(jì)特征的情況下,通過調(diào)整不同的模型參數(shù),在1.3節(jié)構(gòu)建的標(biāo)注數(shù)據(jù)集上驗(yàn)證模型的識(shí)別性能。語料庫中訓(xùn)練集、測(cè)試集、驗(yàn)證集按7∶2∶1的比例進(jìn)行分配,數(shù)據(jù)集之間無重疊,因此測(cè)試數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可作為實(shí)體識(shí)別效果的評(píng)價(jià)指標(biāo)。

3.1 不同嵌入向量性能比較

本文分別以詞向量和字向量作為Att-BiLSTM-CRF模型的初始輸入,驗(yàn)證不同嵌入向量對(duì)模型性能的影響,對(duì)比結(jié)果如表3所示。將字向量作為模型的輸入,模型識(shí)別準(zhǔn)確率P為93.48%,相較于詞向量作為模型輸入,準(zhǔn)確率提升了2.96個(gè)百分點(diǎn)。分析結(jié)果得知,基于詞向量的輸入,實(shí)體被錯(cuò)誤拆分,導(dǎo)致這些復(fù)雜的實(shí)體沒有被正確識(shí)別,例如,水稻品種“廣8優(yōu)郁香”被錯(cuò)誤地拆分為“廣/8/優(yōu)郁/香/”。接著,驗(yàn)證了不同字向量維度對(duì)模型性能的影響。字向量維度設(shè)置為50、100、150、200,模型準(zhǔn)確率P分別為91.19%、93.48%、92.15%、91.83%;召回率R分別為89.5%、90.6%、90.08%、90.21%;F值分別為90.29%、92.01%、91.04%、91.00%。從實(shí)驗(yàn)結(jié)果看出,適當(dāng)增加字向量維度,可以獲取質(zhì)量更好的字級(jí)分布式表示,字向量維度為100時(shí),模型性能達(dá)到最高。隨著維度越來越大,訓(xùn)練成本越來越高,模型性能很難得到提升,甚至下降。針對(duì)農(nóng)業(yè)實(shí)體,字向量維度不是越大越好,在一定范圍內(nèi)存在局部最優(yōu)值。

表3 不同嵌入向量實(shí)驗(yàn)結(jié)果對(duì)比Tab.3 Results of different embedding %

3.2 不同注意力機(jī)制的性能比較

采用字向量維度100,并在BiLSTM-CRF模型框架上增加句子級(jí)和文檔級(jí)的注意層,并對(duì)模型性能進(jìn)行了評(píng)估。結(jié)果如表4所示。句子級(jí)的方法,模型的準(zhǔn)確率P為91.23%,召回率R為89.24%,F(xiàn)值為90.23%。分析結(jié)果發(fā)現(xiàn),同一文本中,部分農(nóng)藥實(shí)體“農(nóng)抗120/Pesticide”,被錯(cuò)誤標(biāo)記為農(nóng)作物品種實(shí)體“農(nóng)抗120/Crop”。這種標(biāo)記不一致的現(xiàn)象,是由于“農(nóng)抗120”與大多數(shù)農(nóng)作物品種實(shí)體構(gòu)詞方式相似,都是“詞+數(shù)字”的方式,在識(shí)別過程中,雖然句子級(jí)注意力獲取了該實(shí)體在句中特征信息,但是并沒有考慮全文的語境,從而導(dǎo)致上述錯(cuò)誤的判斷。

表4 不同Attention機(jī)制實(shí)驗(yàn)結(jié)果對(duì)比

與基于句子級(jí)的方法相比,文檔級(jí)方法模型的準(zhǔn)確率P、召回率R、F值分別提高了2.25、1.36、1.78個(gè)百分點(diǎn)。結(jié)果表明,文檔級(jí)方法通過獲取文檔中字之間的相關(guān)信息,通過余弦函數(shù)計(jì)算文檔中目標(biāo)字與其他字的相似度,調(diào)整目標(biāo)字的權(quán)重,在緩解上述討論的標(biāo)記不一致問題的同時(shí),有效地提高了模型性能。

3.3 不同模型性能比較

為了驗(yàn)證本文提出的基于Att-BiLSTM-CRF在農(nóng)業(yè)語料上的識(shí)別性能,在不同的模型上進(jìn)行對(duì)比實(shí)驗(yàn),模型包括:LSTM[29]、LSTM-CRF[30]、BiLSTM-CRF[31]以及本文提出的基于文檔級(jí)的Att-BiLSTM-CRF,實(shí)驗(yàn)結(jié)果如表5所示。在準(zhǔn)確率P、F值兩方面,對(duì)比了各模型針對(duì)4類實(shí)體的識(shí)別性能,結(jié)果如圖4所示。

表5 不同模型的實(shí)驗(yàn)結(jié)果對(duì)比

由表5可知,LSTM模型通過隱藏層獲取過去的序列信息,結(jié)構(gòu)比較單一,模型準(zhǔn)確率為80.36%。LSTM-CRF模型相比于LSTM模型,通過添加CRF層,利用實(shí)體間相鄰的標(biāo)簽動(dòng)態(tài)規(guī)劃最優(yōu)的序列標(biāo)注,模型準(zhǔn)確率為83.95%。為了獲得輸入序列豐富的上下文信息,基于BiLSTM-CRF模型框架,模型準(zhǔn)確率為89.89%,與LSTM-CRF模型相比,提升了5.94個(gè)百分點(diǎn)。基于文檔級(jí)注意力的Att-BiLSTM-CRF模型,通過添加注意力層,獲取文本中實(shí)體間的相似系數(shù),與其他3個(gè)模型相比,準(zhǔn)確率P和F值最高,分別為93.48%和92.01%。

圖4展示了4種模型對(duì)于農(nóng)藥、蟲害、農(nóng)作物品種以及病害4類實(shí)體的識(shí)別率P和F值,4種模型對(duì)病害和農(nóng)藥實(shí)體識(shí)別準(zhǔn)確率較高,蟲害和農(nóng)作物品種較低。LSTM模型結(jié)構(gòu)單一,對(duì)于復(fù)雜的蟲害和農(nóng)作物品種實(shí)體,模型不能獲取豐富的特征信息,識(shí)別率為65.92%和71.64%,F(xiàn)值為71.33%和72.48%。LSTM-CRF模型對(duì)蟲害實(shí)體識(shí)別率為73.18%,農(nóng)作物品種實(shí)體識(shí)別率為76.59%,相較于LSTM模型分別提高了7.26、4.95個(gè)百分點(diǎn)。

分析得出,病害和農(nóng)藥具有較規(guī)則的后綴組成詞,例如,病害的“病”、農(nóng)藥的“乳油”等,這些明顯的字特征信息提高了這類實(shí)體識(shí)別的準(zhǔn)確率。而蟲害和農(nóng)作物的構(gòu)詞比較復(fù)雜,例如“數(shù)字+詞”、“數(shù)字+字母”等方式,因此這類實(shí)體需要提升模型的復(fù)雜性,來獲取更豐富的特征信息。

BiLSTM-CRF模型對(duì)農(nóng)藥和病害實(shí)體識(shí)別率相對(duì)較高,為94.35%、92.70%,對(duì)蟲害和農(nóng)作物兩類實(shí)體識(shí)別率為83.66%、85.47%,相較于LSTM-CRF模型,分別提升了10.48、8.88個(gè)百分點(diǎn)。模型通過雙向LSTM隱藏層提取過去和未來的序列信息,對(duì)復(fù)雜、長(zhǎng)度較大的實(shí)體識(shí)別率有較大提升。但是,模型依然存在實(shí)體標(biāo)簽不一致的現(xiàn)象。

本文Att-BiLSTM-CRF模型對(duì)農(nóng)藥實(shí)體識(shí)別率達(dá)到97.58%,蟲害實(shí)體識(shí)別率為91.15%,對(duì)于構(gòu)詞更復(fù)雜的農(nóng)作物品種實(shí)體識(shí)別率達(dá)到最高的87.26%,F(xiàn)值為84.92%。進(jìn)一步驗(yàn)證了添加文檔級(jí)的注意力機(jī)制,結(jié)合實(shí)體所在文本的語境信息,獲取實(shí)體關(guān)注度能夠提高農(nóng)業(yè)實(shí)體的識(shí)別效果。

實(shí)驗(yàn)結(jié)果表明,本文提出的Att-BiLSTM-CRF模型不使用任何字典或外部注解資源,在訓(xùn)練過程中動(dòng)態(tài)地獲取實(shí)體間的相似關(guān)系,能夠有效地識(shí)別農(nóng)業(yè)復(fù)雜實(shí)體,F(xiàn)值達(dá)到92.01%。

3.4 不同模型識(shí)別效率比較

為了驗(yàn)證語料集的規(guī)模對(duì)模型性能的影響,本文新增了3個(gè)語料庫,包含實(shí)體數(shù)量分別為9 906、15 020、20 618,新增的語料庫同樣按照7∶2∶1的比例進(jìn)行分配,數(shù)據(jù)集之間無重疊,實(shí)驗(yàn)結(jié)果如下:LSTM模型由于結(jié)構(gòu)比較單一,在4種規(guī)模語料庫準(zhǔn)確率較低,分別為64.52%、72.85%、83.93%、85.11%。LSTM-CRF模型通過添加CRF層,獲取標(biāo)簽轉(zhuǎn)移的最優(yōu)概率,與LSTM相比,模型準(zhǔn)確率分別提高了1.40、2.03、0.43、1.57個(gè)百分點(diǎn)。BiLSTM-CRF和Att-BiLSTM-CRF在語料集較小的情況下,模型達(dá)到較好的識(shí)別效果。隨著語料集規(guī)模的擴(kuò)大,融入注意力機(jī)制的Att-BiLSTM-CRF模型,在4種規(guī)模語料庫識(shí)別準(zhǔn)確率均達(dá)到最高,分別為85.11%、86.68%、90.29%、93.48%。

最后,本文通過中國(guó)農(nóng)技推廣信息平臺(tái),在農(nóng)技問答板塊,抽取了相應(yīng)的農(nóng)戶問答文本數(shù)據(jù),應(yīng)用Att-BiLSTM-CRF模型對(duì)文本數(shù)據(jù)進(jìn)行了實(shí)體識(shí)別,結(jié)果如表6所示。

表6 問答數(shù)據(jù)識(shí)別結(jié)果示例Tab.6 Examples of Q&A data recognition results

4 結(jié)論

(1)針對(duì)農(nóng)業(yè)領(lǐng)域命名實(shí)體識(shí)別中實(shí)體識(shí)別類別眾多、實(shí)體類型組成復(fù)雜,造成分詞不準(zhǔn)確等問題,提出基于注意力機(jī)制的Att-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型方法,提升了識(shí)別性能,F(xiàn)值為92.01%。

(2)通過預(yù)訓(xùn)練的方法獲取農(nóng)業(yè)實(shí)體字級(jí)的分布式表示,緩解分詞錯(cuò)誤造成的性能影響。通過多種向量維度的實(shí)驗(yàn),證明基于字向量的識(shí)別方法適用于農(nóng)業(yè)領(lǐng)域NER任務(wù),字向量維度設(shè)置為100,模型準(zhǔn)確率P達(dá)到93.48%,召回率為90.60%。

(3)基于文檔級(jí)的注意力機(jī)制獲取實(shí)體間的相似度,可確保農(nóng)業(yè)實(shí)體標(biāo)簽的一致性,避免錯(cuò)標(biāo)或者漏標(biāo)的情況,提高了模型識(shí)別性能。

猜你喜歡
文本農(nóng)業(yè)模型
一半模型
國(guó)內(nèi)農(nóng)業(yè)
國(guó)內(nèi)農(nóng)業(yè)
國(guó)內(nèi)農(nóng)業(yè)
擦亮“國(guó)”字招牌 發(fā)揮農(nóng)業(yè)領(lǐng)跑作用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产麻豆精品在线观看| 喷潮白浆直流在线播放| 中文字幕亚洲专区第19页| 久久中文电影| 国产在线小视频| 中文字幕在线看视频一区二区三区| 99精品视频九九精品| 91网址在线播放| 国产成人亚洲欧美激情| 91亚洲精选| 最新日本中文字幕| 亚洲精品视频免费| 无码内射在线| 国产精品亚洲片在线va| 欧美激情视频一区二区三区免费| 福利在线不卡| 精品久久高清| 中美日韩在线网免费毛片视频| 国产精品一区在线麻豆| 亚洲欧美在线精品一区二区| 欧美日本中文| 强奷白丝美女在线观看| 91人妻在线视频| 久久人体视频| 伊人蕉久影院| 毛片免费观看视频| 欧美激情视频在线观看一区| 丰满的熟女一区二区三区l| 午夜人性色福利无码视频在线观看| 亚洲人成电影在线播放| 91偷拍一区| 精品国产网站| 在线观看网站国产| 99久久精彩视频| 热99精品视频| AV老司机AV天堂| 亚洲熟妇AV日韩熟妇在线| 亚洲欧美综合在线观看| 五月天天天色| 国产精品理论片| 亚洲精品欧美日本中文字幕| 亚洲中文字幕久久精品无码一区| 91精品国产无线乱码在线| 91久久夜色精品国产网站| 日本午夜精品一本在线观看| 欧美一区二区精品久久久| 亚洲国产黄色| 88av在线| 国产精品太粉嫩高中在线观看 | vvvv98国产成人综合青青| 国产综合日韩另类一区二区| 国产成人乱无码视频| 日韩 欧美 国产 精品 综合| 久久婷婷国产综合尤物精品| 久久婷婷色综合老司机| 精品成人一区二区三区电影| 久久国产精品无码hdav| 激情综合婷婷丁香五月尤物 | 国产H片无码不卡在线视频| 丁香综合在线| 国产浮力第一页永久地址| 熟女日韩精品2区| 在线免费无码视频| 欧美yw精品日本国产精品| 日韩黄色精品| 亚洲黄色高清| 国产欧美日韩免费| 亚洲综合片| 91黄色在线观看| 国产精品性| 亚洲国产一成久久精品国产成人综合| 99热这里只有精品2| 国禁国产you女视频网站| 久久毛片基地| 亚洲人成网7777777国产| 亚洲香蕉久久| 日本人真淫视频一区二区三区 | 国产在线无码一区二区三区| 热99精品视频| 99热这里只有精品免费| 久久一日本道色综合久久| 久久www视频|