劉合兵,張德夢(mèng),熊蜀峰,馬新明,席 磊+
1.河南農(nóng)業(yè)大學(xué) 信息與管理科學(xué)學(xué)院,鄭州450046
2.農(nóng)田監(jiān)測(cè)與控制河南省工程實(shí)驗(yàn)室,鄭州450002
小麥?zhǔn)侨蜃钪匾募Z食作物之一。在小麥種植過(guò)程中,會(huì)出現(xiàn)各種各樣的病蟲(chóng)害,病蟲(chóng)害的發(fā)生將直接影響小麥的產(chǎn)量和品質(zhì)。小麥病蟲(chóng)害防治的相關(guān)信息存在于海量非結(jié)構(gòu)化的專業(yè)書(shū)籍和文獻(xiàn)中,人們無(wú)法快速獲取到準(zhǔn)確的病蟲(chóng)害防治信息,無(wú)法進(jìn)行精準(zhǔn)預(yù)防。構(gòu)建小麥病蟲(chóng)害領(lǐng)域知識(shí)圖譜,以結(jié)構(gòu)化的形式表述病蟲(chóng)害和防治藥劑數(shù)據(jù),可以幫助人們高效準(zhǔn)確地定位到有價(jià)值的信息,對(duì)小麥病蟲(chóng)害的精準(zhǔn)防治具有重要意義。小麥病蟲(chóng)害命名實(shí)體識(shí)別是構(gòu)建小麥病蟲(chóng)害領(lǐng)域知識(shí)圖譜的關(guān)鍵步驟,旨在從這些非結(jié)構(gòu)化數(shù)據(jù)中識(shí)別和分類出相關(guān)命名實(shí)體,識(shí)別結(jié)果的好壞直接決定知識(shí)圖譜的質(zhì)量[1-2]。
近年來(lái),命名實(shí)體識(shí)別(named entity recognition,NER)已廣泛應(yīng)用于垂直領(lǐng)域,并且隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的方法成為中文命名實(shí)體識(shí)別的主流模型。劉新亮等[3]提出BERT(bidirectional encoder representation from transformer)與CRF(conditional random field)相結(jié)合的模型,實(shí)現(xiàn)了生鮮蛋供應(yīng)鏈領(lǐng)域的命名實(shí)體識(shí)別,準(zhǔn)確率達(dá)到91.82%。羊艷玲等[4]將BiLSTM(bi-directional long short-term memory)與CRF 結(jié)合實(shí)現(xiàn)了中醫(yī)案例領(lǐng)域的命名實(shí)體識(shí)別。許力等[5]提出基于BERT-BiLSTM-CRF(bidirectional encoder representation from transformer+bidirectional long short-term memory+conditional random field)模型,進(jìn)行生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別,有效地解決了靜態(tài)詞向量表征語(yǔ)義識(shí)別準(zhǔn)確率不高的問(wèn)題。沈同平等[6]提出基于BERT-BiLSTM-CRF 模型,在MSRA和人民日?qǐng)?bào)語(yǔ)料庫(kù)均取得優(yōu)異結(jié)果。上述模型在其領(lǐng)域訓(xùn)練語(yǔ)料充足的情況下均達(dá)到了很好的識(shí)別效果,但無(wú)法直接用于語(yǔ)料匱乏的小麥病蟲(chóng)害領(lǐng)域。
在農(nóng)業(yè)領(lǐng)域,Malarkodi等[7]、Guo等[8]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取文本的局部特征,再結(jié)合BiLSTM+CRF 模型實(shí)現(xiàn)農(nóng)業(yè)病蟲(chóng)害領(lǐng)域的命名實(shí)體識(shí)別。閆麗華[9]、于合龍等[10]使用BiLSTM+CRF模型分別實(shí)現(xiàn)對(duì)葡萄病蟲(chóng)害和水稻病蟲(chóng)害的命名實(shí)體識(shí)別。文獻(xiàn)[7-10]中的方法均取得了不錯(cuò)的結(jié)果,但傳統(tǒng)詞向量模型易受分詞結(jié)果的影響,無(wú)法表征一詞多義現(xiàn)象。李悅[11]、任妮等[12]、鄭泳智等[13]將BERT 預(yù)訓(xùn)練語(yǔ)言模型和BiLSTM+CRF 模型相結(jié)合,實(shí)現(xiàn)農(nóng)業(yè)病蟲(chóng)害領(lǐng)域的命名實(shí)體識(shí)別。文獻(xiàn)[11-13]中使用BERT 代替?zhèn)鹘y(tǒng)的詞向量模型,有效地降低了分詞錯(cuò)誤帶來(lái)的影響,解決了一詞多義問(wèn)題,但是BERT 模型依賴上億級(jí)的參數(shù)量,訓(xùn)練耗時(shí)長(zhǎng)、成本高。
以上垂直領(lǐng)域命名實(shí)體識(shí)別方法為本文開(kāi)展小麥病蟲(chóng)害領(lǐng)域的實(shí)體識(shí)別提供了參考,但這些文獻(xiàn)通常只識(shí)別病害、蟲(chóng)害、品種、防治藥劑和危害部位等實(shí)體類別,在其類別較少的情況下識(shí)別效果較好。目前,在農(nóng)業(yè)病蟲(chóng)害領(lǐng)域命名實(shí)體識(shí)別的研究中,缺乏對(duì)實(shí)體語(yǔ)料庫(kù)的研究,該領(lǐng)域存在訓(xùn)練數(shù)據(jù)匱乏、實(shí)體類型多樣、實(shí)體結(jié)構(gòu)復(fù)雜及實(shí)體分布不均勻等問(wèn)題,以上實(shí)體類別無(wú)法充分提取文本中隱含的信息,不足以說(shuō)明農(nóng)業(yè)病蟲(chóng)害領(lǐng)域的命名實(shí)體問(wèn)題。
為了解決小麥病蟲(chóng)害領(lǐng)域的命名實(shí)體識(shí)別問(wèn)題,本文構(gòu)建了小麥病蟲(chóng)害命名實(shí)體識(shí)別語(yǔ)料庫(kù)(wheat pests and diseases Chinese named entity recognition,WpdCNER)和小麥病蟲(chóng)害領(lǐng)域詞典(wheat pests and diseases dictionary,WpdDict),并提出一種融合規(guī)則的深度學(xué)習(xí)模型WPD-RA(wheat pests and diseaserules amendment model),該模型采用輕量級(jí)動(dòng)態(tài)詞向量模型ALBERT(a lite bidirectional encoder representation from transformer)與BiLSTM-CRF 模型相結(jié)合的策略。針對(duì)病原、麥區(qū)等實(shí)體類別數(shù)據(jù)較少的問(wèn)題,本文提出兩種數(shù)據(jù)增廣方法,通過(guò)相似詞替換來(lái)補(bǔ)充句子語(yǔ)義,以彌補(bǔ)訓(xùn)練數(shù)據(jù)的匱乏,有效地提高了小樣本的情況下小麥病蟲(chóng)害命名實(shí)體識(shí)別的結(jié)果。針對(duì)防治藥劑、癥狀等邊界模糊的特殊實(shí)體定義具體規(guī)則來(lái)校準(zhǔn)實(shí)體邊界,進(jìn)一步提高模型整體識(shí)別結(jié)果,從而為小麥病蟲(chóng)害知識(shí)圖譜構(gòu)建和小麥病蟲(chóng)害知識(shí)問(wèn)答等下游任務(wù)提供支撐。
針對(duì)小麥病蟲(chóng)害命名實(shí)體識(shí)別的研究,本文通過(guò)語(yǔ)料采集與預(yù)處理、語(yǔ)料標(biāo)注兩個(gè)步驟構(gòu)建小麥病蟲(chóng)害領(lǐng)域的實(shí)體語(yǔ)料庫(kù)WpdCNER。
1.1.1 語(yǔ)料采集與預(yù)處理
為了保證數(shù)據(jù)正確可靠,小麥病蟲(chóng)害數(shù)據(jù)來(lái)源于兩部分:一是《小麥病蟲(chóng)害識(shí)別與防治》和《小麥病蟲(chóng)害診斷與防治圖譜》兩本權(quán)威書(shū)籍;二是通過(guò)爬蟲(chóng)從中國(guó)作物種質(zhì)信息網(wǎng)、國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心、百度百科等權(quán)威網(wǎng)站抓取的數(shù)據(jù)。首先通過(guò)OCR(optical character recognition)識(shí)別算法對(duì)兩本書(shū)籍作電子化和文本格式轉(zhuǎn)換處理,人工修改錯(cuò)別字和亂碼;其次人工對(duì)網(wǎng)頁(yè)數(shù)據(jù)去除空格、空行及特殊符號(hào);最后去除重復(fù)數(shù)據(jù)和無(wú)效數(shù)據(jù),最終構(gòu)建了包含病害、蟲(chóng)害、防治措施等6 000多條樣本的數(shù)據(jù)集,約22萬(wàn)字符。
1.1.2 語(yǔ)料標(biāo)注
在領(lǐng)域?qū)<业闹笇?dǎo)下,深入剖析小麥病蟲(chóng)害的數(shù)據(jù)本身特征,充分挖掘其隱含知識(shí),將小麥病蟲(chóng)害實(shí)體類別細(xì)粒度劃分為16 類,以保證WpdCNER 實(shí)體類別的完整性,包括病害、蟲(chóng)害、害蟲(chóng)生育期、病原、病原類型、小麥器官、防治藥劑、小麥生育期、小麥品種、麥區(qū)、癥狀、器官癥狀、危害作物、危害地區(qū)、屬目、屬科。
使用BIO(begin inside outside)標(biāo)記方案對(duì)小麥病蟲(chóng)害原始語(yǔ)料庫(kù)WpdCNER 進(jìn)行標(biāo)記。特定領(lǐng)域?qū)嶓w識(shí)別語(yǔ)料標(biāo)注任務(wù)常采用純?nèi)斯?biāo)注的模式,這種標(biāo)注模式效率低、錯(cuò)誤率高[14]。為了降低標(biāo)注成本,保證實(shí)體標(biāo)注的一致性,本文采用基于詞典匹配與人工修正相結(jié)合的半自動(dòng)標(biāo)注方式,構(gòu)建小麥病蟲(chóng)害實(shí)體識(shí)別語(yǔ)料庫(kù)。首先,結(jié)合領(lǐng)域?qū)<抑R(shí),在數(shù)據(jù)預(yù)處理的過(guò)程中提取公共實(shí)體及其同類詞,構(gòu)建了一個(gè)包含4 125 個(gè)實(shí)體名和實(shí)體標(biāo)簽的領(lǐng)域詞典WpdDict。其次,根據(jù)構(gòu)建的領(lǐng)域詞典WpdDict對(duì)原始語(yǔ)料庫(kù)進(jìn)行字符匹配,實(shí)現(xiàn)自動(dòng)標(biāo)記實(shí)體。最后,針對(duì)詞典匹配結(jié)果中出現(xiàn)的標(biāo)注錯(cuò)誤、漏標(biāo)實(shí)體等問(wèn)題,通過(guò)人工修正的方式進(jìn)一步調(diào)整和改進(jìn),并在此過(guò)程中動(dòng)態(tài)更新領(lǐng)域詞典WpdDict。具體的標(biāo)注過(guò)程如圖1所示。
經(jīng)過(guò)以上處理,最終構(gòu)建了小麥病蟲(chóng)害實(shí)體識(shí)別語(yǔ)料庫(kù)WpdCNER,包含16類實(shí)體類別11 670個(gè)實(shí)體,各實(shí)體類別的數(shù)量分布如表1所示。標(biāo)注示例如表2 所示,其中B-表示實(shí)體的起始位置,I-表示實(shí)體的中間或終止位置,O表示非實(shí)體。

表2 BIO標(biāo)注示例Table 2 Annotation example of BIO
1.1.3 語(yǔ)料特點(diǎn)分析
通過(guò)對(duì)小麥病蟲(chóng)害語(yǔ)料庫(kù)WpdCNER 的全面剖析,發(fā)現(xiàn)該領(lǐng)域命名實(shí)體的特點(diǎn)主要體現(xiàn)在以下四方面:
(1)小麥病蟲(chóng)害語(yǔ)料庫(kù)中部分實(shí)體邊界特征不明顯,容易拆分錯(cuò)誤。例如,“33%多·酮可濕性粉劑”。
(2)小麥病蟲(chóng)害實(shí)體結(jié)構(gòu)復(fù)雜,部分實(shí)體由數(shù)字、字母和漢字共同組成。例如,“鄭州8915”“5%溴氰菊酯乳油”等實(shí)體。
(3)小麥病蟲(chóng)害語(yǔ)料庫(kù)中部分實(shí)體之間存在嵌套情況。例如,病原實(shí)體“小麥紅矮病毒”中嵌套病害實(shí)體“小麥紅矮病”等。
(4)小麥病蟲(chóng)害語(yǔ)料庫(kù)包含的實(shí)體類別多。構(gòu)建的語(yǔ)料庫(kù)WpdCNER 包含16 類實(shí)體,多于同一領(lǐng)域語(yǔ)料庫(kù)JE-DPW[15]。
本文采用基于數(shù)據(jù)增廣的WPD-RA 模型進(jìn)行小麥病蟲(chóng)害命名實(shí)體識(shí)別,該模型采用ALBERTBiLSTM-CRF與規(guī)則修正相結(jié)合的策略,模型總體架構(gòu)如圖2所示。

圖2 基于數(shù)據(jù)增廣的WPD-RA模型總架構(gòu)Fig. 2 Overall architecture of WPD-RA model based on data augmentation
首先針對(duì)病原、麥區(qū)等數(shù)量較少的實(shí)體類別作數(shù)據(jù)增廣以擴(kuò)充其語(yǔ)義信息,并將增廣后的語(yǔ)料庫(kù)WpdCNER作為ALBERT的輸入;其次通過(guò)輕量級(jí)預(yù)訓(xùn)練模型ALBERT生成包含上下文信息的動(dòng)態(tài)詞向量,有效緩解了一詞多義問(wèn)題;同時(shí)為了提升ALBERT層輸出特征的準(zhǔn)確度,將該詞向量輸入到BiLSTM層進(jìn)一步建模上下文特征;最后通過(guò)CRF 和規(guī)則共同對(duì)BiLSTM層輸出的序列標(biāo)簽進(jìn)行約束和修正,得到最終的預(yù)測(cè)標(biāo)簽序列。
1.2.1 數(shù)據(jù)增廣
近年來(lái),基于深度學(xué)習(xí)的實(shí)體識(shí)別方法已廣泛應(yīng)用于很多領(lǐng)域,但是深度學(xué)習(xí)模型需要大量的訓(xùn)練數(shù)據(jù)。在小麥病蟲(chóng)害領(lǐng)域,由于訓(xùn)練數(shù)據(jù)匱乏、實(shí)體結(jié)構(gòu)復(fù)雜、實(shí)體類型多樣及實(shí)體分布不均勻等問(wèn)題,該領(lǐng)域命名實(shí)體識(shí)別的研究具有一定挑戰(zhàn)性。目前,面向少量標(biāo)注數(shù)據(jù)的命名實(shí)體識(shí)別方法分為知識(shí)鏈接(knowledge linkage)、遷移學(xué)習(xí)(transfer learning)、數(shù)據(jù)增廣(data augmentation,DA)、特征變換(feature transformation)這4 類[16]。針對(duì)特定領(lǐng)域的實(shí)體識(shí)別任務(wù),數(shù)據(jù)增廣是應(yīng)用最廣泛的一種數(shù)據(jù)擴(kuò)充方法[17]。該類方法采用的策略是篩選出高質(zhì)量訓(xùn)練樣本擴(kuò)充數(shù)據(jù)集規(guī)模,豐富句子的語(yǔ)義信息,進(jìn)而彌補(bǔ)標(biāo)注數(shù)據(jù)的匱乏。
因此,針對(duì)小麥病蟲(chóng)害領(lǐng)域命名實(shí)體識(shí)別存在的問(wèn)題,在確保不丟失句子語(yǔ)義信息的前提下,提出兩種改進(jìn)的數(shù)據(jù)增廣方法,其主要思想是在傳統(tǒng)數(shù)據(jù)增廣的基礎(chǔ)上,將增廣后的文本重新復(fù)制回原數(shù)據(jù)集,進(jìn)而增加目標(biāo)實(shí)體的數(shù)量,豐富訓(xùn)練樣本的多樣性,擴(kuò)充數(shù)據(jù)集規(guī)模,提高小麥病蟲(chóng)害領(lǐng)域命名實(shí)體的識(shí)別結(jié)果。
(1)數(shù)據(jù)增廣方法1,簡(jiǎn)稱DA1:最大限度保證句子序列完整性的情況下,隨機(jī)打亂原數(shù)據(jù)集中的文本段落,并將打亂后的段落重新復(fù)制回原數(shù)據(jù)集。該方法的主要目的是為了擴(kuò)充數(shù)據(jù)集規(guī)模,豐富訓(xùn)練樣本多樣性,增加實(shí)體數(shù)量。
(2)數(shù)據(jù)增廣方法2,簡(jiǎn)稱DA2:從小麥病蟲(chóng)害文本數(shù)據(jù)中隨機(jī)選擇一個(gè)實(shí)體,然后從自建的領(lǐng)域詞典WpdDict 中隨機(jī)選擇該實(shí)體的一個(gè)同義詞進(jìn)行替換,并將替換后的文本數(shù)據(jù)復(fù)制回原數(shù)據(jù)集。該方法的目的是為了豐富上下文的語(yǔ)義信息,擴(kuò)充訓(xùn)練樣本。
1.2.2 ALBERT層
在NLP(natural language processing)領(lǐng)域中,將文本數(shù)據(jù)轉(zhuǎn)化為詞向量常用的語(yǔ)言模型有Word2Vec[18]、GloVe(global vectors for word representation)[19]、One-Hot 等模型,但上述模型訓(xùn)練輸出的詞向量是靜態(tài)的,無(wú)法表征一詞多義的現(xiàn)象。
BERT是谷歌提出的一種預(yù)訓(xùn)練語(yǔ)言模型,它是一種基于Transformer[20]神經(jīng)網(wǎng)絡(luò)構(gòu)造的雙向的編碼器網(wǎng)絡(luò),不僅可以獲取到包含上下文信息的詞級(jí)特征,還能有效捕捉句子級(jí)別特征[21]。相比傳統(tǒng)的詞向量模型,由BERT模型訓(xùn)練得到的詞向量是基于上下文信息生成動(dòng)態(tài)詞向量,有效地解決了一詞多義的問(wèn)題。盡管BERT在各項(xiàng)任務(wù)中的表現(xiàn)十分優(yōu)異,但其參數(shù)量達(dá)到1.08×108,訓(xùn)練時(shí)需要大規(guī)模語(yǔ)料,成本較高。
為解決BERT 參數(shù)量的問(wèn)題,Lan 等[22]提出了一種輕量級(jí)預(yù)訓(xùn)練語(yǔ)言模型ALBERT。在模型結(jié)構(gòu)上ALBERT 與BERT 相差無(wú)幾,但參數(shù)量?jī)H是BERT 的1/9。在保證BERT 模型性能的基礎(chǔ)上,它還作了以下三點(diǎn)改進(jìn),極大地減少了模型的占用空間,訓(xùn)練速度明顯提升。
(1)對(duì)詞嵌入作因式分解:ALBERT 中先將One-Hot 向量映射到一個(gè)低維空間,再將其映射到隱藏層,BERT模型到ALBERT模型的參數(shù)量計(jì)算復(fù)雜度變換如式(1):
其中,V是詞匯表長(zhǎng)度,H是隱藏層維度,E是詞嵌入維度。在BERT中E=H,而在ALBERT中,E?H。
(2)跨層參數(shù)共享:ALBERT 中在全連接層和注意力層均進(jìn)行參數(shù)共享,也就是共享Encoder內(nèi)所有的參數(shù),極大地減少了模型參數(shù)量,提升了訓(xùn)練速度,但模型參數(shù)量的減少使其性能也有所降低。
(3)句間連貫性預(yù)測(cè):為了彌補(bǔ)參數(shù)量減少帶來(lái)的性能損失,ALBERT 提出句間連貫性預(yù)測(cè)(sentence order prediction,SOP)來(lái)提升模型性能。不同于BERT 模型原有的下一句預(yù)測(cè)(next sentence prediction,NSP)任務(wù),SOP 去除了主題預(yù)測(cè)的影響,只保留關(guān)系一致性預(yù)測(cè)。
1.2.3 BiLSTM層
ALBERT 的Encoder 部分采用Self-Attention 機(jī)制,導(dǎo)致抽取的相對(duì)位置信息不準(zhǔn)確,輸出的特征缺乏順序性。因此,本文采用BiLSTM模型進(jìn)一步建模上下文特征。
LSTM(long short-term memory)[23]在RNN(recurrent neural network)的基礎(chǔ)上作了改進(jìn),有效地解決了長(zhǎng)序列文本中出現(xiàn)的梯度爆炸或梯度消失的問(wèn)題。然而,單向的LSTM 只能學(xué)習(xí)前向信息,而無(wú)法學(xué)習(xí)后向信息。因此,Graves等[24]提出由前向LSTM和后向LSTM 組成的BiLSTM。其基本思想是對(duì)序列中的每個(gè)詞都分別進(jìn)行前向傳播和后向傳播,然后將結(jié)果連接起來(lái)輸出,進(jìn)而更好地捕獲長(zhǎng)序列文本的雙向信息。BiLSTM模型的結(jié)構(gòu)如圖3所示。

圖3 BiLSTM模型Fig. 3 BiLSTM model
1.2.4 CRF層
雖然BiLSTM層能夠進(jìn)一步學(xué)習(xí)上下文特征,但其未考慮相鄰標(biāo)簽之間的依賴關(guān)系,總是選擇概率最大的標(biāo)簽作為輸出,可能會(huì)出現(xiàn)B-lable1 后接Ilabel2 的情況。由于CRF 模型可以學(xué)習(xí)相鄰標(biāo)簽之間的依賴關(guān)系,在BiLSTM 層之后,引入CRF 以提高模型預(yù)測(cè)的準(zhǔn)確率。
CRF 由Lafferty 等[25]首次提出,主要用于序列標(biāo)注。在模型訓(xùn)練過(guò)程中,CRF 可以自動(dòng)學(xué)習(xí)句子之間的約束,得到標(biāo)簽轉(zhuǎn)移概率,進(jìn)而保證預(yù)測(cè)標(biāo)簽的合法性,減少錯(cuò)誤的預(yù)測(cè)序列,具體約束有以下三點(diǎn):
(1)句子中第一個(gè)詞總是以標(biāo)簽“B-”或“O”開(kāi)始,而不是“I-”。
(2)標(biāo)簽“B-label1 I-label2 I-label3 I-…”,label1、label2、label3 應(yīng)該屬于同一類實(shí)體。例如,“B-DIS IDIS”是合法標(biāo)簽序列,而“B-DIS I-DRU”是非法標(biāo)簽序列。
(3)實(shí)體的首個(gè)標(biāo)簽應(yīng)該以“B-”開(kāi)始,而不是“I-”。例如,“O B-DIS”是合法標(biāo)簽序列,而“O IDIS”是非法標(biāo)簽序列。
在本研究中,CRF層主要是對(duì)BiLSTM層輸出的標(biāo)簽序列進(jìn)行條件約束,從而得到具有最大概率的合理序列。
1.2.5 規(guī)則修正
根據(jù)小麥病蟲(chóng)害領(lǐng)域數(shù)據(jù)本身的特點(diǎn),并全面剖析ALBERT-BiLSTM-CRF模型識(shí)別結(jié)果中預(yù)測(cè)錯(cuò)誤的實(shí)體標(biāo)簽,針對(duì)病害、蟲(chóng)害、防治藥劑、器官癥狀4類實(shí)體,通過(guò)人工定義3類規(guī)則,本文對(duì)模型初步預(yù)測(cè)結(jié)果進(jìn)行修正,旨在進(jìn)一步提升這4類實(shí)體的識(shí)別結(jié)果,從而優(yōu)化模型整體識(shí)別性能。規(guī)則之間是互補(bǔ)關(guān)系,不同時(shí)執(zhí)行,具體規(guī)則如下:
(1)對(duì)于病害實(shí)體、蟲(chóng)害實(shí)體,若其前邊出現(xiàn)危害作物實(shí)體,則將其整體修正為病害實(shí)體、蟲(chóng)害實(shí)體;對(duì)于癥狀實(shí)體,若其緊鄰詞匯出現(xiàn)了器官實(shí)體,則將其整體修正為器官癥狀實(shí)體。
在規(guī)則修正過(guò)程中,以目標(biāo)實(shí)體“病害、蟲(chóng)害、癥狀”為中心,設(shè)置大小為1的滑動(dòng)窗口,對(duì)上下文搜索1 個(gè)實(shí)體,若相鄰預(yù)測(cè)標(biāo)簽是“危害作物、器官”類型實(shí)體,則查找對(duì)應(yīng)規(guī)則將其整體修正為“病害、蟲(chóng)害、器官癥狀”3 類正確實(shí)體;否則以原目標(biāo)實(shí)體為準(zhǔn)。具體規(guī)則如表3所示。

表3 病蟲(chóng)害和器官癥狀規(guī)則Table 3 Rules of diseases and pests and organ-symptoms
(2)病害名稱常以“病”字結(jié)尾,將該類實(shí)體的最后一個(gè)字“病”與其緊鄰的下一個(gè)字進(jìn)行拼接,若能作為一個(gè)整詞分割,則將其整體修正為病原實(shí)體;防治藥劑常由濃度和藥劑名稱組成,而濃度常由數(shù)字和符號(hào)組成,難以正確識(shí)別,人工編寫Regex將數(shù)字、符號(hào)和漢字作為整體識(shí)別。具體規(guī)則如表4所示。

表4 病害和防治藥劑實(shí)體規(guī)則Table 4 Rules of diseases and drugs
(3)對(duì)ALBERT-BiLSTM-CRF 模型所有的預(yù)測(cè)結(jié)果進(jìn)行修正,如將“I-label”標(biāo)記開(kāi)頭的錯(cuò)誤實(shí)體修正為“B-label”標(biāo)記開(kāi)頭;“B-label1 I-label2”中l(wèi)abel1和label2屬于不同類型實(shí)體的錯(cuò)誤預(yù)測(cè),將其整體修正為label1類型實(shí)體。
實(shí)驗(yàn)研究依賴的硬件環(huán)境是Intel?Xeon?Silver4116 CPU@2.10 GHz;軟件環(huán)境是Python3.6 和tensorflow1.14。模型參數(shù)設(shè)置如下:基于ALBERT_Base 版本,含有12 個(gè)transformer 層,768 維隱藏層和12 頭多頭注意力機(jī)制。最大序列長(zhǎng)度為256,BiLSTM 包含256 維隱藏層,學(xué)習(xí)率為5E-5,訓(xùn)練批次為64,dropout為0.5,clip為0.5,優(yōu)化器選擇Adam,迭代次數(shù)為100。通過(guò)準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值3 個(gè)指標(biāo)來(lái)評(píng)測(cè)模型識(shí)別結(jié)果。具體公式如式(2)~(4)所示:
其中,TP表示預(yù)測(cè)正確的正樣本個(gè)數(shù),F(xiàn)P表示預(yù)測(cè)錯(cuò)誤的正樣本個(gè)數(shù),F(xiàn)N表示預(yù)測(cè)錯(cuò)誤的負(fù)樣本個(gè)數(shù)。
將構(gòu)建的語(yǔ)料庫(kù)WpdCNER,按照8∶1∶1 的比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。根據(jù)2.1節(jié)提出的3個(gè)評(píng)測(cè)指標(biāo)來(lái)比較不同模型的識(shí)別結(jié)果。
2.2.1 不同模型的性能對(duì)比
針對(duì)劃分好的訓(xùn)練集、測(cè)試集和驗(yàn)證集,設(shè)置4組模型Word2Vec-IDCNN-CRF、Word2Vec-BiLSTMCRF、BERT-BiLSTM-CRF、ALBERT-BiLSTM-CRF分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

表5 模型性能評(píng)價(jià)結(jié)果Table 5 Evaluation results of model performance 單位:%
從表5 可以看出,基于Word2Vec-BiLSTM-CRF的識(shí)別效果明顯優(yōu)于Word2Vec-IDCNN-CRF,這是因?yàn)镮DCNN 只能獲取局部特征,而B(niǎo)iLSTM 能獲取全局特征,在長(zhǎng)文本序列的情況下,BiLSTM 的識(shí)別效果更好,該模型的準(zhǔn)確率、召回率和F1值分別提升了2.04個(gè)百分點(diǎn)、3.71個(gè)百分點(diǎn)和2.88個(gè)百分點(diǎn)。以BiLSTM-CRF 為基準(zhǔn)模型,比較Word2Vec 和BERT兩種向量嵌入模型。從表5可以發(fā)現(xiàn),基于BERT模型的召回率提升了2.43 個(gè)百分點(diǎn),F(xiàn)1 值提升了1.43個(gè)百分點(diǎn),證明BERT 能有效表征一詞多義,提升模型識(shí)別效果。
在BERT 和ALBERT 兩個(gè)預(yù)訓(xùn)練語(yǔ)言模型之間進(jìn)行對(duì)比發(fā)現(xiàn),基于ALBERT模型的整體表現(xiàn)更優(yōu),準(zhǔn)確率和F1值分別提升了1.33個(gè)百分點(diǎn)和0.06個(gè)百分點(diǎn)。除此之外,BERT-BiLSTM-CRF模型迭代訓(xùn)練100 次所需時(shí)間長(zhǎng)達(dá)25.30 h,而ALBERT-BiLSTMCRF 的訓(xùn)練時(shí)間為18.17 h,這說(shuō)明參數(shù)量的減少使ALBERT模型的訓(xùn)練速度有明顯提升。
2.2.2 不同DA方法識(shí)別結(jié)果對(duì)比
從2.2.1 小節(jié)中4 組模型的實(shí)驗(yàn)結(jié)果來(lái)看,ALBERT-BiLSTM-CRF 模型在小麥病蟲(chóng)害數(shù)據(jù)集WpdCNER中取得最高的F1值91.45%。本小節(jié)將在該模型基礎(chǔ)上,引入兩種數(shù)據(jù)增廣方法以擴(kuò)展數(shù)據(jù)集WpdCNER的規(guī)模,增廣后的實(shí)驗(yàn)結(jié)果如表6所示。

表6 數(shù)據(jù)增廣后模型總體性能Table 6 Model performance after data augmentation 單位:%
從表6可以看出,兩種數(shù)據(jù)增廣方法均能提高模型的整體識(shí)別結(jié)果。兩種方法的F1 值分別提升了1.02 個(gè)百分點(diǎn)和0.56 個(gè)百分點(diǎn),說(shuō)明DA1 對(duì)模型性能有更大的提升:一部分原因是DA1 在更大程度上增加了數(shù)據(jù)集規(guī)模;另一部分原因是DA1改變了文本結(jié)構(gòu),豐富上下文語(yǔ)義信息,提升了模型的泛化性。將兩種數(shù)據(jù)增廣方法結(jié)合后,ALBERT-BiLSTM-CRF模型在擴(kuò)展后的WpdCNER上取得了最高的準(zhǔn)確率、召回率和F1值,分別為93.01%、94.89%和93.94%。
2.2.3 各實(shí)體識(shí)別結(jié)果
結(jié)合兩種數(shù)據(jù)增廣方法對(duì)原數(shù)據(jù)集WpdCNER進(jìn)行增廣后,基于ALBERT-BiLSTM-CRF 模型進(jìn)行小麥病蟲(chóng)害命名實(shí)體的識(shí)別,16 類實(shí)體具體的準(zhǔn)確率、召回率和F1值如表7所示。

表7 各實(shí)體識(shí)別結(jié)果Table 7 Recognition results of each entity 單位:%
從表7 可以看出,害蟲(chóng)生育期、小麥生育期、麥區(qū)、屬目、屬科的召回率均為100%,因?yàn)檫@5 類實(shí)體均有明確的邊界特征,分別以“蟲(chóng)”“期”“區(qū)”“目”和“科”字結(jié)尾。病原類型、癥狀和器官癥狀的準(zhǔn)確率均低于90%,因?yàn)檫@3 類實(shí)體靈活多樣難以識(shí)別。除了這3類實(shí)體,其他13類實(shí)體的準(zhǔn)確率、召回率和F1值均高于90%,且屬目和屬科的F1值達(dá)到了100%,說(shuō)明ALBERT-BiLSTM-CRF模型整體識(shí)別性能較好。
2.2.4 規(guī)則修正前后識(shí)別結(jié)果對(duì)比
從2.2.2 小節(jié)的識(shí)別結(jié)果來(lái)看,結(jié)合兩種數(shù)據(jù)增廣方法擴(kuò)展數(shù)據(jù)集WpdCNER后,ALBERT-BiLSTMCRF 模型的識(shí)別結(jié)果最優(yōu)。在此基礎(chǔ)上,加入1.2.5小節(jié)制定的規(guī)則,修正病害、蟲(chóng)害、防治藥劑、器官癥狀4類實(shí)體的預(yù)測(cè)結(jié)果,以進(jìn)一步提高這4類實(shí)體的預(yù)測(cè)結(jié)果,從而提升模型整體識(shí)別性能。
規(guī)則修正后模型識(shí)別準(zhǔn)確率達(dá)到94.72%,召回率達(dá)到95.23%,F(xiàn)1 值達(dá)到94.97%,相比規(guī)則修正前準(zhǔn)確率提升1.71 個(gè)百分點(diǎn),召回率提升0.34 個(gè)百分點(diǎn),F(xiàn)1值提升1.03個(gè)百分點(diǎn),說(shuō)明規(guī)則修正在一定程度上優(yōu)化了模型識(shí)別性能,修正了部分預(yù)測(cè)錯(cuò)誤的實(shí)體標(biāo)簽,且修正正確的標(biāo)簽數(shù)量多于修正錯(cuò)誤的標(biāo)簽數(shù)量。病害、蟲(chóng)害、防治藥劑、器官癥狀4類實(shí)體的具體識(shí)別結(jié)果如表8所示。

表8 WPD-RA模型識(shí)別結(jié)果Table 8 Recognition results of WPD-RA model 單位:%
病害、蟲(chóng)害、防治藥劑、器官癥狀4類實(shí)體加入規(guī)則修正前后的結(jié)果對(duì)比如圖4 所示。從圖4 中可以看出,對(duì)ALBERT-BiLSTM-CRF 模型定義規(guī)則修正后,蟲(chóng)害、防治藥劑兩類實(shí)體的召回率并未改變,這是因?yàn)橐?guī)則修正導(dǎo)致部分實(shí)體邊界預(yù)測(cè)錯(cuò)誤,影響規(guī)則修正的結(jié)果。但4類實(shí)體的F1 值均有不同程度的提升,分別提升了1.24 個(gè)百分點(diǎn)、1.22 個(gè)百分點(diǎn)、1.22個(gè)百分點(diǎn)、1.7個(gè)百分點(diǎn),其中器官癥狀的提升最明顯。

圖4 規(guī)則修正前后識(shí)別結(jié)果對(duì)比Fig. 4 Recognition result comparison before and after rule amendment
(1)針對(duì)小麥病蟲(chóng)害領(lǐng)域命名實(shí)體識(shí)別任務(wù)中訓(xùn)練數(shù)據(jù)匱乏、實(shí)體結(jié)構(gòu)復(fù)雜、實(shí)體類型多樣及實(shí)體分布不均勻等問(wèn)題,提出基于數(shù)據(jù)增廣的WPD-RA模型。該模型結(jié)合兩種數(shù)據(jù)增廣方法擴(kuò)展句子語(yǔ)義信息,提升了模型對(duì)數(shù)量較少的實(shí)體類別的準(zhǔn)確率,有效解決了小樣本情況下命名實(shí)體識(shí)別的問(wèn)題,模型識(shí)別準(zhǔn)確率為94.72%,召回率為95.23%,F(xiàn)1 值為94.97%。
(2)基于輕量級(jí)ALBERT 模型預(yù)訓(xùn)練得到動(dòng)態(tài)的詞嵌入向量,能夠捕獲實(shí)體上下文形態(tài)特征,豐富小麥病蟲(chóng)害文本的語(yǔ)義表示,有效緩解一詞多義的表征問(wèn)題,提升模型識(shí)別性能。
(3)定義具體規(guī)則修正ALBERT-BiLSTM-CRF模型的預(yù)測(cè)結(jié)果,通過(guò)實(shí)驗(yàn)證明規(guī)則修正緩解了實(shí)體邊界模糊、實(shí)體間嵌套的問(wèn)題,在一定程度上優(yōu)化了模型性能。
與通用語(yǔ)料庫(kù)相比,本文構(gòu)建的包含16 類實(shí)體類別的小麥病蟲(chóng)害語(yǔ)料庫(kù)WpdCNER,對(duì)實(shí)體分類更精細(xì)。根據(jù)小麥病蟲(chóng)害文本特點(diǎn),有針對(duì)性地提出基于數(shù)據(jù)增廣的WPD-RA模型,實(shí)驗(yàn)結(jié)果表明,與其他NER 模型相比,該模型能夠更好地識(shí)別小麥病蟲(chóng)害領(lǐng)域命名實(shí)體,為食品安全、生物等其他領(lǐng)域命名實(shí)體識(shí)別提供了一種可借鑒的思路。