貴向泉,郭 亮,李 立
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,甘肅 蘭州 730050)
命名實(shí)體識(shí)別是自然語言處理(Natural Language Processing,NLP)中的熱點(diǎn)研究方向之一,它的實(shí)質(zhì)就是從一段自然語言中找出相關(guān)的實(shí)體,并標(biāo)注出實(shí)體的位置及其類型。在有色冶金產(chǎn)業(yè)的相關(guān)文本中存在許多有色冶金行業(yè)內(nèi)部的專有名詞,如公司名稱、產(chǎn)品名稱和產(chǎn)業(yè)信息等。在對(duì)這些文本進(jìn)行分析時(shí),這些行業(yè)內(nèi)部的命名實(shí)體就會(huì)成為重要的信息來源,它們也是構(gòu)建有色冶金產(chǎn)業(yè)企業(yè)畫像和建立產(chǎn)業(yè)知識(shí)圖譜的重要依據(jù)。有色冶金是中國工業(yè)生產(chǎn)中的重要支柱產(chǎn)業(yè),但是截至目前,很少有研究人員和學(xué)者針對(duì)有色冶金領(lǐng)域命名實(shí)體識(shí)別進(jìn)行研究,也沒有相關(guān)數(shù)據(jù)集支持。
為了推進(jìn)有色冶金產(chǎn)業(yè)的發(fā)展,更好地分析企業(yè)和有色冶金產(chǎn)業(yè)的運(yùn)行情況,該文首先針對(duì)建立產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識(shí)圖譜的命名實(shí)體需求,構(gòu)建了有色冶金領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集,然后結(jié)合機(jī)器閱讀理解框架(Machine Reading Comprehension,MRC)[1]和知識(shí)增強(qiáng)的語義表示模型(Enhanced Representation Through Knowledge Integration,ERNIE)[2]對(duì)命名實(shí)體識(shí)別的流程進(jìn)行了改進(jìn)。最終建立了MEAB (MRC-ERNIE-Attention-BiLSTM)命名實(shí)體識(shí)別模型結(jié)構(gòu),并在構(gòu)建的有色冶金領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集和公共數(shù)據(jù)集上進(jìn)行了命名實(shí)體識(shí)別的實(shí)驗(yàn)。實(shí)驗(yàn)證明,該模型可以更好地為后續(xù)構(gòu)建有色冶金產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識(shí)圖譜提供實(shí)體。
命名實(shí)體識(shí)別的發(fā)展按時(shí)間主要分為三個(gè)階段,分別為基于詞典和規(guī)則的方法,基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
基于詞典和規(guī)則的方法是指利用專家判斷的方式手工制定出命名實(shí)體識(shí)別的規(guī)則和模板,并利用這些規(guī)則將需要識(shí)別的命名實(shí)體進(jìn)行匹配和識(shí)別。雖然基于詞典和規(guī)則的方法對(duì)特定范圍內(nèi)的命名實(shí)體的識(shí)別效果比較好,但是其中使用的規(guī)則也具有泛化程度低的特點(diǎn)。特別對(duì)大規(guī)模語料進(jìn)行命名實(shí)體識(shí)別時(shí),基于詞典和規(guī)則方法的效率相比其他方法要低很多。
隨著大規(guī)模語料的出現(xiàn),基于機(jī)器學(xué)習(xí)方法的命名實(shí)體識(shí)別得到了廣泛應(yīng)用,也可以進(jìn)一步將其分為有監(jiān)督機(jī)器學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)兩類。在無監(jiān)督的機(jī)器學(xué)習(xí)中主要使用聚類的方法進(jìn)行命名實(shí)體識(shí)別[3],例如Xu等人[4]提出了一種共享最近鄰的聚類方法,并將其應(yīng)用在生物醫(yī)學(xué)名稱的識(shí)別和提取中。在有監(jiān)督的機(jī)器學(xué)習(xí)中,命名實(shí)體識(shí)別則被看作是一種序列標(biāo)注的問題[5],例如Yu等人[6]提出了一種基于級(jí)聯(lián)馬爾可夫模型的中文命名體識(shí)別方法,通過雙重的模型識(shí)別來提高識(shí)別精度。雖然基于機(jī)器學(xué)習(xí)的方法避免了繁瑣的人工工作,但是復(fù)雜的特征工程是不可避免的。
基于深度學(xué)習(xí)的方法解決了機(jī)器學(xué)習(xí)中需要復(fù)雜特征工程的問題,同時(shí)基于深度學(xué)習(xí)的命名實(shí)體識(shí)別采用了端到端的訓(xùn)練方式,可以構(gòu)建更為復(fù)雜的網(wǎng)絡(luò)。例如Kong等人[7]建立了多級(jí)卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)并結(jié)合了注意力機(jī)制來捕獲短期和長期的上下文信息,提高了中文臨床醫(yī)學(xué)命名實(shí)體識(shí)別的準(zhǔn)確率。毛存禮等人[8]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)架構(gòu)的有色金屬領(lǐng)域?qū)嶓w識(shí)別方法,該方法可以有效獲取有色金屬領(lǐng)域?qū)嶓w中字符間的緊密結(jié)合特征。同時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)也是進(jìn)行命名實(shí)體識(shí)別的主流方法。Liu等人[9]提出了一種詞字符的長短時(shí)神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型,他們將詞信息添加到詞的開始或結(jié)束字符中,在獲得詞邊界信息的同時(shí)減輕分詞錯(cuò)誤帶來的影響。Tang等人[10]使用交叉GCN塊同時(shí)處理兩個(gè)方向的詞字符,并在其中引入了全局注意力機(jī)制改進(jìn)了長距離的依賴捕獲。近年來,基于編碼器-解釋器模型(Transformer)[11]被大量應(yīng)用于命名實(shí)體識(shí)別當(dāng)中,其中最具代表性的就是基于編碼器-解碼器的雙向編碼表示法(Bidirectional Encoder Representations From Transformers,BERT)[12]模型。Usman等人[13]使用ALBERT(Lite BERT)[14]模型在大規(guī)模生物醫(yī)學(xué)語料上訓(xùn)練,更好地學(xué)習(xí)了上下文相關(guān)的表示,提高了訓(xùn)練的效率。
雖然進(jìn)行命名實(shí)體識(shí)別的方法有很多,并且國內(nèi)外學(xué)者都對(duì)其做了大量的研究,但是這些方法都不適用于有色冶金領(lǐng)域命名實(shí)體識(shí)別的研究,原因有以下幾點(diǎn)。
(1)由于研究領(lǐng)域的獨(dú)特性,已有的研究很少涉及到有色冶金產(chǎn)業(yè),也沒有相關(guān)數(shù)據(jù)集對(duì)其支持。
(2)在有色冶金領(lǐng)域命名實(shí)體當(dāng)中存在很多嵌套的命名實(shí)體,進(jìn)一步增加了實(shí)體識(shí)別的難度。
(3)已有的命名實(shí)體識(shí)別模型無法充分提取有色冶金領(lǐng)域文本中的語義特征和信息。
(4)已有的命名實(shí)體識(shí)別模型無法充分利用有色冶金領(lǐng)域文本當(dāng)中標(biāo)簽的先驗(yàn)知識(shí),影響了命名實(shí)體識(shí)別的準(zhǔn)確率。
為了解決上述問題,該文構(gòu)建了有色冶金領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集,并提出了MEAB命名實(shí)體識(shí)別模型。首先,在該模型中引入了MRC框架,將傳統(tǒng)命名實(shí)體識(shí)別模型中的序列標(biāo)注與問答任務(wù)相結(jié)合,提高模型對(duì)普通實(shí)體和嵌套命名實(shí)體的識(shí)別準(zhǔn)確率;然后,在該模型中使用ERNIE預(yù)訓(xùn)練模型將序列標(biāo)注后的標(biāo)注數(shù)據(jù)集和引入自然語言問題的問答數(shù)據(jù)集轉(zhuǎn)化為詞向量,使模型能夠充分提取出文本當(dāng)中的語義特征和信息;接著,引入注意力機(jī)制作為模型的信息融合層,將通過ERNIE處理的兩類文本特征向量進(jìn)行融合,使模型能夠充分利用標(biāo)簽當(dāng)中的先驗(yàn)知識(shí),并通過BiLSTM模型進(jìn)一步提取語義特征和信息;最后,通過多層嵌套實(shí)體識(shí)別器輸出在嵌套命名實(shí)體中的所有實(shí)體。相比其他模型該模型可以更好地提取和利用文本當(dāng)中的特征和先驗(yàn)知識(shí),提高了對(duì)嵌套命名實(shí)體的識(shí)別準(zhǔn)確率,并能輸出嵌套命名實(shí)體當(dāng)中的所有實(shí)體。
針對(duì)有色冶金產(chǎn)業(yè)的特點(diǎn),經(jīng)研究發(fā)現(xiàn)其主要的數(shù)據(jù)來源以新聞報(bào)道、企業(yè)年報(bào)、專利信息和期刊論文為主。對(duì)于新聞報(bào)道數(shù)據(jù),該文采用了網(wǎng)絡(luò)爬蟲技術(shù)從今日頭條等新聞媒體平臺(tái)進(jìn)行了收集,但是新聞報(bào)道數(shù)據(jù)整體的文本結(jié)構(gòu)比較松散,所以在收集時(shí)需要對(duì)文本進(jìn)行去噪處理。對(duì)于企業(yè)年報(bào)數(shù)據(jù)和專利信息,因?yàn)檫@類數(shù)據(jù)整體的文本結(jié)構(gòu)比較緊密,所以直接使用即可。對(duì)于期刊論文類的數(shù)據(jù),鑒于其摘要已經(jīng)對(duì)論文整體進(jìn)行了總結(jié),所以直接選用摘要作為數(shù)據(jù)集。最終收集到了20 000多條有色冶金領(lǐng)域的文本,總共有300多萬字。
針對(duì)構(gòu)建產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識(shí)圖譜的命名實(shí)體需求,定義的產(chǎn)業(yè)實(shí)體類別一共有六種:人名,企業(yè)名稱,組織名稱,產(chǎn)品名稱,項(xiàng)目名稱,技術(shù)名稱。各個(gè)實(shí)體類別的標(biāo)注符號(hào)以及實(shí)例如表1所示。

表1 實(shí)體標(biāo)注符號(hào)及其實(shí)例
由于有色冶金領(lǐng)域命名實(shí)體識(shí)別研究的獨(dú)特性和復(fù)雜性,在構(gòu)建的有色冶金領(lǐng)域數(shù)據(jù)集中存在大量的嵌套命名實(shí)體,大大增加了實(shí)體識(shí)別的難度。例如在某新聞報(bào)道中出現(xiàn)的命名實(shí)體“金川集團(tuán)鎳鈷資源產(chǎn)品開發(fā)創(chuàng)新聯(lián)合體”中就包含了多層實(shí)體,其最外層的為ORG實(shí)體:“金川集團(tuán)鎳鈷資源產(chǎn)品開發(fā)創(chuàng)新聯(lián)合體”,其內(nèi)部也包含COM實(shí)體:“金川集團(tuán)”,PRO實(shí)體:“鎳”“鈷”,ORG實(shí)體:“開發(fā)創(chuàng)新聯(lián)合體”。同時(shí)在PRO類別的實(shí)體中,很多實(shí)體都包含了大小寫字母和特殊的字符,如 “Ni999(0#鎳)”,其內(nèi)部就包含了字母、數(shù)字和特殊字符,在其中也存在另一種PRO實(shí)體:“鎳”。
傳統(tǒng)的命名實(shí)體識(shí)別方法只能準(zhǔn)確識(shí)別非嵌套的命名實(shí)體,對(duì)于嵌套的命名實(shí)體識(shí)別準(zhǔn)確率不高,并且無法完全提取出這些嵌套命名實(shí)體中的內(nèi)部實(shí)體,由此可能會(huì)導(dǎo)致沒有獲取到足夠的實(shí)體去構(gòu)建有色冶金產(chǎn)業(yè)的企業(yè)畫像和產(chǎn)業(yè)知識(shí)圖譜。因此,該文設(shè)計(jì)了多層嵌套實(shí)體識(shí)別器來滿足識(shí)別多層嵌套實(shí)體的需求。
在進(jìn)行命名實(shí)體識(shí)別時(shí),首先需要對(duì)文本當(dāng)中的每個(gè)實(shí)體進(jìn)行標(biāo)注。為了提高實(shí)體標(biāo)注的效率,該文使用了Label Studio軟件工具對(duì)有色冶金領(lǐng)域數(shù)據(jù)集進(jìn)行實(shí)體標(biāo)注。在標(biāo)注方法的選擇上,采用了BIO序列標(biāo)注方法對(duì)有色冶金領(lǐng)域數(shù)據(jù)集進(jìn)行標(biāo)注。
為了將MRC框架引入有色冶金領(lǐng)域命名實(shí)體識(shí)別任務(wù)當(dāng)中,還需要將數(shù)據(jù)集轉(zhuǎn)換為問答數(shù)據(jù)集。若給定的文本為X={x1,x2,…,xn},其中xi為文本當(dāng)中的每一個(gè)字符,n為給定文本長度,而對(duì)于在文本當(dāng)中的每一個(gè)命名實(shí)體就可以表示為Xstart,end={Xstart,…,Xend}。在構(gòu)建問答數(shù)據(jù)集時(shí),需要為每一個(gè)實(shí)體標(biāo)簽分配一個(gè)自然語言形式的問題qy=q1,q2,…,qm,其中m是問題qy的長度。則每一個(gè)在文本當(dāng)中的實(shí)體就可以表示成三元組(qy,Xstart,end,X),這也是每一個(gè)實(shí)體在問答數(shù)據(jù)集當(dāng)中的表現(xiàn)形式。
基于此,對(duì)于每一個(gè)實(shí)體它的自然語言形式的問題就非常重要,因?yàn)閱栴}中會(huì)包含著當(dāng)前實(shí)體標(biāo)簽的先驗(yàn)知識(shí),這對(duì)最終模型的效果有顯著影響。經(jīng)過分析和比較,最終選擇以引導(dǎo)說明的方式構(gòu)建實(shí)體的自然語言形式的問題,每種實(shí)體及其對(duì)應(yīng)的自然語言問題如表2所示。

表2 實(shí)體類型及其對(duì)應(yīng)的自然語言問題
MRC任務(wù)就是先讓計(jì)算機(jī)識(shí)別給定文本當(dāng)中的語義信息,然后對(duì)應(yīng)的給一個(gè)問題,讓計(jì)算機(jī)根據(jù)識(shí)別到的語義信息去回答問題,且問題的答案必須是能夠在給定文本當(dāng)中找到的一段話或者是幾個(gè)詞。MRC任務(wù)可以分為四個(gè)子任務(wù),即填空型閱讀理解任務(wù)、選擇型閱讀理解任務(wù)、片段抽取型閱讀理解任務(wù)以及自由回答型閱讀理解任務(wù),隨著NLP技術(shù)的不斷進(jìn)步,四種MRC任務(wù)都有著快速的發(fā)展[15]。在命名實(shí)體識(shí)別任務(wù)中借助MRC框架,可以更加快速有效地識(shí)別出嵌套的命名實(shí)體,同時(shí),在一定程度上也可以提高非嵌套命名實(shí)體的識(shí)別準(zhǔn)確率[16]。
隨著深度學(xué)習(xí)的不斷發(fā)展,BERT等自然語言預(yù)處理模型可以很好地捕捉原始文本當(dāng)中的語義模式,并可以根據(jù)不同的NLP任務(wù)進(jìn)行微調(diào)。但是現(xiàn)有的預(yù)訓(xùn)練模型很少有結(jié)合到知識(shí)圖譜,而知識(shí)圖譜可以提供豐富的結(jié)構(gòu)化知識(shí),并可以更好地進(jìn)行語義的理解,因?yàn)橹R(shí)圖譜當(dāng)中有很多富含信息的實(shí)體和外部知識(shí)可以增強(qiáng)文本的語義特征。而ERNIE就是利用知識(shí)圖譜和大規(guī)模中文語料訓(xùn)練得到的語言表征模型,它可以充分利用語法、語義還有知識(shí)的優(yōu)勢(shì)。相關(guān)實(shí)驗(yàn)表明,ERNIE相比BERT等預(yù)訓(xùn)練模型在實(shí)體識(shí)別、問答系統(tǒng)、語言推理和文本分類當(dāng)中可以達(dá)到較好的效果[2]。
ERNIE和BERT都是基于Transformer中Encoder層的大規(guī)模預(yù)訓(xùn)練語言模型。相比于BERT,ERNIE改進(jìn)了BERT在MLM(Masked LM)預(yù)訓(xùn)練任務(wù)中的掩蓋策略,提出了一種多階段的掩蓋策略代替了在BERT中知識(shí)的直接嵌入,將短語和知識(shí)實(shí)體集成到了文本的語言特征當(dāng)中,ERNIE的多階段掩蓋策略如圖1所示。

圖1 ERNIE的多階段掩蓋策略
首先第一個(gè)階段是基礎(chǔ)掩蓋,中文的基本語言單元是漢字,在進(jìn)行訓(xùn)練時(shí)隨機(jī)掩蓋15%的基本語言單元,其他的基本語言單元作為輸入來預(yù)測(cè)被掩蓋的基本語言單元,但是由于這種方式只是在基本語義單元的掩蓋策略上訓(xùn)練的,所以模型很難提取到文本的深層語義特征。第二個(gè)階段是短語掩蓋,在進(jìn)行訓(xùn)練時(shí)隨機(jī)掩蓋文本中的幾個(gè)短語,這其中包括短語里面的所有基本語言單元,然后對(duì)被掩蓋的基本語言單元進(jìn)行預(yù)測(cè)。第三個(gè)階段是實(shí)體掩蓋,在進(jìn)行訓(xùn)練時(shí)對(duì)所有命名實(shí)體進(jìn)行掩蓋和預(yù)測(cè)。經(jīng)過這三個(gè)階段,ERNIE可以學(xué)習(xí)到文本中知識(shí)的依賴以及更長的語義依賴來讓模型更具泛化性。
單純的在命名實(shí)體識(shí)別任務(wù)中使用MRC模塊,雖然會(huì)比傳統(tǒng)的命名實(shí)體識(shí)別方法有一定的提升,但是將MRC模塊簡單地加入命名實(shí)體識(shí)別模型,即將問答數(shù)據(jù)集作為模型單一的輸入之后,模型并沒有充分利用到標(biāo)簽的知識(shí)信息。為了讓模型充分抽取到原始文本的特征,并讓模型能夠利用標(biāo)簽所包含的先驗(yàn)知識(shí),該文將模型的輸入分為兩部分,一部分是BIO標(biāo)注之后的標(biāo)注數(shù)據(jù)集,另一部分是將實(shí)體轉(zhuǎn)換為三元組(qy,Xstart,end,X)的問答數(shù)據(jù)集。將兩部分同時(shí)輸入進(jìn)ERNIE預(yù)訓(xùn)練模型,進(jìn)而可以得到兩種具有不同語言特征的詞向量,再將兩種詞向量進(jìn)行信息融合,就可以讓模型同時(shí)學(xué)習(xí)到原始文本的信息和標(biāo)簽本身所具有的先驗(yàn)知識(shí)。
該文在信息融合時(shí)采用了一種語義指導(dǎo)的Attention機(jī)制,其過程如下:
(1)在進(jìn)行語義融合前準(zhǔn)備兩種具有不同語言特征且共享權(quán)重的詞向量hx和hy,其中hx∈Rn×d,hy∈R|c|×m×d,n為一條標(biāo)注數(shù)據(jù)集的長度,|c|和m分別表示一條問答數(shù)據(jù)集中實(shí)體類別的數(shù)量和長度。


(1)
(2)

(3)
(4)
最后,對(duì)每一條標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集都進(jìn)行上述流程,就可以得到經(jīng)過信息融合之后的詞向量表示。
RNN是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),相比于一般的神經(jīng)網(wǎng)絡(luò)來說能夠很好地處理序列變化的數(shù)據(jù)。但是普通的RNN會(huì)存在梯度消失和梯度爆炸的問題,LSTM針對(duì)以上問題對(duì)RNN進(jìn)行了改進(jìn),它可以在學(xué)習(xí)過程中對(duì)有價(jià)值的信息進(jìn)行記憶,放棄冗余的記憶,所以相比于普通的RNN,LSTM在更長的序列中有更好的表現(xiàn)。但是在識(shí)別文本的語義特征時(shí),單一的LSTM模型無法提取從后向前的語義信息,而BiLSTM則是由向前的LSTM與向后的LSTM組合而成,所以BiLSTM可以更好地捕獲文本的雙向語義。
LSTM的結(jié)構(gòu)如圖2所示。在圖2中,向量ct-1經(jīng)過LSTM模型然后以ct作為輸出,在整個(gè)向量的傳輸過程中只是經(jīng)過了簡單的線性操作,這樣可以實(shí)現(xiàn)長期的記憶保留。對(duì)于信息的更新和輸出,LSTM則是通過遺忘門、輸入門和輸出門實(shí)現(xiàn)。

圖2 LSTM模型結(jié)構(gòu)
LSTM的計(jì)算公式如下所示:
ft=σ(Wf·[ht-1,xt]+bf)
(5)
it=σ(Wi·[ht-1,xt]+bi)
(6)
(7)
(8)
ot=σ(Wo·[ht-1,xt]+bo)
(9)
ht=ot·tanh(ct)
(10)

MRC框架抽取答案的方法是識(shí)別答案的開始位置和結(jié)束位置,即設(shè)置兩個(gè)預(yù)測(cè)器,兩個(gè)預(yù)測(cè)器分別預(yù)測(cè)答案的開始位置和結(jié)束位置,但是這方法只能得到一個(gè)答案,無法處理句子中有多層實(shí)體的問題。
為了讓模型識(shí)別出嵌套命名實(shí)體當(dāng)中的多層實(shí)體,該文在MRC抽取方法的基礎(chǔ)上進(jìn)行了改進(jìn),其過程如下:
(1)先讓兩個(gè)預(yù)測(cè)器預(yù)測(cè)嵌套實(shí)體的位置,得到預(yù)測(cè)之后實(shí)體的起始位置Ostart和結(jié)束位置Oend。
(2)為了保證實(shí)體為最外層的實(shí)體,將原來實(shí)體的位置范圍進(jìn)行一定程度的擴(kuò)大,得到新的起始位置Nstart和結(jié)束位置Nend。
Nstart=dstart·Ostart
(11)
Nend=dend·Oend
(12)

(4)通過公式(13)預(yù)測(cè)每一對(duì)開始位置和結(jié)束位置匹配的概率Pi。
(13)

針對(duì)研究領(lǐng)域的獨(dú)特性和現(xiàn)有方法在命名實(shí)體識(shí)別任務(wù)中的不足,該文構(gòu)建了MEAB模型進(jìn)行有色冶金領(lǐng)域文本命名實(shí)體的識(shí)別,模型的結(jié)構(gòu)如圖3所示。該模型主要有文本輸入層、特征轉(zhuǎn)換層、信息融合層、特征提取層和定位輸出層五大模塊。在文本輸入層中,標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集會(huì)被輸入進(jìn)ERNIE預(yù)訓(xùn)練模型中,在特征轉(zhuǎn)換層ERNIE預(yù)訓(xùn)練模型會(huì)將兩種數(shù)據(jù)集轉(zhuǎn)換為詞向量,在信息融合層會(huì)將這兩種詞向量進(jìn)行融合,使融合的詞向量同時(shí)具有原始文本的語義信息和標(biāo)簽本身所具有的先驗(yàn)知識(shí),并提交給特征提取層。在特征提取層會(huì)從前后兩個(gè)方向?qū)﹂L距離的文本特征和潛在語義信息進(jìn)行充分提取,最后在定位輸出層輸出嵌套命名實(shí)體當(dāng)中的所有實(shí)體。

圖3 MEAB模型結(jié)構(gòu)
在選取評(píng)價(jià)指標(biāo)時(shí),該文選取了精確率(P)、召回率(R)和F1值來評(píng)價(jià)模型的命名實(shí)體識(shí)別的效果,評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
(14)
(15)
(16)
實(shí)驗(yàn)基于Tensorflow1.12.0搭建了模型,為了驗(yàn)證模型識(shí)別有色冶金領(lǐng)域命名實(shí)體的性能,對(duì)構(gòu)建的有色冶金領(lǐng)域文本數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。同時(shí)為了證明該模型在命名實(shí)體識(shí)別任務(wù)中的泛化性,還選取了MSRA公共數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。MSRA數(shù)據(jù)集是微軟亞洲研究院提供的命名實(shí)體識(shí)別數(shù)據(jù)集,在數(shù)據(jù)集中包含了人名、地名和組織機(jī)構(gòu)名三種實(shí)體類型。在實(shí)驗(yàn)過程中,兩種數(shù)據(jù)集均按照3∶1∶1劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,在每種數(shù)據(jù)集的基礎(chǔ)上又將該數(shù)據(jù)集分為標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集兩種輸入類型,兩種數(shù)據(jù)集的相關(guān)數(shù)據(jù)統(tǒng)計(jì)如表3所示。

表3 數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)
為了驗(yàn)證構(gòu)建的MEAB模型在命名實(shí)體識(shí)別任務(wù)當(dāng)中的效果,并證明MEAB模型中所采用的各個(gè)模塊對(duì)命名實(shí)體的識(shí)別是有提升的,選取了如下基線模型進(jìn)行對(duì)比。
(1)BERT:該模型僅使用BERT進(jìn)行命名實(shí)體的識(shí)別,輸入數(shù)據(jù)為標(biāo)注數(shù)據(jù)集。
(2)ERNIE:該模型僅使用ERNIE進(jìn)行命名實(shí)體的識(shí)別,輸入數(shù)據(jù)為標(biāo)注數(shù)據(jù)集。
(3)BiLSTM-CRF:該模型是NLP命名實(shí)體識(shí)別任務(wù)當(dāng)中的經(jīng)典模型,輸入數(shù)據(jù)為標(biāo)注數(shù)據(jù)集。
(4)ERNIE-CRF:該模型利用ERNIE先將標(biāo)注數(shù)據(jù)集進(jìn)行編碼,再通過CRF進(jìn)行解碼輸出。
(5)ERNIE-BiLSTM-CRF[17]:該模型利用ERNIE先將標(biāo)注數(shù)據(jù)集進(jìn)行編碼,再通過BiLSTM模型進(jìn)行特征提取,最后通過CRF進(jìn)行解碼輸出。
(6)MRC-BERT[18]:該模型在BERT的基礎(chǔ)上加入了MRC框架,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(7) MRC-ERNIE:該模型在ERNIE的基礎(chǔ)上加入了MRC框架,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(8)MRC-ERNIE-BiLST:該模型在MRC-ERNIE的基礎(chǔ)上加入了BiLSTM模型進(jìn)行特征提取,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(9)MRC-ERNIE-BiLSTM-C:該模型在MRC-ERNIE-BiLSTM基礎(chǔ)上加入了MEAB模型中的多層嵌套實(shí)體識(shí)別器,以驗(yàn)證該識(shí)別器的效果。但是相比MEAB模型,該模型沒有信息融合層,即該模型的輸入數(shù)據(jù)也僅為問答數(shù)據(jù)集。
該文構(gòu)建的MEAB模型以及基線模型在有色冶金領(lǐng)域文本數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果可以表明,相比其他基線模型,構(gòu)建的MEAB模型在有色冶金領(lǐng)域命名實(shí)體識(shí)別任務(wù)當(dāng)中效果最優(yōu),它的精確率、召回率和F1值分別達(dá)到了78.77%、79.76%和79.26%。

表4 有色冶金領(lǐng)域數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 %
在實(shí)驗(yàn)結(jié)果中,ERNIE相比BERT在精確率、召回率和F1值上分別高了4.35、5.25和4.80百分點(diǎn),且在加入了MRC框架之后,MRC-ERNIE 仍比MRC-BERT分別高了3.87、4.73和3.30百分點(diǎn),可以證明ERNIE相比BERT在有色冶金領(lǐng)域命名實(shí)體識(shí)別任務(wù)當(dāng)中更占優(yōu)勢(shì)。
在MRC-ERNIE和ERNIE、MRC-BERT和BERT的比較中可以發(fā)現(xiàn),在有色冶金領(lǐng)域命名實(shí)體識(shí)別任務(wù)當(dāng)中加入MRC框架之后表現(xiàn)更優(yōu),在精確率、召回率和F1值上分別比原生的ERNIE和BERT高出了8.02、7.78、6.75和8.50、8.30、8.40百分點(diǎn)。
相比MRC-ERNIE,MRC-ERNIE-BiLSTM在精確率、召回率和F1值上分別高了1.85、1.11和2.48百分點(diǎn),可以證明引入BiLSTM模型作為特征提取層可以更好地提取到文本當(dāng)中的語義特征。
為了進(jìn)一步驗(yàn)證該文構(gòu)建的MEAB模型在有色冶金領(lǐng)域嵌套命名實(shí)體識(shí)別上是有效的,選取了數(shù)據(jù)集中嵌套命名實(shí)體占比最高的PRO類實(shí)體進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。加入了定位輸出層之后,在PRO類型實(shí)體中MRC-ERNIE-BiLSTM-C相比MRC-ERNIE-BiLSTM在精確率、召回率和F1值上分別高了7.83、7.69和7.76百分點(diǎn)。可以證明提出的多層嵌套實(shí)體識(shí)別器在有色冶金領(lǐng)域的嵌套命名實(shí)體識(shí)別任務(wù)當(dāng)中是有效的。

表5 有色冶金領(lǐng)域數(shù)據(jù)集中PRO類型實(shí)體實(shí)驗(yàn)結(jié)果 %
構(gòu)建的MEAB模型在MRC-ERNIE-BiLSTM-C的基礎(chǔ)上加入了信息融合層之后,相比MRC-ERNIE-BiLSTM-C在PRO類型實(shí)體的識(shí)別上分別高了1.71、0.75和1.24百分點(diǎn),可以證明該文引入的信息融合策略在有色冶金領(lǐng)域的嵌套命名實(shí)體識(shí)別中是有效的。在有色冶金領(lǐng)域文本數(shù)據(jù)集中全類別實(shí)驗(yàn)的相似實(shí)驗(yàn)結(jié)果,也可以證明多層嵌套實(shí)體識(shí)別器和信息融合策略是有效的。
分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),由于有色冶金領(lǐng)域數(shù)據(jù)集的實(shí)體類別較多且個(gè)別類別的實(shí)體較為復(fù)雜,導(dǎo)致BiLSTM-CRF這種經(jīng)典的命名實(shí)體識(shí)別模型性能較差,而且BiLSTM-CRF只能有效識(shí)別非嵌套的命名實(shí)體,無法識(shí)別多層嵌套的命名實(shí)體。對(duì)于只是簡單使用了BERT、ERNIE預(yù)訓(xùn)練模型的方法,雖然比BiLSTM-CRF模型在性能上有一定的提升,但是這種提升只是在文本語義信息的提取方面,對(duì)于多層嵌套的命名實(shí)體的識(shí)別效率提升不大。該文提出的MEAB模型在ERNIE和BiLSTM充分提取文本語義信息的基礎(chǔ)上,引入了MRC框架和基于Attention的信息融合機(jī)制,加強(qiáng)了模型對(duì)嵌套命名實(shí)體識(shí)別的整體性能,同時(shí)針對(duì)數(shù)據(jù)集中多層嵌套實(shí)體的特點(diǎn),設(shè)計(jì)了一種多層嵌套實(shí)體識(shí)別器,對(duì)多層嵌套實(shí)體進(jìn)行比較并提取。因此,該文提出的MEAB模型在識(shí)別有色冶金命名實(shí)體時(shí)具有更好的性能,優(yōu)于其他基線模型。
構(gòu)建的MEAB模型以及基線模型在MSRA數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果如表6所示。實(shí)驗(yàn)結(jié)果可以表明,相比其他基線模型,構(gòu)建的MEAB模型在MSRA數(shù)據(jù)集中的命名實(shí)體識(shí)別效果最優(yōu),它的精確率、召回率和F1值分別達(dá)到了97.70%、97.90%和97.80%。可以證明,提出的MEAB模型在命名實(shí)體識(shí)別任務(wù)當(dāng)中具有一定的泛化性。

表6 MSRA數(shù)據(jù)集實(shí)驗(yàn)結(jié)果 %
該文選擇參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)(FLOPs)來評(píng)價(jià)MEAB模型的計(jì)算復(fù)雜度,并與經(jīng)典模型進(jìn)行對(duì)比。如表7所示,由于構(gòu)建的MEAB模型使用了ERNIE預(yù)訓(xùn)練模型和BiLSTM模型,所以在參數(shù)量方面比BERT稍大,同時(shí)在模型的浮點(diǎn)運(yùn)算次數(shù)上MEAB模型也比BERT稍大。綜合兩種模型在有色冶金領(lǐng)域文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,可以說明MEAB模型可以在沒有顯著增加計(jì)算復(fù)雜度的情況下,能夠大幅提高對(duì)有色冶金領(lǐng)域命名實(shí)體的識(shí)別精度。

表7 計(jì)算復(fù)雜度對(duì)比
有色冶金領(lǐng)域命名實(shí)體識(shí)別是構(gòu)建有色冶金產(chǎn)業(yè)企業(yè)畫像和建立產(chǎn)業(yè)知識(shí)圖譜的重要信息來源和依據(jù)。鑒于當(dāng)前有色冶金領(lǐng)域命名實(shí)體數(shù)據(jù)集缺失的問題,首先,構(gòu)建了有色冶金產(chǎn)業(yè)領(lǐng)域命名實(shí)體識(shí)別的數(shù)據(jù)集,并在此基礎(chǔ)上構(gòu)建了標(biāo)注數(shù)據(jù)集和問答數(shù)據(jù)集。然后,在MRC框架、ERNIE預(yù)訓(xùn)練模型和BiLSTM模型的基礎(chǔ)上,引入了信息融合策略和多層嵌套實(shí)體識(shí)別器,構(gòu)建了MEAB命名實(shí)體識(shí)別模型。相比已有的命名實(shí)體識(shí)別模型,該模型可以充分提取出文本原有的語義特征,并更好地利用標(biāo)簽當(dāng)中的先驗(yàn)知識(shí),提高了對(duì)命名實(shí)體包括嵌套命名實(shí)體的識(shí)別準(zhǔn)確率。在構(gòu)建的有色冶金領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)表明,MEAB模型可以有效識(shí)別數(shù)據(jù)集中的嵌套命名實(shí)體和非嵌套命名實(shí)體,精確率、召回率和F1值分別達(dá)到了78.77%、79.76%和79.26%。在后續(xù)的研究中,可以進(jìn)一步完善并擴(kuò)大有色冶金領(lǐng)域的語料庫,并在有色冶金領(lǐng)域命名實(shí)體識(shí)別的基礎(chǔ)上構(gòu)建有色冶金產(chǎn)業(yè)的企業(yè)畫像,建立產(chǎn)業(yè)的知識(shí)圖譜。