面向科技學(xué)術(shù)會議的命名實體識別研究

2022-02-18 08:13:16于潤羽杜軍平薛哲徐欣奚軍慶

智能系統(tǒng)學(xué)報 2022年1期

關(guān)鍵詞：文本模型

于潤羽，杜軍平，薛哲，徐欣，奚軍慶

（1.北京郵電大學(xué) 智能通信軟件與多媒體北京市重點實驗室, 北京 100876; 2.司法部信息中心, 北京 100020）

科技大數(shù)據(jù)[1-2]可以定義為與科研相關(guān)的活動產(chǎn)生的海量數(shù)據(jù)，其以論文數(shù)據(jù)為主體，具有數(shù)據(jù)規(guī)模大、內(nèi)容專業(yè)化、特征屬性繁多的特點。科技學(xué)術(shù)會議數(shù)據(jù)包含某個領(lǐng)域內(nèi)的論文集合。以學(xué)術(shù)會議為單位進(jìn)行畫像的構(gòu)建，可以幫助科研人員快速獲得有價值的科研信息，而構(gòu)建畫像的核心工作即為命名實體識別。

命名實體識別是自然語言處理中知識抽取領(lǐng)域中的重要研究方向，其目的是將給定文本中的實體按照預(yù)定義好的類別進(jìn)行分類[3-4]。學(xué)術(shù)會議論文數(shù)據(jù)的命名實體識別與通用領(lǐng)域的識別有一定區(qū)別，主要原因在于通用領(lǐng)域的數(shù)據(jù)集的文本有較為嚴(yán)格的組成規(guī)范。但由于科研領(lǐng)域技術(shù)更新迭代快，導(dǎo)致論文數(shù)據(jù)集中有大量的專業(yè)術(shù)語[5]。同時實體之間的關(guān)系也相對復(fù)雜，增加了實體識別的難度。

中文命名實體識別的準(zhǔn)確率和中文分詞結(jié)果直接相關(guān)，如果在分詞階段發(fā)生錯誤，會嚴(yán)重影響識別效果[6]。目前在中文命名實體識別過程中，大部分方法是基于字符模型編碼，這種方式在通用領(lǐng)域的命名識別中取得了較好的效果，但它無法挖掘到一串字符信息中的詞級別的信息。為了解決這個問題，可以把字符級模型和詞級別的模型相結(jié)合，降低歧義發(fā)生的概率[7]。然而在學(xué)術(shù)論文數(shù)據(jù)中，由于專業(yè)詞匯較多，采用這種方式很有可能產(chǎn)生錯誤的詞語邊界。因此本文引入論文關(guān)鍵詞特征,提出關(guān)鍵詞?字符編碼方式，在編碼階段同時考慮到關(guān)鍵詞級別和字符級別的語義信息。此外，在長短期記憶網(wǎng)絡(luò) (long-short term memory, LSTM)和條件隨機場(conditional random field, CRF)為主體框架的基礎(chǔ)上，在LSTM層引入自注意力機制(self-attention mechanism, SA)，彌補長短期記憶網(wǎng)絡(luò)無法考慮到全局信息的缺陷，最后將LSTM和注意力機制輸出的結(jié)果進(jìn)行融合再通過CRF進(jìn)行標(biāo)注，兼顧了字符之間的依賴關(guān)系，在論文數(shù)據(jù)集中取得了更好的識別效果。

本文的主要貢獻(xiàn):

1)提出了一種結(jié)合基于關(guān)鍵詞?字符LSTM和注意力機制(keyword-character long-short term memory and attention mechanism, KCLA)的命名實體識別方法，利用論文數(shù)據(jù)集進(jìn)行訓(xùn)練并進(jìn)行命名實體的識別；

2) 使用預(yù)訓(xùn)練模型對關(guān)鍵詞特征進(jìn)行訓(xùn)練，獲得對應(yīng)的詞向量，在神經(jīng)網(wǎng)絡(luò)中將其與字符級別特征進(jìn)行融合，獲取文本中潛在的語義信息；

3) 為科技學(xué)術(shù)會議論文數(shù)據(jù)中的實體進(jìn)行定義，在網(wǎng)絡(luò)層同時使用長短期記憶網(wǎng)絡(luò)和注意力機制，充分考慮文本中的上下文信息以及全局信息，優(yōu)化實體識別的效果。

1 命名實體識別的研究現(xiàn)狀

近年來命名實體識別的研究方法快速發(fā)展，包括基于統(tǒng)計機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。機器學(xué)習(xí)方法一般是通過標(biāo)注好的文本進(jìn)行訓(xùn)練，利用訓(xùn)練好的模型進(jìn)行識別[8]。常用模型有隱馬爾可夫模型[9]、最大熵模型、決策樹、支持向量機等。

基于深度學(xué)習(xí)的方法近年來發(fā)展迅速，可以通過不同的神經(jīng)網(wǎng)絡(luò)完成該任務(wù)，首先是卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network, CNN)，Yao 等[10]提出提出了一種基于CNN的適合醫(yī)學(xué)文本內(nèi)容的訓(xùn)練的命名實體識別方法，無需構(gòu)建詞典同時保證較高的準(zhǔn)確率。Strubell等[11]提出了迭代擴張卷積神經(jīng)網(wǎng)絡(luò)(iterated dilated convolutional neural networks, IDCNN)命名實體識別的方法，與下文提到的目前最具有表現(xiàn)力的LSTM模型相比，該模型只需要O(N)的時間復(fù)雜度，在保持與LSTM相當(dāng)?shù)木鹊臈l件下，可以實現(xiàn)8倍的速度提升。Yang等[12]分別采用字符級CNN和詞級別CNN的的方式進(jìn)行命名實體識別，在字符級CNN中使用單層CNN，詞級別采用多層CNN，最后利用Softmax或者CRF的方式實現(xiàn)實體的標(biāo)注。Kong等[13]提出了一種完全基于CNN的模型，充分利用GPU并行性來提高模型效率，模型中構(gòu)造多級CNN來捕獲短期和長期上下文信息，在保證較高識別準(zhǔn)確率的情況下大幅提高了效率。

循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)也可以用于命名實體識別，RNN的變體LSTM在命名實體識別方面取得了顯著的成就。Huang等[14]融合雙向長短期記憶網(wǎng)絡(luò)和條件隨機場(BiLSTM-CRF)應(yīng)用于自然語言處理基準(zhǔn)序列標(biāo)記數(shù)據(jù)集。Zhang等[15]提出了針對中文NER的Lattice LSTM模型。與基于字符的方法相比，顯式地利用了詞序列信息，達(dá)到了最佳結(jié)果。Han等[16]針對專業(yè)領(lǐng)域內(nèi)命名實體識別通常面臨領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)缺乏的問題，將生成對抗網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)模型相結(jié)合，在各項指標(biāo)上顯著優(yōu)于其他模型。

近年來，基于深度學(xué)習(xí)的命名實體識別研究除了基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法外，還出現(xiàn)了一些更新的技術(shù)。首先，Transformer模型[17-18]不再使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)思想，使用到的只有注意力機制[19]。BERT模型于2018年被提出，在自然語言處理的各個領(lǐng)域都取得了令人矚目的效果[20]，在命名實體識別領(lǐng)域，Dai等[21]在中文電子病歷表識別的應(yīng)用上使用了BERT+BiLISM+CRF的網(wǎng)絡(luò)結(jié)構(gòu)，取得了很好的效果，Li等[22]使用了多層變種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行中文臨床命名實體識別，同樣取得了很好的識別效果。文獻(xiàn)[23]中利用預(yù)訓(xùn)練的BERT模型結(jié)合BiLSTM，提高了在Weibo中文數(shù)據(jù)集上命名實體識別的準(zhǔn)確率。Li等[24]針對現(xiàn)有的Lattice LSTM結(jié)構(gòu)復(fù)雜的問題，提出了FLAT，在性能和效率上均有提升。Yoon等[25]提出一個新型的命名實體識別(named entity recognition, NER)模型，由多個雙向LSTM網(wǎng)絡(luò)構(gòu)成，每個網(wǎng)絡(luò)作為一個單獨的任務(wù)識別某一種制定的實體類型，多個任務(wù)將各自學(xué)習(xí)到的知識進(jìn)行轉(zhuǎn)移，獲得更準(zhǔn)確的預(yù)測。

2 KCLA命名實體識別算法

在本節(jié)中，主要介紹結(jié)合關(guān)鍵詞-字符LSTM和注意力機制的科技學(xué)術(shù)會議論文命名實體識別算法。

2.1 算法整體結(jié)構(gòu)

本文提出一種結(jié)合關(guān)鍵詞?字符LSTM和注意力機制的科技學(xué)術(shù)會議論文命名實體識別算法。如圖1所示，模型的分為向量表示層(Embedding)、融合雙向長短期記憶網(wǎng)絡(luò)和自注意力機制層(BiLSTM-SA)，以及條件隨機場層(CRF)。具體而言，向量表示層抽取了字符級別的特征以及關(guān)鍵詞特征，挖掘了數(shù)據(jù)中潛在的語義信息，生成向量作為后續(xù)網(wǎng)絡(luò)的輸入。BiLSTM-SA層通過神經(jīng)網(wǎng)絡(luò)提取局部和全局的文本的特征，最后通過CRF層獲得最大概率的命名實體分類。

圖1 KCLA算法整體框架Fig.1 Framework of KCLA algorithm

2.2 向量表示層

向量表示層主要將科技學(xué)術(shù)會議論文中的自然語言文本映射成后續(xù)層次能夠識別計算的形式。向量表示層可以基于不同的模型實現(xiàn)，下面分別介紹字符級別編碼模型，詞級別編碼模型以及本文提出的關(guān)鍵詞?字符編碼模型。

2.2.1 基于字符級別編碼

基于字符級別編碼模型是將按照每一個中文字符進(jìn)行編碼，給定一個論文標(biāo)題文本序列：基于神經(jīng)網(wǎng)絡(luò)的文本分類,可以將其表示為s=[c1c2cn]，其中ci表示句子中的第i個字符，每個字符經(jīng)過式(1)的變換，獲得對應(yīng)的輸入向量。

式中Ec代表字符級別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。

2.2.2 基于詞級別編碼

基于詞級別編碼模型是將按照詞中文詞匯進(jìn)行編碼，同樣給定文本序列：基于神經(jīng)網(wǎng)絡(luò)的文本分類，按照常規(guī)的中文分詞方式對其進(jìn)行切分，然后按照詞級別進(jìn)行編碼，可以將其表示為s=[w1w2wn]，通過式(2)的變換，獲得對應(yīng)的輸入向量。

式中Ew代表詞級別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。

2.2.3 關(guān)鍵詞?字符編碼模型

關(guān)鍵詞?字符編碼模型主要考慮到了科技學(xué)術(shù)會議中論文數(shù)據(jù)本身的特點。由于論文數(shù)據(jù)專業(yè)性強，因此常規(guī)的分詞方式并不適用于論文數(shù)據(jù)集，如果采用基本的字詞融合，可能會產(chǎn)生很多錯誤的邊界，影響識別準(zhǔn)確率?？紤]到論文數(shù)據(jù)集中有關(guān)鍵詞這一特征，例如對于文本序列：基于神經(jīng)網(wǎng)絡(luò)的文本分類模型，在關(guān)鍵詞字段中包含了神經(jīng)網(wǎng)絡(luò)、文本分類等詞匯，如果不考慮關(guān)鍵詞信息，該句會被切分為

對于本文想要識別的實體，顯然產(chǎn)生了錯誤的詞匯邊界，因此要引入關(guān)鍵詞特征，構(gòu)建詞典，對于例子中的文本序列，需要將其正確切分為

獲得了正確的詞匯邊界后，在上述的文本序列中，字符層面依然通過=Ec(ci)對輸入的字符進(jìn)行變換，獲得對應(yīng)的向量。除此之外要考慮關(guān)鍵詞層面的信息，這里運用來表示一個關(guān)鍵詞信息，例如：表示關(guān)鍵詞“神經(jīng)網(wǎng)絡(luò)”，表示關(guān)鍵詞“文本分類”，通過式=Ew(wb,e)進(jìn)行變換。在實現(xiàn)的過程中，首先利用Word2Vec對文本中的關(guān)鍵詞進(jìn)行預(yù)訓(xùn)練，獲得關(guān)鍵詞的詞向量模型，在模型中提取出詞向量矩陣，然后和字符級別的向量共同輸入到LSTM網(wǎng)絡(luò)層中，在LSTM中對二者進(jìn)行融合，整體結(jié)構(gòu)如圖2所示。

圖2 Keyword-Character編碼結(jié)構(gòu)Fig.2 Structure of Keyword-Character

2.3 BiLSTM-SA層

LSTM是一種特殊的RNN，與傳統(tǒng)的RNN相比，LSTM同樣是基于xt和ht?1來計算ht，但加入了輸入門it、遺忘門ft以及輸出門ot3個門和1個內(nèi)部記憶單元ct。

第t層的更新計算公式為

LSTM模型按照文本序列的輸入處理上文的信息，而下文的信息對于科技學(xué)術(shù)會議論文數(shù)據(jù)的處理也有重要意義，因此本模型采用BiLSTM，它由兩層LSTM組成，向量表示層得到的向量按照正序作為正向LSTM的輸入，即可以得到輸出序列：

再通過反向輸入的方式，得到逆向LSTM輸出序列：

將兩層的輸出進(jìn)行融合，得到包含上下文的特征hn=[hLhR]。

在本文提出的關(guān)鍵詞?字符編碼模型中，LSTM的輸入需要包含字符級關(guān)鍵詞級信息。在2.2.3節(jié)中，我們獲得了字符級向量以及關(guān)鍵詞級向量對于關(guān)鍵詞級向量同樣通過式(3)進(jìn)行變換獲得LSTM的單元但不需要輸出門，因為最終的預(yù)測是以字符為單位，因此在詞級別不需要進(jìn)行輸出。

BiLSTM在可以考慮到上下文的信息，但對于全局信息無法充分的表達(dá)，因此本模型將自注意力機制作為BiLSTM模塊的補充，提高命名實體識別的準(zhǔn)確率。

Attention的計算如式（5）所示。Q、K、V三個矩陣均來自同一輸入，首先計算Q與K之間的點乘，然后除以一個尺度標(biāo)度dk，然后將其結(jié)果歸一化，再乘以矩陣V就得到權(quán)重求和的表示。由于Attention本身就考慮到了全局的輸入，因此直接利用字符級別編碼進(jìn)行輸入。

獲得了BiLSTM和Attention的輸出之后，LSTM的輸出為h=[h1h2hn]。

Attention層的輸入為字符編碼的向量，輸出通過式(5)的計算后，輸出為a=[a1a2an]，然后對這兩個輸出進(jìn)行融合操作，假設(shè)BiLSTM-SA層的輸出為yn，在進(jìn)行融合操作時采用歸一化求和的形式，即

2.4 CRF層

在預(yù)測當(dāng)前標(biāo)簽時，CRF通常可以產(chǎn)生更高的標(biāo)記精度。由于論文數(shù)據(jù)相鄰字符之間有較強的依賴關(guān)系，因此，在模型的最后一層，利用CRF來對前序?qū)又械玫降娜诤咸卣餍畔⑦M(jìn)行解碼。

我們獲得LSTM-SA層的序列輸出為y=[y1y2yn]，CRF的標(biāo)記過程為

式中：Oi,yi表示第i個單詞標(biāo)記為yi個標(biāo)簽的概率；Ti,j表示由標(biāo)簽轉(zhuǎn)移到標(biāo)簽的概率。CRF在語句S中標(biāo)記序列的概率為

最終的解碼階段通過CRF中的標(biāo)準(zhǔn)Viterbi算法，預(yù)測出最優(yōu)的命名實體識別序列。

3 實驗結(jié)果

本節(jié)進(jìn)行實驗并對結(jié)果進(jìn)行分析。首先介紹算法的評價指標(biāo)和實驗參數(shù)，然后描述了在該評價指標(biāo)和參數(shù)下KCLA算法的實驗結(jié)果，并和其他網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了對比。

3.1 評價指標(biāo)

本實驗使用準(zhǔn)確率(precision)、召回率(recall)以及F1值作為科技學(xué)術(shù)會議論文命名實體識別對比實驗的評價指標(biāo)。

準(zhǔn)確率P、召回率R、F1值的公式分別為

式中：TP表示實際為真且預(yù)測為真的個數(shù)；FP表示實際為假但預(yù)測為真的個數(shù)；FN為實際為真但預(yù)測為假的個數(shù)。

3.2 實驗采用數(shù)據(jù)集

本實驗中，利用scrapy爬蟲框架，對知網(wǎng)上的論文數(shù)據(jù)，按照不同的領(lǐng)域進(jìn)行了爬取，利用按照領(lǐng)域爬取的數(shù)據(jù)進(jìn)行訓(xùn)練及測試。實驗中，獲取了信息科學(xué)和機械工業(yè)分類下的論文數(shù)據(jù)各20 000條，按照8∶2的比例構(gòu)建訓(xùn)練集和測試集，將命名實體定義為研究技術(shù)(TEC)、研究問題(PRO)、研究形式(MOD) 3類實體,然后對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)注，數(shù)據(jù)集標(biāo)注后數(shù)據(jù)分布情況如表1、2所示。

表1 信息科技領(lǐng)域數(shù)據(jù)集分布情況Table 1 Distribution of data sets in the field of information technology

表2 機械工業(yè)領(lǐng)域數(shù)據(jù)集分布情況Table 2 Distribution of data sets in the field of machinery industry

3.3 實驗結(jié)果

在本文實驗中，KCLA算法的關(guān)鍵詞的特征向量維度設(shè)置為50，LSTM的隱藏層維度為128，batch size設(shè)置為32，學(xué)習(xí)率設(shè)置為0.001，dropout為0.5，優(yōu)化器使用Adam。

本節(jié)使用IDCNN、IDCNN+CRF、BiLSTM、BiLSTM+CRF以及Lattice-LSTM這幾種算法進(jìn)行對比實驗，實驗結(jié)果在信息科學(xué)數(shù)據(jù)集下如表3所示，在機械工業(yè)數(shù)據(jù)集下如表4所示。

表3 信息科學(xué)分類論文數(shù)據(jù)不同算法的對比實驗Table 3 Comparative experiment of different algorithms in information science papers

表4 機械工業(yè)分類論文數(shù)據(jù)不同算法的對比實驗Table 4 Comparative experiment of different algorithms in mechanical industry papers

根據(jù)表3可以看出，在信息科學(xué)數(shù)據(jù)集中，本文提出的KCLA算法在性能方面要優(yōu)于對比算法。首先，IDCNN是CNN卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)，它通過引入空洞卷積的概念，共享參數(shù)防止過擬合。IDCNN+CRF則在IDCNN的基礎(chǔ)上加入CRF，通過Viterbi算法，預(yù)測出全局最優(yōu)的標(biāo)注序列。CNN的優(yōu)點在于時間復(fù)雜度相對較低，但準(zhǔn)確率不及以BiLSTM為主體的算法。對比算法中，BiLSTM+CRF同時考慮到上下文的信息和字符之間的關(guān)聯(lián)，因此效果相對較好，但其并沒有挖掘到潛在詞級別的語義信息，KCLA算法通過融合關(guān)鍵詞的特征，對關(guān)鍵詞信息進(jìn)行預(yù)訓(xùn)練獲得對應(yīng)的詞向量，獲取到了文本中潛在的語義信息、準(zhǔn)確率、召回率、F1值均有一定程度的提高。

根據(jù)表4可以看出，在機械工業(yè)數(shù)據(jù)集的對比算法中，KCLA算法也取得了最好的識別效果。以LSTM為主體框架的算法的效果仍然優(yōu)于IDCNN算法，其中Lattice LSTM對比BiLSTM+CRF沒有明顯的提升，主要原因在于其利用通用領(lǐng)域的詞向量，可能會產(chǎn)生錯誤的詞匯邊界，因此影響了識別效果。

圖3描述在信息科學(xué)數(shù)據(jù)訓(xùn)練過程中l(wèi)oss的變化趨勢，圖4給出在第一個epoch中l(wèi)oss隨batch的變化趨勢。

圖3 loss隨epoch的變化趨勢Fig.3 Trend of loss with epoch

圖4 loss隨batch的變化趨勢Fig.4 Trend of loss with batch

根據(jù)圖3可以看出，epoch到達(dá)10時基本收斂。本文實驗中將訓(xùn)練epoch參數(shù)設(shè)置為20，但設(shè)置了提前終止條件：如果兩個周期內(nèi)驗證集準(zhǔn)確率沒有提升，則提前停止訓(xùn)練。在實驗中訓(xùn)練到第10個epoch時，提前停止。

根據(jù)圖4可以看出，loss在第一個epoch中快速下降。在機械工業(yè)數(shù)據(jù)集中的loss變化與信息科學(xué)領(lǐng)域趨勢相同。

3.4 網(wǎng)絡(luò)參數(shù)對于模型性能的影響

3.4.1 LSTM 隱藏層參數(shù)對識別效果的影響

將LSTM的隱藏層維度設(shè)置不同數(shù)值進(jìn)行實驗，確定其對論文數(shù)據(jù)命名實體識別效果的影響，圖5和圖6分別給出隱藏層維度對信息科學(xué)和機械工業(yè)數(shù)據(jù)識別效果的影響。

圖5 隱藏層維度對信息科學(xué)數(shù)據(jù)識別效果的影響Fig.5 Influence of hidden dimension in the information science data

圖6 隱藏層維度對機械工業(yè)數(shù)據(jù)識別效果的影響Fig.6 Influence of hidden dimension in the machinery industry data

根據(jù)圖5可以看出，在信息科學(xué)數(shù)據(jù)集中，隱藏層維度分別設(shè)置為 32、64、128、256、512。識別的各項評價指標(biāo)開始隨著隱藏層維度的增大而升高，128維時獲得最好的識別效果，對比32維的識別效果，128維的識別準(zhǔn)確率、召回率、F1值分別提升了約16%、8%、12%，可見隱藏層維度是影響命名實體識別效果的重要參數(shù)。但隨著維度的繼續(xù)增加，識別的效果并沒有提升，甚至有輕微幅度的下降。

根據(jù)圖6可以看出，在機械工業(yè)數(shù)據(jù)集中，隱藏層維度在128維和256維時都獲得了很好的識別效果。對比32維時，128維的準(zhǔn)確率、召回率、F1值分別提高了約9%、7%、8%。1到達(dá)512維時有很微小的下降，結(jié)合圖5、6可以得出結(jié)論：當(dāng)隱藏層維度較低時，KCLA不足以充分的學(xué)習(xí)到文本中的特征，影響了識別的效果。但如果維度設(shè)置的過高，可能導(dǎo)致過擬合現(xiàn)象，導(dǎo)致識別效果下降。

3.4.2 batch size參數(shù)對識別效果的影響

將batch size設(shè)置不同數(shù)值進(jìn)行實驗，確定其對論文數(shù)據(jù)命名實體識別效果的影響，圖7、8分別給出batch size對信息科學(xué)和機械工業(yè)數(shù)據(jù)識別效果的影響。

圖7 batch size對信息科學(xué)數(shù)據(jù)識別效果的影響Fig.7 Influence of batch size in the information science data

根據(jù)圖7可以看出，在信息科學(xué)數(shù)據(jù)集下，從F1值來看，batch size為64時，識別效果最好，但和其他size相比，效果波動幅度很小，并沒有明顯的差異。

根據(jù)圖8可以看出，在機械工業(yè)數(shù)據(jù)集中，F(xiàn)1值在32時獲得了最好的識別效果，和在信息科學(xué)數(shù)據(jù)集中一樣，在batch size從32增加到160的整個過程中，只有小幅度的變化。同時，準(zhǔn)確率、召回率、F1值會有一定的波動，并沒有在某一個size下共同取得最好的效果。結(jié)合圖7、8可以得出結(jié)論，參數(shù)batch size對于KCLA算法影響較小。

圖8 batch size對機械工業(yè)數(shù)據(jù)識別效果的影響Fig.8 Influence of batch size in the machinery industry data

4 結(jié)束語

本文針對科技學(xué)術(shù)會議論文數(shù)據(jù)，提出了結(jié)合關(guān)鍵詞?字符LSTM和注意力機制的命名實體識別算法（KCLA），對學(xué)術(shù)會議中包含的論文信息進(jìn)行實體定義，對數(shù)據(jù)集按照實體定義進(jìn)行標(biāo)注，然后利用KCLA算法對實體進(jìn)行識別。其中KCLA算法模型由向量表示層、BiLSTM-SA層和CRF層構(gòu)成。實驗數(shù)據(jù)表明，KCLA算法可以對科技學(xué)術(shù)會議中論文數(shù)據(jù)的命名實體進(jìn)行有效的識別。通過對比實驗，將KCLA與IDCNN, BiLSTM等算法進(jìn)行比較，KCLA算法在科技學(xué)術(shù)會議論文數(shù)據(jù)集中有更好的表現(xiàn)。基于識別出的命名實體，結(jié)合論文數(shù)據(jù)中結(jié)構(gòu)化的數(shù)據(jù)中獲取到的關(guān)聯(lián)關(guān)系，可以對學(xué)術(shù)會議數(shù)據(jù)構(gòu)建知識圖譜和精準(zhǔn)畫像，更加直觀形象地展示出科技學(xué)術(shù)會議中潛在的語義信息，為科研人員進(jìn)行科研信息的獲取以及進(jìn)行科研決策提供良好的數(shù)據(jù)支撐。