999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向科技學(xué)術(shù)會議的命名實體識別研究

2022-02-18 08:13:16于潤羽杜軍平薛哲徐欣奚軍慶
智能系統(tǒng)學(xué)報 2022年1期
關(guān)鍵詞:文本模型

于潤羽,杜軍平,薛哲,徐欣,奚軍慶

(1.北京郵電大學(xué) 智能通信軟件與多媒體北京市重點實驗室, 北京 100876; 2.司法部信息中心, 北京 100020)

科技大數(shù)據(jù)[1-2]可以定義為與科研相關(guān)的活動產(chǎn)生的海量數(shù)據(jù),其以論文數(shù)據(jù)為主體,具有數(shù)據(jù)規(guī)模大、內(nèi)容專業(yè)化、特征屬性繁多的特點。科技學(xué)術(shù)會議數(shù)據(jù)包含某個領(lǐng)域內(nèi)的論文集合。以學(xué)術(shù)會議為單位進(jìn)行畫像的構(gòu)建,可以幫助科研人員快速獲得有價值的科研信息,而構(gòu)建畫像的核心工作即為命名實體識別。

命名實體識別是自然語言處理中知識抽取領(lǐng)域中的重要研究方向,其目的是將給定文本中的實體按照預(yù)定義好的類別進(jìn)行分類[3-4]。學(xué)術(shù)會議論文數(shù)據(jù)的命名實體識別與通用領(lǐng)域的識別有一定區(qū)別,主要原因在于通用領(lǐng)域的數(shù)據(jù)集的文本有較為嚴(yán)格的組成規(guī)范。但由于科研領(lǐng)域技術(shù)更新迭代快,導(dǎo)致論文數(shù)據(jù)集中有大量的專業(yè)術(shù)語[5]。同時實體之間的關(guān)系也相對復(fù)雜,增加了實體識別的難度。

中文命名實體識別的準(zhǔn)確率和中文分詞結(jié)果直接相關(guān),如果在分詞階段發(fā)生錯誤,會嚴(yán)重影響識別效果[6]。目前在中文命名實體識別過程中,大部分方法是基于字符模型編碼,這種方式在通用領(lǐng)域的命名識別中取得了較好的效果,但它無法挖掘到一串字符信息中的詞級別的信息。為了解決這個問題,可以把字符級模型和詞級別的模型相結(jié)合,降低歧義發(fā)生的概率[7]。然而在學(xué)術(shù)論文數(shù)據(jù)中,由于專業(yè)詞匯較多,采用這種方式很有可能產(chǎn)生錯誤的詞語邊界。因此本文引入論文關(guān)鍵詞特征,提出關(guān)鍵詞?字符編碼方式,在編碼階段同時考慮到關(guān)鍵詞級別和字符級別的語義信息。此外,在長短期記憶網(wǎng)絡(luò) (long-short term memory, LSTM)和條件隨機場(conditional random field, CRF)為主體框架的基礎(chǔ)上,在LSTM層引入自注意力機制(self-attention mechanism, SA),彌補長短期記憶網(wǎng)絡(luò)無法考慮到全局信息的缺陷,最后將LSTM和注意力機制輸出的結(jié)果進(jìn)行融合再通過CRF進(jìn)行標(biāo)注,兼顧了字符之間的依賴關(guān)系,在論文數(shù)據(jù)集中取得了更好的識別效果。

本文的主要貢獻(xiàn):

1)提出了一種結(jié)合基于關(guān)鍵詞?字符LSTM和注意力機制(keyword-character long-short term memory and attention mechanism, KCLA)的命名實體識別方法,利用論文數(shù)據(jù)集進(jìn)行訓(xùn)練并進(jìn)行命名實體的識別;

2) 使用預(yù)訓(xùn)練模型對關(guān)鍵詞特征進(jìn)行訓(xùn)練,獲得對應(yīng)的詞向量,在神經(jīng)網(wǎng)絡(luò)中將其與字符級別特征進(jìn)行融合,獲取文本中潛在的語義信息;

3) 為科技學(xué)術(shù)會議論文數(shù)據(jù)中的實體進(jìn)行定義,在網(wǎng)絡(luò)層同時使用長短期記憶網(wǎng)絡(luò)和注意力機制,充分考慮文本中的上下文信息以及全局信息,優(yōu)化實體識別的效果。

1 命名實體識別的研究現(xiàn)狀

近年來命名實體識別的研究方法快速發(fā)展,包括基于統(tǒng)計機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。機器學(xué)習(xí)方法一般是通過標(biāo)注好的文本進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型進(jìn)行識別[8]。常用模型有隱馬爾可夫模型[9]、最大熵模型、決策樹、支持向量機等。

基于深度學(xué)習(xí)的方法近年來發(fā)展迅速,可以通過不同的神經(jīng)網(wǎng)絡(luò)完成該任務(wù),首先是卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network, CNN),Yao 等[10]提出提出了一種基于CNN的適合醫(yī)學(xué)文本內(nèi)容的訓(xùn)練的命名實體識別方法,無需構(gòu)建詞典同時保證較高的準(zhǔn)確率。Strubell等[11]提出了迭代擴張卷積神經(jīng)網(wǎng)絡(luò)(iterated dilated convolutional neural networks, IDCNN)命名實體識別的方法,與下文提到的目前最具有表現(xiàn)力的LSTM模型相比,該模型只需要O(N)的時間復(fù)雜度,在保持與LSTM相當(dāng)?shù)木鹊臈l件下,可以實現(xiàn)8倍的速度提升。Yang等[12]分別采用字符級CNN和詞級別CNN的的方式進(jìn)行命名實體識別,在字符級CNN中使用單層CNN,詞級別采用多層CNN,最后利用Softmax或者CRF的方式實現(xiàn)實體的標(biāo)注。Kong等[13]提出了一種完全基于CNN的模型,充分利用GPU并行性來提高模型效率,模型中構(gòu)造多級CNN來捕獲短期和長期上下文信息,在保證較高識別準(zhǔn)確率的情況下大幅提高了效率。

循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)也可以用于命名實體識別,RNN的變體LSTM在命名實體識別方面取得了顯著的成就。Huang等[14]融合雙向長短期記憶網(wǎng)絡(luò)和條件隨機場(BiLSTM-CRF)應(yīng)用于自然語言處理基準(zhǔn)序列標(biāo)記數(shù)據(jù)集。Zhang等[15]提出了針對中文NER的Lattice LSTM模型。與基于字符的方法相比,顯式地利用了詞序列信息,達(dá)到了最佳結(jié)果。Han等[16]針對專業(yè)領(lǐng)域內(nèi)命名實體識別通常面臨領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)缺乏的問題,將生成對抗網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)模型相結(jié)合,在各項指標(biāo)上顯著優(yōu)于其他模型。

近年來,基于深度學(xué)習(xí)的命名實體識別研究除了基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法外,還出現(xiàn)了一些更新的技術(shù)。首先,Transformer模型[17-18]不再使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)思想,使用到的只有注意力機制[19]。BERT模型于2018年被提出,在自然語言處理的各個領(lǐng)域都取得了令人矚目的效果[20],在命名實體識別領(lǐng)域,Dai等[21]在中文電子病歷表識別的應(yīng)用上使用了BERT+BiLISM+CRF的網(wǎng)絡(luò)結(jié)構(gòu),取得了很好的效果,Li等[22]使用了多層變種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行中文臨床命名實體識別,同樣取得了很好的識別效果。文獻(xiàn)[23]中利用預(yù)訓(xùn)練的BERT模型結(jié)合BiLSTM,提高了在Weibo中文數(shù)據(jù)集上命名實體識別的準(zhǔn)確率。Li等[24]針對現(xiàn)有的Lattice LSTM結(jié)構(gòu)復(fù)雜的問題,提出了FLAT,在性能和效率上均有提升。Yoon等[25]提出一個新型的命名實體識別(named entity recognition, NER)模型,由多個雙向LSTM網(wǎng)絡(luò)構(gòu)成,每個網(wǎng)絡(luò)作為一個單獨的任務(wù)識別某一種制定的實體類型,多個任務(wù)將各自學(xué)習(xí)到的知識進(jìn)行轉(zhuǎn)移,獲得更準(zhǔn)確的預(yù)測。

2 KCLA命名實體識別算法

在本節(jié)中,主要介紹結(jié)合關(guān)鍵詞-字符LSTM和注意力機制的科技學(xué)術(shù)會議論文命名實體識別算法。

2.1 算法整體結(jié)構(gòu)

本文提出一種結(jié)合關(guān)鍵詞?字符LSTM和注意力機制的科技學(xué)術(shù)會議論文命名實體識別算法。如圖1所示,模型的分為向量表示層(Embedding)、融合雙向長短期記憶網(wǎng)絡(luò)和自注意力機制層(BiLSTM-SA),以及條件隨機場層(CRF)。具體而言,向量表示層抽取了字符級別的特征以及關(guān)鍵詞特征,挖掘了數(shù)據(jù)中潛在的語義信息,生成向量作為后續(xù)網(wǎng)絡(luò)的輸入。BiLSTM-SA層通過神經(jīng)網(wǎng)絡(luò)提取局部和全局的文本的特征,最后通過CRF層獲得最大概率的命名實體分類。

圖1 KCLA算法整體框架Fig.1 Framework of KCLA algorithm

2.2 向量表示層

向量表示層主要將科技學(xué)術(shù)會議論文中的自然語言文本映射成后續(xù)層次能夠識別計算的形式。向量表示層可以基于不同的模型實現(xiàn),下面分別介紹字符級別編碼模型,詞級別編碼模型以及本文提出的關(guān)鍵詞?字符編碼模型。

2.2.1 基于字符級別編碼

基于字符級別編碼模型是將按照每一個中文字符進(jìn)行編碼,給定一個論文標(biāo)題文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類,可以將其表示為s=[c1c2cn],其中ci表示句子中的第i個字符,每個字符經(jīng)過式(1)的變換,獲得對應(yīng)的輸入向量。

式中Ec代表字符級別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。

2.2.2 基于詞級別編碼

基于詞級別編碼模型是將按照詞中文詞匯進(jìn)行編碼,同樣給定文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類,按照常規(guī)的中文分詞方式對其進(jìn)行切分,然后按照詞級別進(jìn)行編碼,可以將其表示為s=[w1w2wn],通過式(2)的變換,獲得對應(yīng)的輸入向量。

式中Ew代表詞級別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。

2.2.3 關(guān)鍵詞?字符編碼模型

關(guān)鍵詞?字符編碼模型主要考慮到了科技學(xué)術(shù)會議中論文數(shù)據(jù)本身的特點。由于論文數(shù)據(jù)專業(yè)性強,因此常規(guī)的分詞方式并不適用于論文數(shù)據(jù)集,如果采用基本的字詞融合,可能會產(chǎn)生很多錯誤的邊界,影響識別準(zhǔn)確率??紤]到論文數(shù)據(jù)集中有關(guān)鍵詞這一特征,例如對于文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類模型,在關(guān)鍵詞字段中包含了神經(jīng)網(wǎng)絡(luò)、文本分類等詞匯,如果不考慮關(guān)鍵詞信息,該句會被切分為

對于本文想要識別的實體,顯然產(chǎn)生了錯誤的詞匯邊界,因此要引入關(guān)鍵詞特征,構(gòu)建詞典,對于例子中的文本序列,需要將其正確切分為

獲得了正確的詞匯邊界后,在上述的文本序列中,字符層面依然通過=Ec(ci)對輸入的字符進(jìn)行變換,獲得對應(yīng)的向量。除此之外要考慮關(guān)鍵詞層面的信息,這里運用來表示一個關(guān)鍵詞信息,例如:表示關(guān)鍵詞“神經(jīng)網(wǎng)絡(luò)”,表示關(guān)鍵詞“文本分類”,通過式=Ew(wb,e)進(jìn)行變換。在實現(xiàn)的過程中,首先利用Word2Vec對文本中的關(guān)鍵詞進(jìn)行預(yù)訓(xùn)練,獲得關(guān)鍵詞的詞向量模型,在模型中提取出詞向量矩陣,然后和字符級別的向量共同輸入到LSTM網(wǎng)絡(luò)層中,在LSTM中對二者進(jìn)行融合,整體結(jié)構(gòu)如圖2所示。

圖2 Keyword-Character編碼結(jié)構(gòu)Fig.2 Structure of Keyword-Character

2.3 BiLSTM-SA層

LSTM是一種特殊的RNN,與傳統(tǒng)的RNN相比,LSTM同樣是基于xt和ht?1來 計算ht,但加入了輸入門it、 遺忘門ft以 及輸出門ot3個門和1個內(nèi)部記憶單元ct。

第t層的更新計算公式為

LSTM模型按照文本序列的輸入處理上文的信息,而下文的信息對于科技學(xué)術(shù)會議論文數(shù)據(jù)的處理也有重要意義,因此本模型采用BiLSTM,它由兩層LSTM組成,向量表示層得到的向量按照正序作為正向LSTM的輸入,即可以得到輸出序列:

再通過反向輸入的方式,得到逆向LSTM輸出序列:

將兩層的輸出進(jìn)行融合,得到包含上下文的特征hn=[hLhR]。

在本文提出的關(guān)鍵詞?字符編碼模型中,LSTM的輸入需要包含字符級關(guān)鍵詞級信息。在2.2.3節(jié)中,我們獲得了字符級向量以及關(guān)鍵詞級向量對于關(guān)鍵詞級向量同樣通過式(3)進(jìn)行變換獲得LSTM的單元但不需要輸出門,因為最終的預(yù)測是以字符為單位,因此在詞級別不需要進(jìn)行輸出。

BiLSTM在可以考慮到上下文的信息,但對于全局信息無法充分的表達(dá),因此本模型將自注意力機制作為BiLSTM模塊的補充,提高命名實體識別的準(zhǔn)確率。

Attention的計算如式(5)所示。Q、K、V三個矩陣均來自同一輸入,首先計算Q與K之間的點乘,然后除以一個尺度標(biāo)度dk,然后將其結(jié)果歸一化,再乘以矩陣V就得到權(quán)重求和的表示。由于Attention本身就考慮到了全局的輸入,因此直接利用字符級別編碼進(jìn)行輸入。

獲得了BiLSTM和Attention的輸出之后,LSTM的輸出為h=[h1h2hn]。

Attention層的輸入為字符編碼的向量,輸出通過式(5)的計算后,輸出為a=[a1a2an],然后對這兩個輸出進(jìn)行融合操作,假設(shè)BiLSTM-SA層的輸出為yn,在進(jìn)行融合操作時采用歸一化求和的形式,即

2.4 CRF層

在預(yù)測當(dāng)前標(biāo)簽時,CRF通常可以產(chǎn)生更高的標(biāo)記精度。由于論文數(shù)據(jù)相鄰字符之間有較強的依賴關(guān)系,因此,在模型的最后一層,利用CRF來對前序?qū)又械玫降娜诤咸卣餍畔⑦M(jìn)行解碼。

我們獲得LSTM-SA層的序列輸出為y=[y1y2yn],CRF的標(biāo)記過程為

式中:Oi,yi表示第i個單詞標(biāo)記為yi個標(biāo)簽的概率;Ti,j表示由標(biāo)簽轉(zhuǎn)移到標(biāo)簽的概率。CRF在語句S中標(biāo)記序列的概率為

最終的解碼階段通過CRF中的標(biāo)準(zhǔn)Viterbi算法,預(yù)測出最優(yōu)的命名實體識別序列。

3 實驗結(jié)果

本節(jié)進(jìn)行實驗并對結(jié)果進(jìn)行分析。首先介紹算法的評價指標(biāo)和實驗參數(shù),然后描述了在該評價指標(biāo)和參數(shù)下KCLA算法的實驗結(jié)果,并和其他網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了對比。

3.1 評價指標(biāo)

本實驗使用準(zhǔn)確率(precision)、召回率(recall)以及F1值作為科技學(xué)術(shù)會議論文命名實體識別對比實驗的評價指標(biāo)。

準(zhǔn)確率P、召回率R、F1值的公式分別為

式中:TP表示實際為真且預(yù)測為真的個數(shù);FP表示實際為假但預(yù)測為真的個數(shù);FN為實際為真但預(yù)測為假的個數(shù)。

3.2 實驗采用數(shù)據(jù)集

本實驗中,利用scrapy爬蟲框架,對知網(wǎng)上的論文數(shù)據(jù),按照不同的領(lǐng)域進(jìn)行了爬取,利用按照領(lǐng)域爬取的數(shù)據(jù)進(jìn)行訓(xùn)練及測試。實驗中,獲取了信息科學(xué)和機械工業(yè)分類下的論文數(shù)據(jù)各20 000條,按照8∶2的比例構(gòu)建訓(xùn)練集和測試集,將命名實體定義為研究技術(shù)(TEC)、研究問題(PRO)、研究形式(MOD) 3類實體,然后對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)注,數(shù)據(jù)集標(biāo)注后數(shù)據(jù)分布情況如表1、2所示。

表1 信息科技領(lǐng)域數(shù)據(jù)集分布情況Table 1 Distribution of data sets in the field of information technology

表2 機械工業(yè)領(lǐng)域數(shù)據(jù)集分布情況Table 2 Distribution of data sets in the field of machinery industry

3.3 實驗結(jié)果

在本文實驗中,KCLA算法的關(guān)鍵詞的特征向量維度設(shè)置為50,LSTM的隱藏層維度為128,batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.001,dropout為0.5,優(yōu)化器使用Adam。

本節(jié)使用IDCNN、IDCNN+CRF、BiLSTM、BiLSTM+CRF以及Lattice-LSTM這幾種算法進(jìn)行對比實驗,實驗結(jié)果在信息科學(xué)數(shù)據(jù)集下如表3所示,在機械工業(yè)數(shù)據(jù)集下如表4所示。

表3 信息科學(xué)分類論文數(shù)據(jù)不同算法的對比實驗Table 3 Comparative experiment of different algorithms in information science papers

表4 機械工業(yè)分類論文數(shù)據(jù)不同算法的對比實驗Table 4 Comparative experiment of different algorithms in mechanical industry papers

根據(jù)表3可以看出,在信息科學(xué)數(shù)據(jù)集中,本文提出的KCLA算法在性能方面要優(yōu)于對比算法。首先,IDCNN是CNN卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn),它通過引入空洞卷積的概念,共享參數(shù)防止過擬合。IDCNN+CRF則在IDCNN的基礎(chǔ)上加入CRF,通過Viterbi算法,預(yù)測出全局最優(yōu)的標(biāo)注序列。CNN的優(yōu)點在于時間復(fù)雜度相對較低,但準(zhǔn)確率不及以BiLSTM為主體的算法。對比算法中,BiLSTM+CRF同時考慮到上下文的信息和字符之間的關(guān)聯(lián),因此效果相對較好,但其并沒有挖掘到潛在詞級別的語義信息,KCLA算法通過融合關(guān)鍵詞的特征,對關(guān)鍵詞信息進(jìn)行預(yù)訓(xùn)練獲得對應(yīng)的詞向量,獲取到了文本中潛在的語義信息、準(zhǔn)確率、召回率、F1值均有一定程度的提高。

根據(jù)表4可以看出,在機械工業(yè)數(shù)據(jù)集的對比算法中,KCLA算法也取得了最好的識別效果。以LSTM為主體框架的算法的效果仍然優(yōu)于IDCNN算法,其中Lattice LSTM對比BiLSTM+CRF沒有明顯的提升,主要原因在于其利用通用領(lǐng)域的詞向量,可能會產(chǎn)生錯誤的詞匯邊界,因此影響了識別效果。

圖3描述在信息科學(xué)數(shù)據(jù)訓(xùn)練過程中l(wèi)oss的變化趨勢,圖4給出在第一個epoch中l(wèi)oss隨batch的變化趨勢。

圖3 loss隨epoch的變化趨勢Fig.3 Trend of loss with epoch

圖4 loss隨batch的變化趨勢Fig.4 Trend of loss with batch

根據(jù)圖3可以看出,epoch到達(dá)10時基本收斂。本文實驗中將訓(xùn)練epoch參數(shù)設(shè)置為20,但設(shè)置了提前終止條件:如果兩個周期內(nèi)驗證集準(zhǔn)確率沒有提升,則提前停止訓(xùn)練。在實驗中訓(xùn)練到第10個epoch時,提前停止。

根據(jù)圖4可以看出,loss在第一個epoch中快速下降。在機械工業(yè)數(shù)據(jù)集中的loss變化與信息科學(xué)領(lǐng)域趨勢相同。

3.4 網(wǎng)絡(luò)參數(shù)對于模型性能的影響

3.4.1 LSTM 隱藏層參數(shù)對識別效果的影響

將LSTM的隱藏層維度設(shè)置不同數(shù)值進(jìn)行實驗,確定其對論文數(shù)據(jù)命名實體識別效果的影響,圖5和圖6分別給出隱藏層維度對信息科學(xué)和機械工業(yè)數(shù)據(jù)識別效果的影響。

圖5 隱藏層維度對信息科學(xué)數(shù)據(jù)識別效果的影響Fig.5 Influence of hidden dimension in the information science data

圖6 隱藏層維度對機械工業(yè)數(shù)據(jù)識別效果的影響Fig.6 Influence of hidden dimension in the machinery industry data

根據(jù)圖5可以看出,在信息科學(xué)數(shù)據(jù)集中,隱藏層維度分別設(shè)置為 32、64、128、256、512。識別的各項評價指標(biāo)開始隨著隱藏層維度的增大而升高,128維時獲得最好的識別效果,對比32維的識別效果,128維的識別準(zhǔn)確率、召回率、F1值分別提升了約16%、8%、12%,可見隱藏層維度是影響命名實體識別效果的重要參數(shù)。但隨著維度的繼續(xù)增加,識別的效果并沒有提升,甚至有輕微幅度的下降。

根據(jù)圖6可以看出,在機械工業(yè)數(shù)據(jù)集中,隱藏層維度在128維和256維時都獲得了很好的識別效果。對比32維時,128維的準(zhǔn)確率、召回率、F1值分別提高了約9%、7%、8%。1到達(dá)512維時有很微小的下降,結(jié)合圖5、6可以得出結(jié)論:當(dāng)隱藏層維度較低時,KCLA不足以充分的學(xué)習(xí)到文本中的特征,影響了識別的效果。但如果維度設(shè)置的過高,可能導(dǎo)致過擬合現(xiàn)象,導(dǎo)致識別效果下降。

3.4.2 batch size參數(shù)對識別效果的影響

將batch size設(shè)置不同數(shù)值進(jìn)行實驗,確定其對論文數(shù)據(jù)命名實體識別效果的影響,圖7、8分別給出batch size對信息科學(xué)和機械工業(yè)數(shù)據(jù)識別效果的影響。

圖7 batch size對信息科學(xué)數(shù)據(jù)識別效果的影響Fig.7 Influence of batch size in the information science data

根據(jù)圖7可以看出,在信息科學(xué)數(shù)據(jù)集下,從F1值來看,batch size為64時,識別效果最好,但和其他size相比,效果波動幅度很小,并沒有明顯的差異。

根據(jù)圖8可以看出,在機械工業(yè)數(shù)據(jù)集中,F(xiàn)1值在32時獲得了最好的識別效果,和在信息科學(xué)數(shù)據(jù)集中一樣,在batch size從32增加到160的整個過程中,只有小幅度的變化。同時,準(zhǔn)確率、召回率、F1值會有一定的波動,并沒有在某一個size下共同取得最好的效果。結(jié)合圖7、8可以得出結(jié)論,參數(shù)batch size對于KCLA算法影響較小。

圖8 batch size對機械工業(yè)數(shù)據(jù)識別效果的影響Fig.8 Influence of batch size in the machinery industry data

4 結(jié)束語

本文針對科技學(xué)術(shù)會議論文數(shù)據(jù),提出了結(jié)合關(guān)鍵詞?字符LSTM和注意力機制的命名實體識別算法(KCLA),對學(xué)術(shù)會議中包含的論文信息進(jìn)行實體定義,對數(shù)據(jù)集按照實體定義進(jìn)行標(biāo)注,然后利用KCLA算法對實體進(jìn)行識別。其中KCLA算法模型由向量表示層、BiLSTM-SA層和CRF層構(gòu)成。實驗數(shù)據(jù)表明,KCLA算法可以對科技學(xué)術(shù)會議中論文數(shù)據(jù)的命名實體進(jìn)行有效的識別。通過對比實驗,將KCLA與IDCNN, BiLSTM等算法進(jìn)行比較,KCLA算法在科技學(xué)術(shù)會議論文數(shù)據(jù)集中有更好的表現(xiàn)。基于識別出的命名實體,結(jié)合論文數(shù)據(jù)中結(jié)構(gòu)化的數(shù)據(jù)中獲取到的關(guān)聯(lián)關(guān)系,可以對學(xué)術(shù)會議數(shù)據(jù)構(gòu)建知識圖譜和精準(zhǔn)畫像,更加直觀形象地展示出科技學(xué)術(shù)會議中潛在的語義信息,為科研人員進(jìn)行科研信息的獲取以及進(jìn)行科研決策提供良好的數(shù)據(jù)支撐。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产99热| 日韩经典精品无码一区二区| 午夜天堂视频| 亚洲天堂视频在线观看| 日韩欧美中文在线| 一级毛片高清| 国产精品9| 视频国产精品丝袜第一页| 最新亚洲人成网站在线观看| 国产第一页第二页| 992Tv视频国产精品| 人妻丝袜无码视频| 97视频免费在线观看| 日本欧美视频在线观看| 国产高清在线观看91精品| 国产成人无码AV在线播放动漫| 免费a级毛片视频| 久久精品国产免费观看频道| 蜜桃臀无码内射一区二区三区| 欧美人人干| 久久黄色视频影| 国产人前露出系列视频| 亚洲无码37.| 中文字幕在线视频免费| 欧美人人干| 国产视频久久久久| 亚洲日本中文字幕天堂网| 日韩欧美一区在线观看| 亚洲 欧美 日韩综合一区| 免费无码在线观看| 亚洲欧美在线看片AI| 性欧美精品xxxx| 国产精品v欧美| 欧美一级在线播放| 久久一本日韩精品中文字幕屁孩| 国产成人高清精品免费软件 | 亚洲三级色| 天堂在线视频精品| 国产剧情国内精品原创| 99热这里只有精品国产99| 欧美日韩91| 青青草一区二区免费精品| 国产精品亚洲专区一区| 在线免费a视频| 国产白浆一区二区三区视频在线| 人禽伦免费交视频网页播放| 无码国产偷倩在线播放老年人 | 特级毛片8级毛片免费观看| 呦系列视频一区二区三区| 亚洲高清中文字幕| 亚洲人成色77777在线观看| 精品撒尿视频一区二区三区| 国产一区二区三区免费观看| 自偷自拍三级全三级视频| 国产精品999在线| 免费国产无遮挡又黄又爽| 精品无码一区二区三区在线视频| 五月六月伊人狠狠丁香网| 久久semm亚洲国产| 久久久久国产精品免费免费不卡| 在线国产毛片手机小视频| 久久久久青草线综合超碰| 国产精欧美一区二区三区| 少妇精品久久久一区二区三区| 美女国产在线| 久久久波多野结衣av一区二区| 99国产精品免费观看视频| 99热国产这里只有精品无卡顿"| 精品成人一区二区三区电影| 国产男女XX00免费观看| 欧美亚洲第一页| 亚洲第一成年免费网站| 亚洲精品国产精品乱码不卞| 亚洲欧美日韩动漫| 欧美一级99在线观看国产| 久久婷婷五月综合97色| 国产激情第一页| 第一区免费在线观看| 国产无套粉嫩白浆| 在线观看视频一区二区| 成人一级黄色毛片| 日本日韩欧美|