999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的科研人才領(lǐng)域命名實(shí)體識別

2021-11-22 08:53:34王修來欒偉先
關(guān)鍵詞:模型

王 俊,王修來,欒偉先,葉 帆

(1.南京信息工程大學(xué) 管理工程學(xué)院,江蘇 南京 210044;2.南京傳媒學(xué)院 傳媒技術(shù)學(xué)院,江蘇 南京 211172;3.中國人民解放軍31102部隊(duì),江蘇 南京 210002)

0 引 言

命名實(shí)體識別(named entity recognition,NER)是自然語言處理技術(shù)(natural language processing,NLP)中的一個(gè)重要領(lǐng)域,也是信息抽取、句法分析、文本分類、機(jī)器翻譯和情感分析的關(guān)鍵[1],在自然語言處理中占有重要和基礎(chǔ)的地位。命名實(shí)體識別的核心內(nèi)容是找出一套高效可用的模型或算法以實(shí)現(xiàn)對文本中人名、地名、時(shí)間等實(shí)體要素的準(zhǔn)確識別與抽取[2]。對于英文來說,由于英語中的命名實(shí)體具有比較明顯的形式標(biāo)志(即實(shí)體中的每個(gè)詞的第一個(gè)字母要大寫),所以實(shí)體邊界識別相對容易,此時(shí)任務(wù)的重點(diǎn)只需要確定實(shí)體的類別。然而和英語相比,中文命名實(shí)體識別任務(wù)更加復(fù)雜,而且相對于實(shí)體類別標(biāo)注子任務(wù),實(shí)體邊界的識別與分類更加困難。

命名實(shí)體識別的方法主要有基于詞典的方法、基于規(guī)則和統(tǒng)計(jì)的方法以及基于深度學(xué)習(xí)的方法。基于詞典的方法主要依賴于大量人工設(shè)定的字典數(shù)據(jù),識別效果在特定的語料上具有較好的表現(xiàn),但是其與識別的領(lǐng)域或文本緊密相關(guān),當(dāng)字典無法與識別主體匹配時(shí),其識別效率低下,并且制定好的字典往往無法進(jìn)行跨領(lǐng)域遷移[3]。基于規(guī)則和統(tǒng)計(jì)的方法從原理上來說就是一種序列化特征標(biāo)注方法,對每個(gè)詞使用若干類候選標(biāo)簽進(jìn)行定義,并記錄每個(gè)詞的位置信息,采用HMM、條件隨機(jī)場(conditional random field,CRF)或者SVM等分類模型算法進(jìn)行詞的分類與標(biāo)注,從而確定實(shí)體類型[4]。近年來,基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別方法陸續(xù)被提出,通過使用不同類型神經(jīng)網(wǎng)絡(luò)進(jìn)行文本結(jié)構(gòu)序列的特征提取,并結(jié)合CRF進(jìn)行最優(yōu)序列求解。該方法相較于以前的方法在識別性能和效果上有顯著提升[5]。最近,在NLP領(lǐng)域中使用預(yù)訓(xùn)練語言模型方法取得了突破性進(jìn)展,其中代表性的模型包括ELMo、OpenAI GPT和BERT[6-8]。在這三類代表性的預(yù)訓(xùn)練模型中,BERT在多個(gè)文本識別指標(biāo)上均達(dá)到目前最先進(jìn)水平。

因此,文中基于BERT模型,結(jié)合BiLSTM對上下文關(guān)系的記憶能力和CRF對標(biāo)注規(guī)則的學(xué)習(xí)能力,在對文本語義信息完整保留的基礎(chǔ)上,提升模型的上下文特征提取能力,有效解決中文命名實(shí)體的邊界劃分問題,提升模型對實(shí)體的識別準(zhǔn)確率。此外,對科研人才領(lǐng)域命名實(shí)體進(jìn)行了細(xì)化分類,在包含6 134條科研咨詢語料庫中進(jìn)行了訓(xùn)練和參數(shù)微調(diào),并在實(shí)際爬取的科研數(shù)據(jù)上取得了較好的識別效果。

1 科研人才領(lǐng)域命名實(shí)體分類與標(biāo)注

如今,學(xué)術(shù)類數(shù)據(jù)在互聯(lián)網(wǎng)上呈現(xiàn)出飛速的增長。截至2020年,全球網(wǎng)絡(luò)上已發(fā)表的科研論文總數(shù)已接近4億余篇,參與科學(xué)研究的學(xué)者數(shù)量也已達(dá)到了數(shù)千萬人,如何在海量的數(shù)據(jù)中客觀準(zhǔn)確地刻畫出科研人才,并挖掘出科研人才的研究需求變得十分迫切。科研人才分析研究不僅有助于對科研人才的個(gè)人信息、科研興趣、水平評估等方面的情況進(jìn)行掌握,同時(shí)也有助于科研人才間開展高效的科研轉(zhuǎn)換與對接、學(xué)術(shù)交流和推薦。隨著人工智能和大數(shù)據(jù)時(shí)代的到來,科研人才互相從以往的數(shù)據(jù)信息查詢方法和統(tǒng)計(jì)學(xué)方法逐步轉(zhuǎn)向了自然語言處理和機(jī)器學(xué)習(xí)等方向。而從科研人才數(shù)據(jù)分析角度來看,科研人才領(lǐng)域命名實(shí)體識別是解決準(zhǔn)確識別與科研人才直接相關(guān)信息的關(guān)鍵。

近些年來,用戶畫像技術(shù)的研究發(fā)展十分迅速。但是,專門針對科研人才群體的命名實(shí)體識別與領(lǐng)域畫像構(gòu)建仍然處在摸索與研究階段,通過對當(dāng)前科研人才相關(guān)文獻(xiàn)的研究,發(fā)現(xiàn)主要存在以下不足:

(1)獲取到的數(shù)據(jù)屬性較為單一,對科研人才的數(shù)據(jù)獲取大多從網(wǎng)絡(luò)上進(jìn)行爬取,網(wǎng)絡(luò)上的數(shù)據(jù)內(nèi)容往往都以偏概全,缺乏全面的數(shù)據(jù)屬性。因此需要構(gòu)建高效、可行的數(shù)據(jù)檢索與挖掘方法來進(jìn)行多維度的數(shù)據(jù)獲取,這樣才能為科研人才的準(zhǔn)確刻畫提供數(shù)據(jù)保障。

(2)在科研人才的實(shí)體識別過程中,以往的方法是采用大量的字典或元數(shù)據(jù)進(jìn)行處理,沒有對數(shù)據(jù)信息進(jìn)行有效的智能化識別與利用,因?yàn)槊麑?shí)體通常淹沒在論文的文本中或大段的文字內(nèi),在缺乏自然語言處理技術(shù)的前提下,很難對內(nèi)容中的命名實(shí)體進(jìn)行提取,從而影響了對文本挖掘的效率。

(3)在對科研人才進(jìn)行分析的主要思路還局限于統(tǒng)計(jì)分析,缺乏深層次的智能化算法應(yīng)用。同時(shí),在分析研究過程中利用分類與聚類等機(jī)器學(xué)習(xí)的研究較少,研判出的科研人才刻畫不夠準(zhǔn)確也不夠全面,無法滿足相關(guān)科研機(jī)構(gòu)對科研人才挖掘、利用和合作的迫切需求。

圖1 科研人才領(lǐng)域?qū)嶓w識別范圍

文中在科研人才領(lǐng)域命名實(shí)體識別主要針對科研人才的基本屬性和科研學(xué)術(shù)屬性進(jìn)行識別。其中基本屬性信息包括:個(gè)人基本信息、學(xué)習(xí)經(jīng)歷、職務(wù)職稱、科研成果、工作履歷等科研人才的一些基本信息,這一部分信息代表了科研人才的科研與學(xué)術(shù)成長經(jīng)歷、攻關(guān)科研能力和研究興趣方向,是為人才進(jìn)行精準(zhǔn)服務(wù)的前提基礎(chǔ)。科研學(xué)術(shù)屬性主要是科研人才在網(wǎng)絡(luò)上公開發(fā)表的科技文獻(xiàn)信息,可以通過文獻(xiàn)計(jì)量方法準(zhǔn)確識別出科研人才的研究興趣與科研水平,該部分的識別主要涵蓋了對各類期刊、學(xué)術(shù)會(huì)議等的實(shí)體識別。科研人才的基本屬性和科研學(xué)術(shù)屬性的實(shí)體識別范圍如圖1 所示。

命名實(shí)體(named entity,NE)是于1995年11月被作為一個(gè)明確的概念和研究對象提出的,通用領(lǐng)域的命名實(shí)體識別主要針對人名、機(jī)構(gòu)名和地名三大類進(jìn)行識別。隨著各個(gè)領(lǐng)域的數(shù)據(jù)挖掘和分類細(xì)化,結(jié)合科研人才領(lǐng)域命名實(shí)體識別的特點(diǎn),文中面向科研人才的基礎(chǔ)屬性和科研屬性,對該領(lǐng)域命名實(shí)體進(jìn)行了類別和標(biāo)注符號的定義,形成了7大類共計(jì)19小類的命名實(shí)體[9-10]。具體如表1所示。

表1 命名實(shí)體類別和標(biāo)注符號

由于目前通用NER主要是識別人名、地名和機(jī)構(gòu)名,在表1中對科研人才領(lǐng)域的命名實(shí)體進(jìn)行了擴(kuò)充和細(xì)化,擴(kuò)充之后的命名實(shí)體可以較好地滿足面向科研人才的數(shù)據(jù)挖掘,主要擴(kuò)充的命名實(shí)體包括專業(yè)學(xué)術(shù)會(huì)議、科研期刊和科研項(xiàng)目。

2 BERT-BiLSTM-CRF模型

文中設(shè)計(jì)的模型主要有三個(gè)部分,分別是預(yù)訓(xùn)練的BERT模型、BiLSTM層以及CRF層,具體如圖2所示。本模型首先通過BERT將句子中的單字進(jìn)行向量化表示,而后將包含字向量序列輸入至BiLSTM中進(jìn)一步感知上下文的語境,最后通過CRF層將最大概率的序列表達(dá)進(jìn)行輸出。本模型相較于其他深度學(xué)習(xí)的命名實(shí)體識別模型最大的差異在于使用了Google在2018年提出的BERT預(yù)訓(xùn)練模型,該模型在大量語料庫上進(jìn)行了訓(xùn)練,在實(shí)際使用過程中僅需要進(jìn)行參數(shù)的微調(diào)。因此可以將關(guān)注點(diǎn)集中在BiLSTM和CRF的參數(shù)訓(xùn)練上,大大減少對單字的語料訓(xùn)練時(shí)間,提高了識別效率。

2.1 BERT預(yù)訓(xùn)練模型

BERT是“Bidirectional Encoder Representation from Transformers”的簡稱[8],是一種基于微調(diào)的多層雙向 Transformer 編碼器,其中的 Transformer 與原始的 Transformer 是相同的,并且實(shí)現(xiàn)了兩個(gè)版本的 BERT 模型,即BERT Base和BERT Large,BERT 模型兩個(gè)版本的本質(zhì)是一樣的;區(qū)別是參數(shù)的設(shè)置。BERT Base作為基線模型,在此基礎(chǔ)上優(yōu)化模型,進(jìn)而出現(xiàn)了BERT Large。BERT相較于Word2vec、ELMO和GPT等模型的主要不同之處在于其利用雙向語言模型進(jìn)行預(yù)訓(xùn)練,并通過fine-tuning模式進(jìn)行參數(shù)微調(diào)從而解決具體的下游任務(wù)。BERT 模型對于給定句子中的字詞,其輸入表示包含了三部分向量求和組成,具體如圖3所示。

圖2 BERT-BiLSTM-CRF模型架構(gòu)

圖3 BERT模型向量構(gòu)成

其中:詞向量中的第一個(gè)單詞是CLS標(biāo)志,用于之后的分類任務(wù),對于非分類任務(wù)可以忽略;句向量用于區(qū)分不同句子,便于預(yù)訓(xùn)練模型做句子級別的分類任務(wù);位置向量是通過模型學(xué)習(xí)得到的序列位置。

BERT模型使用Masked LM 和 Next Sentence Prediction這兩個(gè)新的無監(jiān)督預(yù)測任務(wù)對 BERT進(jìn)行預(yù)訓(xùn)練[11]。Masked LM (MLM)通過隨機(jī)遮擋部分字符(默認(rèn)為全文中的15%字符),在這15%遮擋字符中80%被遮擋詞用符號masked token代替,10%被遮擋詞用隨機(jī)詞替換,10%被遮擋詞不變。Next Sentence Prediction用于對句子級別任務(wù)的學(xué)習(xí),通過隨機(jī)將數(shù)據(jù)劃分為同等大小的兩部分:一部分?jǐn)?shù)據(jù)中的兩個(gè)語句對是上下文連續(xù)的,另一部分?jǐn)?shù)據(jù)中的兩個(gè)語句對是上下文不連續(xù)的,然后讓模型來識別這些語句對中,哪些語句對是連續(xù)的,哪些語句對不連續(xù)。BERT模型通過進(jìn)一步增加詞向量模型泛化能力,充分描述了字符級、詞級、句子級甚至句間關(guān)系特征[12]。BERT 預(yù)訓(xùn)練語言模型使用Transformer 特征抽取器,Transformer是目前自然語言處理領(lǐng)域流行的網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)單元僅由自注意力機(jī)制(Self-attention)和前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward network)構(gòu)成,單元可以連續(xù)堆疊。其結(jié)構(gòu)如圖4所示。

圖4 Transform層次結(jié)構(gòu)

在預(yù)訓(xùn)練BERT模型中,其損失函數(shù)主要由兩部分組成,第一部分是來自 MaskLM 的單詞級別分類任務(wù),另一部分是句子級別的分類任務(wù)。通過將這兩個(gè)任務(wù)進(jìn)行聯(lián)合學(xué)習(xí),即可將 BERT模型學(xué)習(xí)到的文字表征既包含有分詞級別的信息,同時(shí)也包含有句子級別的高層次語義信息。具體的損失函數(shù)形式如下:

L(θ,θ1,θ2)=L1(θ,θ1)+L2(θ,θ2)

(1)

其中,θ是BERT模型中編碼部分的參數(shù),θ1是 MaskLM訓(xùn)練任務(wù)中在編碼上所連接的輸出層中參數(shù),θ2是句子級別預(yù)測中在編碼連接上的分類器參數(shù)。因此,在上述的損失函數(shù)表述中,如果被遮蓋的字詞集合為S,該問題的損失函數(shù)為:

(2)

在句子級別的預(yù)測任務(wù)中,該問題的損失函數(shù)為:

(3)

因此,將這兩個(gè)任務(wù)進(jìn)行聯(lián)合后的損失函數(shù)形式是:

通過損失函數(shù)的迭代和機(jī)器學(xué)習(xí)訓(xùn)練進(jìn)一步提升了BERT模型的智能識別準(zhǔn)確度,預(yù)訓(xùn)練后的模型基本達(dá)到通用領(lǐng)域識別水平[13-14]。

2.2 BiLSTM模型

LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)中的一種,其全稱為Long Short-Term Memory,即長短期記憶網(wǎng)絡(luò)。LSTM適合于處理和預(yù)測時(shí)間序列中間隔和延遲較長的問題,近年來在語音處理、行為識別、視頻分析等領(lǐng)域得到了廣泛應(yīng)用。BiLSTM在LSTM基礎(chǔ)之上將前向LSTM與后向LSTM進(jìn)行了組合,組合后的模型在自然語言處理任務(wù)中都常被用來建模上下文信息。LSTM是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中存在的“梯度消失”問題而被提出來的。相比于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),LSTM主要增加了三個(gè)控制門:輸入門、輸出門和遺忘門。其中,輸入門主要是學(xué)習(xí)何時(shí)讓激活傳入存儲單元,而輸出門主要是學(xué)習(xí)何時(shí)讓激活傳出存儲單元,遺忘門主要是學(xué)習(xí)何時(shí)讓上一個(gè)時(shí)刻的存儲單元傳入下一個(gè)時(shí)刻的存儲單元。假如去掉三個(gè)控制門(亦或者將三個(gè)控制門的值設(shè)定為常數(shù)1),那么LSTM即可退化為簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)[15-17]。LSTM的隱藏層結(jié)構(gòu)如圖5所示。

圖5 LSTM的隱藏層結(jié)構(gòu)

LSTM隱藏層的結(jié)構(gòu)中主要包括下面幾個(gè)要素:

(1)t時(shí)刻的輸入詞xt;

(2)細(xì)胞的狀態(tài)ct;

(4)隱層的狀態(tài)ht;

(5)遺忘門ft;

(6)記憶門it;

(7)輸出門ot。

LSTM中的無用信息將被丟棄,并且在每個(gè)時(shí)間點(diǎn)都將會(huì)輸出隱層的狀態(tài)ht,其中遺忘、記憶與輸出由當(dāng)前輸入xt與通過上個(gè)時(shí)間點(diǎn)的隱層狀態(tài)ht-1計(jì)算出的遺忘門ft,記憶門it和輸出門ot來控制。具體來說,LSTM網(wǎng)絡(luò)結(jié)構(gòu)可以形式化表示為:

ft=σ(Wf·[ht-1,xt]+bf)

(5)

it=σ(Wi·[ht-1,xt]+bi)

(6)

Gt=tanh(Wc·[ht-1,xt]+bc)

(7)

Ct=ft·Ct-1+it·Gt

(8)

ot=σ(Wo·[ht-1,xt]+bo)

(9)

ht=ot·tanh(Ct)

(10)

2.3 CRF算法

條件隨機(jī)場(CRF)是一種判別式概率模型,是馬爾可夫隨機(jī)場中的一種。CRF可以對有重疊性、復(fù)雜且非獨(dú)立的特征進(jìn)行推理和訓(xùn)練學(xué)習(xí),既能夠?qū)⑸舷挛牡男畔⒆鳛樘卣鬟M(jìn)行充分的利用,也可以將外部特征進(jìn)行添加。假設(shè)輸入的觀測序列為x,輸出的觀測序列為y,則CRF 模型的條件概率為:

其中,相鄰輸出標(biāo)記之間的轉(zhuǎn)移特征函數(shù)為trj(yi+1,yi,xi);狀態(tài)特征函數(shù)為sk(yi,xi);規(guī)范化函數(shù)為Z;超參數(shù)為λj和uk。通過維特比算法可獲得條件概率分布,并能生成觀測序列對應(yīng)的標(biāo)注序列,從而完成命名實(shí)體識別以序列為核心的自然語言處理任務(wù)。

3 實(shí)驗(yàn)過程與分析

3.1 實(shí)驗(yàn)環(huán)境

文中所有實(shí)驗(yàn)的軟件環(huán)境如表2所示。

表2 實(shí)驗(yàn)軟件環(huán)境

3.2 實(shí)驗(yàn)過程

BERT-BiLSTM-CRF模型在訓(xùn)練時(shí)采用固定的BERT參數(shù)配置,只是微調(diào)了BiLSTM-CRF參數(shù)的特征提取參數(shù)和方法。為了驗(yàn)證該模型的效果,分別對比了基于CRF、BiLSTM 、BiLSTM-CRF以及CNN-BiLSTM-CRF的四種命名實(shí)體識別方法。在實(shí)驗(yàn)前,搜集了包含6 134條科研咨詢語料庫,語料庫中包含有科研人員姓名、科研履歷、科研學(xué)術(shù)及成果情況等。對于語料數(shù)據(jù)的劃分,80%用于訓(xùn)練模型,10%用于驗(yàn)證集,10%用于測試集。訓(xùn)練集共包含4 900個(gè)句子約1.6萬個(gè)命名實(shí)體,測試集和測試集包括2 234個(gè)句子約0.5萬個(gè)命名實(shí)體。為了避免單一類別語料造成的訓(xùn)練偏差,在資訊選擇上盡量進(jìn)行了均衡選取,語料庫中各類別命名實(shí)體對象的占比如圖6所示。

圖6 語料庫不同實(shí)體類數(shù)量

采用的BERT模型為Google在網(wǎng)絡(luò)上提供下載并開源的中文版BERT預(yù)訓(xùn)練模型BERT-Chinese,具體參數(shù)如下:層數(shù)共有12 層, 隱藏層共有768維,模型采用12頭模式,共計(jì)包含約1.1億個(gè)可調(diào)參數(shù)。BERT訓(xùn)練時(shí),其采用的最大序列長度為512, 訓(xùn)練的batch尺寸為64,模型中的學(xué)習(xí)率和Dropout 過程概率參數(shù)均使用默認(rèn)值。BiLSTM中隱藏層的維數(shù)為256,訓(xùn)練采用Adam的優(yōu)化方式,訓(xùn)練數(shù)據(jù)片為32個(gè)字,學(xué)習(xí)率為0.001,Dropout過程概率為0.6。CRF 層均采用其默認(rèn)的參數(shù)設(shè)置,其鏈長設(shè)定為256。

3.3 評判指標(biāo)

目前命名實(shí)體識別的主流標(biāo)注策略有三類,分別是BIO模式、BIOE模式和BIOES模式。文中采用的是BIO的標(biāo)注模式,在該模式中使用 “B”來表示實(shí)體的開始,“I”表示實(shí)體的非開始部分,“O”表示非實(shí)體的部分[18-21]。結(jié)合表1中的19小類實(shí)體,帶識別的小類標(biāo)簽共用39個(gè)。例如:“B_ADR_DM”、“I_ADR_DM”、“B_ADR_QY”、“I_ADR_QY”、“B_ADR_ZB”、“I_ADR_ZB”等。在測試過程中,只出現(xiàn)實(shí)體邊界與實(shí)體類型出現(xiàn)完全匹配時(shí),即可判斷該實(shí)體預(yù)測為正確。

對命名實(shí)體識別的評價(jià)指標(biāo)主要有精確率(P)、召回率(R)和F1值。其中,TP為模型正確識別的實(shí)體數(shù)量,F(xiàn)P為模型識別出的非相關(guān)實(shí)體數(shù)量,F(xiàn)N為模型未檢測出的相關(guān)實(shí)體數(shù)量,具體計(jì)算公式如下:

(12)

(13)

(14)

在對5類模型測試結(jié)果搜集和計(jì)算分析的基礎(chǔ)上,得出每一類模型的精確率、召回率和F1值,具體如表3所示。

表3 實(shí)驗(yàn)結(jié)果分析

從表3可以看到,BiLSTM-CRF雖然將BiLSTM和CRF進(jìn)行了組合使用,但是在有的單項(xiàng)指標(biāo)上沒有得到提升,這主要是由于科研語料庫的規(guī)模還欠缺,在科研咨詢語料庫中的無關(guān)文本較多,模型在學(xué)習(xí)過程中的參數(shù)優(yōu)化調(diào)整未能達(dá)到最優(yōu)。在增加了CNN和BERT之后,模型在精確率、召回率和F1值的分?jǐn)?shù)上都有了較大的提升,這也表明了循環(huán)神經(jīng)網(wǎng)絡(luò)對于文本識別效果較好,使用BERT進(jìn)行向量化之后,對于句子中的字、詞的表達(dá)更為準(zhǔn)確,且包含了上下文的語境,使得其語義信息表達(dá)也更為豐富[22-23]。7類實(shí)體在不同算法模型精確率如圖7所示。

圖7 7類命名實(shí)體識別精確率

4 結(jié)束語

針對科研領(lǐng)域人才挖掘和分析的現(xiàn)實(shí)需求,文中根據(jù)科研人才相關(guān)領(lǐng)域中的命名實(shí)體特點(diǎn),確定了7大類需識別的科研人才領(lǐng)域相關(guān)命名實(shí)體。為了提升科研人才領(lǐng)域命名實(shí)體的識別效果,采用了基于BERT模型的識別方法,同時(shí)結(jié)合BiLSTM、CRF進(jìn)一步擴(kuò)展識別效果。實(shí)驗(yàn)結(jié)果表明:在科研資訊語料的訓(xùn)練和測試中,其準(zhǔn)確率達(dá)到0.9,召回率達(dá)到0.92,取得了較好的識別效果。但是,由于目前對于科研人才相關(guān)資訊的搜集還不夠全面,導(dǎo)致模型在學(xué)習(xí)過程中參數(shù)優(yōu)化程度還不夠,部分參數(shù)和語料還需要進(jìn)行手工標(biāo)注和微調(diào),存在一定的工作量,這也制約了對科技人才領(lǐng)域命名實(shí)體識別方面的研究。同時(shí),隨著目前科研領(lǐng)域的發(fā)展,新的科研名詞層出不窮,這就需要實(shí)時(shí)搜集大量包含科技資訊的訓(xùn)練語料。因此,在以后的工作中,一方面需要加強(qiáng)語料庫的搜集和更新,另一方面也需要研究在小規(guī)模數(shù)據(jù)集和極小標(biāo)注數(shù)據(jù)下的科研人才領(lǐng)域命名實(shí)體識別。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美日韩久久综合| 69综合网| 日韩美毛片| 欧美综合区自拍亚洲综合绿色| 日韩区欧美区| 亚洲a免费| 欧美一级在线| 国内精品91| 婷婷综合色| 亚洲日韩Av中文字幕无码| 亚洲av色吊丝无码| 91视频青青草| 制服丝袜在线视频香蕉| 成人综合久久综合| 国产91丝袜在线播放动漫| 欧美精品导航| 亚洲九九视频| 国产成人无码综合亚洲日韩不卡| 乱人伦中文视频在线观看免费| 91美女视频在线| 色综合久久88| 国产呦精品一区二区三区网站| 人妻无码一区二区视频| 免费国产小视频在线观看| 日本成人在线不卡视频| 亚洲永久色| 国产一在线观看| 全部毛片免费看| 亚洲成人精品在线| 日本AⅤ精品一区二区三区日| 狠狠色香婷婷久久亚洲精品| 在线欧美一区| 国产91无毒不卡在线观看| 免费高清a毛片| 四虎永久在线精品影院| 精品国产网站| 伊人色综合久久天天| 亚洲天堂视频网站| 国产精品视屏| a在线亚洲男人的天堂试看| 国产黄色视频综合| 欧美日韩国产在线播放| 国产chinese男男gay视频网| 免费视频在线2021入口| 午夜无码一区二区三区| 国产人成乱码视频免费观看| 亚洲色成人www在线观看| 精品乱码久久久久久久| 国内自拍久第一页| 午夜福利在线观看入口| 1024你懂的国产精品| 色妞www精品视频一级下载| 日韩欧美国产三级| 国产日本欧美亚洲精品视| 中文字幕中文字字幕码一二区| 亚洲国产清纯| 国产免费网址| 久久这里只有精品免费| 欧美有码在线| 一区二区三区国产精品视频| 中美日韩在线网免费毛片视频 | Aⅴ无码专区在线观看| 亚洲国产精品一区二区高清无码久久| 人妻夜夜爽天天爽| 看看一级毛片| 国产精品视频白浆免费视频| 91人妻日韩人妻无码专区精品| 欲色天天综合网| 国产啪在线| 男人天堂亚洲天堂| 白丝美女办公室高潮喷水视频| 好紧好深好大乳无码中文字幕| 中字无码av在线电影| 91九色国产在线| 国产在线一二三区| 亚洲无码高清一区| 国产一区二区三区在线无码| 亚洲自偷自拍另类小说| 精品无码日韩国产不卡av| 国产三级精品三级在线观看| 国产欧美精品专区一区二区| 欧美在线视频a|