999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT-BiLSTM-CRF模型的油氣領(lǐng)域命名實(shí)體識(shí)別

2024-01-29 10:01:28高國(guó)忠李宇華遠(yuǎn)鵬吳文曠
關(guān)鍵詞:語(yǔ)義文本模型

高國(guó)忠,李宇,華遠(yuǎn)鵬,吳文曠

1.長(zhǎng)江大學(xué)地球物理與石油資源學(xué)院,湖北 武漢 430100 2.中國(guó)石油勘探開發(fā)研究院,北京 100083

隨著油氣勘探開發(fā)的深入和石油工程技術(shù)的發(fā)展,石油公司在勘探、地質(zhì)和測(cè)井等各個(gè)環(huán)節(jié)積累的油氣資源數(shù)據(jù)呈爆發(fā)式增長(zhǎng),這些數(shù)據(jù)除了具有大體量、多樣性、時(shí)效性、準(zhǔn)確性和低密度價(jià)值的5個(gè)特點(diǎn)外[1],油氣數(shù)據(jù)通常還涉及到多源、多模態(tài)等特點(diǎn)。由于缺乏統(tǒng)一的語(yǔ)義表示,多源油氣數(shù)據(jù)呈現(xiàn)的異構(gòu)特征,數(shù)據(jù)整合共享和挖掘分析難度較大。例如,全球盆地、油氣田、油氣藏和井資料數(shù)量數(shù)不勝數(shù),質(zhì)量參差不齊,各類油氣論文書籍中文本表示不規(guī)范、格式不統(tǒng)一,導(dǎo)致無(wú)法快速精準(zhǔn)定位盆地、油氣田等領(lǐng)域?qū)S忻~,無(wú)法根據(jù)非結(jié)構(gòu)化資料進(jìn)行及時(shí)高效的油氣資源評(píng)估和開發(fā)方案設(shè)計(jì)。

解決上述問(wèn)題的關(guān)鍵在于如何通過(guò)知識(shí)工程技術(shù)構(gòu)建一種計(jì)算機(jī)可理解、可計(jì)算、可推理的語(yǔ)義網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)知識(shí)的有效組織和管理[2]。隨著知識(shí)工程技術(shù)不斷完善,谷歌公司在2012年5月17日正式提出了知識(shí)圖譜(knowledge graph,KG)[3],意圖提升搜索返回的答案質(zhì)量和用戶查詢的效率[4],它把復(fù)雜的知識(shí)領(lǐng)域通過(guò)數(shù)據(jù)挖掘和信息處理以圖的形式顯示出來(lái),揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律[5],直觀描述了事物之間的聯(lián)系。規(guī)模大、數(shù)據(jù)全的知識(shí)圖譜主要包括信息抽取、知識(shí)融合和知識(shí)加工三項(xiàng)技術(shù);而油氣領(lǐng)域命名實(shí)體識(shí)別(name entity recognition,NER)[6]是油氣信息抽取的核心任務(wù)之一,其主要目的是從半結(jié)構(gòu)化或非結(jié)構(gòu)化的油氣文本數(shù)據(jù)中抽取所需要的實(shí)體信息,并為實(shí)體所屬類別自動(dòng)打上標(biāo)簽[7]。命名實(shí)體識(shí)別在知識(shí)圖譜、信息檢索、文本理解、語(yǔ)義分析和本體構(gòu)建等領(lǐng)域具有廣泛的研究和應(yīng)用[8-9],其重要性也越來(lái)越明顯。

命名實(shí)體識(shí)別研究歷史進(jìn)程大致分為以下幾個(gè)階段:①基于規(guī)則和詞典的方法需要領(lǐng)域內(nèi)專家構(gòu)建一個(gè)數(shù)量大且全面的知識(shí)庫(kù)和詞典[10],觀察實(shí)體組成成分,依據(jù)語(yǔ)法規(guī)則總結(jié)出模板。該方法在其特定語(yǔ)料上識(shí)別效果較高,但這些規(guī)則過(guò)分依賴具體領(lǐng)域和具體語(yǔ)言,難以覆蓋所有方面,容易產(chǎn)生錯(cuò)誤,存在可移植性差、代價(jià)大和建立知識(shí)庫(kù)周期長(zhǎng)等問(wèn)題。②基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法需要融合機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)的相關(guān)知識(shí)建立模型,該方法本質(zhì)是序列標(biāo)注,利用人工標(biāo)注的語(yǔ)料文本進(jìn)行有監(jiān)督訓(xùn)練。和基于規(guī)則的方法相比,該方法的實(shí)體識(shí)別效果有一定程度提升。常見(jiàn)基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法模型有:隱馬爾科夫模型(hidden markov model,HMM)[11],最大熵[12],支持向量機(jī)(support vector machine,SVM)[13]和條件隨機(jī)場(chǎng)(conditional random fields,CRF)[14]等。其中HMM利用Viterbi算法搜索最佳標(biāo)注路徑[15],在訓(xùn)練和識(shí)別速度上相對(duì)快一點(diǎn),更適合處理像信息檢索這樣具有大量文本的應(yīng)用,如短文本命名實(shí)體識(shí)別[16];CRF為命名實(shí)體識(shí)別提供了一個(gè)特征靈活和全局最優(yōu)的標(biāo)注框架[17]。③基于深度學(xué)習(xí)的方法利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性轉(zhuǎn)化能力、向量表示能力和計(jì)算能力來(lái)獲取詞和文本的向量表示[18],減少特征工程的工作量,同時(shí)學(xué)習(xí)上下文語(yǔ)義信息來(lái)更好地完成實(shí)體識(shí)別任務(wù)。這種方法具有良好的泛化能力,并逐漸成為主流[19-30]。

針對(duì)石油領(lǐng)域?qū)嶓w識(shí)別研究,劉國(guó)強(qiáng)等[31]采用基于自然語(yǔ)言處理技術(shù)結(jié)合人工修正的方式對(duì)區(qū)塊、井、地層、儲(chǔ)集層和測(cè)井曲線等實(shí)體進(jìn)行命名實(shí)體識(shí)別;張雪英等[32]提出了基于深度信念網(wǎng)絡(luò)的地質(zhì)實(shí)體識(shí)別方法,解決了文本數(shù)據(jù)中地質(zhì)實(shí)體信息的結(jié)構(gòu)化、規(guī)范化處理問(wèn)題;鐘原等[33]提出利用BiLSTM神經(jīng)網(wǎng)絡(luò)模型提取語(yǔ)料特征、CRF做分類器,來(lái)開展石油工業(yè)領(lǐng)域的實(shí)體識(shí)別任務(wù)。雖然上述模型一定程度上完成了實(shí)體任務(wù),但存在一定缺陷:它們注重詞或者字符之間的特征,而忽略了詞的上下文語(yǔ)境[34],從而導(dǎo)致提取出來(lái)的是靜態(tài)詞向量,不能有效識(shí)別詞在不同語(yǔ)境中存在的不同語(yǔ)義信息。為了解決這一問(wèn)題,DEVLIN等[35]于2019年提出BERT預(yù)訓(xùn)練模型,旨在能夠更好地增強(qiáng)詞或者字符之間的關(guān)系特征,充分表達(dá)詞在不同語(yǔ)境中具有的不同語(yǔ)義。在此基礎(chǔ)上,本文提出一種BERT-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型,用于解決油氣領(lǐng)域命名實(shí)體識(shí)別實(shí)體特征信息提取不準(zhǔn)確和識(shí)別效率低的問(wèn)題:首先將油氣領(lǐng)域數(shù)據(jù)文本轉(zhuǎn)換成字符級(jí)別的序列,利用BERT預(yù)訓(xùn)練模型提取富有多種語(yǔ)義特征的詞向量;再將預(yù)訓(xùn)練的油氣領(lǐng)域詞向量輸入BiLSTM模型中提取上下文語(yǔ)義特征;最后通過(guò)CRF依賴規(guī)則和序列解碼能力輸出最佳的標(biāo)注結(jié)果。本文使用自建油氣領(lǐng)域數(shù)據(jù)集對(duì)BERT-BiLSTM-CRF與另外兩種實(shí)體識(shí)別模型BiLSTM-CRF和BiLSTM-Attention-CRF進(jìn)行了對(duì)照實(shí)驗(yàn),結(jié)果表明該模型在油氣領(lǐng)域命名實(shí)體識(shí)別任務(wù)中取得了不錯(cuò)的效果,三次迭代實(shí)驗(yàn)F1值都達(dá)到了90%以上。

1 BERT-BiLSTM-CRF模型框架

1.1 模型整體框架及其流程

圖1 BERT-BiLSTM-CRF模型框架圖 Fig.1 Framework of the BERT-BiLSTM-CRF model

本文提出BERT與傳統(tǒng)命名實(shí)體識(shí)別BiLSTM-CRF模型相結(jié)合的方法,其模型結(jié)構(gòu)主要由三部分組成:BERT層、雙向LSTM層、CRF層。其詳細(xì)模型構(gòu)建流程如圖1所示。輸入層以“四川盆地”為例作為模型的輸入序列;然后將輸入序列分割得到“四”“川”“盆”“地”4個(gè)不同字符,將上述字符依據(jù)語(yǔ)料形成的向量表映射成向量形式,輸入到BERT層;BiLSTM獲取BERT層輸出后,將其進(jìn)行Embedding拼接,加入到前向和后向的LSTM中進(jìn)行編碼,并根據(jù)上下文,使用softmax函數(shù)給出單詞對(duì)應(yīng)標(biāo)簽的概率,由于softmax函數(shù)輸出的單詞標(biāo)簽相互獨(dú)立,存在序列不合理情況;最后傳入CRF層對(duì)BiLSTM層的輸出進(jìn)行修正,得到最大概率的合理序列(B-盆地、I-盆地、I-盆地、I-盆地)。下面將從BERT、BiLSTM和CRF三種模型的方法原理展開介紹。

1.2 BERT模型

自然語(yǔ)言處理領(lǐng)域?qū)φZ(yǔ)言模型的研究經(jīng)歷了Onehot、Word2Vec、Glove、GPT到BERT時(shí)期,Onehot編碼存在數(shù)據(jù)稀疏和維度災(zāi)難等問(wèn)題[36],Word2Vec中根據(jù)周圍詞來(lái)預(yù)測(cè)中心詞的CBOW模型和根據(jù)中心詞來(lái)預(yù)測(cè)周圍詞的Skip-gram模型都只是獲取靜態(tài)的詞向量,同一個(gè)單詞對(duì)應(yīng)的詞嵌入表示在不同句子中是不變的[37],Glove模型也是如此。GPT是單向的語(yǔ)言模型,無(wú)法獲取前文詞語(yǔ)語(yǔ)義,而BERT不僅可以學(xué)習(xí)上下文語(yǔ)義,而且能夠獲取動(dòng)態(tài)詞向量,表達(dá)一詞多義。BERT作為自然語(yǔ)言處理領(lǐng)域目前應(yīng)用最廣的技術(shù),已應(yīng)用于自然語(yǔ)言處理的各個(gè)領(lǐng)域[38],如命名實(shí)體識(shí)別、關(guān)系抽取、文本分類和生成等,其主要?jiǎng)?chuàng)新點(diǎn)在預(yù)訓(xùn)練階段:MLM(掩蓋部分單詞)和NSP(句子預(yù)測(cè))兩個(gè)任務(wù)。MLM任務(wù)會(huì)在每一個(gè)句子中mask部分詞,用其上下文來(lái)對(duì)mask的詞做預(yù)測(cè),NSP任務(wù)預(yù)測(cè)兩個(gè)句子是否連在一起。這兩種任務(wù)分別捕捉了詞語(yǔ)和句子級(jí)別上的特征,可以獲取高質(zhì)量、多特征詞向量,一定程度上解決了自然語(yǔ)言處理領(lǐng)域字向量嵌入問(wèn)題。

BERT模型結(jié)構(gòu)如圖2(a)所示,首先對(duì)序列文本進(jìn)行處理形成單個(gè)字符,在一個(gè)句子的開頭、結(jié)尾分別添加[CLS]和[SEP]特殊標(biāo)記來(lái)分隔兩個(gè)句子;同時(shí)每個(gè)輸入的詞向量(E1、E2、…、EN)都包含Token Embeddings(詞向量)、Segment Embeddings(區(qū)分兩種句子)、Position Embeddings(位置信息)3個(gè)部分;然后將詞向量輸入到雙向Transform中;最后輸出具有語(yǔ)義特征的向量(T1、T2、…、TN)。

BERT模型的核心是Transformer,其編碼器如圖2(b)所示。Transformer主要依賴于自注意力機(jī)制[39](Self-Attention),通過(guò)同一個(gè)句子詞之間的關(guān)聯(lián)程度調(diào)整權(quán)重系數(shù)來(lái)獲取詞的重要特征。在自注意力計(jì)算過(guò)程中,每個(gè)詞創(chuàng)建3個(gè)不同的向量矩陣:查詢矩陣Q、值矩陣K和索引矩陣V[40]。計(jì)算公式為:

(1)

式中:dK表示值矩陣K第二維度。而多頭注意力(multi-head attention)機(jī)制可以通過(guò)設(shè)置不同的head獲得多個(gè)特征表達(dá),然后將所有特征拼接到一起,形成全面的特征信息。計(jì)算公式為:

(2)

Multi-head(Q,K,V)=concat(head1,…,headh)WQ

(3)

式中:concat表示對(duì)每次結(jié)果進(jìn)行拼接。

圖2 BERT預(yù)訓(xùn)練模型Fig.2 BERT pre-training model

基于上述分析,BERT主要具有以下優(yōu)點(diǎn):①M(fèi)LM和NSP任務(wù)可以充分利用上下文獲取更加豐富的動(dòng)態(tài)詞向量;②使用Transformer作特征提取,并利用自注意力機(jī)制調(diào)整詞與句子的關(guān)聯(lián)程度,增強(qiáng)模型的計(jì)算能力。因此,本文使用BERT作為詞向量模型。

1.3 BiLSTM模型

LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),采用了巧妙的門設(shè)計(jì),避免了梯度爆炸和長(zhǎng)期依賴問(wèn)題[41]。由于單向的LSTM模型無(wú)法處理上下文信息特征,因此HUANG等[20]提出BiLSTM神經(jīng)網(wǎng)絡(luò)模型用于解決序列無(wú)法聯(lián)系上下文的問(wèn)題。

BiLSTM層是由前向的LSTM和后向的LSTM組合而成,BiLSTM模型對(duì)每個(gè)句子采用順序和逆序計(jì)算得到兩套不同的隱層表示,然后通過(guò)向量拼接得到最終的隱層表示[42]。具體效果如圖3(a)所示,其原理和計(jì)算流程如下:在Forward層從1時(shí)刻到t時(shí)刻正向計(jì)算得到并保存每個(gè)時(shí)刻向前隱層的輸出,而在Backward層沿著t時(shí)刻到時(shí)刻1反向計(jì)算得到并保存向后隱層的輸出,最后在每個(gè)時(shí)刻結(jié)合Forward層和Backward層的相應(yīng)時(shí)刻的輸出結(jié)果得到最后輸出。計(jì)算公式為:

ht=f(w1xt+w2ht-1)

(4)

(5)

(6)

在BiLSTM結(jié)構(gòu)內(nèi)部某一時(shí)刻某單元結(jié)構(gòu)圖如圖3(b)所示,其原理和計(jì)算流程如下。

第一步:計(jì)算遺忘門,決定從單元狀態(tài)中遺忘或者舍棄哪些信息。接收前一時(shí)刻隱藏狀態(tài)ht-1和當(dāng)前時(shí)刻xt輸入,通過(guò)sigmoid函數(shù)σ輸出一個(gè)介于(0,1)的值ft來(lái)表示對(duì)單元狀態(tài)Ct-1中信息被遺忘的程度(0:完全遺忘,1:完全接收)。計(jì)算公式為:

ft=σ·(Wf·[ht-1,xt]+bf)

(7)

式中:bf為遺忘門偏置向量。

it=σ·(Wi·[ht-1,xt]+bi)

(8)

(9)

式中:bi為更新門偏置向量;bc為記憶單元偏置向量。

圖3 BiLSTM詳情結(jié)構(gòu)圖Fig.3 Detailed diagram of the BiLSTM structure

第三步:將前一時(shí)刻的單元狀態(tài)Ct-1更新到當(dāng)前時(shí)刻單元狀態(tài)Ct。計(jì)算公式為:

(10)

第四步:計(jì)算輸出門和當(dāng)前時(shí)刻隱藏狀態(tài)ht,決定需要輸出什么信息。接收前一時(shí)刻隱藏狀態(tài)ht-1和當(dāng)前時(shí)刻Xt輸入,通過(guò)計(jì)算輸出一個(gè)介于(0,1)的值ot來(lái)表示單元狀態(tài)Ct-1中的哪些信息需要輸出;然后將單元狀態(tài)Ct輸入到tanh層進(jìn)行處理,最后再和ot做乘積運(yùn)算輸出我們需要的信息。計(jì)算公式為:

ot=σ·(Wo·[ht-1,xt]+bo)

(11)

ht=σ·tanh(Ct)

(12)

式中:bo為輸出門偏置向量。

圖4 CRF模型結(jié)構(gòu)圖Fig.4 Structure of the CRF model

經(jīng)過(guò)計(jì)算每一個(gè)時(shí)刻都可以得到對(duì)應(yīng)輸出,形成與句子長(zhǎng)度相同的序列(h0,h1,…,ht,…,hn)。

1.4 CRF層

CRF是一種用于解決序列標(biāo)注問(wèn)題的概率圖模型[43],模型結(jié)構(gòu)圖如圖4所示,接收一個(gè)觀測(cè)序列(X1、X2、…、Xn),經(jīng)過(guò)概率計(jì)算輸出狀態(tài)序列(Y1、Y2、…、Yn)。其計(jì)算方式是通過(guò)BiLSTM輸出的狀態(tài)分?jǐn)?shù)(emission score)和轉(zhuǎn)移分?jǐn)?shù)(transition score)來(lái)計(jì)算句子標(biāo)簽對(duì)應(yīng)得分,計(jì)算公式為:

(13)

式中:Pi,yi為第i個(gè)字符預(yù)測(cè)為第yi個(gè)標(biāo)簽的分?jǐn)?shù);Ayi,yi+1為第yi個(gè)標(biāo)簽轉(zhuǎn)移到標(biāo)簽yi+1的分?jǐn)?shù)。

CRF模型在自然語(yǔ)言處理領(lǐng)域中被廣泛應(yīng)用,尤其在實(shí)體識(shí)別任務(wù)中,BiLSTM雖然能夠解決長(zhǎng)距離的文本信息問(wèn)題,但是相鄰標(biāo)簽之間的依賴關(guān)系無(wú)法正確識(shí)別,而CRF模型能夠根據(jù)自身一些約束條件正確識(shí)別相鄰字符之間特征,例如句子開頭是以“B-”或者“O”開始,而不是“I-”;又或者“B-label1”后面預(yù)測(cè)是“I-label1”,而不是另一類標(biāo)簽的實(shí)體內(nèi)部“I-label2”等,減少預(yù)測(cè)錯(cuò)誤的標(biāo)簽,提高識(shí)別正確率。

2 數(shù)據(jù)獲取和標(biāo)注

為了驗(yàn)證本文提出BERT-BiLSTM-CRF命名實(shí)體識(shí)別模型在油氣領(lǐng)域的有效性和可行性,本節(jié)使用自建的油氣領(lǐng)域語(yǔ)料作為實(shí)驗(yàn)數(shù)據(jù)集。

2.1 數(shù)據(jù)獲取

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)表

本文獲取了200篇文章,形成本次實(shí)驗(yàn)所需要的油氣數(shù)據(jù)集,數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集和測(cè)試集。為了增加實(shí)驗(yàn)的可靠性,去除了訓(xùn)練的文章中圖片、表格,最大程度上保留文本內(nèi)容。其劃分的數(shù)據(jù)集統(tǒng)計(jì)如表1所示。

2.2 數(shù)據(jù)標(biāo)注

本次標(biāo)注任務(wù)采用基于網(wǎng)頁(yè)且支持中英文的brat文本標(biāo)注工具,用于對(duì)非結(jié)構(gòu)化的原始文本進(jìn)行結(jié)構(gòu)化處理,因其可以進(jìn)行多人協(xié)同標(biāo)注和將brat集成到其他平臺(tái)等特點(diǎn),成為各項(xiàng)NLP任務(wù)標(biāo)注語(yǔ)料的首選工具。筆者借助brat工具對(duì)盆地、油氣田、油氣藏和井4類實(shí)體進(jìn)行標(biāo)注,完成標(biāo)注后會(huì)產(chǎn)生兩種文件——txt文件和ann文件,分別用來(lái)存放原始文件和記錄標(biāo)注語(yǔ)料的位置信息;然后利用這兩種文件,使用BIO實(shí)體標(biāo)注法(B表示實(shí)體開始,I表示實(shí)體內(nèi)部,O表示非實(shí)體),依次產(chǎn)生9類標(biāo)簽:B-盆地、I-盆地、B-油氣田、I-油氣田、B-油氣藏、I-油氣藏、B-井、I-井和O;最后給每個(gè)字符打上相應(yīng)標(biāo)簽,如圖5所示。其中標(biāo)注實(shí)體類別和實(shí)體數(shù)量如表2所示。

圖5 數(shù)據(jù)集標(biāo)注示例圖Fig.5 Example of dataset annotation

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)環(huán)境及其參數(shù)設(shè)置

表2 標(biāo)注數(shù)據(jù)統(tǒng)計(jì)表

表3 參數(shù)配置表

實(shí)驗(yàn)采用Tensorflow1.13框架和Python3.6環(huán)境,顯卡Nvidia GeForce GTX 1050Ti ,內(nèi)存為4 GB,預(yù)訓(xùn)練模型Bert-base的網(wǎng)絡(luò)層數(shù)L=12,多頭注意力個(gè)數(shù)=12,隱藏層維度=768,總共參數(shù)大小110 M。具體訓(xùn)練參數(shù)設(shè)置如表3所示。

3.2 模型評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用準(zhǔn)確率(P)、召回率(R)和F1值作為模型識(shí)別效果的評(píng)價(jià)標(biāo)準(zhǔn)。其計(jì)算公式為:

(14)

(15)

(16)

式中:TP為模型正確識(shí)別的實(shí)體數(shù)量;FP為模型識(shí)別的非相關(guān)實(shí)體數(shù)量;FN為模型未識(shí)別的相關(guān)實(shí)體數(shù)量。

3.3 模型實(shí)驗(yàn)結(jié)果分析

表4 三種模型P、R、F1值

本次研究采用以下3種模型BiLSTM-CRF、BiLSTM-Attention-CRF和BERT-BiLSTM-CRF在相同的訓(xùn)練集和測(cè)試集上來(lái)進(jìn)行參照對(duì)比實(shí)驗(yàn)。為了確保實(shí)驗(yàn)的準(zhǔn)確性,分別進(jìn)行了多組迭代實(shí)驗(yàn),各組實(shí)驗(yàn)中模型對(duì)應(yīng)的P、R和F1值如表4所示。通過(guò)表4可知,BERT-BiLSTM- CRF模型F1值在3次迭代實(shí)驗(yàn)中都高于其他兩種模型。由于BERT預(yù)訓(xùn)練模型相較于傳統(tǒng)Word2vec等模型,不僅可以訓(xùn)練得到動(dòng)態(tài)詞向量表達(dá)一詞多義,而且還可以獲得具有豐富語(yǔ)義上下文信息。

最后從自建油氣領(lǐng)域語(yǔ)料庫(kù)中隨機(jī)抽取句子進(jìn)行模型測(cè)試,結(jié)果如表5所示。測(cè)試結(jié)果表明,通過(guò)BERT-BiLSTM-CRF模型可以有效從文本中抽取所需的專有名詞,適應(yīng)油氣領(lǐng)域命名實(shí)體識(shí)別任務(wù)。

表5 BERT-BiLSTM-CRF模型實(shí)體識(shí)別結(jié)果示例

4 結(jié)束語(yǔ)

本文針對(duì)自建油氣領(lǐng)域數(shù)據(jù)集進(jìn)行人工標(biāo)記,設(shè)計(jì)和訓(xùn)練BERT-BiLSTM-CRF模型,自動(dòng)提取油氣領(lǐng)域?qū)嶓w,在一定程度上解決了實(shí)體抽取特征準(zhǔn)確度差和識(shí)別效率低問(wèn)題。在3次迭代測(cè)試實(shí)驗(yàn)中該模型取得了91.3%的準(zhǔn)確率、94.5%的召回率和92.9%的F1值,實(shí)體識(shí)別效果優(yōu)于BiLSTM-CRF和BiLSTM-Attention-CRF兩種模型。在后續(xù)研究工作中,可通過(guò)獲取更多油氣領(lǐng)域語(yǔ)料數(shù)據(jù)、提升模型算法和優(yōu)化超參數(shù)來(lái)進(jìn)一步提高該模型的識(shí)別準(zhǔn)確率,為實(shí)體關(guān)系抽取和構(gòu)建油氣領(lǐng)域知識(shí)圖譜知識(shí)庫(kù)提供高質(zhì)量數(shù)據(jù)打下堅(jiān)實(shí)基礎(chǔ)。

猜你喜歡
語(yǔ)義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 57pao国产成视频免费播放| 日韩在线欧美在线| 亚洲成A人V欧美综合| 国产亚卅精品无码| 国产无码精品在线播放| 综合五月天网| 真人高潮娇喘嗯啊在线观看| 精品无码日韩国产不卡av| 亚洲综合婷婷激情| 情侣午夜国产在线一区无码| 素人激情视频福利| 老司机久久99久久精品播放| 日日拍夜夜操| 久久96热在精品国产高清| 麻豆AV网站免费进入| 亚洲国产系列| 久久香蕉国产线看观看亚洲片| 在线观看国产一区二区三区99| 亚洲资源站av无码网址| 热九九精品| 91青草视频| 露脸国产精品自产在线播| 国产人免费人成免费视频| 在线免费无码视频| 99国产精品国产高清一区二区| 国产精品福利一区二区久久| 日韩成人午夜| 国产一级做美女做受视频| 亚洲天堂成人| 这里只有精品在线| 午夜高清国产拍精品| 日韩欧美国产综合| 偷拍久久网| 国产亚洲欧美日本一二三本道| 午夜精品国产自在| 日韩少妇激情一区二区| 久久视精品| 97视频在线观看免费视频| 精品午夜国产福利观看| 天天摸夜夜操| 色婷婷色丁香| 综合五月天网| 亚洲精品第五页| 久久久成年黄色视频| 成人在线综合| 国产午夜在线观看视频| 毛片视频网| 无遮挡国产高潮视频免费观看 | 青青青视频蜜桃一区二区| 国产高清自拍视频| 92午夜福利影院一区二区三区| 国产在线日本| 91av国产在线| 欧美精品二区| 亚洲三级影院| 免费精品一区二区h| 日韩精品成人网页视频在线 | 免费欧美一级| 久久99久久无码毛片一区二区| 欧美高清三区| 中文成人无码国产亚洲| 欧美日韩中文字幕在线| 夜夜操天天摸| 欧美翘臀一区二区三区| 亚洲精品在线观看91| 精品国产一二三区| 国产日韩av在线播放| 69免费在线视频| 国精品91人妻无码一区二区三区| 国产丝袜啪啪| 中文字幕人妻无码系列第三区| 日本人又色又爽的视频| 亚洲国产AV无码综合原创| 久久国语对白| 性欧美在线| 日韩精品专区免费无码aⅴ| 亚洲大尺码专区影院| 亚洲国产成人超福利久久精品| 四虎成人在线视频| 综合五月天网| 在线观看亚洲精品福利片| 伊人天堂网|