999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多模型融合的民航領(lǐng)域?qū)嶓w抽取方法

2023-09-13 03:14:46馬曉寧趙東閣
關(guān)鍵詞:信息模型

馬曉寧,趙東閣

(中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

0 引 言

近年來,隨著各行各業(yè)的信息化,單純的地名、時(shí)間、機(jī)構(gòu)名等通用性的命名實(shí)體識別(named entity recognition,NER)已經(jīng)不能滿足不同領(lǐng)域的信息應(yīng)用,比如民航信息領(lǐng)域需要識別航空公司、證件、地名、機(jī)型等等。隨著出行量的增加以及“智慧民航”等口號的提出,民航信息化程度越來越高,需要建立高效的NER方法以滿足更下游的任務(wù),比如構(gòu)建智能問答[1]、知識圖譜[2]、語義搜索[3]等。

早期,大部分NER方法是基于規(guī)則的,需要人工手寫足夠多的規(guī)則,花費(fèi)大量的人力物力。其后基于概率或統(tǒng)計(jì)學(xué)的方法快速發(fā)展,比如支持向量機(jī)(support vector machine,SVM)[4]、條件隨機(jī)場(conditional random field,CRF)[5]等,而不同領(lǐng)域的特征也不同,所以統(tǒng)計(jì)學(xué)方法亦需要繁雜的特征工程。

更加復(fù)雜的網(wǎng)絡(luò)得益于硬件的發(fā)展,有了計(jì)算環(huán)境,NER任務(wù)進(jìn)入深度學(xué)習(xí)時(shí)代,其中主要包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[6]與循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)及其變種如長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[7]、循環(huán)門單元(gate recurrent unit,GRU)等[8]。基于以上深度網(wǎng)絡(luò)去做實(shí)體預(yù)測,許多學(xué)者在生物醫(yī)學(xué)[9]、網(wǎng)絡(luò)推文[10]等領(lǐng)域分別提出了合適的NER模型,近幾年來注意力機(jī)制域蓬勃發(fā)展,也有學(xué)者將其應(yīng)用于實(shí)體預(yù)測,比如Y Zhu等[11]融合RNN和注意力機(jī)制提出了一個(gè)字符級別的卷積注意網(wǎng)絡(luò),以捕捉來自相鄰字符和句子上下文的信息。

隨著計(jì)算機(jī)算力的進(jìn)一步提升,一些預(yù)訓(xùn)練語言模型(pre-trained models,PTMs)涌現(xiàn)出來,它們通過預(yù)先在大規(guī)模語料庫上訓(xùn)練進(jìn)而應(yīng)用于一些NLP的下游任務(wù),實(shí)驗(yàn)顯示均得到了很好的效果,比如自回歸語言模型[12](generative pre-training,GPT)的應(yīng)用和基于注意力的自編碼語言模型[13](bidirectional encoder representation from transformers,BERT),而后也在NER中得到應(yīng)用。

綜上,本文使用了預(yù)訓(xùn)練語言模型BERT進(jìn)行語義編碼,微調(diào)后結(jié)合解碼模塊提出兩個(gè)基礎(chǔ)模型,在此基礎(chǔ)上,采用集成學(xué)習(xí)(ensemble learning)的思想,提出了一種混合了預(yù)訓(xùn)練與多模型加權(quán)融合的NER方法,為在海量民航信息中抽取有效實(shí)體提供了切實(shí)可行的解決方案。

1 數(shù)據(jù)處理和標(biāo)注

1.1 數(shù)據(jù)獲取與清洗

民航信息領(lǐng)域目前未有公開的中文語料集,故本文使用Python采集161 580出票網(wǎng)站的民航問答部分,首先使用Requests模塊獲取網(wǎng)站HTML數(shù)據(jù)部分,然后使用Beautifulsoup庫得到相應(yīng)的文本數(shù)據(jù)。

此時(shí)得到的文本數(shù)據(jù)還比較粗糙,使用多種方式對語料進(jìn)行預(yù)處理清洗,包括:①語料中存在大量停用詞,所以使用百度開源的停用詞庫進(jìn)行過濾,以達(dá)到提升文本質(zhì)量,降低文本維度的作用;②針對采集到的語料信息,刪除包含鏈接、圖片、表格等無用內(nèi)容保存原有的語句順序;③對數(shù)據(jù)進(jìn)行抽樣發(fā)現(xiàn),網(wǎng)站回復(fù)系統(tǒng)可能提供了一些自動性回復(fù)內(nèi)容,比如“您好!”、“祝您生活愉快”、“關(guān)注微信公眾號【民航微出行】”等,所以對語料中包含大量重復(fù)無用信息進(jìn)行清洗。

1.2 實(shí)體標(biāo)注與分析

針對經(jīng)過預(yù)處理的語料進(jìn)行瀏覽并結(jié)合民航信息實(shí)際情況,本文一共定義7種實(shí)體,包括航司、文件、地點(diǎn)、時(shí)間、航班號、行李物品、機(jī)型等。

在標(biāo)注方面,采取BIO(B-begin,I-inside,O-outside)標(biāo)注法,將每個(gè)元素標(biāo)注為“B-X”、“I-X”或者“O”。其中,B和I分別表示實(shí)體的開頭和中間,X表示這個(gè)實(shí)體所屬的類別,O表示不屬于任何類型,標(biāo)注示例見表1。

表1 民航信息語料標(biāo)注示例

將預(yù)處理清洗過的數(shù)據(jù)使用BIO-sequence-label進(jìn)行標(biāo)注,得到人工標(biāo)注的7類實(shí)體數(shù)量以及示例見表2。

表2 民航信息語料標(biāo)注統(tǒng)計(jì)

對標(biāo)注好的語料集進(jìn)行抽樣分析,不難發(fā)現(xiàn):①存在一些長實(shí)體,比如“中國東方航空公司”、“2021年12月30日”等;②存在大量需要上下文信息才能得到結(jié)果的實(shí)體,比如“南航持學(xué)生證能打折”、“南航是一所好學(xué)校”等。所以本文提出第一個(gè)基礎(chǔ)模型使用雙向的長短期記憶網(wǎng)絡(luò)進(jìn)行特征提取,以達(dá)到同時(shí)捕捉輸入語料序列上下文特征信息的目的。

2 基礎(chǔ)模型與融合

本文采取預(yù)訓(xùn)練語言模型BERT做語義編碼,微調(diào)后,與LSTM以及CRF進(jìn)行組合得到兩個(gè)基礎(chǔ)模型,而后進(jìn)行加權(quán)融合,最后經(jīng)過后處理矯正進(jìn)行實(shí)體抽取的整個(gè)預(yù)測過程如圖1所示。

圖1 實(shí)體預(yù)測總體流程

2.1 基礎(chǔ)模型

2.1.1 BERT+BiLSTM+CRF

引入BERT模型做輸出深層特征向量表示,也可以稱之為編碼層,輸出的特征向量表示融合了BERT預(yù)訓(xùn)練中包含的語言學(xué)知識和收集到的民航語料知識,使用一個(gè)雙向的LSTM網(wǎng)絡(luò)提取上下文特征,接下來通過CRF層可以捕捉到不同標(biāo)簽之間的條件轉(zhuǎn)移概率,構(gòu)成BERT+BiLSTM+CRF組合模型,下文簡稱BLC模型,具體模型結(jié)構(gòu)如圖2所示。

圖2 BERT+BiLSTM+CRF模型

2.1.2 BERT+CRF

起源于上下文表示學(xué)習(xí)的BERT模型本身就能夠在一定程度上解決上下文依賴問題,所以在某些情況下,使用BERT做語義編碼后直接通過一層概率統(tǒng)計(jì)模型得到實(shí)體標(biāo)簽,亦能達(dá)到很好的效果,國內(nèi)外的不同的學(xué)者也印證了這一點(diǎn)[14,15]。所以本文選取的第二個(gè)基礎(chǔ)模型即為BERT做語義編碼后直接通過一層CRF得到標(biāo)簽結(jié)果,下文簡稱BC模型,模型結(jié)構(gòu)如圖3所示。

圖3 BERT+CRF模型

2.2 加權(quán)融合

引入預(yù)訓(xùn)練語言模型能夠很好的學(xué)習(xí)到先驗(yàn)知識,但是由于BERT模型參數(shù)量巨大,以及標(biāo)注人力成本受限,本文數(shù)據(jù)集在規(guī)模方面比起通用性的大型語料庫遠(yuǎn)遠(yuǎn)不及,易出現(xiàn)過擬合、泛化能力差的情況,同時(shí)有學(xué)者[16]在研究中也提到了這個(gè)問題。所以在樣本規(guī)模一定的情況下,除采取調(diào)整學(xué)習(xí)率、模型微調(diào)的方法之外,本文引入集成學(xué)習(xí)方法,通過構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。近年來一些如天池賽、Kaggle、DataCastle等數(shù)據(jù)競賽也頻繁出現(xiàn)使用此種方法進(jìn)而得到很好效果的現(xiàn)象。具體選取了一種多模型加權(quán)融合的方法,提高泛化能力,在兩個(gè)基礎(chǔ)模型之上,綜合預(yù)測結(jié)果如下式所示

H(x)=∑Ti=1wihi

(1)

其中,wi是個(gè)體模型hi的相應(yīng)權(quán)重,通常我們要求wi≥0,∑Ti=1wi=1。

從實(shí)際角度來看,本文的預(yù)測模型輸入測試樣本后其基礎(chǔ)模型輸出矩陣M,維度為輸入句子長度·標(biāo)簽數(shù)量。此處假設(shè)BLC模型輸出矩陣M1,BC模型輸出矩陣為M2,在此基礎(chǔ)上對兩個(gè)模型的輸出矩陣進(jìn)行加權(quán)融合,所以最后的結(jié)果為

M=aM1+bM2

(2)

其中,a和b是實(shí)數(shù),意為分別表示賦予BLC與BC兩個(gè)基礎(chǔ)模型的加權(quán)權(quán)重,對于單個(gè)模型在測試集上表現(xiàn)更好的基礎(chǔ)模型賦予更高的加權(quán)權(quán)重,比如對于本文選取的兩個(gè)基礎(chǔ)模型來講,平均情況下BLC是優(yōu)于BC模型的,所以權(quán)重a會更大一些。

2.3 預(yù)訓(xùn)練BERT層

2018年谷歌公司提出BERT模型[13],很快在NLP領(lǐng)域的11個(gè)方向大幅度提高了精度,作為一個(gè)編碼模塊,BERT本質(zhì)上是通過在海量語料上運(yùn)行的一種預(yù)訓(xùn)練語言模型,在特定的NLP任務(wù)當(dāng)中,可以使用BERT的特征表示作為該任務(wù)的詞(字)嵌入特征,以替代Word2Vec。

BERT有兩大核心的任務(wù)需要完成:掩碼語言模型(masked language model,MLM)和下一句預(yù)測模型(next sentence prediction)。其中前者是指BERT在預(yù)訓(xùn)練階段隨機(jī)屏蔽掉 15%的標(biāo)記,根據(jù)上下文信息計(jì)算得出這些掩蓋的標(biāo)記,并且以一定概率保留詞的語義信息,使得信息不至于百分百的被掩蓋,從而有效解決了一些專用領(lǐng)域?qū)嶓w邊界不明顯以及語義復(fù)雜的問題。下一句預(yù)測模型指的是為每個(gè)訓(xùn)練前的樣例選擇句子A和句子B,而后50%的情況使得B是真的在A后面的下一個(gè)句子,50%情況是來自語料庫的隨機(jī)句子,這樣一來對于句子級別的任務(wù)是非常有益的。

從結(jié)構(gòu)上講,BERT的核心結(jié)構(gòu)是基于2017年Google[17]提出的Transformer自注意力機(jī)制。它拋棄了傳統(tǒng)RNN或者說CNN結(jié)構(gòu),將輸入序列中任意位置的距離縮小為一個(gè)常量,從計(jì)算硬件的角度來講,它不再是類似RNN這種深度網(wǎng)絡(luò)的順序結(jié)構(gòu),因此具有更好的并行性,符合現(xiàn)有的GPU框架,計(jì)算速度會更加的快。具體的,注意力機(jī)制首先會計(jì)算輸入序列中每個(gè)詞和其它詞語的相似度,下一步會對得到的相似度做一個(gè)歸一化處理,最后得到注意力權(quán)重,再把得到的注意力權(quán)重進(jìn)行加權(quán)組合,這樣會讓輸入序列中的每個(gè)字向量都含有當(dāng)前句子的其它字向量的信息,計(jì)算公式如下

Attention(Q,K,V)=softmax(QKTdk)V

(3)

其中,Q(Query)、K(Key)、V(Value) 這3個(gè)矩陣來自同一個(gè)輸入,首先計(jì)算的是Q與K之間的點(diǎn)乘,然后為了防止內(nèi)積過大,在結(jié)果上除以一個(gè)尺度標(biāo)度dk, 其中,dk表示Query和Key的向量維度。最后再利用Softmax操作將其歸一化,然后乘矩陣V得到權(quán)重求和結(jié)果。

為了確保模型關(guān)注到更多不同的信息,BERT采用了一種多頭自注意力機(jī)制,將輸入序列中詞的多種維度表示為多個(gè)頭(head),每個(gè)頭可以從不同的角度進(jìn)行子空間表征學(xué)習(xí),公式如下所示

headi=Attention(QWQi,KWKi,VWVi)

(4)

MutiHead(Q,K,V)=Concati(headi)WO

(5)

其中,WQi、WKi、WVi是3個(gè)線性變換的矩陣,隨訓(xùn)練不斷調(diào)整相關(guān)參數(shù),i代表head的編號。所以BERT通過完成掩碼和下一句預(yù)測任務(wù)同時(shí)使用多頭注意力機(jī)制,這樣不但能夠?qū)W習(xí)到上下文信息,而且能夠提取到足夠的信息,本文使用BERT進(jìn)行語義編碼,得到字向量,具體結(jié)構(gòu)如圖4所示。

圖4 BERT模型結(jié)構(gòu)

CLS(special classification embedding)是用于分類的向量,SEP是一個(gè)句子的結(jié)尾,整個(gè)向量轉(zhuǎn)換過程可以寫為下式

X=BERT(E,θbert)

(6)

其中,E為模型輸入序列的向量矩陣集合,X為BERT輸出的字向量矩陣集合,θbert為BERT模型相關(guān)參數(shù)。

2.4 BiLSTM層

實(shí)驗(yàn)采集的文本中常出現(xiàn)長距離依賴關(guān)系,僅使用詞匯級別的信息識別實(shí)體存在一定困難,如“適航關(guān)系到航空器的安全性,是飛機(jī)服役的必要流程”中,“適航”是一種飛機(jī)服役過程中檢驗(yàn)安全性的活動,但“適航”單獨(dú)出現(xiàn)時(shí),存在特征“航”,易被判斷為航司,因此,除采用BERT做字向量表示意外,還需要捕捉文本中存在的上下文信息。而作為RNN變形的LSTM,能夠捕捉句子級別的信息,它主要包含4個(gè)類邏輯門,單個(gè)LSTM結(jié)構(gòu)如圖5所示。

圖5 LSTM結(jié)構(gòu)

其計(jì)算過程如下

ft=σ(Wf·[ht-1,xt]+bf)it=σ(Wi·[ht-1,xt]+bi)t=tanh(Wc·[ht-1,xt]+bc)Ct=Ct-1·ft+it·Ctot=σ(Wo·[ht-1,xt]+bo)ht=ot·tanh(Ct)

(7)

其中,it代表輸入門,ft代表遺忘門,Ct代表細(xì)胞狀態(tài),ot代表輸出門,使用這3個(gè)類邏輯門來保護(hù)和控制細(xì)胞狀態(tài)。Wf、Wi、Wc、Wo為不同狀態(tài)的權(quán)重矩陣,bf、bi、bc、bo是不同門的偏置,xt和ht分別為輸入和輸出,Ct是計(jì)算過程中的臨時(shí)細(xì)胞狀態(tài),σ為sigmiod激活函數(shù)。

由于單向的LSTM網(wǎng)絡(luò)中信息只能從前往后傳,當(dāng)前節(jié)點(diǎn)并不能夠訪問上文,但在實(shí)體識別的過程中,有時(shí)候我們需要依賴上文的內(nèi)容,所以本文采取了一種雙向傳播的LSTM網(wǎng)絡(luò)。

2.5 CRF解碼層

考慮到LSTM的輸出存在獨(dú)立性,各個(gè)標(biāo)簽之間沒有互相約束,會帶來的一個(gè)缺點(diǎn)就是出現(xiàn)非法標(biāo)簽,比如標(biāo)簽 {B,I,I,O,I,I} 中,標(biāo)簽I理論上只能在標(biāo)簽B之后出現(xiàn),一種有效的方案就是在BiLSTM層后面接入一個(gè)概率統(tǒng)計(jì)模型。所以本文中CRF模型起到了兩個(gè)作用:①在提出的BLC模型中,CRF建模提取句子級別的損失,以彌補(bǔ)LSTM輸出標(biāo)簽之間的弱約束性;②在本文提出的BC模型中,作為BERT模型的解碼層。

CRF是一種給定輸入的隨機(jī)變量x,求解條件概率P(y|x) 的無向圖模型,它可以將序列標(biāo)注問題看成是一個(gè)kn分類問題,用于序列標(biāo)注時(shí),可以特例化成 Linear-CRF來計(jì)算每個(gè)時(shí)刻的詞語類別概率信息,給定句子詞語輸入序列,為了計(jì)算條件概率P我們使用CRF假設(shè),該分布為指數(shù)分布,輸入之間的關(guān)聯(lián)僅僅發(fā)生在了相鄰位置,且關(guān)聯(lián)具有指數(shù)相加性,由此可得概率結(jié)果為

p(y|x)=1Z(x)epx{∑Tt=1w·φ(yt-1,yt,xt)}

(8)

其中,x為輸入序列,y為預(yù)測標(biāo)簽,w為權(quán)重,Z(x) 為歸一化函數(shù)有

Z(x)=∑y∏Tt=1exp{∑Kk=1wkfk(yt-1,yt,xt)}

(9)

其中,fk為特征函數(shù),那么對于本文的NER任務(wù),給定語料句子x作為輸入序列,y為標(biāo)簽變量序列,那么隨機(jī)變量y的條件概率分布滿足馬爾科夫性,即構(gòu)成條件隨機(jī)場。

3 實(shí)驗(yàn)與結(jié)果

3.1 實(shí)驗(yàn)評價(jià)指標(biāo)

為了驗(yàn)證本文提出模型對民航信息語料實(shí)體抽取的有效性,本文將召回率(Recall,R)、正確率(Precision,P)以及F1值作為評價(jià)指標(biāo),其表達(dá)公式表達(dá)如下

p=識別正確的實(shí)體數(shù)識別出的所有實(shí)體數(shù)×100%

(10)

R=識別正確的實(shí)體數(shù)樣本實(shí)體總數(shù)×100%

(11)

F1=2×P×RP+R×100%

(12)

其中,F(xiàn)1值是準(zhǔn)確率P以及召回率R的加權(quán)平均結(jié)果,使用其衡量模型計(jì)算結(jié)果能夠有效避免準(zhǔn)確率與召回率出現(xiàn)矛盾的情況。

3.2 參數(shù)設(shè)置

在pytorch 1.5的環(huán)境下,實(shí)驗(yàn)選用了Google開源的中文Base版本的BERT模型,該網(wǎng)絡(luò)共有12個(gè)Block層,12個(gè)多頭注意力,一共會輸出768維的特征向量。由于BERT經(jīng)過預(yù)訓(xùn)練后對下游任務(wù)微調(diào)時(shí)少量學(xué)習(xí)批次即可收斂到最優(yōu),所以將BERT層設(shè)置為很小的學(xué)習(xí)率,另外根據(jù)經(jīng)驗(yàn),學(xué)習(xí)率的設(shè)置采取動態(tài)調(diào)整的方法,具體的,從5e-5到5e-6動態(tài)調(diào)整,每6個(gè)批次調(diào)整一次,相對BERT來講,CRF層收斂速度較慢,所以設(shè)置較高的學(xué)習(xí)率,本文中統(tǒng)一設(shè)置為BERT層的100倍。為了預(yù)防過擬合,本文采取dropout策略。模型融合時(shí)選擇權(quán)重(0.6,0.4),更詳細(xì)的最佳模型參數(shù)設(shè)置見表3。

表3 模型最優(yōu)參數(shù)

3.3 實(shí)驗(yàn)結(jié)果與分析

由于本文數(shù)據(jù)量較小,故按照小規(guī)模數(shù)據(jù)集劃分法,60%數(shù)據(jù)作為訓(xùn)練集,20%數(shù)據(jù)作為驗(yàn)證集,20%數(shù)據(jù)作為測試集。一共設(shè)置4個(gè)模型。

(1)傳統(tǒng)意義上的基線模型BiLSTM+CRF,它是NER領(lǐng)域的經(jīng)典模型,采取了靜態(tài)詞向量進(jìn)行訓(xùn)練。

(2)在基線模型上引入的BERT預(yù)訓(xùn)練生成詞向量輸入得到BLC模型。

(3)在BERT預(yù)訓(xùn)練模型后加一層概率統(tǒng)計(jì)模型解碼得到BC模型。

(4)BLC與BC模型進(jìn)行加權(quán)融合后得到的集成模型。

采取準(zhǔn)確率、召回率、以及F1值進(jìn)行評估,實(shí)驗(yàn)結(jié)果見表4。

表4 各模型識別結(jié)果

分析表4結(jié)果不難發(fā)現(xiàn),從整體上來講引入BERT預(yù)訓(xùn)練語言模型后,BLC與BC模型均有小幅度提升,比如在傳統(tǒng)的BiLSTM+CRF模型之前引入BERT對輸入文本進(jìn)行語義編碼,生成字向量,相比僅僅使用BiLSTM+CRF的F1值提升了3.45%,另外僅僅使用BERT作為編碼層,后加概率模型CRF層進(jìn)行解碼輸出,F(xiàn)1值也相對BiLSTM+CRF提高了1.77%。從召回率角度來看,由于預(yù)訓(xùn)練模型在大量語料上進(jìn)行預(yù)先訓(xùn)練,能夠?qū)W到較多的先驗(yàn)知識,所以相比沒有預(yù)訓(xùn)練層的模型召回率普遍會高很多。

最后BLC+BC模型進(jìn)行加權(quán)融合后的集成模型,相較于BiLSTM+CRF模型F1值提升了7.1%,相對于本文使用的BC模型提升了3.2%,相對于BLC模型提升了1.43%。

3.4 后處理與修正

對上述模型不同實(shí)體的識別結(jié)果進(jìn)行分析,見表5。

表5 不同實(shí)體的F1值結(jié)果/%

分析表5不難得出,引入BERT的模型在文件、地點(diǎn)、行李物品等方面都得到了比較好的識別效果,分析原因可能兩點(diǎn),其一是BERT在大規(guī)模語料集上預(yù)先訓(xùn)練,包含了足夠的先驗(yàn)知識;其二是BERT被設(shè)計(jì)成一個(gè)雙向的深度模型,加之它的掩碼和預(yù)測下一句任務(wù)使之充分提取了上下文句意,所以在通用性的詞語和大部分專用詞語上能夠得到比較好的效果。但也恰恰是這些原因,對于少部分專用領(lǐng)域詞語識別效果存在一定誤差。對效果不好的實(shí)體識別結(jié)果,本文對輸入句子和識別結(jié)果進(jìn)行了抽樣分析,發(fā)現(xiàn)主要存在以下問題:①特殊識別錯誤的實(shí)體,比如句子“從南航南門出發(fā),經(jīng)過校門口乘坐S1號線能夠到到機(jī)場”中南航是表示學(xué)校,在模型中即可能識別成航司。②存在嵌套實(shí)體,比如“廈航紀(jì)念品737-8型100架紀(jì)念版飛機(jī)模型”整個(gè)句子是一個(gè)長實(shí)體,同時(shí)內(nèi)含多個(gè)實(shí)體。③特殊情況識別錯誤,比如航班號的書寫是有嚴(yán)格規(guī)定的,國內(nèi)航班規(guī)則為航司兩字加4位數(shù)字,國際航班為航司代碼加3位數(shù)字。④預(yù)測結(jié)果存在明顯錯誤的實(shí)體,比如實(shí)體中包含標(biāo)點(diǎn)符號。

所以針對發(fā)現(xiàn)的這些問題做出一些處理校正,主要是通過是否接受結(jié)果以及根據(jù)詞語邊界、特性、專用領(lǐng)域特點(diǎn),使用正則對部分識別錯誤或者識別不準(zhǔn)確的實(shí)體加以糾正,具體得做出以下幾條糾正策略。

(2)針對嵌套實(shí)體,丟棄被嵌套的實(shí)體,僅僅保存最長的實(shí)體。

(4)針對明顯錯誤的實(shí)體直接丟棄。

在測試集上使用上述處理方法進(jìn)行校正,最終得到預(yù)測結(jié)果與未修正對比見表6。

表6 處理校正后的預(yù)測結(jié)果對比/%

結(jié)果對比發(fā)現(xiàn),經(jīng)過對不同錯誤或者嵌套實(shí)體的處理,各個(gè)模型識別結(jié)果均有小幅度提升,其中本文提出的BLC與BC融合模型的實(shí)體預(yù)測F1值較未處理矯正之前提升了0.64%。

4 結(jié)束語

本文通過引入自編碼語言模型BERT生成文本字向量,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)、概率模型組合生成兩個(gè)基礎(chǔ)學(xué)習(xí)器,將兩個(gè)學(xué)習(xí)器采用一種集成學(xué)習(xí)方法加權(quán)融合后預(yù)測實(shí)體,汲取了基礎(chǔ)學(xué)習(xí)器的優(yōu)點(diǎn),最后達(dá)到了較高的識別效果,一定程度上改善了BERT在小樣本下存在的過擬合問題。最后,針對民航信息領(lǐng)域的文本特征,本文結(jié)尾提出一系列輔助修正方法使結(jié)果達(dá)到更優(yōu)。在下一步的工作中,將結(jié)合擴(kuò)展不同實(shí)體的規(guī)則,擴(kuò)充不同來源的數(shù)據(jù)集,增加標(biāo)注文本的數(shù)量,以便更好開展下一步知識圖譜構(gòu)建的任務(wù)。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 毛片免费试看| 久久精品国产精品一区二区| 新SSS无码手机在线观看| 日韩高清欧美| 国产成人91精品| 亚洲国产欧美中日韩成人综合视频| 国产精品99久久久| 国产一级无码不卡视频| 97在线公开视频| 欧美日本一区二区三区免费| 福利小视频在线播放| 91网在线| 国产又大又粗又猛又爽的视频| 国产第四页| 国产精品色婷婷在线观看| 特级做a爰片毛片免费69| 国产成人喷潮在线观看| 日韩专区欧美| 亚洲区视频在线观看| 天天综合色网| 欧美一区二区三区不卡免费| 全午夜免费一级毛片| 久久99国产综合精品女同| 国产AV无码专区亚洲精品网站| 久久99国产综合精品女同| 日韩欧美国产区| 中文字幕在线观| 国产一区二区三区精品欧美日韩| AV在线天堂进入| 亚洲欧美另类日本| 久久精品国产精品青草app| 亚洲男人天堂久久| 国产成人高清精品免费| 亚洲免费福利视频| 日韩天堂视频| 亚洲天堂精品在线观看| 日韩在线欧美在线| 无码 在线 在线| 99久久精品免费看国产免费软件| 国产视频入口| 国内精品一区二区在线观看| 2021国产乱人伦在线播放| 亚洲第一成网站| 精品無碼一區在線觀看 | 日韩欧美中文字幕一本| 国产成人盗摄精品| 少妇精品在线| 风韵丰满熟妇啪啪区老熟熟女| 亚洲va在线∨a天堂va欧美va| 午夜老司机永久免费看片| 国产激爽大片高清在线观看| 一区二区日韩国产精久久| 亚洲91精品视频| 日本免费一级视频| 亚洲视频二| 97av视频在线观看| 高清无码一本到东京热| 精品久久久久久久久久久| 国产精品漂亮美女在线观看| 国产在线无码av完整版在线观看| 欧美日韩综合网| 香蕉视频在线精品| 四虎精品国产AV二区| 色综合久久无码网| 91九色国产porny| 四虎永久在线| 久草美女视频| 国产尤物在线播放| 国产精品美人久久久久久AV| 国产成人麻豆精品| 97在线观看视频免费| 欧美a在线视频| 亚欧美国产综合| 国产97视频在线| 日韩人妻无码制服丝袜视频| 呦视频在线一区二区三区| 久久午夜夜伦鲁鲁片不卡 | 亚洲一区二区三区国产精品| 视频二区亚洲精品| 亚洲中文字幕无码mv| 激情网址在线观看| 夜夜爽免费视频|