

摘要:本文使用大規(guī)模預(yù)訓(xùn)練漢語模型的 BERT-BiLSTM-CRF 方法,從運營商的非結(jié)構(gòu)化文本數(shù)據(jù)中聯(lián)合提取命名實體與關(guān)系。首先,通過運營商非結(jié)構(gòu)化文本數(shù)據(jù)建立運營商文本語料庫,對語料進(jìn)行文本標(biāo)簽標(biāo)注;然后,提出一種基于運營商文本命名實體與關(guān)系提取的 BERT-BiLSTM-CRF 模型方法。實驗結(jié)果表明,該技術(shù)在運營商文本命名實體與關(guān)系聯(lián)合提取中適用性較強(qiáng),在運營商文本的命名實體與關(guān)系聯(lián)合提取中,F(xiàn)1 值高達(dá) 93.2%,可以將該方法應(yīng)用到實際問題解決中。
關(guān)鍵詞:BERT;BiLSTM;CRF;實體識別;詞嵌入
一、引言
隨著信息化發(fā)展和數(shù)據(jù)積累,電信運營商擁有數(shù)量巨大的用戶,沉淀了海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),作為非結(jié)構(gòu)化的對話文本是運營商辦理客戶業(yè)務(wù)和處理客戶問題的重要數(shù)據(jù)資源。運營商非結(jié)構(gòu)化的對話文本數(shù)據(jù)具有非結(jié)構(gòu)化、口語化、業(yè)務(wù)性強(qiáng)等特點,對該數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和實體與關(guān)系的抽取可以有效利用其中包含的語義信息,推動運營商智能化發(fā)展。
實體和關(guān)系抽取研究如何自由文本中抽取所需命名實體和關(guān)系的技術(shù),但中文自然語言具有表達(dá)的靈活性,運營商文本信息具有專業(yè)性的特點,進(jìn)行運營商的文本信息提取是當(dāng)前研究的難點問題,探索相關(guān)有效的信息提取方法具有重要價值。
二、相關(guān)工作
對運營商領(lǐng)域知識提取的方法研究主要涉及兩個方面:①運營商非結(jié)構(gòu)化中文語料庫構(gòu)建與運營商領(lǐng)域文本詞嵌入技術(shù);②運營商命名實體識別與關(guān)系提取技術(shù)。
(一)中文運營商語料庫與詞嵌入技術(shù)
詞向量是一種表示自然語言中詞的方法,把每個詞都表示為一個N維空間內(nèi)的點,即一個高維空間內(nèi)的向量。通過這種做法,把自然語言計算轉(zhuǎn)換為向量計算。詞嵌入技術(shù)(Word Embeddings)是一種將文本中的每個字符、詞、句封裝為向量表達(dá)式的技術(shù),是機(jī)器學(xué)習(xí)算法執(zhí)行自然語言處理的基礎(chǔ)。然而,在運營商領(lǐng)域的中文語料庫和詞嵌入技術(shù)研究較少,缺乏運營商領(lǐng)域詞嵌入技術(shù),故使用通用的中文詞嵌入技術(shù)作為替代方案,如Word2Vec、BERT等。尤其是BERT作為一個Word2Vec的替代者,其在NLP的11個領(lǐng)域相較于其他模型方法預(yù)測精度有較大提升且效果很好。本方法包含研究BERT模型詞嵌入技術(shù)在運營商命名實體與關(guān)系提取中的應(yīng)用。
(二)運營商命名實體識別與關(guān)系提取
運營商領(lǐng)域文本命名實體與關(guān)系提取從最早期開始,主要有依賴專家的詞典與規(guī)則的方法,對于繁雜的非結(jié)構(gòu)化文本的效果較差;隨后是基于統(tǒng)計的方法,提取效果有一定提升但并非很理想。
在非結(jié)構(gòu)化的運營商中文語料研究方面,學(xué)者們開展了基于專家詞庫與規(guī)則的運營商知識提取;學(xué)者們開展傳統(tǒng)的統(tǒng)計方法應(yīng)用于運營商命名實體和關(guān)系的提取主要有條件隨機(jī)場模型(CRF)。運營商領(lǐng)域命名實體提取應(yīng)用CRF模型提取實體的F1值達(dá)到72.55%的識別結(jié)果。隨著人工智能技術(shù)的進(jìn)步,使用深度學(xué)習(xí)方法提取文本語義信息逐漸成為一種趨勢,如LSTM、BiLSTM—CRF、BiGRU—CRF模型等。BiLSTM—CRF模型對運營商命名實體識別結(jié)果取得了90.04%的F1值。BiGRU—CRF模型對運營商命名實體識別也取得了F1值90.19的識別結(jié)果。
在電信運營商文本命名實體識別領(lǐng)域,應(yīng)用深度學(xué)習(xí)框架進(jìn)行實體提取獲得了較好的效果,但目前關(guān)于聯(lián)合提取運營商命名實體與關(guān)系研究的工作較少。
三、數(shù)據(jù)來源及語料標(biāo)注
本次話術(shù)文本所涉及的實體涵蓋了業(yè)務(wù)類、動作類和問題類三大類別。話術(shù)文本語料是通過“BIO+命名實體”的方法進(jìn)行實體標(biāo)注的。其中,B代表實體的頭部;I代表實體的中間部分或尾部;O代表非實體部分。由于話術(shù)文本多為圍繞某種營銷場景展開,本次話術(shù)文本語料中的實體關(guān)系采用“BIO+關(guān)系”的標(biāo)注方式。通過這種方式可以實現(xiàn)實體與關(guān)系聯(lián)合提取任務(wù)向序列標(biāo)注任務(wù)轉(zhuǎn)換。如表1所示。根據(jù)BIO方式對編碼后的文本進(jìn)行標(biāo)注,B代表流程動作開始部分,I代表流程動作結(jié)束部分,O代表流程動作部分。如:流程動作“不能微信”標(biāo)注為繳費環(huán)節(jié)異常。
最終選取了5個場景對話文本進(jìn)行實體與關(guān)系的標(biāo)注工作。使用BIO標(biāo)注方法標(biāo)注文本語料3000個句子。標(biāo)注的運營商語料按照8 :1:1的比例隨機(jī)劃分為訓(xùn)練集、測試集和驗證集。
四、基于BERT-BiLSTM-CR模型的運營商命名實體與關(guān)系提取
本文是通過BERT-BiLSTM-CRF模型對運營商文本數(shù)據(jù)進(jìn)行數(shù)據(jù)建模,完成運營商話術(shù)文本中實體提取和關(guān)系抽取。構(gòu)建模型以BERT的詞嵌入層(BERT-Embedding Layer)構(gòu)建字向量,通過對掩蓋信息預(yù)測學(xué)習(xí)文本上下文的語義變化表示;使用雙向長短期記憶模型(BiLSTM Layer)處理上下文信息,進(jìn)行文本的文本提取;最后使用條件隨機(jī)場模型(CRF Layer)進(jìn)行標(biāo)簽的預(yù)測。基于運營商大規(guī)模語料對預(yù)訓(xùn)練語言模型BERT進(jìn)行訓(xùn)練,首先導(dǎo)入BERT字典處理話術(shù)文本,轉(zhuǎn)換為字符編碼,然后利用BERT模型訓(xùn)練字向量、詞嵌入表示、特征標(biāo)志和位編碼信息進(jìn)行輸出。BERT模型主要是通過學(xué)習(xí)輸入的話術(shù)文本的字符級概率分布來學(xué)習(xí)命名實體與關(guān)系標(biāo)簽之間的規(guī)律特征。BiLSTM是由多層循環(huán)神經(jīng)網(wǎng)絡(luò)堆疊而成的,通過雙向傳播同時處理上下文的信息提取到文本中的特征,添加CRF層作為模型的最后輸出。條件隨機(jī)場CRF模型通過轉(zhuǎn)移概率評分的模式學(xué)習(xí)標(biāo)簽之間的聯(lián)系,建立相鄰命名實體和關(guān)系標(biāo)簽之間的轉(zhuǎn)移規(guī)則,提高模型預(yù)測結(jié)果的準(zhǔn)確性,如“B—不能微信”為動作實體的開頭部分,一般后面會接上“I—不能微信”。句子的頭部應(yīng)為“B—”或“O—”標(biāo)簽,“I—”標(biāo)簽只能作為句子的干部或者尾部,通過標(biāo)簽轉(zhuǎn)移規(guī)則的學(xué)習(xí)實現(xiàn)最終的實體與關(guān)系預(yù)測。根據(jù)對語料的整體長度分析,BETRT模型的輸入文本最大長度設(shè)定為256;BiLSTM模型隱藏層層數(shù)設(shè)置為128;詞向量維度設(shè)置為512。
五、實驗與分析
(一)實驗設(shè)計
本文采用“BIO+實體與關(guān)系”的方法對運營商大規(guī)模話術(shù)文本語料數(shù)據(jù)標(biāo)注,其中B作為標(biāo)注的實體開頭部分,I代表實體的中間部分,O表示非實體部分。實現(xiàn)了提取任務(wù)到序列標(biāo)注任務(wù)的轉(zhuǎn)換。
本文采用F1值判斷模型的預(yù)測性能,同時也計算分析了召回率R和精確率P的具體值,具體計算如下:
P=Correct / Predict×100%
R=Correct / Gold×100% (1)
F1=2PR / (P+R)×100%
其中,Correct表示模型預(yù)測正確的實體與關(guān)系數(shù)量,Predict表示實體與關(guān)系總數(shù)量,Gold表示模型識別到的實體與關(guān)系總數(shù)量。P表示模型精準(zhǔn)率,R表示模型召回率,F(xiàn)1值表示模型預(yù)測的性能指標(biāo)。
(二)實驗環(huán)境
本實驗采用Linux操作系統(tǒng),基于Pytorch平臺搭建訓(xùn)練,訓(xùn)練環(huán)境如表2所示。
(三)實驗結(jié)果
為驗證模型有效可行,首先基于BERT模型進(jìn)行微調(diào)實驗。選取BERT-fine-tuning模型第11個epoch時取得最優(yōu)F1值進(jìn)行可視化展示。
為了驗證BERT-BiLSTM-CRF模型在運營商數(shù)據(jù)集上的優(yōu)勢,該實驗對比分析了CRF模型、LSTM模型、BiLSTM-CRF模型的F1值,結(jié)果顯示BERT-BiLSTM-CRF模型有較為明顯的優(yōu)勢。
通過對比不同神經(jīng)網(wǎng)絡(luò)模型的F1值顯示,本文采用的BERT-BiLSTM-CRF模型比傳統(tǒng)CRF模型提高了5.6%,LSTM和BiLSTM-CRF模型也比CRF模型有一定的改進(jìn),說明神經(jīng)網(wǎng)絡(luò)在文本特征提取方面發(fā)揮了重要作用。BiLSTM模型對LSTM進(jìn)行雙向訓(xùn)練,雙向網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地學(xué)習(xí)文本特征,捕捉更多的序列信息。從模型的預(yù)測效果看出,F(xiàn)1對比提升了2.2%,說明使用雙向訓(xùn)練效果更佳。從BERT-BiLSTM-CRF模型和BiLSTM模型的實驗結(jié)果對比發(fā)現(xiàn),F(xiàn)1值提升了1.7%,由于BERT使用中文動態(tài)預(yù)訓(xùn)練模型,更充分地提取字符級、詞級和句子級的文本特征,使得模型的精度更高,預(yù)訓(xùn)練的詞向量能更好地表達(dá)語義信息,獲得更好的預(yù)測效果,提高模型預(yù)測性能。
六、結(jié)束語
針對運營商文本實體和關(guān)系提取任務(wù),本文基于預(yù)訓(xùn)練語言模型(BERT)訓(xùn)練大量的運營商文本數(shù)據(jù),從中獲取文本詞向量,作為神經(jīng)網(wǎng)絡(luò)模型(BiLSTM-CRF)的輸入,從而構(gòu)建BERT—BiLSTM—CRF模型進(jìn)行運營商非結(jié)構(gòu)化文本實體和關(guān)系的提取訓(xùn)練與預(yù)測。對比CRF、LSTM和BiLSTM-CRF,本文BERT—BiLSTM—CRF模型在模型性能評估指標(biāo)上有較大的優(yōu)勢。其中的BERT模型是基于大量的運營商數(shù)據(jù)訓(xùn)練的,可以學(xué)習(xí)到上下文語境,通過學(xué)習(xí)文本詞語、句法結(jié)構(gòu)等文本特征實現(xiàn)上下文語義理解,另外,BiLSTM對詞向量做進(jìn)一步預(yù)處理,再引入CRF強(qiáng)大的實體識別能力,使得該模型相較于其他模型在運營商文本實體和關(guān)系提取領(lǐng)域取得更好的效果。
作者單位:戴勝林 周天偉 楊國鋒 張國成 中國電信安徽分公司省智慧營銷和業(yè)務(wù)管理中心
參" 考" 文" 獻(xiàn)
[1]屈倩倩, 闞紅星. 基于Bert-BiLSTM-CRF的中醫(yī)文本命名實體識別[J]. 電子設(shè)計工程, 2021, 29(19):40-43,48.
[2]李長遠(yuǎn). 面向運營商資費知識圖譜的信息抽取技術(shù)研究與應(yīng)用[D]. 北京郵電大學(xué), 2019.
[3]李佳媛, 劉曉蒙, 羅思明. 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法:,CN112836501A[P]. 2021.
[4] Yu J ," Sun J ," Dong Y , et al. Entity recognition model of power safety regulations knowledge graph based on BERT-BiLSTM-CRF[C]// 2021 IEEE International Conference on Power Electronics, Computer Applications (ICPECA). IEEE, 2021.