基于BERT—BiLSTM—CRF模型的運營商文本命名實體與關(guān)系聯(lián)合提取

2023-04-29 00:00:00戴勝林周天偉楊國鋒張國成

中國新通信 2023年7期

摘要：本文使用大規(guī)模預(yù)訓(xùn)練漢語模型的 BERT-BiLSTM-CRF 方法，從運營商的非結(jié)構(gòu)化文本數(shù)據(jù)中聯(lián)合提取命名實體與關(guān)系。首先，通過運營商非結(jié)構(gòu)化文本數(shù)據(jù)建立運營商文本語料庫，對語料進(jìn)行文本標(biāo)簽標(biāo)注；然后，提出一種基于運營商文本命名實體與關(guān)系提取的 BERT-BiLSTM-CRF 模型方法。實驗結(jié)果表明，該技術(shù)在運營商文本命名實體與關(guān)系聯(lián)合提取中適用性較強(qiáng)，在運營商文本的命名實體與關(guān)系聯(lián)合提取中，F(xiàn)1 值高達(dá) 93.2%，可以將該方法應(yīng)用到實際問題解決中。

關(guān)鍵詞：BERT；BiLSTM；CRF；實體識別；詞嵌入

一、引言

隨著信息化發(fā)展和數(shù)據(jù)積累，電信運營商擁有數(shù)量巨大的用戶，沉淀了海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，作為非結(jié)構(gòu)化的對話文本是運營商辦理客戶業(yè)務(wù)和處理客戶問題的重要數(shù)據(jù)資源。運營商非結(jié)構(gòu)化的對話文本數(shù)據(jù)具有非結(jié)構(gòu)化、口語化、業(yè)務(wù)性強(qiáng)等特點，對該數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和實體與關(guān)系的抽取可以有效利用其中包含的語義信息，推動運營商智能化發(fā)展。

實體和關(guān)系抽取研究如何自由文本中抽取所需命名實體和關(guān)系的技術(shù)，但中文自然語言具有表達(dá)的靈活性，運營商文本信息具有專業(yè)性的特點，進(jìn)行運營商的文本信息提取是當(dāng)前研究的難點問題，探索相關(guān)有效的信息提取方法具有重要價值。

二、相關(guān)工作

對運營商領(lǐng)域知識提取的方法研究主要涉及兩個方面：①運營商非結(jié)構(gòu)化中文語料庫構(gòu)建與運營商領(lǐng)域文本詞嵌入技術(shù)；②運營商命名實體識別與關(guān)系提取技術(shù)。

（一）中文運營商語料庫與詞嵌入技術(shù)

詞向量是一種表示自然語言中詞的方法，把每個詞都表示為一個N維空間內(nèi)的點，即一個高維空間內(nèi)的向量。通過這種做法，把自然語言計算轉(zhuǎn)換為向量計算。詞嵌入技術(shù)（Word Embeddings）是一種將文本中的每個字符、詞、句封裝為向量表達(dá)式的技術(shù)，是機(jī)器學(xué)習(xí)算法執(zhí)行自然語言處理的基礎(chǔ)。然而，在運營商領(lǐng)域的中文語料庫和詞嵌入技術(shù)研究較少，缺乏運營商領(lǐng)域詞嵌入技術(shù)，故使用通用的中文詞嵌入技術(shù)作為替代方案，如Word2Vec、BERT等。尤其是BERT作為一個Word2Vec的替代者，其在NLP的11個領(lǐng)域相較于其他模型方法預(yù)測精度有較大提升且效果很好。本方法包含研究BERT模型詞嵌入技術(shù)在運營商命名實體與關(guān)系提取中的應(yīng)用。

（二）運營商命名實體識別與關(guān)系提取

運營商領(lǐng)域文本命名實體與關(guān)系提取從最早期開始，主要有依賴專家的詞典與規(guī)則的方法，對于繁雜的非結(jié)構(gòu)化文本的效果較差；隨后是基于統(tǒng)計的方法，提取效果有一定提升但并非很理想。

在非結(jié)構(gòu)化的運營商中文語料研究方面，學(xué)者們開展了基于專家詞庫與規(guī)則的運營商知識提取；學(xué)者們開展傳統(tǒng)的統(tǒng)計方法應(yīng)用于運營商命名實體和關(guān)系的提取主要有條件隨機(jī)場模型（CRF）。運營商領(lǐng)域命名實體提取應(yīng)用CRF模型提取實體的F1值達(dá)到72.55%的識別結(jié)果。隨著人工智能技術(shù)的進(jìn)步，使用深度學(xué)習(xí)方法提取文本語義信息逐漸成為一種趨勢，如LSTM、BiLSTM—CRF、BiGRU—CRF模型等。BiLSTM—CRF模型對運營商命名實體識別結(jié)果取得了90.04%的F1值。BiGRU—CRF模型對運營商命名實體識別也取得了F1值90.19的識別結(jié)果。

在電信運營商文本命名實體識別領(lǐng)域，應(yīng)用深度學(xué)習(xí)框架進(jìn)行實體提取獲得了較好的效果，但目前關(guān)于聯(lián)合提取運營商命名實體與關(guān)系研究的工作較少。

三、數(shù)據(jù)來源及語料標(biāo)注

本次話術(shù)文本所涉及的實體涵蓋了業(yè)務(wù)類、動作類和問題類三大類別。話術(shù)文本語料是通過“BIO+命名實體”的方法進(jìn)行實體標(biāo)注的。其中，B代表實體的頭部；I代表實體的中間部分或尾部；O代表非實體部分。由于話術(shù)文本多為圍繞某種營銷場景展開，本次話術(shù)文本語料中的實體關(guān)系采用“BIO+關(guān)系”的標(biāo)注方式。通過這種方式可以實現(xiàn)實體與關(guān)系聯(lián)合提取任務(wù)向序列標(biāo)注任務(wù)轉(zhuǎn)換。如表1所示。根據(jù)BIO方式對編碼后的文本進(jìn)行標(biāo)注，B代表流程動作開始部分，I代表流程動作結(jié)束部分，O代表流程動作部分。如：流程動作“不能微信”標(biāo)注為繳費環(huán)節(jié)異常。

最終選取了5個場景對話文本進(jìn)行實體與關(guān)系的標(biāo)注工作。使用BIO標(biāo)注方法標(biāo)注文本語料3000個句子。標(biāo)注的運營商語料按照8 ：1：1的比例隨機(jī)劃分為訓(xùn)練集、測試集和驗證集。

四、基于BERT-BiLSTM-CR模型的運營商命名實體與關(guān)系提取

本文是通過BERT-BiLSTM-CRF模型對運營商文本數(shù)據(jù)進(jìn)行數(shù)據(jù)建模，完成運營商話術(shù)文本中實體提取和關(guān)系抽取。構(gòu)建模型以BERT的詞嵌入層（BERT-Embedding Layer）構(gòu)建字向量，通過對掩蓋信息預(yù)測學(xué)習(xí)文本上下文的語義變化表示；使用雙向長短期記憶模型（BiLSTM Layer）處理上下文信息，進(jìn)行文本的文本提取；最后使用條件隨機(jī)場模型（CRF Layer）進(jìn)行標(biāo)簽的預(yù)測。基于運營商大規(guī)模語料對預(yù)訓(xùn)練語言模型BERT進(jìn)行訓(xùn)練，首先導(dǎo)入BERT字典處理話術(shù)文本，轉(zhuǎn)換為字符編碼，然后利用BERT模型訓(xùn)練字向量、詞嵌入表示、特征標(biāo)志和位編碼信息進(jìn)行輸出。BERT模型主要是通過學(xué)習(xí)輸入的話術(shù)文本的字符級概率分布來學(xué)習(xí)命名實體與關(guān)系標(biāo)簽之間的規(guī)律特征。BiLSTM是由多層循環(huán)神經(jīng)網(wǎng)絡(luò)堆疊而成的，通過雙向傳播同時處理上下文的信息提取到文本中的特征，添加CRF層作為模型的最后輸出。條件隨機(jī)場CRF模型通過轉(zhuǎn)移概率評分的模式學(xué)習(xí)標(biāo)簽之間的聯(lián)系，建立相鄰命名實體和關(guān)系標(biāo)簽之間的轉(zhuǎn)移規(guī)則，提高模型預(yù)測結(jié)果的準(zhǔn)確性，如“B—不能微信”為動作實體的開頭部分，一般后面會接上“I—不能微信”。句子的頭部應(yīng)為“B—”或“O—”標(biāo)簽，“I—”標(biāo)簽只能作為句子的干部或者尾部，通過標(biāo)簽轉(zhuǎn)移規(guī)則的學(xué)習(xí)實現(xiàn)最終的實體與關(guān)系預(yù)測。根據(jù)對語料的整體長度分析，BETRT模型的輸入文本最大長度設(shè)定為256；BiLSTM模型隱藏層層數(shù)設(shè)置為128；詞向量維度設(shè)置為512。

五、實驗與分析

（一）實驗設(shè)計

本文采用“BIO+實體與關(guān)系”的方法對運營商大規(guī)模話術(shù)文本語料數(shù)據(jù)標(biāo)注，其中B作為標(biāo)注的實體開頭部分，I代表實體的中間部分，O表示非實體部分。實現(xiàn)了提取任務(wù)到序列標(biāo)注任務(wù)的轉(zhuǎn)換。

本文采用F1值判斷模型的預(yù)測性能，同時也計算分析了召回率R和精確率P的具體值，具體計算如下：

P=Correct / Predict×100%

R=Correct / Gold×100% （1）

F1=2PR / （P+R）×100%

其中，Correct表示模型預(yù)測正確的實體與關(guān)系數(shù)量，Predict表示實體與關(guān)系總數(shù)量，Gold表示模型識別到的實體與關(guān)系總數(shù)量。P表示模型精準(zhǔn)率，R表示模型召回率，F(xiàn)1值表示模型預(yù)測的性能指標(biāo)。

（二）實驗環(huán)境

本實驗采用Linux操作系統(tǒng)，基于Pytorch平臺搭建訓(xùn)練，訓(xùn)練環(huán)境如表2所示。

（三）實驗結(jié)果

為驗證模型有效可行，首先基于BERT模型進(jìn)行微調(diào)實驗。選取BERT-fine-tuning模型第11個epoch時取得最優(yōu)F1值進(jìn)行可視化展示。

為了驗證BERT-BiLSTM-CRF模型在運營商數(shù)據(jù)集上的優(yōu)勢，該實驗對比分析了CRF模型、LSTM模型、BiLSTM-CRF模型的F1值，結(jié)果顯示BERT-BiLSTM-CRF模型有較為明顯的優(yōu)勢。

通過對比不同神經(jīng)網(wǎng)絡(luò)模型的F1值顯示，本文采用的BERT-BiLSTM-CRF模型比傳統(tǒng)CRF模型提高了5.6%，LSTM和BiLSTM-CRF模型也比CRF模型有一定的改進(jìn)，說明神經(jīng)網(wǎng)絡(luò)在文本特征提取方面發(fā)揮了重要作用。BiLSTM模型對LSTM進(jìn)行雙向訓(xùn)練，雙向網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地學(xué)習(xí)文本特征，捕捉更多的序列信息。從模型的預(yù)測效果看出，F(xiàn)1對比提升了2.2%，說明使用雙向訓(xùn)練效果更佳。從BERT-BiLSTM-CRF模型和BiLSTM模型的實驗結(jié)果對比發(fā)現(xiàn)，F(xiàn)1值提升了1.7%，由于BERT使用中文動態(tài)預(yù)訓(xùn)練模型，更充分地提取字符級、詞級和句子級的文本特征，使得模型的精度更高，預(yù)訓(xùn)練的詞向量能更好地表達(dá)語義信息，獲得更好的預(yù)測效果，提高模型預(yù)測性能。

六、結(jié)束語

針對運營商文本實體和關(guān)系提取任務(wù)，本文基于預(yù)訓(xùn)練語言模型（BERT）訓(xùn)練大量的運營商文本數(shù)據(jù)，從中獲取文本詞向量，作為神經(jīng)網(wǎng)絡(luò)模型（BiLSTM-CRF）的輸入，從而構(gòu)建BERT—BiLSTM—CRF模型進(jìn)行運營商非結(jié)構(gòu)化文本實體和關(guān)系的提取訓(xùn)練與預(yù)測。對比CRF、LSTM和BiLSTM-CRF，本文BERT—BiLSTM—CRF模型在模型性能評估指標(biāo)上有較大的優(yōu)勢。其中的BERT模型是基于大量的運營商數(shù)據(jù)訓(xùn)練的，可以學(xué)習(xí)到上下文語境，通過學(xué)習(xí)文本詞語、句法結(jié)構(gòu)等文本特征實現(xiàn)上下文語義理解，另外，BiLSTM對詞向量做進(jìn)一步預(yù)處理，再引入CRF強(qiáng)大的實體識別能力，使得該模型相較于其他模型在運營商文本實體和關(guān)系提取領(lǐng)域取得更好的效果。

作者單位：戴勝林周天偉楊國鋒張國成中國電信安徽分公司省智慧營銷和業(yè)務(wù)管理中心

參" 考" 文" 獻(xiàn)

[1]屈倩倩，闞紅星. 基于Bert-BiLSTM-CRF的中醫(yī)文本命名實體識別[J]. 電子設(shè)計工程， 2021， 29（19）：40-43，48.

[2]李長遠(yuǎn). 面向運營商資費知識圖譜的信息抽取技術(shù)研究與應(yīng)用[D]. 北京郵電大學(xué)， 2019.

[3]李佳媛，劉曉蒙，羅思明. 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法：，CN112836501A[P]. 2021.

[4] Yu J ，" Sun J ，" Dong Y ， et al. Entity recognition model of power safety regulations knowledge graph based on BERT-BiLSTM-CRF[C]// 2021 IEEE International Conference on Power Electronics， Computer Applications （ICPECA）. IEEE， 2021.

中國新通信2023年7期

中國新通信的其它文章: 探究大數(shù)據(jù)視域下的企業(yè)信息化管理系統(tǒng)建設(shè); “互聯(lián)網(wǎng)+”背景下小學(xué)語文寫作教學(xué)探討; 數(shù)字平臺助力下小學(xué)信息科技過程性評價模式的數(shù)字化探究; 互聯(lián)網(wǎng)在小學(xué)數(shù)學(xué)教學(xué)中的運用策略研究; 互聯(lián)網(wǎng)時代下小學(xué)語文教學(xué)語言的特點分析; 大數(shù)據(jù)下的中小學(xué)生體質(zhì)健康提升策略研究