999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT—BiLSTM—CRF模型的運營商文本命名實體與關(guān)系聯(lián)合提取

2023-04-29 00:00:00戴勝林周天偉楊國鋒張國成
中國新通信 2023年7期

摘要:本文使用大規(guī)模預(yù)訓(xùn)練漢語模型的 BERT-BiLSTM-CRF 方法,從運營商的非結(jié)構(gòu)化文本數(shù)據(jù)中聯(lián)合提取命名實體與關(guān)系。首先,通過運營商非結(jié)構(gòu)化文本數(shù)據(jù)建立運營商文本語料庫,對語料進(jìn)行文本標(biāo)簽標(biāo)注;然后,提出一種基于運營商文本命名實體與關(guān)系提取的 BERT-BiLSTM-CRF 模型方法。實驗結(jié)果表明,該技術(shù)在運營商文本命名實體與關(guān)系聯(lián)合提取中適用性較強(qiáng),在運營商文本的命名實體與關(guān)系聯(lián)合提取中,F(xiàn)1 值高達(dá) 93.2%,可以將該方法應(yīng)用到實際問題解決中。

關(guān)鍵詞:BERT;BiLSTM;CRF;實體識別;詞嵌入

一、引言

隨著信息化發(fā)展和數(shù)據(jù)積累,電信運營商擁有數(shù)量巨大的用戶,沉淀了海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),作為非結(jié)構(gòu)化的對話文本是運營商辦理客戶業(yè)務(wù)和處理客戶問題的重要數(shù)據(jù)資源。運營商非結(jié)構(gòu)化的對話文本數(shù)據(jù)具有非結(jié)構(gòu)化、口語化、業(yè)務(wù)性強(qiáng)等特點,對該數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和實體與關(guān)系的抽取可以有效利用其中包含的語義信息,推動運營商智能化發(fā)展。

實體和關(guān)系抽取研究如何自由文本中抽取所需命名實體和關(guān)系的技術(shù),但中文自然語言具有表達(dá)的靈活性,運營商文本信息具有專業(yè)性的特點,進(jìn)行運營商的文本信息提取是當(dāng)前研究的難點問題,探索相關(guān)有效的信息提取方法具有重要價值。

二、相關(guān)工作

對運營商領(lǐng)域知識提取的方法研究主要涉及兩個方面:①運營商非結(jié)構(gòu)化中文語料庫構(gòu)建與運營商領(lǐng)域文本詞嵌入技術(shù);②運營商命名實體識別與關(guān)系提取技術(shù)。

(一)中文運營商語料庫與詞嵌入技術(shù)

詞向量是一種表示自然語言中詞的方法,把每個詞都表示為一個N維空間內(nèi)的點,即一個高維空間內(nèi)的向量。通過這種做法,把自然語言計算轉(zhuǎn)換為向量計算。詞嵌入技術(shù)(Word Embeddings)是一種將文本中的每個字符、詞、句封裝為向量表達(dá)式的技術(shù),是機(jī)器學(xué)習(xí)算法執(zhí)行自然語言處理的基礎(chǔ)。然而,在運營商領(lǐng)域的中文語料庫和詞嵌入技術(shù)研究較少,缺乏運營商領(lǐng)域詞嵌入技術(shù),故使用通用的中文詞嵌入技術(shù)作為替代方案,如Word2Vec、BERT等。尤其是BERT作為一個Word2Vec的替代者,其在NLP的11個領(lǐng)域相較于其他模型方法預(yù)測精度有較大提升且效果很好。本方法包含研究BERT模型詞嵌入技術(shù)在運營商命名實體與關(guān)系提取中的應(yīng)用。

(二)運營商命名實體識別與關(guān)系提取

運營商領(lǐng)域文本命名實體與關(guān)系提取從最早期開始,主要有依賴專家的詞典與規(guī)則的方法,對于繁雜的非結(jié)構(gòu)化文本的效果較差;隨后是基于統(tǒng)計的方法,提取效果有一定提升但并非很理想。

在非結(jié)構(gòu)化的運營商中文語料研究方面,學(xué)者們開展了基于專家詞庫與規(guī)則的運營商知識提取;學(xué)者們開展傳統(tǒng)的統(tǒng)計方法應(yīng)用于運營商命名實體和關(guān)系的提取主要有條件隨機(jī)場模型(CRF)。運營商領(lǐng)域命名實體提取應(yīng)用CRF模型提取實體的F1值達(dá)到72.55%的識別結(jié)果。隨著人工智能技術(shù)的進(jìn)步,使用深度學(xué)習(xí)方法提取文本語義信息逐漸成為一種趨勢,如LSTM、BiLSTM—CRF、BiGRU—CRF模型等。BiLSTM—CRF模型對運營商命名實體識別結(jié)果取得了90.04%的F1值。BiGRU—CRF模型對運營商命名實體識別也取得了F1值90.19的識別結(jié)果。

在電信運營商文本命名實體識別領(lǐng)域,應(yīng)用深度學(xué)習(xí)框架進(jìn)行實體提取獲得了較好的效果,但目前關(guān)于聯(lián)合提取運營商命名實體與關(guān)系研究的工作較少。

三、數(shù)據(jù)來源及語料標(biāo)注

本次話術(shù)文本所涉及的實體涵蓋了業(yè)務(wù)類、動作類和問題類三大類別。話術(shù)文本語料是通過“BIO+命名實體”的方法進(jìn)行實體標(biāo)注的。其中,B代表實體的頭部;I代表實體的中間部分或尾部;O代表非實體部分。由于話術(shù)文本多為圍繞某種營銷場景展開,本次話術(shù)文本語料中的實體關(guān)系采用“BIO+關(guān)系”的標(biāo)注方式。通過這種方式可以實現(xiàn)實體與關(guān)系聯(lián)合提取任務(wù)向序列標(biāo)注任務(wù)轉(zhuǎn)換。如表1所示。根據(jù)BIO方式對編碼后的文本進(jìn)行標(biāo)注,B代表流程動作開始部分,I代表流程動作結(jié)束部分,O代表流程動作部分。如:流程動作“不能微信”標(biāo)注為繳費環(huán)節(jié)異常。

最終選取了5個場景對話文本進(jìn)行實體與關(guān)系的標(biāo)注工作。使用BIO標(biāo)注方法標(biāo)注文本語料3000個句子。標(biāo)注的運營商語料按照8 :1:1的比例隨機(jī)劃分為訓(xùn)練集、測試集和驗證集。

四、基于BERT-BiLSTM-CR模型的運營商命名實體與關(guān)系提取

本文是通過BERT-BiLSTM-CRF模型對運營商文本數(shù)據(jù)進(jìn)行數(shù)據(jù)建模,完成運營商話術(shù)文本中實體提取和關(guān)系抽取。構(gòu)建模型以BERT的詞嵌入層(BERT-Embedding Layer)構(gòu)建字向量,通過對掩蓋信息預(yù)測學(xué)習(xí)文本上下文的語義變化表示;使用雙向長短期記憶模型(BiLSTM Layer)處理上下文信息,進(jìn)行文本的文本提取;最后使用條件隨機(jī)場模型(CRF Layer)進(jìn)行標(biāo)簽的預(yù)測。基于運營商大規(guī)模語料對預(yù)訓(xùn)練語言模型BERT進(jìn)行訓(xùn)練,首先導(dǎo)入BERT字典處理話術(shù)文本,轉(zhuǎn)換為字符編碼,然后利用BERT模型訓(xùn)練字向量、詞嵌入表示、特征標(biāo)志和位編碼信息進(jìn)行輸出。BERT模型主要是通過學(xué)習(xí)輸入的話術(shù)文本的字符級概率分布來學(xué)習(xí)命名實體與關(guān)系標(biāo)簽之間的規(guī)律特征。BiLSTM是由多層循環(huán)神經(jīng)網(wǎng)絡(luò)堆疊而成的,通過雙向傳播同時處理上下文的信息提取到文本中的特征,添加CRF層作為模型的最后輸出。條件隨機(jī)場CRF模型通過轉(zhuǎn)移概率評分的模式學(xué)習(xí)標(biāo)簽之間的聯(lián)系,建立相鄰命名實體和關(guān)系標(biāo)簽之間的轉(zhuǎn)移規(guī)則,提高模型預(yù)測結(jié)果的準(zhǔn)確性,如“B—不能微信”為動作實體的開頭部分,一般后面會接上“I—不能微信”。句子的頭部應(yīng)為“B—”或“O—”標(biāo)簽,“I—”標(biāo)簽只能作為句子的干部或者尾部,通過標(biāo)簽轉(zhuǎn)移規(guī)則的學(xué)習(xí)實現(xiàn)最終的實體與關(guān)系預(yù)測。根據(jù)對語料的整體長度分析,BETRT模型的輸入文本最大長度設(shè)定為256;BiLSTM模型隱藏層層數(shù)設(shè)置為128;詞向量維度設(shè)置為512。

五、實驗與分析

(一)實驗設(shè)計

本文采用“BIO+實體與關(guān)系”的方法對運營商大規(guī)模話術(shù)文本語料數(shù)據(jù)標(biāo)注,其中B作為標(biāo)注的實體開頭部分,I代表實體的中間部分,O表示非實體部分。實現(xiàn)了提取任務(wù)到序列標(biāo)注任務(wù)的轉(zhuǎn)換。

本文采用F1值判斷模型的預(yù)測性能,同時也計算分析了召回率R和精確率P的具體值,具體計算如下:

P=Correct / Predict×100%

R=Correct / Gold×100% (1)

F1=2PR / (P+R)×100%

其中,Correct表示模型預(yù)測正確的實體與關(guān)系數(shù)量,Predict表示實體與關(guān)系總數(shù)量,Gold表示模型識別到的實體與關(guān)系總數(shù)量。P表示模型精準(zhǔn)率,R表示模型召回率,F(xiàn)1值表示模型預(yù)測的性能指標(biāo)。

(二)實驗環(huán)境

本實驗采用Linux操作系統(tǒng),基于Pytorch平臺搭建訓(xùn)練,訓(xùn)練環(huán)境如表2所示。

(三)實驗結(jié)果

為驗證模型有效可行,首先基于BERT模型進(jìn)行微調(diào)實驗。選取BERT-fine-tuning模型第11個epoch時取得最優(yōu)F1值進(jìn)行可視化展示。

為了驗證BERT-BiLSTM-CRF模型在運營商數(shù)據(jù)集上的優(yōu)勢,該實驗對比分析了CRF模型、LSTM模型、BiLSTM-CRF模型的F1值,結(jié)果顯示BERT-BiLSTM-CRF模型有較為明顯的優(yōu)勢。

通過對比不同神經(jīng)網(wǎng)絡(luò)模型的F1值顯示,本文采用的BERT-BiLSTM-CRF模型比傳統(tǒng)CRF模型提高了5.6%,LSTM和BiLSTM-CRF模型也比CRF模型有一定的改進(jìn),說明神經(jīng)網(wǎng)絡(luò)在文本特征提取方面發(fā)揮了重要作用。BiLSTM模型對LSTM進(jìn)行雙向訓(xùn)練,雙向網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地學(xué)習(xí)文本特征,捕捉更多的序列信息。從模型的預(yù)測效果看出,F(xiàn)1對比提升了2.2%,說明使用雙向訓(xùn)練效果更佳。從BERT-BiLSTM-CRF模型和BiLSTM模型的實驗結(jié)果對比發(fā)現(xiàn),F(xiàn)1值提升了1.7%,由于BERT使用中文動態(tài)預(yù)訓(xùn)練模型,更充分地提取字符級、詞級和句子級的文本特征,使得模型的精度更高,預(yù)訓(xùn)練的詞向量能更好地表達(dá)語義信息,獲得更好的預(yù)測效果,提高模型預(yù)測性能。

六、結(jié)束語

針對運營商文本實體和關(guān)系提取任務(wù),本文基于預(yù)訓(xùn)練語言模型(BERT)訓(xùn)練大量的運營商文本數(shù)據(jù),從中獲取文本詞向量,作為神經(jīng)網(wǎng)絡(luò)模型(BiLSTM-CRF)的輸入,從而構(gòu)建BERT—BiLSTM—CRF模型進(jìn)行運營商非結(jié)構(gòu)化文本實體和關(guān)系的提取訓(xùn)練與預(yù)測。對比CRF、LSTM和BiLSTM-CRF,本文BERT—BiLSTM—CRF模型在模型性能評估指標(biāo)上有較大的優(yōu)勢。其中的BERT模型是基于大量的運營商數(shù)據(jù)訓(xùn)練的,可以學(xué)習(xí)到上下文語境,通過學(xué)習(xí)文本詞語、句法結(jié)構(gòu)等文本特征實現(xiàn)上下文語義理解,另外,BiLSTM對詞向量做進(jìn)一步預(yù)處理,再引入CRF強(qiáng)大的實體識別能力,使得該模型相較于其他模型在運營商文本實體和關(guān)系提取領(lǐng)域取得更好的效果。

作者單位:戴勝林 周天偉 楊國鋒 張國成 中國電信安徽分公司省智慧營銷和業(yè)務(wù)管理中心

參" 考" 文" 獻(xiàn)

[1]屈倩倩, 闞紅星. 基于Bert-BiLSTM-CRF的中醫(yī)文本命名實體識別[J]. 電子設(shè)計工程, 2021, 29(19):40-43,48.

[2]李長遠(yuǎn). 面向運營商資費知識圖譜的信息抽取技術(shù)研究與應(yīng)用[D]. 北京郵電大學(xué), 2019.

[3]李佳媛, 劉曉蒙, 羅思明. 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法:,CN112836501A[P]. 2021.

[4] Yu J ," Sun J ," Dong Y , et al. Entity recognition model of power safety regulations knowledge graph based on BERT-BiLSTM-CRF[C]// 2021 IEEE International Conference on Power Electronics, Computer Applications (ICPECA). IEEE, 2021.

主站蜘蛛池模板: 欧美精品成人一区二区在线观看| 亚洲AV永久无码精品古装片| 久久久久免费看成人影片| 中文无码精品A∨在线观看不卡 | 欧美日韩另类在线| 亚洲另类色| 日本精品视频| 波多野结衣无码中文字幕在线观看一区二区| 夜色爽爽影院18禁妓女影院| 中文字幕 日韩 欧美| 欧美激情网址| 亚洲综合欧美在线一区在线播放| 日韩区欧美区| 国产人在线成免费视频| 丁香五月激情图片| 国产后式a一视频| 欧美精品v欧洲精品| 97se综合| 国产精品网址在线观看你懂的| 国产一级毛片在线| 在线观看视频99| 免费三A级毛片视频| 人妻中文久热无码丝袜| 91视频首页| 日本草草视频在线观看| 黄色网页在线播放| 亚洲色图综合在线| 丁香婷婷激情网| 国产在线麻豆波多野结衣| 亚洲女同一区二区| 中文国产成人久久精品小说| 亚洲精品天堂在线观看| 亚洲欧美激情另类| 国产美女免费| 久久综合五月婷婷| 无码网站免费观看| 久久精品一卡日本电影 | 尤物视频一区| 国产白浆视频| 国产亚洲男人的天堂在线观看| 亚洲精品国产自在现线最新| 国产乱肥老妇精品视频| 专干老肥熟女视频网站| 欧美激情第一欧美在线| 亚洲综合九九| 少妇人妻无码首页| 日韩欧美中文在线| 一本大道香蕉久中文在线播放| 一区二区日韩国产精久久| 国产一区成人| 日韩123欧美字幕| 精品视频福利| 亚洲成综合人影院在院播放| 美女被狂躁www在线观看| 国产成人艳妇AA视频在线| 欧美中日韩在线| 91福利免费| 综合网久久| AV无码一区二区三区四区| 99热这里都是国产精品| 欧美亚洲日韩不卡在线在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲成A人V欧美综合| 在线欧美日韩国产| 亚洲欧美自拍中文| 国产福利大秀91| 亚洲毛片网站| 久久一本日韩精品中文字幕屁孩| 97国产精品视频自在拍| 91九色视频网| 亚洲精品制服丝袜二区| 精品国产自| 99一级毛片| 福利视频一区| 国产女人综合久久精品视| 青青国产在线| 91精品小视频| 国产探花在线视频| 免费在线看黄网址| 97在线公开视频| 福利一区三区| 91人妻日韩人妻无码专区精品|