999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ALBERT預訓練模型的通用中文命名實體識別方法

2022-10-13 02:54:40呂海峰冀肖榆陳偉業邸臻煒
梧州學院學報 2022年3期
關鍵詞:語義文本效果

呂海峰,冀肖榆,陳偉業,邸臻煒

1.梧州學院 大數據與軟件工程學院,廣西 梧州 543002;2.梧州學院 廣西機器視覺與智能控制重點實驗室,廣西 梧州 543002;3.梧州學院 廣西高校圖像處理與智能信息系統重點實驗室,廣西 梧州 543002)

提取文本序列某些特定標簽諸如機構、地點、時間、人名等實體的過程稱為命名實體識別(Named Entity Recognition,NER)[1]。NER是關系抽取、對話系統、自動問答、信息檢索等任務的重要組成部分,NER是自然語言處理研究的一個基礎且重要的問題。

現階段主流的深度學習命名實體識別方法,大多利用循環神經網絡(Recurrent Neural Network,RNN)或卷積神經網絡(Convolutional Neural Network,CNN)作為編碼層抽取上下文特征,接著采用條件隨機場Conditional Random Field,CRF)解碼出正確標簽序列,如(Collobert[2]、Peters[3]、Shao[4]、Rei[5]、Patrick[6]等),與條件隨機場模型[8-10]、隱馬爾可夫模型[7](Hidden Markov Model,HMM)。英文與中文在該任務不同,基于分詞的中文實體抽取不能處理分詞錯誤、數據稀疏、OOV(out-of-vocabulary)和過擬合問題,并且傳統如Word2vec、glove的靜態詞向量不能處理一詞多義問題[11]。因此,研究動態詞向量刻不容緩。(Embeddings from Language Model,ELMO )預訓練語言模型被Matthew等[12]提出,能夠按照當前上下文動態調整字或詞向量,可有效解決上述問題。2018年Google則提出一種雙向Transformer[19]的編碼表示方法(Bidirectional Encoder Representation for Transformers,BERT)[13],在文本分類、依存分析、序列標注、相似度等11類NLP任務上均取得了很好的效果。盡管BERT應用廣泛、效果很好,對各項NLP任務的提升都很顯著,但存在模型參數量大、效率低等問題。于是Lan等[14]提出了一個精簡版BERT模型,簡稱ALBERT,因式分解詞向量矩陣,對下游任務中所有層實現參數共享,不僅具有較少參數量,而且在SquAD、RACE、GLUE等任務表現方面取得最佳效果。

當前,盡管有不少針對中文的實體識別方法,但識別效果依然不夠理想,有必要進一步研究,通過改進以及優化現有實體識別模型,構建基于預訓練語言模型融合自定義詞典的新實體識別模型,以進一步提升實體抽取效果。

1 相關工作

基于深度學習、統計機器學習以及規則字典方法是NER任務中常用的3種方案?;谝巹t字典的方法需要依賴大量先驗知識,通過設計規則模板以提取對應的實體信息,存在任務難度大、不可移植、效率低等缺點。結構化單一數據集采用基于規則字典的方法比較可行,但在實際場景里,非結構化數據往往占據大多數比例,建立規則模板難以覆蓋所有的非結構化數據范圍。以隱馬爾可夫模型HMM和條件隨機場CRF等為代表的統計機器學習方法在實體識別任務上取得一定的效果,具備一定泛化能力。但即便如此,這些統計機器學習方法仍然依賴特征模板,不能自動提取特征,需要標注大量的樣本,識別效果不夠明顯。

構建基于深度學習的序列標注模型識別實體被認為是序列標注任務?;贑NN網絡結構的序列標注模型由Collobert等[15]提出,并且擁有良好的提取效果。序列長距離上下文信息、固定長度輸入等問題得以解決是由于RNN的提出。由RNN派生出的各種版本,能夠在一定程度上降低反向傳播過程中出現梯度消失問題,有效保存和獲取序列上下文信息,最典型的RNN變體如GRU和LSTM。以BiLSTM作為編碼層,CRF作為解碼層的模型由Huang等[16]提出,實體抽取效果達到了當時SOTA表現。

近年來,自然語言處理技術發展迅速,尤其是得益于深度神經網絡方法在自然語言領域的廣泛應用。以利用預訓練字/詞向量技術的Word2vec、Glove等神經網絡模型[17,18],較好地捕獲文本序列的上下文特征,但不能處理一詞多義問題,未有效考慮詞在序列的位置對詞意義的影響,屬于典型的靜態詞向量。于是ELMO模型被提出,能夠按照此刻上下文動態調整詞向量權重,有效解決上述問題。但ELMO還是使用LSTM結構進行特征抽取,上下文特征提取能力弱。2018年Devlin等人提出了在眾多測試集上獲得新SOTA表現的深度雙向表示預訓練模型BERT[13]。盡管BERT應用廣泛、效果很好,對各項NLP任務提升都很大,但存在模型參數量大、效率低等問題。于是Lan提出了一個精簡版BERT模型,簡稱ALBERT,因式分解詞向量矩陣,對下游任務中所有層實現參數共享,不僅具有比BERT更少參數量,而且在SquAD、RACE和GLUE等任務表現獲得當時最佳效果。故在命名實體任務中怎樣高效融合ALBERT,以提高實體識別性能,無疑是當前研究的熱門主題。

現階段實體抽取的研究存在問題主要有:(1)僅依賴詞或字符級別特征,長距離語義信息因為梯度彌散,導致文本語義信息容易丟失;(2)早期的類似Word2vec等上下文無關、靜態詞向量,導致不能解決一詞多義的問題。針對上述問題,本文提出了一種基于ALBERT-Attention-CRF模型的中文實體識別方法。采用ALBERT在命名實體任務進行微調,不僅解決了一詞多義問題,而且處理了詞級別出現數據稀疏、OOV、過擬合等問題,提升了模型對文本序列特征抽取能力。結合Attention機制編碼文本語義信息,不僅有效處理實體邊界模糊問題,而且比經典BiLSTM模型利用更多文本語義信息、捕獲更長的距離依賴,最后在輸出層采用CRF模型,該方法能考慮到序列標注直接的依存關系,有助于提高模型對實體識別準確率。模型在人民日報數據集進行驗證,測試集總體命名實體識別F1值達93.72%,結果表明本文所提方法與BERT相比,參數量更小,效率更高,有效降低模型大小和提高命名實體識別的整體效果。

2 模型

2.1 BERT模型

傳統如Word2vec靜態詞向量僅考慮詞的局部信息,不能處理一詞多義問題,且缺少詞與局部窗口外詞的聯系。基于LSTM結構模型預訓練詞向量,有效捕獲長間隔的語義特征,于是Matthew等[12]提出了有效捕獲序列兩側上下文信息的ELMO模型,它是基于兩層兩向的長短期記憶網絡結構,有效緩解單向信息學習的問題。Radford等[20]提出(Generative Pre-Training,GPT)模型。不同于ELMO,GPT采用單向Transformer預訓練,下游具體NLP任務以微調模式實現。與LSTM相比,GPT缺點是單向的,但能夠捕獲更長上下文語義信息。使有效學習句子兩側上下文信息,基于雙向Transformer的BERT模型被提出,句子兩邊的上下文在全部層中得到相同依賴,雙向語言模型、特征提取能力得到改進和提升。BERT模型就其他模型而言,達到了去粗取精的效果。在多種NLP任務上獲得了當時的SOTA效果。BERT與ELMO、GPT模型結構見圖1[13]。

2.1.1 BERT輸入表示

輸入表示可以是單個句子或者一個句子對構成的詞序列。對給定的詞,其輸入表示由3個Embedding組成。Embedding可視化表示見圖2[13]。

圖2 BERT模型輸入表示

其中,本文以中文字向量作為Token Embeddings;首個Token是用在后續分類任務的CLS標志;常用在句子級別分類任務的Segment Embeddings分割兩個句子;人為設置的序列位置向量是Position Embeddings。

2.1.2 BERT模型預訓練任務

BERT模型分別使用Masked Language Model(Masked LM)和預測句子這兩個無監督預測任務進行預訓練。在Masked LM任務中,為了訓練編碼器是雙向Transformer深度表示,隨機遮掩15%字符(Token),然后對被遮擋的Token進行預測。遮掩規則:(a)以符號Masked替代80%已遮掩的字符;(b)隨機字符代替10%;(c)被遮掩字符的10%不變。

此外,自然語言處理中有很多需要理解兩個句子之間關系的句子級別任務,如自動問答、推理等任務。通常是以隨機替換方式,判斷兩個句子是否連貫的分類任務被加入到BERT預訓練中。預測格式見表1。

表1 句子對預測格式

2.2 ALBERT模型

在學習文本表示時,一般預訓練模型的參數越多,下游任務的效果就越好,如BERT模型。但是,有時候受到訓練時長、TPU/GPU內存制約等因素影響,模型參數增加導致模型使用效率低。針對上述難題,Google提出了參數量大大低于BERT的簡化版本 (A Lite BERT,ALBERT)[14]。

預訓練模型擴展的關鍵瓶頸在ALBERT中提出的2種參數消減技術得到解決。一是因式分解向量參數:將大詞向量矩陣變為2個小矩陣,因而相互分離詞向量與隱藏層的大小。該技術使得詞向量參數增加不明顯,且便于擴展隱藏層。二是可以共享不同層之間的參數:它不會因擴大網絡層數而增多參數量。這2項技術都大大提高了參數效率,且明顯減少了BERT 的參數量。BERT-large配置與ALBERT相似,但前后者參數量之比約為18∶1,訓練速度之比約為1∶1.7。上述削減參數技術提升泛化能力,使得訓練比較穩定,并具備一定正則化效果。

為了提高ALBERT性能,基于句子層面預測的(SOP)自監督損失函數被研究者提出。SOP旨在處理傳統BERT中NSP任務loss效率低的問題,關注句間的連貫性。鑒于上述改進,ALBERT可以支持不同版本擴展,以明顯提升性能且參數量遠低于BERT-large為目標。

2.3 Attention機制

盡管通過Encoder的語義表示涵蓋充分的上下文特征,但由于其權值相同,難以對實體類別進行有效區分。Attention 旨在捕獲上下文語義特征,它根據編碼層輸出的每個詞隱向量xi,通過S=∑αi·xi。其中αi為預設權值,s為由x1,x2,…,xn組成的文本序列。在注意力機制中,權值αi呈現字符間的關聯性,因為每個字符距離都是1,實體界限容易得到有效區分,因此字級別樣本集實體界限不易劃分的問題得到有效緩解。

2.4 CRF模型

多分類任務常用Softmax輸出每個類別的概率,由于Softmax分類器的輸出相互獨立,并未考慮標簽之間的依存關系。因此,條件隨機場,即CRF模型[21]被常用來做序列標注任務。該方法有效考慮到序列相鄰詞的標注信息,能夠更全面預測標簽。給定輸入序列X(x1,x2,…,xn),Y(y1,y2,…,yn)都是線性鏈的隨機序列。如果給出X前提下,Y的條件概率分布P(Y|X)是條件隨機場,如果符合下面假設,則P(Y|X)為線性鏈條件隨機場。

P(Yi|X,Y1,Y2,…Yn)=P(Yi|X,Yi-1,Yi+1)

(1)

設P(n,k)為輸出層的權重矩陣,輸出標簽序列Y的總得分S(x,y),即

(2)

其中,A是轉移得分矩陣,n表示句子長度,k表示標簽種類個數。

對所有可能的序列路徑用softmax函數計算,產生關于輸出序列y的概率分布,即:

(3)

在訓練過程中,常使用極大似然法求解P(y|x)的最大后驗概率,即

(4)

在解碼階段,預測最高總得分的序列即為最優序列,即

(5)

CRF訓練和解碼一般采用動態規劃算法Viterbi[22]來求解最優序列。

2.5 ALBERT-Attention-CRF模型

模型由5層構成,分別是輸入層、嵌入層、ALBERT特征編碼層、注意力層、CRF層。模型最先采用ALBERT向量化表示每個字符,獲取對應字向量;然后利用ALBERT預訓練模型中的雙向Transformer結構對輸入字向量序列進行特征提取;為了加強上下文語義表示,采用Attention機制獲取語義向量;最后使用CRF解碼語義向量,CRF能夠有效考慮到序列相鄰詞的標注信息,得到概率最大的標簽序列,進而解析出序列中的實體。模型結構如圖3所示。

圖3 ALBERT-Attention-CRF模型結構

其中,x1,x2,…x7表示輸入文本“北京是我國首都”經過ALBERT預訓練語言模型向量化后的字向量;接著為ALBERT預訓練語言模型編碼層,主要由多層雙向Transformers結構組成,得到包含上下文信息的語義向量h1,h2,…h7。Fchar是計算2個字符之間關系權重的Attention層加權函數,拼接向量為V。最后為CRF層,輸出輸入序列對應的實體標簽,如地點(LOC)、時間(T)等,其中“B-”為實體起始標志,“I-”為實體中間或結尾。

3 試驗及結果分析

3.1 數據與評價指標

為了檢驗模型有效性,本研究利用北京大學公開的1998年《人民日報》語料進行驗證。該語料不僅已經分詞,還標注了地名、人名、組織機構名等實體。標記方式為“BIO”,實體起始標志為B,實體其他部分為I,O表示該詞不是實體。地名采用LOC標記,開始位置為B-LOC,其余位置為I-LOC;人名記為PER,開始位置為B-PER;組織機構實體為ORG,開始位置為B-ORG。試驗中,取45 000條標注數據作為訓練集和驗證集,3 432條標注數據作為測試集。

模型評價指標采用精確率(Precision,P)、召回率(Recall,R)和F1值(F1-score)進行衡量。

3.2 模型訓練與參數設置

本研究采用Tensorflow深度學習框架構建和訓練所提出的ALBERT-Attention-CRF模型。參數設置有:輸入文本序列長度seq_length設為64,驗證集、訓練集batch_size均為32,學習率為1e-10-5。為降低過擬合風險,設置dropout=0.8。為預防在模型擬合中產生梯度爆炸,利用梯度裁剪技術(Gradient Clipping)并設置大小為5。

3.3 試驗結果

在數據集上,對CRF,BiLSTM,BiLSTM-CRF,BERT-CRF,ALBERT-Attention-CRF模型進行性能分析,結果見表2。

表2 模型的實體識別試驗結果

由表2可知,基于神經網絡的模型在各個指標均優于CRF模型。在BiLSTM和BiLSTM-CRF模型的對比中,采用CRF進行實體識別的BiLSTM-CRF模型表現優于前者,說明CRF在解碼時考慮了序列中全局標注信息,因而提升了模型表現。在BiLSTM-CRF模型和BERT-CRF的對比中,后者比前者有接近4%的表現提升,說明基于Transformer架構的BERT模型充分學習了文本序列上下文關系特征,比BiLSTM學習到更長的距離依賴語義關系。ALBERT-Attention-CRF模型比BERT-CRF高0.6%,兩者在精確率、召回率、F1值這3個指標表現接近,但前者模型在效率上更高效,BERT-large配置與ALBERT相似,但前后者參數量之比約為18∶1,訓練速度之比約為1∶1.7。在同樣的超參數設置下,本研究提出的ALBERT-Attention-CRF模型訓練所得模型大小僅為BERT-CRF模型的1/10,運維部署比后者更便攜,效率更高。

4 結語

本研究提出一種端到端神經網絡命名實體識別模型ALBERT-Attention-CRF,采用ALBERT預訓練語言模型對輸入文本序列進行向量化和特征抽取,使模型能夠充分學習文本包含的語義信息,使字符之間的推理能力得到增強、實體識別效果得到進一步提升。同時,為了進一步增加上下文相關的語義信息,模型還使用注意力機制進行有效區分實體類別,以及利用CRF模型作為輸出層,有效通過全局信息進行預測實體標簽,在1998年上半年《人民日報》語料上取得了理想的效果。試驗結果表明,基于ALBERT預訓練模型的命名實體識別模型不僅能夠提升實體識別的效果,而且與BERT模型相比,存在參數量小、訓練速度快、效率高等優點,有一定的參考價值。

猜你喜歡
語義文本效果
按摩效果確有理論依據
語言與語義
在808DA上文本顯示的改善
迅速制造慢門虛化效果
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲男人天堂久久| 天天色天天综合| 国产后式a一视频| 国产乱子伦视频三区| 无码国产偷倩在线播放老年人 | 国产在线观看91精品亚瑟| 欧美成人免费午夜全| 国产精品极品美女自在线看免费一区二区| 国产v精品成人免费视频71pao| 国产屁屁影院| 国产小视频免费| 精品久久久久无码| 亚洲成人网在线播放| 久久亚洲国产一区二区| 原味小视频在线www国产| 高清久久精品亚洲日韩Av| 99视频国产精品| 老司机久久精品视频| 欧美精品1区| 国产精品成人AⅤ在线一二三四 | 亚洲中文无码av永久伊人| 亚洲第一色网站| 欧美成人午夜视频| 亚洲国产成人精品无码区性色| 亚洲成aⅴ人在线观看| 在线国产毛片| 女人18毛片久久| 亚洲天堂成人| 制服丝袜亚洲| 亚洲欧洲自拍拍偷午夜色| 久久人人97超碰人人澡爱香蕉| 国产精品久久国产精麻豆99网站| 91人人妻人人做人人爽男同| 在线观看网站国产| 成年看免费观看视频拍拍| 国产精品三区四区| 极品尤物av美乳在线观看| 亚洲精品欧美日本中文字幕| 国产91全国探花系列在线播放| 欧美日韩资源| 欧美精品不卡| 免费毛片网站在线观看| 国产精品香蕉在线| 日本久久久久久免费网络| 日韩在线中文| 色婷婷丁香| 精品无码一区二区三区电影| 在线观看国产黄色| 国产精品va免费视频| 国产精品成人AⅤ在线一二三四 | 91娇喘视频| 伊人久久青草青青综合| 久久天天躁夜夜躁狠狠| 91偷拍一区| 日韩在线视频网| a色毛片免费视频| 中文字幕免费播放| 91午夜福利在线观看| 久久综合九九亚洲一区| 日韩a级片视频| 性做久久久久久久免费看| 51国产偷自视频区视频手机观看 | 99久久精品国产麻豆婷婷| 国产欧美视频在线| 久久无码av一区二区三区| 毛片免费高清免费| 五月婷婷激情四射| 国产又粗又猛又爽视频| 久久国产精品77777| 91精品国产福利| 人妻一区二区三区无码精品一区| 99热亚洲精品6码| a级毛片一区二区免费视频| 麻豆国产精品| 久久91精品牛牛| 欧美在线一级片| 亚洲人成人伊人成综合网无码| 91精品亚洲| 国产精品真实对白精彩久久| 四虎综合网| 日韩国产高清无码| 国产精品综合久久久|