999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力增強的點陣Transformer的中文命名實體識別方法

2022-12-08 13:39:18韓曉凱史偉亮
廈門大學學報(自然科學版) 2022年6期
關鍵詞:語義實驗信息

韓曉凱,岳 頎,褚 晶,史偉亮,韓 展

(西安郵電大學自動化學院,陜西西安710121)

命名實體識別(named entity recognition, NER)是自然語言處理(natural language processing,NLP)中的一項基本任務,其結果會影響其他后續的NLP任務.NER的目的是從文本中提取具有特定含義的詞語,包括人名、地名、機構名以及專有名詞.相比于英文實體識別,中文實體識別需要先對中文語句進行分詞處理,且分詞結果的好壞對模型的識別效果有很大影響,因此中文實體識別的難度更大.以句子“西安櫻花廣場”為例,若將“櫻花廣場”分詞為“櫻花”和“廣場”,那么實體“櫻花廣場”會被錯誤的識別為“櫻花”和“廣場”兩個實體.為了解決該問題,Zhang等[1]提出了可以同時考慮字和詞的點陣結構,并將這種結構使用在點陣長短期記憶網絡(long short-term memory,LSTM)模型上.如圖1(a) 所示.該結構通過將句子與詞典進行匹配,從而獲得句子中包含的所有詞語,并對句子中的每個字以及匹配到的詞語進行特征提取,之后模型會通過上下文信息判斷“櫻花廣場”是一個實體還是兩個實體,避免因分詞錯誤造成的識別錯誤.Li等[2]對點陣結構進行修改,結合Transformer-XL[3],提出 FLAT(flat-lattice-Transformer).FLAT中使用的點陣為扁平式點陣,如圖1(b) 所示.這種點陣將從詞典中匹配到的詞語放置在輸入語句的末尾,并通過位置編碼確定這些詞在原始語句中的位置.然而,該方法不僅增加了序列長度,還增加了低相關性的上下文信息,導致Transformer[4]出現注意力分散的現象.

Zhao等[5]認為,注意力模型關注所有上下文信息會導致注意力不集中,因此提出了稀疏注意力機制,使注意力模型只關注最相關的信息,并在NLP任務上進行實驗,證明了該方法的有效性.

圖1 點陣結構與扁平式點陣Fig.1Lattice structure and flat lattice

由于點陣模型引入的信息量比基于字或詞的實體識別模型引入的信息量更多,低相關性以及噪聲對注意力機制的干擾更為明顯,受Dai等[3]啟發,本研究提出了一種新的NER模型——注意力增強的點陣Transformer(attention-enhanced lattice Transformer,AELT).AELT對注意力矩陣進行顯式稀疏處理,通過注意力分數對信息進行評價,只保留有價值的信息,這樣可以提升高相關性信息參與編碼時的占比,使得注意力更加集中,且減少了低相關性信息和噪聲對模型造成的干擾.這種機制稱為Top-k機制,可通過調整參數k的大小來控制注意力機制的注意范圍.由于輸入序列的長度是不同的,固定的參數k難以使模型達到最好的識別效果.因此本研究還對參數k的選擇進行了優化,使其能夠跟隨輸入序列的長度進行動態調整.除此之外,本研究還為AELT并行添加了一個專門用于分析句子語義信息的Transformer,使其能夠更多地關注句子本身的信息.為了驗證所提出方法的有效性,在主流的中文NER數據集上對比AELT、 FLAT、Lattice-LSTM等模型的識別性能.總的來說,本研究的主要工作內容包括:

1) 為基于點陣的Transformer設計了Top-k機制,對點陣引入的信息進行篩選過濾,將低相關性信息進行屏蔽,讓有價值的信息參與AELT的學習過程.

2) 為AELT并行添加了用于獨立分析句子語義信息的Transformer,使其能夠更多地關注句子本身,并與點陣Transformer聯合完成NER任務.

3) 將AELT在Weibo、Resume、Ontonotes和MSRA數據集上進行實驗測試,并與FLAT等主流方法進行對比.

1 相關工作

1.1 NER深度學習模型

隨著深度學習的發展,人們開始嘗試使用深度學習模型來解決NER問題.Hammerton[6]使用LSTM完成了NER任務,使得LSTM成為最早用來解決NER問題的深度學習模型之一.Collobert等[7]提出了一種基于卷積神經網絡(convolutional neural networks,CNN)和多層神經網絡的NLP領域通用模型,其可在大量未標記的訓練數據上學習內部表示.Huang等[8]使用雙向LSTM(Bi-directional LSTM,BiLSTM)解決LSTM只能單向提取特征的問題,并將其與條件隨機場(conditional random field,CRF)結合,在NER任務中得到了不錯的表現.為了使模型能充分利用GPU并行計算的能力,Vaswani等[4]提出了基于自注意力機制的Transformer模型,并在機器翻譯任務中驗證了該方法的有效性,該模型能夠同時考慮全文語義信息對字或詞進行語義編碼,實質上是一種能夠優化語義編碼的模型,因此該模型成為了包括NER在內的NLP領域通用模型.Dai等[3]認為Transformer對長程依賴的建模能力不足,并對其進行了改進,提出了Transformer-XL模型,改進后的模型對長程依賴的建模能力提高了80%,為解決NER問題提供了新思路.

1.2 中文NER

不同于英文NER,中文NER沒有明確的詞邊界信息,這使得詞語邊界的識別在中文NER中尤為重要.相較于基于字的中文NER方法,基于詞語方法能夠更好地識別實體邊界,但該方法首先需要進行分詞處理,因此分詞質量的好壞對模型的識別效果有決定性的影響.Liu等[9]分別對基于字和基于詞的方法進行了討論,認為在經驗上基于字的方法是一個更好的選擇.但該方法會損失許多詞語信息.為了更好地利用這些詞信息,Zhang等[1]提出了一種點陣結構的LSTM,命名為Lattice LSTM.該模型可以同時考慮字信息和詞信息,且不存在分詞錯誤的現象.Gui等[10]提出了重思考機制,并將其應用在LR-CNN(lexicon rethinking CNN)上,通過結合輸入語句中的二元詞和三元詞來重新對字符進行編碼,使其能夠包含多元詞語中的語義信息.Zhu等[11]結合包含局部注意力機制的CNN和包含全局注意力的門控循環單元來捕獲相鄰字符以及上下文信息,提出卷積注意力網絡(convolutional attention network,CAN)模型.Gui等[12]提出一種基于詞典的圖神經網絡(lexicon-based graph neural network,LGN),使用圖神經網絡將詞典匹配到的潛在詞語信息,并引入到模型中完成NER任務.Xue等[13]通過位置關系來增強自注意力,并引入多孔機制來增強局部建模,提出結合點陣結構與Transformer的多孔點陣Transformer(porous lattice transformer encoder,PLTE)方法.Li等[2]也對點陣進行了改進,提出FLAT模型,該模型結合Transformer-XL,將點陣轉換為一種扁平狀的結構,并使用位置信息來模擬點陣的原始結構,FLAT能夠在考慮詞語語義信息的同時增強對上下文信息的建模.

2 AELT模型

點陣Transformer能夠利用句子中包含的詞語信息作為輔助信息來完成實體識別任務,但需要處理的信息量也因此大幅增長.實際上模型在對形符(Token)進行編碼時并非所有信息都值得考慮.大量的信息反而會分散模型的注意力,使有效信息所占權重降低,導致最終編碼包含噪聲,影響模型性能.而且詞語等信息作為一種輔助信息輔助模型完成識別任務時,模型應該更多關注句子本身的語義,有助于對實體邊界的判別.為此,本研究提出了一種名為AELT的新模型.模型的網絡結構圖如圖2所示,其主要包含3大模塊:點陣輸入模塊、AELT編碼模塊以及CRF解碼模塊.其中AELT編碼模塊有兩個獨立的Transformer模塊,分別用來完成點陣語義信息的編碼和句子語義信息的編碼.

圖2 AELT結構Fig.2AELT structure

2.1 點陣輸入層

點陣輸入模塊與FLAT中的Flat-Lattice層相同,該層用來對輸入語句完成點陣的組建并轉換為字詞嵌入.點陣的結構信息用位置編碼來表示.Top-kTransformer編碼器的輸入為點陣的字詞向量以及相對位置編碼.字Transformer的輸入通過去除點陣序列中的詞語部分來獲得.因此點陣輸入層的處理流程如圖3所示.以句子“西安櫻花廣場”為例,句子中的字與詞典進行匹配后得到潛在詞語“西安”、“櫻花”、“廣場”、“櫻花廣場”,將這些詞語拼接至句子末尾,構成點陣序列L={l1,l2,…,ln}.之后,使用以下兩種方式分別對得到Top-kTransformer和字Transformer編碼模塊的輸入數據.

(1)

(2)

(3)

(4)

(5)

(6)

(7)

圖3 點陣輸入層Fig.3Lattice input layer

2.2 AELT編碼器

圖4 AELT編碼器結構Fig.4AELT encoder construction

模型在對實體邊界進行判別的過程中,詞語信息是有效的,但同時句子本身的語義信息也起到了非常重要的作用.雖然包含詞語信息的Top-kTransformer編碼器具備提取句子語義信息的能力,但由于引入的大量詞語分散了對句子的關注程度,導致模型對句子語義信息的提取能力減弱.因此,本研究為模型添加了單獨對句子進行語義特征提取的字Transformer來彌補這一缺陷.

具體地,AELT編碼器包含有兩個子編碼器,分別為字Transformer編碼器(圖4(a))和Top-kTransformer編碼器(圖4(b)),用于分別完成對句子語義信息的編碼和對點陣語義信息的編碼.字Transformer編碼器采用了與Vaswani等[8]提出的Transformer編碼器相同的結構,同時也是Top-kTransformer編碼器的基礎結構,因此下文先對字Transformer編碼器進行介紹,之后詳細介紹Top-kTransformer編碼器.

2.2.1 字Transformer編碼器

詞語等信息只能輔助模型完成NER任務,模型在利用這些信息的同時,句子本身的語義更應該值得關注.例如句子“西安櫻花廣場”中“櫻花廣場”應該被識別為一個實體還是應該被識別為“櫻花”和“廣場”兩個實體,需要對整個句子的語義進行分析才能更好地判斷.因此,本研究在AELT中并行添加了一個專用于分析句子語義信息的獨立字Transformer編碼器.其結構由自注意力機制層和前饋神經網絡層組成,計算式如式(8)~(11)所示,每一層之后跟隨一層殘差連接和歸一化處理層(為避免累贅,下文計算式中未體現).

(8)

(9)

AC=softmax(Sij)VC,

(10)

(11)

2.2.2 Top-kTransformer編碼器

Top-kTransformer編碼器與FLAT編碼器類似,區別在于Transformer中注意力機制的執行.圖5展示了二者的主要不同.本研究認為在對形符進行編碼時,并非所有信息都對編碼有價值.因此引入了Top-k的稀疏機制,該機制會對注意力分數矩陣進行稀疏處理,對編碼貢獻較高的信息將被保留,低相關性的信息則不予考慮.這種方法能有效保留重要信息,并消除噪聲帶來的不利影響,使得模型注意力能更加集中在有價值的信息上.Top-kTransformer編碼器先通過式(12)~(13)計算出點陣注意力分數矩陣SL:

(12)

(13)

圖5 FLAT編碼器與Top-k Transformer編碼器的主要區別Fig.5 The main differences between FLAT encoder and Top-k Transformer encoder

(14)

AL=softmax(S*)VL,

(15)

(16)

圖6 Top-k機制算法Fig.6Top-k mechanism algorithm

對Top-k機制通俗的解釋為,點陣注意力矩陣的第i行中包含第i個形符與該句子中其他所有形符的相似度分數,通過閾值ti篩選后,保留與第i個形符相關性最高的前k個形符,使這k個形符參與第i個形符的編碼,由于相關性較低的其他形符未參與第i個形符的編碼,因此第i個形符的編碼受到的干擾更小,更專注于表達它原本的語義信息.通過該機制,高相關性的信息會被保留,相關性低的信息、噪聲等將被剔除.使模型的注意力能夠集中在最有價值的要素上.

Top-k機制中參數k的大小能夠控制模型的注意范圍.k越大,編碼時參考的信息越多,抗干擾能力就會越差,k越小,包含的語義信息會越少,因此參數k的選擇會直接影響模型的性能.由于輸入語句的長度不同以及匹配的詞語數量也不同,使用固定的參數k很難達到理想的過濾效果,因此本研究使用一種計算簡單的動態方法,使k能夠根據序列的長度做出相應的調整,如式(17):

(17)

其中,N是超參數,nL表示點陣序列L的長度.

對于Top-kTransformer和字Transformer的輸出結果,本研究針對不同大小的數據集使用了不同的特征融合方式,對于Weibo這類小型數據集,將兩個子編碼器的輸出結果相加后得到AELT編碼器的輸出結果,如式(18)所示.對于Resume、Ontonotes以及MSRA這類中大型數據集使用拼接的方式融合兩個子編碼器的輸出結果,如式(19)所示.

X=XC+XL,

(18)

X=XC⊕XL.

(19)

2.3 CRF解碼器

在注意力增強Transformer編碼器中完成對特征的提取和編碼后,使用CRF解碼器進行解碼,輸出標注序列.CRF可以考慮標簽之間的依賴關系,參考句子的整體信息,以在序列標記任務中獲得更好的結果,因此該方法也是大多數NER模型所采用的解碼方法.如式(20)~(21)所示,對于序列X={x1,x2,…,xm},對應的序列標簽為Y={y1,y2,…,ym},則y的概率為P*.

P*(y|x)=

(20)

(21)

其中:tk(yi-1,yi,x,i)為轉移特征函數,sl(yi,x,i)為狀態特征函數,兩者取值均為1或0;λk和ul是相對應的權重系數,是可學習的參數.

3 實 驗

3.1 數據集與對比模型

本研究共開展了如下3種實驗.實驗一:在Weibo[14-15]、Resume[1]、 Ontonotes[16]以及MSRA[17]數據集上對AELT進行了評估實驗,使用F1、準確率(P)、和召回率(R)作為評估標準,并與主流的中文實體識別模型進行性能對比.實驗二:還對AELT編碼器中兩個子編碼器輸出特征的融合方式進行了實驗.實驗三:對模型進行了消融實驗,用來驗證模型結構的有效性.

3.2 實驗環境及超參數設置

在實驗中,采用與Lattice LSTM[1]實驗中相同的詞典、預訓練字嵌入、二元語法嵌入以及詞語嵌入,實驗代碼在FLAT[2]代碼的基礎上進行修改,并在Colab云計算平臺上選用Tesla P100計算卡進行性能評估實驗.

超參數方面,對于不同的數據集,模型超參數的設置也不同,在各數據集上超參數的設置如表1所示.

3.3 中文NER實驗結果

AELT在Weibo數據集上的實驗結果如表2所示.以F1分數為衡量標準,在N=3時AELT在Weibo數據集上取得了最好效果,F1分數為61.89%,精確率P為62.86%,召回率R為61.03%.相較于FLAT,AELT的F1分數提升1.57個百分點,提升效果顯著.LR-CNN在精確率上依舊具有優勢,但其F1分數較AELT低5.35個百分占點,差距明顯.

表1 超參數設置

表2 AELT在Weibo數據集上的實驗結果

AELT在Resume數據集上的實驗結果如表3所示.AELT在中型數據集上的表現也有較大提升,同樣以F1分數為標準,在N=1.3時識別效果最佳,F1分數為95.93%,相較于FLAT,其F1分數提升0.48個百分點.AELT的P為95.80%,R為96.06%,二者非常接近,這說明AELT模型在查準和查全兩個方面上的性能比較均衡.

為了驗證AELT在大型數據集上的表現,在Ontonotes數據集上進行實驗,實驗結果見表4.在N=4.5時模型性能達到最佳,F1分數為76.91%,相比FLAT提升0.46個百分點,P為76.49%,R為77.32%,模型性能提升明顯.而在N=2時AELT的P和R最為接近,相差0.15個百分點,此時模型的性能最為穩定,F1分數也較FLAT高0.38個百分點,說明Top-k機制對無關信息的過濾是有效的.

表3 AELT在Resume數據集上的實驗結果

表4 AELT在Ontonotes數據集上的實驗結果

MSRA:除了Ontonotes外,常用的大型中文實體識別數據集還有MSRA,AELT在該數據集上也有不錯的表現,實驗結果見表5,在N=5時模型F1分數為94.60%,識別效果達到最佳,相比FLAT提升了0.48個百分點.

表5 AELT在MSRA數據集上的實驗結果

3.4 不同編碼融合方式對實驗結果的影響

為了研究對兩個子編碼器的輸出結果使用不同融合方法后對AELT模型性能的影響,在小型數據集Weibo和大型數據集Ontonotes上進行了對比實驗,實驗結果如表6所示.在Weibo 數據集上,AELT對兩個子編碼器的輸出結果使用相加的處理方式能取得更好的效果,而在Ontonotes數據集上,使用拼接的方式處理兩個子編碼器的輸出則能取得更好的識別效果.其原因可能是,使用Weibo這類小型數據集訓練參數較多的AELT模型,會導致模型參數欠擬合,相比拼接的處理方式,相加的處理方式能夠減少模型的訓練參數,使AELT能在小型數據集上更好地完成識別任務.

3.5 消融實驗

為了驗證模型各結構的有效性,在Ontonotes數據集上對模型進行了消融實驗研究,超參數N設置為4.5時.通過對AELT結構進行拆解,使其逐步還原為FLAT,以此來研究模型各部分對實體識別性能的影響.實驗結果如表7所示.AELT在Ontonotes數據集上得到的F1分數為76.91%,P為76.49%,R為77.32%.首先拆除掉AELT的字Transformer編碼器模塊:AELT的F1分數為76.62%,下降0.29個百分點;P為76.16%,下降0.33個百分點;R為77.08%,下降0.24個百分點.再將Top-kTransformer模塊中的Top-k模塊去除,此時模型還原為FLAT:F1分數進一步下降0.19個百分點,P反而上升0.09個百分點,R進一步下降0.47個百分點.實驗證明,AELT上的兩處改進都為模型的性能帶來了提升.

表6 AELT使用不同編碼融合方式后的實驗結果

表7 AELT消融實驗結果

4 結論及未來的工作

本文中提出了一種名為注意力增強點陣Transformer的新模型,用于完成中文NER任務.它可以整合詞典信息,利用字級和詞語級信息,并通過Top-k機制控制注意力的集中程度,從而解決上下文中不相關信息引起的注意力分散問題,同時模型還配備了單獨處理句子語義信息的Transformer模塊,在利用詞語信息的同時,綜合考慮句子的整體語義信息,使模型更好地對實體邊界進行判斷.在主流的4個數據集上的實驗證明,本文模型性能更好.在今后的工作中,希望能夠優化k參數的設置,使其能夠自動匹配最優參數,在抗干擾性能不受影響的同時,最大限度利用有效信息,同時減少調整模型超參數所需要的資源.

猜你喜歡
語義實驗信息
記一次有趣的實驗
語言與語義
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 国产国模一区二区三区四区| 久久精品这里只有精99品| 狠狠色噜噜狠狠狠狠奇米777| 欧美亚洲香蕉| 国产一级特黄aa级特黄裸毛片| 亚洲国产欧洲精品路线久久| 国产精品白浆无码流出在线看| 色网站在线视频| 九九视频免费看| 日本黄色不卡视频| 成人小视频网| 日韩一级二级三级| 99精品视频九九精品| 久久一本日韩精品中文字幕屁孩| 婷婷综合亚洲| 欧美伦理一区| 伊人久久大香线蕉综合影视| 色欲色欲久久综合网| 亚洲大学生视频在线播放| av一区二区三区在线观看| 澳门av无码| 国产91色| 久久国产热| 91成人精品视频| 日本日韩欧美| 中文字幕1区2区| 一级全免费视频播放| 特级精品毛片免费观看| 免费一级大毛片a一观看不卡| 久久99国产乱子伦精品免| 成人午夜久久| 人妻少妇乱子伦精品无码专区毛片| 国产高潮流白浆视频| 青青久久91| 国产三级精品三级在线观看| A级全黄试看30分钟小视频| 国产91蝌蚪窝| 就去色综合| 女人18一级毛片免费观看| 亚洲伊人天堂| 久热这里只有精品6| a网站在线观看| 一区二区三区四区日韩| 丝袜美女被出水视频一区| 91在线播放免费不卡无毒| 免费人成在线观看成人片| 免费又爽又刺激高潮网址| 日韩免费毛片视频| 91娇喘视频| 四虎永久免费地址在线网站| 最新亚洲人成网站在线观看| 麻豆AV网站免费进入| 久久动漫精品| yjizz视频最新网站在线| 国产综合另类小说色区色噜噜 | 久久综合九九亚洲一区| 乱人伦99久久| 91久久国产综合精品| 成人免费黄色小视频| 54pao国产成人免费视频 | 无码专区国产精品第一页| 欧美不卡二区| 日本人又色又爽的视频| 久久国产精品娇妻素人| 国产va在线观看免费| 亚洲AⅤ综合在线欧美一区 | 99爱视频精品免视看| 亚洲成av人无码综合在线观看| 天堂亚洲网| 婷婷色在线视频| 亚洲动漫h| 日韩高清在线观看不卡一区二区| 精品久久综合1区2区3区激情| 精品国产美女福到在线直播| 四虎综合网| 色综合综合网| 色综合天天综合中文网| 日韩欧美国产另类| 亚洲AV无码不卡无码| 国产办公室秘书无码精品| 欧美区国产区| 国产第一页第二页|