999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

門控多特征提取器的中文命名實體識別

2022-04-21 05:16:14楊榮瑩杜逆索
計算機工程與應用 2022年8期
關鍵詞:特征提取機制特征

楊榮瑩,何 慶,杜逆索

1.貴州大學 大數據與信息工程學院,貴陽 550025

2.貴州大學 貴州省公共大數據重點實驗室,貴陽 550025

3.貴州大學 貴州省大數據產業發展應用研究院,貴陽 550025

命名實體識別(named entity recognition,NER)最早是在MUC-6[1]會議上作為一個子任務被提出,目的是將文本數據中具有特定含義或信息的實體識別并抽取出來,這些實體包括地名、人名、機構名、生物術語、醫學術語等,是自然語言處理(natural language processing,NLP)任務中信息檢索和信息抽取的基礎核心任務。命名實體識別在NLP下游任務如機器翻譯、輿情分析與監測、知識圖譜、情感分析中均有廣泛應用,在情感分析中,要準確預測情感極性,前提是確定感情實體,在知識圖譜中,需要在輸入文本中識別抽取命名實體以進行實體關系對的生成。

英文NER在深度學習領域的成功,激發學者對非英語語種NER的探索。與英語不同,中文缺乏明確的單詞邊界,需使用分詞工具對其分詞,若錯誤分詞,將導致實體劃分錯誤,標簽分離,實體不完整,句子被錯誤解讀,最終影響模型的性能。為了解決中文單詞邊界模糊的問題,一些學者將分詞模型與NER模型共同訓練,或在詞向量中直接添加分詞信息,這為NER任務帶來相應的噪聲,不能有效克服NER模型受分詞效果的約束。

于中文而言,中文具有“一詞多義”、句式復雜等特征,如在“我好了”/“你的喜好”兩個句子中,“好了”表示完成某事,而“喜好”中的“好”表示喜歡;此外中文結構復雜,倒裝句式、雙重否定、省略句式等普遍存在,若想完全掌握某句所傳達的意思,確定某個單詞的實體類別,需要參考上下文乃至全文本的語境,對于NER模型來說,更好地捕獲上下文長距離依賴,深度挖掘文本特征,提取序列局部和全局依存關系,是一直探索且具挑戰性的研究問題。

現階段NER模型大多基于BiLSTM-CRF架構,而雙向長短期記憶網(bidirectional long short-term memory network,BiLSTM)在面對超長文本時,樣本無法并行計算,且信息傳輸通道單一,導致計算速度慢。且多數NER模型中,條件隨機場(conditional random fields,CRF)層只能從一個特征提取器中獲取最終特征,特征多樣性差,致使CRF預測序列標簽的準確性低,性能弱。

針對以上問題,本文在不采用分詞模型條件下,利用詞向量模型提取信息豐富的詞嵌入,克服NER模型受分詞效果的影響;基于多頭自注意力機制,通過多特征提取器多層次挖掘文本全局、局部特征,精準掌握文本信息,捕獲文本更長距離依賴;采用迭代膨脹卷積(iterated dilated convolutional neural network,IDCNN)網絡作為其中一個特征提取器實現并行計算,并引入門控制機制實現信息的流量控制和多通道傳輸;構建雙CRF網絡處理具有不同分布特點的特征。基于以上操作最終實現提升中文NER模型實體識別性能的目標。

1 相關工作

命名實體識別一般被作為序列標注問題來解決,其從傳統的概率統計方法進化至現今基于神經網絡的主流方法。應用較為普遍的神經網絡有循環神經網絡(recurrent neural network,RNN)[2]、卷積神經網絡(convolutional neural network,CNN)以及RNN的兩個變體長短期記憶網絡(long short-term memory network,LSTM)[3]和門控循環單元(gated recurrent unit,GRU)[4]等。其中,Collobert等人[5]利用CNN網絡進行序列建模,捕捉序列局部信息,進而使用CRF模型約束輸出標簽的連續性。Huang等人[6]采用雙向LSTM網絡作為序列編碼器,捕捉序列前向和后向的信息,將CRF作為解碼器構成BiLSTM-CRF模型,在很多公開NER數據集上達到了最佳效果。

由于分詞性能的好壞極易影響基于詞嵌入模型的NER[7],許多中文NER以分詞模型、單詞邊界為研究核心。Cao等人[8]提出了一種對抗遷移模型,將任務共享邊界信息整合到中文NER中,再從中文分詞(Chinese word segment,CWS)任務中學習任務共享的單詞邊界信息,并過濾CWS中的特定信息,以捕獲句子中任意兩個字符之間的長距離依賴關系,但該方法無法杜絕分詞效果給NER模型帶來的影響,且過濾的信息中可能也會包含一些重要信息;Wu等人[9]提出了基于CNN-LSTMCRF架構的聯合訓練模型,以解決中文上下文高度依賴、邊界識別困難、中文NER訓練數據不足等問題,然而該模型詞嵌入層獲取的詞信息不夠豐富。基于分詞模型的NER雖能在一定程度上改善實體識別性能,但不能完全解決分詞效果對NER的約束。

為提取文本長距離依賴,深度挖掘文本特征,一些NER模型基于輔助特征對模型進行改進。如Xuan等人[10]在引入漢字字形信息情況下,基于滑動窗口和切片注意捕獲上下文依賴和符號特征之間的潛在信息,然而構造字形數據需要耗費一定資源,且使用的輔助特征泛用性差;Zhou等人[11]基于片段的方法,引入位置相關特征和外部詞典生成表征性更強的字符特征;李健龍等人[12]基于注意力機制對BiLSTM進行擴展,利用CNN提取字向量,融合字詞信息作為輸入向量輸給模型,在軍事文本語料庫中,F1值達到了87.38%,然而CNN提取信息時僅能得到輸入信息部分特征,提取的字向量信息表征性能弱;Zhu等人[13]利用基于局部注意力CNN來獲取相鄰字符的局部信息以及全局注意力GRU提取序列上下文約束,構建適合中文NER的CAN卷積神經注意網絡,而該模型無法控制數據流量、使數據多通道傳輸。

上述NER模型中,均基于一種特征提取器進行特征提取,且多數采用BiLSTM網絡,該網絡雖然能有效捕獲序列雙向信息,但其無法并行計算,在面對長文本時,不能有效發揮該網絡優勢;當研究者采用可并行計算的CNN模型進行特征提取時,網絡感受野較小,獲取的信息表征性較弱。以上模型中,CRF層采用的特征分布單一,致其無法依據更多特征分布充分考量序列間、標簽間的約束關系。

綜上,針對中文文本缺乏明確詞邊界,放棄分詞模型而采用預訓練詞嵌入模型提取豐富的單詞信息,從根本杜絕NER模型受分詞效果的約束;為精準掌握全文信息,捕獲文本深層次特征、提取長距離約束及全局依賴,本文在不借助其他細粒度特征條件下,聚焦文本自身,采用多特征提取器多層次、多維度挖掘文本特征;引入多頭自注意力機制以提升特征提取效率和精度,使模型將注意力聚焦于關鍵特征而忽略影響力較弱的信息;將IDCNN作為其中一個特征提取器,在實現并行處理基礎上擴展卷積網絡的感受野以提取表征性更強更豐富的序列特征,此外,為達到流量控制,使特征跨層、多通道傳輸,在膨脹門控線性單元(dilated gated linear unit,DGLU)的啟發下,為IDCNN網絡引入門控機制;為使CRF層依據多樣特征多角度預測標簽序列,使用兩個CRF模型并構造最終的損失函數。通過以上策略,基于實驗對比分析其他中文NER模型,結果表明,采用多特征提取器可挖掘文本深處特征,獲取表征性強、語義豐富、更長距離依賴的特征信息,在一定程度上可提高中文命名實體識別性能。

2 模型

文獻[8]將分詞信息與詞向量信息融合輸入到私有特征提取器和共享特征提取器中,受此啟發,本文模型將詞向量信息分別輸入兩個特征提取器中,最后通過共享BiLSTM網絡整合兩個模型所提取的文本信息,構建兩個CRF模型實現標簽序列預測,具體模型如圖1所示。

圖1 模型結構圖Fig.1 Model structure diagram

2.1 嵌入層(BERT)

BERT[14]預訓練語言模型的問世,開創了NLP領域的新紀元。BERT繼承了Tranformer網絡的雙向編碼方式,運用遮掩機制對輸入文本隨機遮蓋,并采用句子級負采樣,學習句子與句對間的關系,增強了模型的泛化能力,充分提取字符級、詞級、句級、句間的特征。

BERT在NLP領域的卓越成績,致使學者對BERT進行二次開發,衍生出許多預訓練模型。然而,訓練BERT需要耗費大量資源,現實中很難滿足BERT訓練要求。因此,大多數NLP研究均使用已訓練好的BERT。本文為提高訓練效率,采用已訓練好的中文BERT模型,將文本數據向量化處理。

2.2 特征提取層

為了獲取更深層、表征程度更強、上下文依賴更長距離的特征,在編碼層采用三個特征提取器進行特征提取,即BiLSTM、IDCNN、share-BiLSTM。

首先,將BERT生成的詞向量分別輸入BiLSTM和IDCNN模型中,基于多頭自注意力機制實現特征提取。由于BiLSTM和IDCNN提取出的特征具有自身特點,若將BiLSTM和IDCNN的輸出分別輸入到CRF層,CRF只能依據單個編碼模型的單調特征進行序列預測,特征單一、表征性欠佳。因此,構建一個share-BiLSTM特征提取器,拼接BiLSTM和IDCNN提取的特征信息,將其送進share-BiLSTM編碼器中。通過該操作,實現了編碼模型的特征共享,共享編碼器利用共享特征再次進行特征提取,既可增加特征多樣性,又增強特征表示強度,可為CRF層提供泛化能力更強、分布形式更多樣的特征信息,提高序列預測的準確性。特征提取層各編碼器的輸入輸出如下所示:

w為BERT模型預訓練的詞向量,Y b為BiLSTM的輸出,Y c為IDCNN的輸出。output作為share-BiLSTM的輸入。

2.2.1BiLSTM

在RNN網絡中加入輸入門、遺忘門、輸出門,得到RNN的變體長短期記憶網絡(LSTM),以此解決RNN中梯度消失和梯度爆炸問題。而LSTM只能獲取單向信息,為提取文本上下文信息特征,本文采用雙向LSTM(BiLSTM),BiLSTM由前向LSTM和后向LSTM組合而得,其目的是整合序列前后向信息,獲取范圍更廣的上下文依賴。BiLSTM計算過程如下:

其中,x t為序列的輸入,hf∈Rd h表示當前時刻前向LSTM的隱藏狀態,記憶序列的“過去”的信息,hb∈Rdh表示后向LSTM的隱藏狀態,記憶序列的“未來”的信息,ht表示當前t時刻的最終隱藏狀態,W1、W2分別為模型的參數。

2.2.2基于門控機制的IDCNN

CNN在進行卷積操作時,僅能得到原始輸入中的一小塊信息,而序列標注問題中,要盡可能提取輸入序列全局、局部特征。若運用CNN處理序列標注問題,需添加更多的卷積層以實現對輸入信息的大范圍覆蓋,這將降低模型的訓練效率。為解決該問題,Yu等人[15]提出Dilated Convolutions(膨脹卷積)模型,與CNN不同,膨脹卷積為了減小信息丟失而去掉池化步驟,通過增大感受野來擴展特征覆蓋范圍。Strubell等人[16]以膨脹卷積為基礎,拼接4個相同結構的膨脹卷積block,改造編碼器的擴張架構,建成IDCNN。與BiLSTM相比,CNN擁有更強的并行計算能力,而IDCNN的訓練速度比CNN更高,感受野比CNN更寬,覆蓋的特征信息更廣,因此本文采用IDCNN作為另一個特征提取模型,將詞向量輸入IDCNN中捕獲序列特征。

為提取更高維、更抽象的信息特征,本文對IDCNN的卷積進行改進。受膨脹門控線性單元門控機制的啟發,本文將門控機制引入IDCNN的卷積核中,IDCNN的卷積形式變為:

Y為卷積核的輸入,conv0和conv1是兩個形式一樣的卷積核,但超參數與權重均不同,sigmoid函數最終的輸出值范圍為(0,1)。

式(7)中,分別構建兩個卷積核,采用sigmoid函數為每個卷積核添加一個閾值。其中,卷積核conv0以概率sigmoid(conv1(Y))通行,conv1以1-sigmoid(conv0(Y))的概率通行。基于此操作,兩個卷積核在閾值函數的作用下,根據彼此間的卷積信息進行流量控制,為兩個獨立的卷積核搭建信息共享橋梁,實現彼此間信息的共享流通。此外,兩個卷積核的構建,可實現信息多通道傳輸,基于概率的通行實現了特征信息的控制性、選擇性流動,更清楚特征提取器中信息數據的流量與流向。基于以上改進策略,將模型內的信息共享交互,多通道傳輸數據,提高模型性能和效率。具體結構如圖2所示。

圖2 基于門控機制IDCNN卷積核結構Fig.2 IDCNN convolution kernel structure based on gating mechanism

2.2.3多頭自注意力機制

在人腦認知方式的啟發下,研究者開發了注意力機制。在提取特征過程中,該機制聚焦于重要特征而忽略影響較弱的信息,以提高特征提取的效率與能力,捕捉文本中的長距離依賴。

Vaswani等人[17]于2017年提出自注意機制,與注意力機制相比,自注意力策略找尋的是序列內部的特征,利用來源相同的查詢和鍵值對在序列內部進行注意力計算[18]。為從不同子空間獲取相關特征信息、多維度地提取文本特征、捕獲更長距離依賴,本文采用自注意力變體—多頭自注意力機制。該注意力機制先利用不同參數得到值矩陣V、查詢矩陣Q以及鍵矩陣K,將V、K、Q映射到多個不同的子空間中,獨立計算各個子空間的注意力,最后將其拼接整合,利用線性計算得到最終注意力值。“多頭”即劃分的子空間數。計算方式如下:

在特征提取層,BiLSTM和IDCNN提取器雖然具有相同的輸入,但其特征提取的機制不同,share-BiLSTM與BiLSTM雖具有相同提取機制,但兩者輸入不同,最終每個特征提取器得到的信息特征分布不同,特征表征也存在差異。為增強特征提取器挖掘文本特征的效率,增加模型提取特征的深度,三個特征提取器均加入多頭自注意力機制,以在不同的特征信息分布和表征下,使模型專注于關鍵文本信息,從不同的子空間中挖掘更具代表性的特征表示,提取文本長距離依賴。

2.3 CRF層

序列標注問題在獲取文本特征后,需對當前標簽進行預測。雖然特征提取器也能預測序列標簽,其只能依據所提取的序列特征對當前序列進行預測,僅考慮字詞自身特征而忽略了標簽與標簽之間的約束關系。字間、詞間、文本間的關系不僅與語義環境、全局文本有關,還受標簽彼此間與相鄰標簽的影響。因此,在解碼層,采用基于判別式概率無向圖學習模型的條件隨機場(CRF)預測序列標簽。CRF以全局序列為關注區域,可充分挖掘文本序列間、標簽序列間的依賴,提取優質的全局特征,得到最優的標簽序列,最終實現實體識別。CRF利用極大似然估計構建條件概率模型,并利用負似然函數計算損失函數值,損失函數具體如下:

概率P數學表達式為:

式中,x=(x1,x2,…,x n)為觀測序列,y=(y1,y2,…,yn)為對應的狀態序列,fk是x、y的特征函數,w k是訓練權重,Z(x)為歸一化因子。

在本中,使用兩個CRF模型,一個用來預測share-BiLSTM的輸出,另一個用來預測IDCNN模型的輸出。share-BiLSTM得到的是BiLSTM與IDCNN融合后的特征,代表兩個特征提取器融合后的特征分布。而融合前的特征也表征序列特征分布,因此將IDCNN提取的特征輸入到另一個CRF模型中,使CRF模型了解融合前的特征分布,增強標簽序列的特征表示,實現特征信息的跨層傳輸,使CRF依據更多樣的特征形式實現標簽預測,提升預測準確性。

分別計算share-BiLSTM和IDCNN的輸出經過線性映射后得到的每個標簽的得分:

其中,losssb表示share-BiLSTM的經過CRF模型得到的損失函數,lossid表示IDCNN經過CRF得到的損失函數,?=0.01是lossid的權重值。

損失值是指導模型訓練學習的參數,過大或過小影響著模型的訓練結果。如果直接將兩個CRF模型所得的損失值進行相加,會導致損失值過大,不利于模型訓練。share-BiLSTM特征提取器接收的是前兩個特征提取器所提取到的特征,IDCNN提取的僅代表著為融合前序列的特征分布,特征單一。因此,為由IDCNN提取的特征輸入到CRF所得的損失值添加權重,確保損失函數值的有效范圍,為模型訓練提供合適的損失值。

3 實驗與分析

3.1 實驗環境與參數

本文所有實驗均在Ubuntu Server 18.04操作系統、顯卡為TITAN-XP 12 GB×6、內存為32 GB×4的服務器上進行,本文的實驗環境是在TensorFlow1.9.0框架下搭建,Python版本為3.6.10。

為保證模型的泛化性、實驗的公平性及說服力,最大化確保參數的一致性,僅改變模型中個別參數,依據數據集大小為每個數據集設置不一樣checkpoints步數,其余參數為:batch_size為64,學習率lr為0.001,dropout為0.5,clip為5,句子最大長度max_len為128,LSTM隱藏層的大小為128,優化器為Adam。本文不對BERT模型進行微調,直接使用已訓練過的中文BERT模型進行預訓練。

3.2 數據集

本文主要進行中文的命名實體識別,因此,采用兩個中文NER數據集對本文所提模型測試。其一為MSRA[19],是由微軟亞洲研究院提供的中文命名實體識別的簡體中文數據集,該數據采用BIO標注機制,包含人名、地名、機構名實體,實體標簽包括:O、B-ORG、I-ORG、BPER、I-PER、B-LOC、I-LOC等;另一個數據集為中文簡歷數據集Resume[21],該數據集采用BMES標注方式,實體包含:B-NAME、M-NAME、B-CONT、B-EDU、S-CONT、S-EDU等。數據集具體情況如表1所示。

表1 數據集統計結果Table 1 Statistics of datasets

3.3 評價指標

為了檢測模型的性能,采用準確率P、召回率R和F1值作為評價指標,具體的計算公式如下:

式中,TP為正確識別命名實體的個數,FP表示錯誤識別命名實體的個數,FN表示沒有被識別命名實體的個數。

3.4 實驗結果與分析

為了驗證所提模型的有效性,使實驗更具可比性,將本文所提模型與以下幾個模型進行比較(為保證比較公平性,所比較的模型均采用BERT模型進行詞嵌入的預訓練)。

BERT-Tagger[14]:BERT-Tagger是對BERT微調后得到的模型,其為BERT添加一個額外的輸出層,以獲取更豐富的上下文表示。

Lattice LSTM[BERT]:其在Lattice LSTM[20]模型的基礎上采用BERT作為預訓練模型,Lattice LSTM顯式地利用單詞和序列信息,對字符序列、詞典匹配的所有潛在單詞進行編碼。

LR-CNN[BERT]:LR-CNN[21]使用重新思考機制,通過高維特征反饋來解決單詞沖突問題,以此對所有與句子匹配的字符和潛在單詞進行向量化。LR-CNN[BERT]在LR-CNN基礎上,利用BERT模型進行預訓練。

PLTE[BERT][22]:PLTE利用位置關系提升自注意力,引入多孔機制增強局部性特征并捕獲長距離依賴,該模型可實現數據批處理。最后在PLTE中使用BERT實現預訓練。

3.4.1總體性能比較

在實驗中,采用P、R、F1作為評價指標,而F1代表著準確率、召回率的調和均值,準確率、召回率的大小決定F1的大小。因此本文采用F1值作為觀察基點。具體實驗結果如表2、3所示。

表2 MSRA數據集的測試結果Tabel 2 Test results on MSRA dataset %

其中,表2是各模型在MSRA數據集上的測試結果。從表中可得,本文所提模型的F1均優于其他四個模型。與微調BERT(BERT-Tagger微調BERT的輸出層)方式相比,所提模型F1值提高0.67個百分點;與基于加入字詞信息的NER模型比較(Lattice LSTM[BERT]加入了詞信息),本文模型F1值提升了1.39個百分點;與引入字詞相對位置信息的PLTE模型相比,本文模型F1值提升了0.28個百分點。但從表中明顯可見,在MSRA數據集中,本文模型的召回率略低于其他模型,表明在該數據集中,所提模型從所有樣本數據中正確識別并提取實體的能力弱于其他模型;觀測準確率,其明顯優于其他模型,標志著本文模型實體預測能力較強,預測精度較優。

表3是在Resume數據集中的測試結果。由表可知,F1值最大提升1.09個百分點,最小提升0.05個百分點,準確率P和召回率R值均有所提高。與PLTE模型相比,本文模型F1值僅提升0.05個百分點,優勢不明顯。其原因可能是,相比MSRA數據集,Resume數據集包含的實體類型更多樣,且Resume數據集采用BMES標注機制,模型不僅要識別實體開始部分,還需識別實體中間、末尾部分以及單個字詞實體,而MSRA數據集采用BIO標注策略且實體種類較少,只需以“B”和“I”判別實體位置確定實體包含的字符個數。

表3 Resume數據集的測試結果Tabel 3 Test results on Resume dataset %

通過與其他改進策略的NER模型比較,本文在不引入其他細粒度特征、不使用詞典、不對BERT進行微調的情況下,基于預訓練模型和多頭注意力機制,通過構造多個特征提取器和預測模型,將特征提取器之間的信息進行共享、交互、融合,擴展特征信息的多樣性,可使NER模型多維度、多層次地挖掘序列更抽象、更深層的序列特征,提升NER模型的識別提取預測能力。

3.4.2方法驗證

本模型主要目的是提取深層、抽象、高維的特征,因此,為了全面驗證改進模型的有效性,設立幾個基線模型進行對照實驗,遞進式驗證模型性能。對照的基線模型如下:(1)Baseline1,該基線使用BiLSTM和IDCNN進行特征提取,其中,IDCNN沒有引入門控機制,最后將提取的特征進行拼接,并輸入到同一個CRF中進行序列預測;(2)Baseline2,該模型在Baseline1的基礎上,加入share-BiLSTM特征提取器,以此融合前兩個特征提取器所挖掘的特征信息,兩個特征提取器之間實現信息共享,最后將share-BiLSTM獲取的特征輸入到CRF層;(3)Baseline3,基于Baseline2,再構造一個CRF模型,將融合前的特征信息加入CRF中,以致CRF可以根據融合前的特征分布預測標簽,為CRF提供更多樣的特征,最后將兩個CRF的損失函數值相加作為最終損失,不添加權重系數,不使用門控機制;(4)Baseline4,為驗證IDCNN對模型的影響,構建Baseline4,該基線去掉IDCNN網絡,僅保留BiLSTM和share-BiLSTM以及一個CRF(即僅保留圖1左邊)解碼器;(5)Baseline5,該基線在采用門控機制和損失權重的基礎上,三個特征提取器均不使用多頭自注意力策略,以從側面展現注意力對NER模型的影響;(6)Baseline6,該基線保留本文模型的整體架構,僅在損失函數中去掉損失權重,從而驗證本文損失函數的有效性。

由于Resume數據集的實體類型較豐富,標注形式比MSRA復雜,實體識別與提取比MSRA數據集更難,為了驗證改進方法的有效性,選取Resume數據集作為基線模型的測試數據。測試結果如表4所示。

從表4可知,若將兩個特征提取器所挖掘的特征直接拼接并輸入到CRF中進行實體識別時,其準確率和F1值較低。將由兩個不同特征提取器捕獲的特征直接拼接,可能會擾亂特征分布,以致CRF利用混亂的特征進行實體提取,導致預測能力弱,精準度低;若將前兩個特征提取器挖掘的特征分布融合再輸入到共享特征提取器中,共享特征提取器將依據兩個模型的特征分布再次提取特征,得到的特征信息包含著兩個模型的特征分布,特征表示得到增強,多樣性增加,NER模型性能得到改善,P、R、F1值得到一定程度的提高;若僅利用融合后的特征進行序列預測,模型將無法了解融合前文本特征的分布情況,因此,再構建一個CRF模型,使模型根據融合前的特征情況預測序列,由結果可知,準確率提高3.53個百分點,F1值提高1.72個百分點,模型性能得到明顯改善。若為模型的IDCNN引進門控機制,使特征數據選擇性流動、多通道傳輸,并在流通過程中共享交互,以提取高維、抽象特征;為損失函數添加權重,保證損失函數的合適范圍,確保模型訓練效果,最終以增強模型識別預測實體能力。從結果可知,該策略在一定程度上提升了NER模型的實體識別性能。

表4 基線測試結果Tabel 4 Test results on baseline %

如果僅采用一種類型的特征提取器而去掉IDCNN,提取的特征多樣性會降低,表征程度得不到加強,同時,阻礙了特征信息的跨層傳輸,以至CRF無法真正了解融合前的特征分布,與本文所提模型相比,Baseline4的F1值降低至少2個百分點;多頭自注意力機制使模型專注于輸入的關鍵特征信息,多空間地提取長距離依賴,由表4的Baseline5可知,若不采用注意力機制,模型提取的特征依賴度不強,特征挖掘深度不夠,導致NER模型F1值下降近1個百分點;由Baseline6與Our model比較可得,若去掉損失權重(即為兩個損失值直接相加),損失值增大近一倍,這將影響模型訓練效果從而導致模型預測精度下降,由此可知有效的損失函數對命名實體識別模型具有重要影響。

綜上所述,以文本自身作為研究材料,不引入其他細粒度信息、不添加輔助工具,在采用詞向量模型獲取表征豐富的詞向量以及利用多頭注意力策略基礎下,通過構造多個特征提取器,將各模型內的特征信息進行融合交互,可深度挖掘抽象深層的序列特征、捕獲更長距離依賴、深刻認知文本全局信息;門控機制的使用,增加數據的流通途徑,控制了數據流量;使用雙CRF網絡,在擴展特征多樣性基礎上實現特征信息的跨層傳輸。從實驗結果看,以上策略可提升命名實體識別模型的預測識別性能,改善NER模型。

4 總結

本文提出了一種專注于特征提取的命名實體識別模型。以文本數據作為開發核心,在BERT詞向量模型和多頭注意力機制基礎上,通過構建多個特征提取器并將各特征提取器挖掘的特征進行交互共享,從不同層次、不同維度挖掘抽象的文本特征;在序列預測階段,為CRF加入不同分布的特征信息,以增強特征多樣性;為增強高維特征的提取能力,在IDCNN中引入門控機制,在控制數據流量和流向的情況下實現信息多通道傳輸;最后構造合適的損失函數以保障模型訓練效果。在兩個數據上與其他NER模型進行比較,本文模型的F1值有一定程度的提高。相比其他中文NER數據集,本文采用的數據集較大,下一步計劃是將該模型應用于更小量級數據中,以檢測特征提取方法在輕量數據中的有效性。

猜你喜歡
特征提取機制特征
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
基于MED和循環域解調的多故障特征提取
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 亚洲色婷婷一区二区| 国产在线视频导航| 538精品在线观看| 97精品久久久大香线焦| 国产美女精品一区二区| 波多野结衣第一页| 亚洲欧美日韩精品专区| 狠狠色综合网| 精品人妻无码中字系列| 国产拍揄自揄精品视频网站| 尤物特级无码毛片免费| 亚洲欧美日韩高清综合678| 露脸一二三区国语对白| 高清色本在线www| 2024av在线无码中文最新| 国产精品美女网站| 91久草视频| 激情乱人伦| 久久精品免费看一| 人人爱天天做夜夜爽| 精品综合久久久久久97超人该| 欧美亚洲国产精品第一页| 强乱中文字幕在线播放不卡| 国产va在线| 国产成人av一区二区三区| 欧美在线网| 福利在线不卡一区| 国产迷奸在线看| 青青草原国产| 欧美国产在线看| 成人自拍视频在线观看| 国产精品999在线| 无码人妻热线精品视频| 十八禁美女裸体网站| 国产剧情一区二区| 国产成人高清精品免费软件| a级毛片毛片免费观看久潮| 性视频一区| 欧美精品1区| 精品国产中文一级毛片在线看| 国产AV无码专区亚洲精品网站| 国产在线麻豆波多野结衣| 免费一看一级毛片| 老熟妇喷水一区二区三区| 亚洲成a∧人片在线观看无码| 久久亚洲中文字幕精品一区| 国产人成在线观看| 亚洲高清中文字幕在线看不卡| 97视频免费在线观看| 波多野结衣一级毛片| 伊人久久大线影院首页| 国产一区免费在线观看| 日本午夜视频在线观看| 亚洲欧美日韩成人在线| 日韩欧美中文字幕在线精品| 97se亚洲| 国产va在线观看免费| 欧美α片免费观看| 国产成人综合久久精品下载| 亚洲va精品中文字幕| 99re在线免费视频| 久久精品国产亚洲麻豆| 九色视频在线免费观看| 黄色不卡视频| 国产第一页屁屁影院| 人妻21p大胆| a级毛片网| 青青青国产视频手机| 国产区人妖精品人妖精品视频| 欧美在线导航| 不卡无码h在线观看| 99精品视频在线观看免费播放| 伊人激情久久综合中文字幕| 在线精品亚洲一区二区古装| 美女亚洲一区| 国产精品粉嫩| 青青青视频91在线 | 91视频99| 久久国产精品娇妻素人| 亚洲日韩国产精品综合在线观看| 免费一级毛片不卡在线播放| 欧美日韩国产在线播放|