999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT-DeepCAN-CRF 的中文命名實體識別方法?

2022-03-18 06:20:26謝斌紅張露露趙紅燕
計算機與數字工程 2022年12期
關鍵詞:深度特征模型

謝斌紅 張露露 趙紅燕

(太原科技大學計算機科學與技術學院 太原 030024)

1 引言

命名實體識別(Named Entity Recognition,NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名和專有名詞等,它是自然語言處理中一項基本且具有挑戰性的任務,也是信息提取和機器翻譯等許多高級任務的基礎和關鍵組件。

命名實體識別的研究方法經歷了基于規則的方法、機器學習和深度學習三個階段,其中深度學習方法可以自動學習深層的特征,實現從非結構化的輸入文本到實體識別結果的映射,與傳統的基于規則和機器學習的方法相比,不需要建立不同領域的知識庫和大量的特征,為解決命名實體識別問題提供了一種新的途徑,引起了研究人員的廣泛關注,并先后提出了多種形式的基于字符或詞語嵌入的深度神經網絡模型。下面分別從模型的輸入分布式表示、上下文編碼器結構和標簽解碼結構進行具體闡述。

1)輸入的分布式表示

實體識別的成功在很大程度上依賴于它的輸入表示,分布式表示可以自動從文本中學習和捕捉文本的句法和語義特征,在NER任務中目前有3種常見的分布式表示:詞語級、字符級和混合表示。

(1)詞語級別的表示是將句子中的每個詞語分布式表示作為神經網絡的輸入。第一個詞級神經網絡模型是由Collobert 等[1]2008 年提出的,之后Huang 等[2]提出了一個基于詞語級別的LSTM-CRF模型,有效提高了實體識別的性能。基于詞語表示進行中文NER 任務時,通常會借助外部工具進行分詞,而分詞錯誤的傳播將會影響后續實體識別任務的性能,而且分詞之后,嵌入層的參數會顯著增加,還將引入數據稀疏和過度擬合問題,此外,由于中文詞匯量巨大,基于詞語表示還會帶來OOV(Out-of-vocabulary)問題。

(2)字符級別的表示是以單個字為粒度做分布式表示。該表示方法可以解決OOV 問題。Yang等[3]提出在神經網絡卷積層設置一個固定大小窗口來提取字符級別的特征。Lample 等[4]采用了BiLSTM模型來抽取字符級分布式表示。

(3)混合分布式表示是將詞語、字符等多種特征進行融合作為神經網絡的輸入。基于詞匯增強的中文NER 有兩種方式,其一設計一個動態框架,能夠兼容詞匯輸入。作為融入詞匯信息進行中文NER 的開篇之作,Zhang[5]等提出一種Lattice LSTM模型,通過詞典匹配句子,將潛在詞級信息集成到基于字符的LSTM-CRF 模型,有效提升了NER 性能。其二是基于詞匯信息構建自適應Embed?ding。Peng 等[6]提出了一種在Embedding 層利用詞匯的方法,對每個字符依次獲取BMES 對應所有詞匯集合,然后再進行編碼表示。除了字詞特征的融合,一些研究人員還納入了一些其他信息。Dong等[7]引入漢字偏旁作為額外的特征。還有其他混合型方法用到了情感、語義[8]等特征。雖然引入外部知識可以提高實體識別的性能,但是會損害基于端到端的深度學習NER模型的通用性。

2)上下文編碼器結構

循環神經網絡RNN 及其變體GRU 和LSTM 由于其較強的序列建模能力在NER 任務上取得了顯著效果。Huang 等[2]于2015 年首次引入了BiLSTM來解決序列標記問題。目前該模型在NER 任務中得到了廣泛應用,之后一系列研究[7,9~11]都以BiL?STM 作為實體識別任務編碼序列上下文信息的體系結構。

也有一些研究人員采用卷積神經網絡CNN 作為實體識別的主干網絡。Strubell[12]和Gui[13]提出用CNN 來編碼單詞;研究表明[9,14]CNN是提取字符信息的有效方法;Wu 等[15]利用卷積層生成由多個全局隱藏節點表示的全局特征,然后將局部特征和全局特征結合起來識別中文命名實體。

Zheng等[16]認為重要的單詞可能出現在句子中的任何位置,因此其提出將BiLSTM 和CNN 結合作為實體識別的特征提取器。使用BiLSTM捕獲長距離依賴關系并獲得輸入序列的整體表示,然后利用CNN學習高級表示,最后輸入分類器進行實體的識別。Li 等[17]使用CNN 網絡訓練出具有語義信息的特征向量,然后構建進行實體識別的BiLSTM-CRF神經網絡模型。

3)標簽解碼結構

標簽解碼是命名實體識別模型的最后一個環節。目前主要有多層感知機結合softmax 和條件隨機場等方法。其中,多層感知機結合softmax 將問題建模為一個多分類問題,每一個標簽獨立預測,沒有考慮相鄰標簽之間聯系;而條件隨機場采用動態規劃思想的維特比算法(Viterbi)進行解碼,對實體標簽進行預測,該方法考慮相鄰標簽之間的關系,是當前最常用的解碼方法。

通過上述分析,本文提出基于字符級表示的中文NER 模型。采用BERT 預訓練語言模型根據上下文動態生成字符的嵌入表示,用于解決中文中存在的多義詞問題以及緩解實體識別對模型結構的依賴,為模型提供更好的輸入表示。

編碼器方面,由于BiLSTM 網絡良好的序列建模能力,已成為命名實體識別的主流網絡,但因其特征提取時需要跨越輸入文本長度順序進行計算,不能充分利用GPU 的并行性,限制了網絡的計算效率。而且隨著序列增長,長序列建模能力減弱。針對該問題,本文提出一種DeepCAN 網絡,通過將卷積網絡和多頭注意力機制結合作為特征提取器。首先利用多個卷積核在整個文本序列上并行計算并有效捕捉實體的局部連續特征,同時利用深層CNN 網絡堆疊,進一步增大感受野,提取句子的全局上下文高層語義特征。此外,為了解決句子中同一實體可能被模型預測不同標簽出現上下文不一致問題,還引入了多頭注意力機制提取句子全局上下文特征,解決長距離依賴問題。

解碼器方面,本文選擇目前主流的CRF進行解碼,獲得實體的標簽預測。

2 命名實體識別網絡模型

在本節中,將詳細闡述基于BERT 模型和注意力機制的卷積神經網絡模型。模型主要分為BERT層、DeepCAN 層和CRF 層。其中DeepCAN 層由N個相同的卷積注意力模塊(Convolutional Attention Block,CAB)疊加而成。每個CAB 包括3 層CNN 疊加組成的非線性子層和一個注意力子層。模型的整體結構如圖1所示。

圖1 BERT-DeepCAN-CRF模型結構圖

2.1 字符級向量表示

詞向量是基于深度學習的自然語言處理的重要組成部分,它可以將離散、不連續的自然語言映射到低維、稠密的向量空間,使神經網絡能夠更好地理解語義,從而提升對自然語言的理解能力。

本文使用BERT 預訓練中文詞向量模型表征詞的多義性,生成詞的嵌入表示,使提取到的語義信息更加豐富,獲得高質量的詞向量,更有利于下游實體識別任務的進行。

另外,為了減少未登錄詞的數量,避免分詞結果對實體識別的影響,本文采用基于字符級的嵌入表示方法。給定一個輸入句子X={x1,x2,x3,…,xm},其中m為句子最大字數,將其輸入BERT 預訓練好的中文語言模型,得到一個A?Rm*d作為實體識別模型的輸入,其中d為每個字的特征維數。

2.2 DeepCAN層

命名實體識別需要兼顧局部特征和全局特征對實體進行標簽預測。DeepCAN 層旨在通過疊加多層CAB 模塊構建強特征器對輸入字符序列進行編碼。其中,CAB 中的卷積網絡可以兼顧詞義、詞序和上下文關系對局部連續特征進行提取,為實體識別提供有利的局部特征信息。自注意力機制可以學習句子中任意兩個字符之間的關系,從句子層級進行特征的提取,同時使用多頭注意力從句子不同層面進行信息挖掘,提取更加豐富的特征。DeepCAN 網絡不受限于序列長度,可最大限度地利用GPU資源并行運算以節省大量時間和成本。

2.2.1 卷積注意力模塊CAB

卷積注意力模塊CAB 由3 層CNN 疊加組成的非線性子層、多頭注意力子層,殘差連接和層歸一化構成。下面對其內部結構詳細闡述。

1)卷積層

卷積神經網絡是一種可并行、可訓練、推理速度快且具有深度結構的前饋神經網絡。CAB 模塊通過卷積操作實現對輸入字符嵌入的特征學習和表示。首先將經過BERT 預訓練語言模型獲得的文本矩陣A作為卷積神經網絡的輸入,為了處理句子邊緣信息,同時為了避免隨著網絡深度增加特征圖大小的急劇減小,選用SAME 進行padding 操作,保證輸出與輸入同等大小。

本次將卷積核高度h設置為3,寬度d為詞向量的維度,同時為了使獲得的特征多元化,使用了200 個卷積核進行特征信息的提取,每個句子的滑動窗口為{x1:h,x2:h+1,…,xm-h+1:m},對文本矩陣的每個窗口xv:v+h-1進行卷積操作,計算如式(1)所示:

ci為卷積后的運算結果,Wh∈Rh*d為卷積核的權重,bh∈R為卷積核的偏置,v代表卷積核滑動窗口的參數,?為卷積計算,f(x)為激活函數,本文采用可以更好學習和優化的relu 函數作為激活函數。最后得到輸出結果sub-Layer(x)=[c1,c2,…cm-h+1],如圖2 所示。多層卷積將局部特征進行組合從而獲得更為抽象的高層表示,因此本次研究使用3 層卷積網絡疊加合并全局上下文來表征長文本。

圖2 卷積操作示意圖

2)多頭注意力層

在中文實體識別中有時候鄰近上下文信息與實體關系比較弱,根據局部特征對實體進行標簽預測會出現同一實體標簽上下文標注不一致情況,因此模型需要提取更多長距離的上下文信息,整合句子的全局特征才能更準確地對實體進行標注。自注意力機制可以顯式地學習句子中任意兩個字符間的依賴關系,有效解決遠距離依賴特征間的距離問題。因此,在模型中采用了Vaswani 等提出的多頭注意力機制,將CNN 網絡提取到的特征作為輸入,并使用單獨的歸一化參數在同一輸入上多次應用自注意機制,并將結果結合,從而使模型可以學習到不同表示子空間的相關信息。

多頭注意力機制的結構如圖3 所示,圖的中心是縮放點積注意力,它是點積注意力的變體,與使用單層前饋神經網絡實現的標準加法注意力機制相比,點積注意力利用矩陣產生,可以更快計算同一句子中任意兩個字符之間的相關程度。為了使訓練過程中具有更穩定的梯度,利用維度d起到調節作用。縮放點積注意力的計算如式(2)所示:

圖3 多頭注意力示意圖

最后將4 次縮放點積注意力的結果進行拼接,再進行一次線性變換得到輸入文本中更豐富的句法和語義信息,使模型聚焦于對實體識別任務更為關鍵的信息。計算如式(4)所示:

2.2.2 深度結構

本文將3 層CNN 網絡和多頭注意力層結合構建了一種卷積注意力模塊CAB,通過堆疊多層實現深度結構,進而構建更強的特征學習器。由于多層迭代結構會帶來梯度消失或爆炸問題,因此,通過引入殘差連接緩解梯度不穩定帶來的網絡退化問題。隨著深度網絡的多層運算之后,樣本特征分布松散,這樣會導致神經網絡學習速度緩慢甚至難以學習,因此在殘差網絡之后使用了歸一化處理,使網絡快速收斂,模型訓更加容易和穩定。

2.3 CRF層

DeepCAN 層網絡的輸出結果是語句中每個字對應各實體類別的分數,雖然可以選擇分數最高的類別作為實體預測結果,但是該結果并沒有考慮實體標簽之間的依賴關系,而CRF可以加入一些約束條件去考慮實體標簽之間的上下文關系,來保證最終預測結果是最優的。這些約束可以在訓練數據時被CRF 層自動學習得到,因此本文選擇CRF 來建模標簽序列。

對于給定輸入句子X={x1,x2,x3…xm},其對應的標簽序列y={y1,y2,y3…ym},標簽序列的分數計算如式(5)所示:

其中Oi,yi表示句子中第i字符xi是標簽yi的分數。T是一個過渡分數矩陣,它表示兩個連續標簽的轉換分數。

所有標簽序列y的概率計算如式(6),其中y?表示任意標簽序列,Yx是輸入X的所有可能輸出標簽序列的集合。

對于給定集合{xi,yi},最大似然函數計算如式(7)所示:

在解碼中,使用Viterbi算法來預測獲得最高得分的標記序列,將其作為最終的實體識別結果序列,計算如式(8)所示:

3 實驗與分析

3.1 實驗數據

本次實驗所選取的數據集為SIGHAN2006[19]的實體識別數據集,包含了人名、地名和機構名三類實體。該數據集包括訓練集,驗證集,測試集。數據集規模如表1所示。

表1 數據集規模表(句子)

3.2 模型構建和參數設置

本次實驗環境為Windows 操作系統,Tensor?flow 版本為1.14.0,python 版本為3.7。實驗參數設置如表2所示。

表2 模型參數設置

3.3 實驗結果

在這一小節中,主要對本次研究所做實驗結果進行分析。

3.3.1 驗證模型的有效性。

為了驗證本次所提模型的有效性,論文進行了以下對比實驗:1)為了驗證模型深度對實體識別效果的影響,選擇了模型深度為6 層、8 層和10 層分別進行實驗;2)在最佳模型深度基礎上,使用BERT和Word2vec 兩種生成詞嵌入方法進行實體識別;3)將論文提出的DeepCAN+CRF模型和主流的BiL?STM+CRF模型進行對比,實驗結果如表3所示。

表3 對比實驗結果

根據表3分析可以獲得:

1)實驗1、2、3 結果表明,使用BERT 預訓練模型獲得詞嵌入表示時,模型在深度為8時F1值最高達到93.37%,隨后是深度為10 時F1 值為91.94%,深度為6 時,F1 值最低為91.58%。表明適當增加網絡深度有利于實體識別性能的提升,但隨著模型加深會引起網絡退化,學習能力下降問題。

2)實驗2、4 表明,在模型相同情況下,使用BERT預訓練語言模型生成詞嵌入的方法進行實體識別的F1 值為93.37%,比使用Word2vec 獲得詞向量的方法進行實體識別的F1 值89.80%提高了3.57%。表明BERT 預訓練語言模型獲得嵌入有助于提升模型性能。

3)通過實驗4、5 相比,在輸入同時使用Word2vec 做詞嵌入表示時,DeepCAN+CRF 模型的F1 值比BiLSTM+CRF 模型的F1 值高0.67%。表明DeepCAN 既可以使模型學到局部連續特征又可以捕捉長距離文本關系,學習能力更強

3.3.2 模型訓練過程

圖5 展示了DeepCAN+CRF 模型使用不同詞嵌入方式和在不同深度下隨著訓練輪數F1 值的變化。其中BERT+DeepCAN+CRF 模型在深度為6 時訓練30 個epoch 時F1 值達到最大為91.58%,深度為8 時在訓練34 個epoch 時F1 值達到最大值為93.37%,深度為10 時在訓練31 個epoch 時F1 值達到最大值為91.94%。利用Word2vec 做詞嵌入時,模型深度為8 時DeepCAN+CRF 在訓練25 個epoch時F1值取得最大為89.80%。

圖4 不同模型訓練過程

3.3.3 不同模型訓練時間對比

為了驗證本文特征提取器的并行能力,對模型訓練所需時間進行了比較,結果如圖5所示。

圖5 訓練時間對比圖

根據圖5 可知,使用BERT 預訓練語言模型訓練深度為6 層的DeepCAN+CRF 模型45 個epoch 所需時間為398min,深度為8 層時所需時間為400min,深度為10 層時所需時間為401min;使用Word2vec獲得詞嵌入表示時,BiLSTM+CRF 模型訓練45 個epoch 所需時間為81min,深度為8 層的DeepCAN+CRF 模型訓練45 個epoch 所需時間為52min。

由此可以看出CNN 模型相比于BiLSTM 模型具有良好的并行計算能力,訓練速度更快;同時由于BERT 模型參數量大,導致使用BERT 模型比Word2Vec所需訓練時間大幅度增加。

3.4 與現有其他方法的對比

為了驗證所提出BERT+DeepCAN+CRF 的性能,與現存的下列方法方法進行了比較。

1)Luo and Yang[20]首先訓練一個分詞模型,然后將分詞作為額外的特征進行實體標記,在SIGHAN2006數據集上達到了89.21%的F1值;

2)Cao and Chen[21]提出了基于自注意力機制的命名實體識別對抗性遷移學習網絡,將實體識別與分詞兩個任務同時進行訓練,將詞語級特征引入實體識別任務。在SIGHAN2006 數據集上達到了90.64%的F1值。

3)Yin et al[22]提出一種融合字詞的BiLSTM 模型,分別用BiLSTM-CRF訓練基于字和詞的實體識別模型,最后將兩個模型進行融合,在SIGHAN 2006數據集上達到90.45%的F1值。

對比結果如表4 所示,根據表4 給出的實驗結果可以觀察到,本文提出的方法沒有引入額外的特征,將F1 值從90.64%提高到93.37%,驗證了模型的有效性,尤其是BERT 預訓練語言模型的引入,對性能的提升有重要的作用,在未來研究中整合或微調預先訓練的語言模型嵌入將成為神經網絡的新范式。

表4 與現有方法對比結果

4 結語

本文提出了一種基于BERT 模型和深度卷積注意力網絡進行中文命名實體識別的方法。實驗表明該方法比現存方法可以實現更好的結果,主要原因有以下點:1)BERT 預訓練語言模型比主流的Word2vec 方法具有更好的學習能力,可以提取高層的抽象信息,提高了模型表征詞語的能力;2)深度卷積注意力網絡DeepCAN 可以提取豐富的長序列文本特征,而且其有良好的并行計算能力,兼顧時間和精確度,表現出更好的性能。

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 精品亚洲欧美中文字幕在线看| 狠狠五月天中文字幕| 91无码网站| 91黄色在线观看| 午夜国产大片免费观看| 久久综合五月婷婷| 欧美成人综合视频| 青青极品在线| 国产美女精品一区二区| 狠狠亚洲五月天| 国产午夜一级毛片| 日韩国产黄色网站| 美女潮喷出白浆在线观看视频| 日韩无码精品人妻| 国产人人乐人人爱| 色成人综合| 欧洲日本亚洲中文字幕| 91丝袜在线观看| 波多野结衣一区二区三视频| 尤物成AV人片在线观看| 日韩欧美91| 成人国产小视频| 999精品色在线观看| 在线观看精品国产入口| 无码精品一区二区久久久| 久久超级碰| 国产精品亚洲αv天堂无码| 最新亚洲人成无码网站欣赏网 | 国产日韩丝袜一二三区| 国产精品不卡永久免费| 亚洲国产精品一区二区第一页免 | m男亚洲一区中文字幕| 国产一区二区精品高清在线观看| 天天躁日日躁狠狠躁中文字幕| 亚洲性影院| 午夜高清国产拍精品| 欧美日韩在线成人| 欧洲一区二区三区无码| 网久久综合| 思思99思思久久最新精品| 国产福利小视频高清在线观看| 老司机精品99在线播放| 免费人成网站在线高清| 极品尤物av美乳在线观看| 国产欧美在线观看一区 | 中文字幕1区2区| 五月激情婷婷综合| 在线观看无码av五月花| 成年人福利视频| 欧美a在线视频| 国产在线小视频| 午夜国产不卡在线观看视频| 无码啪啪精品天堂浪潮av| 真实国产乱子伦视频| 久久亚洲国产一区二区| 日本高清在线看免费观看| 久热re国产手机在线观看| 国产h视频在线观看视频| 亚洲国产日韩在线成人蜜芽| 久久性视频| 亚洲91精品视频| 成人午夜天| 国产精品2| 在线免费观看AV| 成人午夜天| 激情乱人伦| 久久永久精品免费视频| 国产精品区视频中文字幕| 国产精品第| 一级毛片高清| 国产乱人乱偷精品视频a人人澡 | 久久青草免费91线频观看不卡| 欧美日韩动态图| 国产成人你懂的在线观看| 欧美全免费aaaaaa特黄在线| 永久免费精品视频| 国产成人午夜福利免费无码r| 国产微拍一区| 中文成人无码国产亚洲| 亚洲伊人电影| 中文字幕免费在线视频| 欧美国产精品不卡在线观看|