999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合單詞-字符引導注意力網絡的中文旅游文本命名實體識別

2021-02-05 03:02:48西爾艾力色提艾山吾買爾王路路吐爾根依布拉音馬喆康買合木提買買提
計算機工程 2021年2期
關鍵詞:單詞文本信息

西爾艾力·色提,艾山·吾買爾,王路路,吐爾根·依布拉音,馬喆康,買合木提·買買提

(1.新疆大學信息科學與工程學院,烏魯木齊 830046;2.新疆大學新疆多語種信息技術重點實驗室,烏魯木齊 830046;3.新疆大學軟件學院,烏魯木齊 830046)

0 概述

命名實體識別(Named Entity Recognition,NER)作為自然語言處理的基本任務之一,受到國內外研究人員的廣泛關注,并且隨著深度學習技術的不斷發展,其取得了重要的研究成果。例如,COLLOBERT[1]、LAMPLE[2]等人將命名實體識別轉換為序列標注問題,并利用深度學習技術捕獲命名實體的詞和字符信息,實現文本中命名實體的精準識別。通過將深度學習技術與字符信息相結合對文本序列標注數據進行建模,能夠有效提高命名實體識別性能,然而現有中文命名實體識別方法[3-4]多數使用單詞向量特征對命名實體進行表示,忽略了漢字字符特征的表征能力。針對該問題,國內外研究人員也進行了一系列關于字符特征表示的研究。例如,LU[5]、DONG[6]等人利用字符信息和單詞信息提高了命名實體的識別精度,但其沒有考慮單詞與字符以及字符與字符之間的位置關系。本文提出一種單詞-字符引導注意力網絡(Word-Character Guided Attention Network,WCGAN)的旅游文本命名實體識別方法。將不同層次的引導注意力網絡進行集成學習以獲取命名實體的單詞和字符信息,同時捕獲單詞與字符、字符與字符之間的位置信息。

1 相關工作

傳統NER方法通常采用機器學習技術或者人工標注特征[7]進行命名實體識別。文獻[8]提出一種基于SVM語料庫檢索模式和重復MWEs的NER識別方法,實驗結果表明該方法優于基于規則的命名實體識別方法。文獻[9]建立了條件隨機場(Conditional Random Field,CRF)命名實體識別系統,在捷克語、西班牙語等語料庫上的測試結果表明其具有較好的識別效果。然而,人工參數設計特征對上述方法的性能有較大影響,因此識別穩定性相對較差。

隨著深度學習技術的快速發展,其在特征學習中表現出強大的自學習能力并在命名實體識別中得到廣泛應用[10-11]。文獻[12]使用字符卷積神經網絡(CharCNN)捕獲了文本中的字符特征,并用字符特征表示命名實體,實現命名實體的準確識別。文獻[13]使用字符序列標注方法對中文文本進行標注,提高了中文命名實體的識別精度。文獻[14]將Max margin神經網絡用于中文社交網絡文本并識別出其中的命名實體。文獻[15]提出一種半監督的命名實體識別模型,該模型在中文社交網絡進行跨領域識別并取得較好的識別效果。文獻[16]將雙向LSTM與條件隨機場相結合對文本序列進行標注,實現命名實體的準確識別。文獻[17]提出一種任務感知神經語言模型,對文本序列中的命名實體進行權重賦值,提高了命名實體的識別精度。文獻[18]提出一種用于文本序列標記的半監督多任務學習方法,實現文本中命名實體的精確識別。上述方法雖然提高了命名實體的識別精度,但多數是基于單一特征對文本中的命名實體進行表示,忽略了大量的細節信息,而本文提出的WCGAN方法,從單詞和字符兩個方面對文本序列進行建模實現信息互補,同時強調單詞與字符之間的關聯性,進一步使用字符信息突出單詞的關鍵性。

2 基于WCGAN的命名實體識別

漢字字符是單詞的基本組成單位,其不僅具有獨立的語義信息,而且可以通過漢字字符推斷出單詞的詞義,即單詞和漢字信息對中文命名實體的識別具有重要作用。如圖1所示,本文將多個漢字字符按照一定的位置信息組合形成單詞和命名實體?!吧胶!庇伞吧健焙汀昂!眱蓚€漢字字符組成,且具有一定的位置關系,而“山?!焙汀伴L城”兩個單詞經過前后位置的組合形成關于地址的命名實體。因此,字符及字符的位置信息有助于進一步突出單詞信息,也可以提高字符與單詞之間的關聯性。在圖1中,Char-Tag和Word-Tag表示文本中命名實體的標簽,B表示命名實體的初始單元,M表示命名實體的中間單元,E表示命名實體的結尾單元,O表示非命名實體,ComName表示旅游地址。

圖1 單詞和字符的標簽信息Fig.1 Label informations of words and characters

2.1 單詞引導注意力網絡模型

單詞引導注意力網絡(Word Guided Attention Network,WGAN)模型先借助詞嵌入技術[19]將文本中的每個單詞(命名實體和非實體)映射到一個密集的低維向量空間中,再通過引導注意力的雙向長短時記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網絡捕獲文本中命名實體的單詞信息。Bi-LSTM網絡[6,20]能獲取文本的上下文信息以及文本中命名實體的單詞信息,使得單詞與文本之間建立失聯關系。WGAN模型的具體步驟如下:

1)在Bi-LSTM網絡中,T時刻隱藏層HT的計算公式如式(1)所示:

其中,oT表示T時刻輸出門,CT表示T時刻記憶單元的激活狀態。oT和CT的計算公式如式(2)所示:

其中,Wo表示輸出門的權重矩陣,bo表示輸出門的偏置值,fT表示T時刻忘記門的輸出,iT表示T時刻記憶門的值表示T時刻臨時記憶單元的狀態。相關計算公式如式(3)所示:

其中,Aw表示隨機初始化單詞的上下文向量。對單詞的注意力系數進行加權求和,得到命名實體中詞的注意力表示形式uw,如式(6)所示:

4)根據WGAN捕獲文本中顯著的命名實體單詞,最終得到命名實體的單詞表示信息。

2.2 字符引導注意力網絡模型

在中文文本中字符是單詞的基本組成單位,當文本的語義相差較小時,字符信息顯得尤為重要,且字符之間的排列也會影響命名實體的準確提取。本文設計一種基于字符引導注意力網絡(Character Guided Attention Network,CGAN)的字符信息提取模型。CGAN模型的具體步驟如下:

1)利用CNN[23]和雙向獨立循環神經網絡(Bi-IndRNN)[24]提取中文文本中命名實體的字符信息。

2)采用位置注意力網絡(Pos-Attention)進一步捕獲字符信息,同時獲取命名實體中字符之間的位置信息,在字符與字符之間建立位置關聯,從而提高命名實體的識別效果。

3)替換CNN中卷積層預定義的1-of-m并對其進行編碼[23],將預定義輸入的字符長度設置為225,對超過預定義長度的字符進行裁剪,空缺的字符用0進行填充,計算公式如式(7)所示:

4)基于池化層進一步捕獲命名實體的字符信息。池化層的輸出如式(8)所示:

本文利用CNN提取命名實體中字符的空間信息,為進一步獲取命名實體中字符的時序信息,將池化層輸出的特征向量輸入雙向獨立循環神經網絡。雙向獨立循環神經網絡層T時刻的輸出如式(9)所示:

其中,σ表示激活函數,U表示輸入層到隱藏層的權重矩陣。

將雙向獨立循環神經網絡的輸出作為位置注意力機制的輸入[25],進一步捕獲字符在上下文中的位置信息并分配相應的權重值,以提高字符信息的表征能力和命名實體的識別精度,具體計算公式如式(10)所示:

其中,uc表示命名實體中字符的表示形式,Ws2、Ws1表示權重矩陣。

通過字符引導注意力網絡模型,本文捕獲了文本中命名實體的字符信息,同時獲取了字符之間的位置信息,并在字符之間建立了關聯關系。在使用CNN提取字符的空間信息時,本文設計的CharCNN結構與文獻[26]的CharCNN結構有所差異,將原結構的最大池化層和全連接層變換為全局平均池化層和雙向獨立循環神經網絡層。

2.3 WCGAN方法

本文提出的WCGAN方法主要由WGAN和CGAN模型聯合組成,其能同時捕獲文本命名實體的單詞和字符信息,并使兩者之間形成信息互補,同時使用字符信息增強命名實體的顯著性,進一步強調單詞中字符之間的位置信息。本文首先使用WGAN方法學習文本的單詞特征,獲得文本中命名實體的局部信息;其次采用注意力機制引導Bi-LSTM對嵌入網絡文本進行編碼,并對關鍵信息分配更高的權重比,以降低冗余信息且使其更多關注顯著性單詞特征;然后通過CGAN模型捕獲文本中命名實體的字符信息,使其更好地挖掘出不同命名實體之間的細微差別,進一步捕獲命名實體中字符之間的位置信息,同時強調了字符與單詞之間的關聯性,并與WGAN模型實現信息互補,以增強命名實體之間的辨識度;最后利用CRF對文本中的命名實體進行識別。WCGAN網絡結構如圖2所示。

圖2 WCGAN網絡結構Fig.2 Network structure of WCGAN

WCGAN方法的具體步驟如下:

1)通過WGAN得到命名實體的詞表示形式uw,利用CGAN得到命名實體中的字符表示形式uc。

2)將詞和字符信息進行融合,獲得字符增強型的命名實體特征u,計算公式如式(11)所示:

3)利用CRF獲取命名實體的標簽預測值[27],計算公式如式(12)所示:

可見,本文提出的WCGAN方法利用字符信息能有效增強命名實體的辨識度。

3 實驗結果與分析

為驗證WCGAN方法的有效性,在兩組中文實驗數據集上進行測試驗證并與WGAN和CGAN模型進行比較,同時使用精確率、召回率和F值作為評價指標確保結果的正確性和一致性。

3.1 實驗數據

本文使用的數據集為:1)ResumeNER公開數據集[4],該數據集包括國家、教育、人名、組織和職業5類命名實體,其中,命名實體數量為16 565,訓練集數據量為9 380,驗證集數據量為2 185,測試集數據量為5 000;2)TourismNER自定義數據集,該數據集是筆者從各旅游網站收集的旅游景點、人物、地址3類命名實體,其中,命名實體數量為13 840,訓練集數據量為5 536,驗證集數據量為4 152,測試集數據量為4 152。

本文對WCGAN方法中相關初始化參數進行設置。WGAN詞嵌入維度為300維。CGAN采用1-of-m編碼策略,擴展單元數量為512,當其少于512個漢字字符時使用0進行填充,當其多于512時只需映射512個字符,該參數設置與CharCNN[26]類似。優化函數為Adam,迭代次數為200,Dropout為0.25,學習率為0.02,當迭代20次后將學習率設置為0.001。

3.2 實驗方法

為進一步驗證WCGAN方法的優越性,將其與目前主流的中文命名實體識別方法進行比較:

1)CRF[28]:該方法先對文本中的命名實體進行標注,再使用CRF對各類命名實體的標簽進行預測。

2)Bi-LSTM+CRF[20]:該方法將獲得的外部單詞嵌入CRF擴展的Bi-LSTM中進行編碼,提高了模型運行效率,并增加了命名實體識別的準確度。相關超參數的設置如下:學習率為0.005,優化函數為SGD,丟碼率為0.5,隱藏層維度為100,外部詞嵌入維度為100。

3)Bi-LSTM+CNN+CRF[12]:該方法利用卷積神經網絡提取命名實體的字符信息,并將不同字符之間的信息進行組合,輸入Bi-LSTM中對每個單詞的上下文進行建模,然后使用CRF模型進行解碼,其在無需特征工程的情況下提高了命名實體的識別效果。相關超參數的設置如下:詞嵌入維度為100,優化函數為SGD,學習率為0.015,批處理大小為10。

4)Char-Dense[27]:該方法利用密集連接網絡捕獲命名實體的字符信息,能有效減少訓練時間,并提高字符位置信息利用率及模型魯棒性和有效性。該方法使用Adam作為優化函數。

5)CAN-NER[4]:該方法使用卷積神經網絡捕獲文本中命名實體的字符信息,并利用自注意力機制和GUR模型來刻畫相鄰字符之間的關聯性和句子的上下文語義信息。

6)LSTM+CRF[6]:該方法利用不同通道來捕獲中文社交網絡中的命名實體,采用隨機化嵌入詞向量的方式將命名實體嵌入到網絡層中,并將不同的通道參數進行共享,使得該方法能更好地捕獲文本中命名實體的上下文信息。

3.3 實驗結果

3.3.1 WGAN中不同識別模型對識別效果的影響

為驗證WCGAN方法中WGAN和CGAN模型對命名實體識別的影響,以ResumeNER和TourismNER數據集為基準數據集進行實驗測試,結果如表1所示。

表1 不同識別模型的實驗結果對比Table 1 Comparison of experimental results of different recognition models %

由表1可以看出:1)WCGAN方法的F值在兩種數據集上均表現最好,分別為93.491%和92.860%,相比WGAN模型分別提高了2.119和1.939個百分點,其主要原因為WCGAN方法使用字符信息增加了關鍵單詞的關注度,并進一步強調單詞中字符與字符之間的關聯性和位置信息,從而實現了信息互補,相比CGAN模型分別提高了1.238和1.380個百分點,其主要原因為CGAN模型丟失了大量的單詞信息;2)CGAN模型相比WGAN模型F值更高,其主要原因為WGAN模型在捕獲單詞信息時,忽略了命名實體單詞中字符與字符之間的關聯性以及命名實體之間的細微差別,從而導致WGAN模型的識別效果劣于CGAN模型。

3.3.2 WGAN中不同命名實體對識別效果的影響

為驗證WCGAN方法的準確性,對ResumeNER和TourismNER數據集中不同命名實體的識別效果進行實驗測試。不同命名實體的混淆矩陣如圖3所示。從圖3中可以較為直觀地看出不同命名實體在ResumeNER和TourismNER數據集中的分類效果,其中O在圖3(a)和圖3(b)中的F值均為最高,其主要原因為中文文本中非實體占比較大。

圖3 不同命名實體的分類結果Fig.3 Classification results of different named entities

3.3.3 WGAN在小樣本數據集上的識別效果

為驗證WCGAN方法對小樣本數據集中命名實體的識別效果,以ResumeNER基準數據集為基礎,分別使用1%、10%、20%、30%和40%的數據作為訓練數據并迭代20次,剩余數據中測試和驗證數據的數量均等,實驗結果如圖4所示。

圖4 在小樣本數據集上的識別結果Fig.4 Recognition results on small sample datasets

由圖4可以看出:1)隨著訓練數據集的增加,F值逐漸升高,WCGAN方法的F值相比CGAN和WGAN模型更高,其主要原因為WCGAN方法對字符和單詞建立關聯性,且使用不同模型學習相應的特征信息形成信息互補;2)隨著數據集規模的增加,3種方法的損失值也有所下降,且WCGAN方法的損失值始終處于最低狀態,這表明在相同超參數的情況下,WCGAN方法能更好地學習命名實體的特征。

3.3.4 命名實體識別方法性能對比

為驗證WCGAN方法的命名實體識別性能優勢,將其與目前主流的中文命名實體識別方法進行對比,實驗結果如表2所示。由表2可以看出:1)與CRF方法相比,LSTM+CRF、Bi-LSTM+CRF和Bi-LSTM+CNN+CRF方法具有更好的識別效果,其主要原因為這些方法使用組合模型更好地捕獲了文本中命名實體的深層抽象信息,并在一定程度上解決了淺層機器學習方法使用人工參與設置特征帶來的誤差問題;2)與Char-Dense方法相比,CAN-NER方法在兩個基準數據集上的F值分別提高了2.640和2.953個百分點,結果表明注意力機制能更好地捕獲文本命名實體的序列信息,并對文中的關鍵信息進行突出,驗證了注意力機制在命名實體識別方面的有效性;3)WCGAN方法在兩種基準數據集均取得了較好的識別效果,其主要原因為WCGAN方法能捕獲命名實體的單詞信息、字符信息以及字符與字符之間的位置信息,并且強調了字符與單詞之間的關聯性。

表2 7種命名實體識別方法的性能對比Table 2 Performance comparison of seven NER methods %

3.3.5 可視化結果

為驗證WCGAN方法能更好地捕獲命名實體的字符信息以及增強單詞的表征能力,本文以TourismNER基準數據集為實驗數據,同時展示了多種命名實體識別方法的可視化結果,顏色越亮表示字符越重要。由圖5可以看出,WCGAN方法能有效捕獲命名實體的關鍵字符信息,在旅游命名實體“山海長城馳名中外”中“山”、“?!薄?、長”和“城”4個字符就被突出顯示。由此可見,WCGAN方法在捕獲細節特征方面效果更好。

圖5 字符信息的可視化結果Fig.5 Visual results of character information

4 結束語

本文提出基于單詞-字符引導注意力網絡的中文旅游命名實體識別方法。通過單詞引導注意力網絡和字符引導注意力網絡模型捕獲命名實體的單詞特征和字符信息,同時在單詞和字符之間建立關聯關系,并利用字符信息增強單詞特征的表征能力,使得字符信息和單詞特征間形成信息互補。在ResumeNER和TourismNER基準數據集上的實驗結果表明,WCGAN方法能有效提高中文命名實體的識別效果。下一步將在無外部嵌入特征的情況下,研究基于圖卷積神經網絡的中文旅游文本命名實體識別方法。

猜你喜歡
單詞文本信息
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
單詞拾趣
海外英語(2006年8期)2006-09-28 08:49:00
主站蜘蛛池模板: 亚洲欧州色色免费AV| 在线观看91精品国产剧情免费| 亚洲日本中文字幕天堂网| 国产一区二区三区免费观看| 91精品国产综合久久香蕉922| 国产91蝌蚪窝| 四虎影视8848永久精品| 91欧美亚洲国产五月天| 国产成人高清精品免费软件| 国产欧美精品专区一区二区| 亚洲精品福利视频| 日本三级精品| 99视频有精品视频免费观看| 日韩精品欧美国产在线| 人妻出轨无码中文一区二区| 波多野结衣二区| 啦啦啦网站在线观看a毛片| 99久久国产综合精品2023| 国产成人艳妇AA视频在线| 无码福利视频| 三级国产在线观看| 99在线观看精品视频| 久久亚洲欧美综合| 四虎成人精品在永久免费| 中文字幕第1页在线播| 久久毛片基地| 无码国产伊人| 伊人久久大线影院首页| 欧美α片免费观看| 欧美a在线视频| 精品超清无码视频在线观看| 国产第二十一页| 亚洲无码91视频| 91欧美亚洲国产五月天| 九九这里只有精品视频| 亚洲成人黄色网址| 天天色天天操综合网| 婷婷色一二三区波多野衣| 日韩欧美综合在线制服| 国产人妖视频一区在线观看| 亚洲中文字幕在线一区播放| 国产9191精品免费观看| 亚洲无码免费黄色网址| h视频在线观看网站| 国产在线第二页| 精品国产亚洲人成在线| 婷婷色中文网| 在线亚洲精品自拍| 日韩成人在线视频| 青青国产视频| 丰满人妻久久中文字幕| 国产国模一区二区三区四区| 亚洲无码四虎黄色网站| 亚洲视频在线青青| 青青草欧美| 伊人激情综合| 就去吻亚洲精品国产欧美| 午夜精品福利影院| 伊人久久福利中文字幕| 欧美日韩国产系列在线观看| 免费看av在线网站网址| 91成人免费观看在线观看| 色婷婷狠狠干| 免费又黄又爽又猛大片午夜| …亚洲 欧洲 另类 春色| 美女扒开下面流白浆在线试听| 欧美午夜理伦三级在线观看| 色婷婷国产精品视频| 亚洲欧美一区二区三区麻豆| 亚洲天堂视频在线观看免费| 国产一二视频| 欧美成人亚洲综合精品欧美激情| 日本欧美精品| 国产亚洲精品无码专| 日韩欧美国产三级| 黄色网页在线播放| 福利姬国产精品一区在线| 99精品福利视频| 亚洲成年人网| 国产真实自在自线免费精品| 99人妻碰碰碰久久久久禁片| 国产微拍一区二区三区四区|