999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合字詞特征的中文嵌套命名實體識別

2022-01-26 05:10:04黃銘劉捷戴齊
現代計算機 2021年34期
關鍵詞:文本實驗方法

黃銘,劉捷,戴齊

(西南交通大學計算機與人工智能學院,成都 611756)

0 引言

隨著數據挖掘與人工智能的發展,人們對數據潛在價值的重視程度日益提升。作為知識抽取的重要組成部分,命名實體識別成為當下研究熱點之一。命名實體識別常作為序列標注任務處理,需要同時預測實體的邊界及實體的類別。目前,命名實體識別常采用Bi-LSTM作為文本特征提取器,并使用CRF(conditional random fields)對標簽的相對關系進行約束,組合形成Bi-LSTMCRF[1]作為模型進行訓練。此外,針對訓練文本的詞嵌入,采用單詞的字符特征與預訓練的詞向量結合的形式,常用的字符特征提取方法包括CNN[2-3](convolutional neural networks)、LSTM[4](long short-term memory)等。不同于英文命名實體識別,中文命名實體識別的訓練文本沒有明確的詞邊界,需要進行分詞處理。因此,中文命名實體識別常伴隨錯誤傳播問題,分詞錯誤將直接導致命名實體識別錯誤,且不同的分詞方法分詞結果不同可能導致詞嵌入時OOV(out of vocabu?lary)。

研究表明,針對命名實體識別任務,基于字粒度的詞嵌入方法性能要優于基于詞粒度的詞嵌入方法[5-6]。然而,基于字粒度的詞嵌入方法同樣存在問題。首先,基于字粒度的詞嵌入方法能夠傳遞的信息有限,會忽略文本中許多隱含信息。此外,相同字在不同詞語中表達的含義也可能不同。例如,在鐵路領域,“正線”和“到發線”中的“線”指鐵路中的軌道線路,而“接地線”中的線表示電路中的電纜。這使得基于字粒度的詞嵌入方法的文本特征提取難度變大,而LSTM雖然能夠學習上下文信息,但對局部特征的提取能力不足,僅使用Bi-LSTM存在對潛在特征的提取能力不足的問題。此外,命名實體中常伴有實體嵌套,CRF結合常規的BIOES或BIO編碼方式無法完成對嵌套實體的標注。

針對上述兩個問題,本文采取基于字的詞向量嵌入方法,使用ANN對詞向量進行學習,并使用CNN提取局部的詞匯特征,通過結合字詞特征并使用Bi-LSTM學習文本上下文信息,并采用合并標簽標注方法解決實體嵌套問題。最后,本文在多個數據集上進行對比實驗,驗證了模型的有效性。

1 相關工作

命名實體識別指從文本中識別出特定類型實體的過程,常作為序列標注問題。根據使用方法不同可將其分為兩類:統計學習方法和深度學習方法。統計學習方法的常用模型包括HMM(hid?den markov models)和CRF。Ratinov等人[7]使用BIOES標注結合詞典與詞性標注特征在CoNLL03等數據集上取得當時最優效果。Zhou等人[8]利用手工提取特征結合HMM在多個數據集上取得改進。王蓬輝等人[9]使用生成對抗網絡自動生成大量數據標注,并將其應用于醫療實體識別并展現出良好的效果。雖然統計學習方法在過去的工作中展現出良好的效果,但此類方法需要結合領域知識和大量特征工程,需要消耗大量的人力資源,且普適性較差。隨著深度學習的發展,神經網絡模型在序列標注任務中展現出良好的效果,基于深度學習的命名實體識別方法應運而生,許多學者提出基于神經網絡的自動學習方法。Huang等人[1]提出使用LSTM-CRF模型進行命名實體識別,并取得當時最優效果。張應成等人[10]使用LSTM-CRF進行商情實體識別。Chiu等人[2]和Ma等人[3]使用CNN提取字符特征,結合LSTM-CRF模型提出LSTM-CNNs-CRF模型。買買提阿依甫等人[11]將LSTM-CNNs-CRF模型應用于維吾爾文命名實體識別。羅熹等人[12]使用結合多頭自注意力機制與Bi-LSTM-CRF模型,對中文臨床文本進行命名實體識別。Yang等人[13]提出使用nbest策略改進CRF,并整合各類表征學習方法提出NCRFpp開源框架。隨著BERT等的預訓練模型出現,許多學者基于BERT模型提出了許多高性能模型。Emelyanov等人[14]整合Bert、Bi-LSTM、多頭注意力機制及NCRF,在命名實體識別任務及文本分類任務中取得良好效果。此外,由于中文文本的特殊性,針對中文命名實體識別的研究亦層出不窮。例如,Liu等人[5]和Li等人[6]針對中文命名實體識別的詞嵌入粒度進行研究,證明了基于字的詞嵌入方法具有更好的性能。Zhang等人[15]通過使用Lattice LSTM進行表征學習,同時使用了基于字的詞向量嵌入和基于詞的詞向量嵌入方法,并多個數據集上證明有效。

命名實體識別常伴有實體嵌套問題,如圖1所示。

圖1 嵌套實體示意圖

實體嵌套問題在各個領域普遍存在,如生物[16-17]、醫療[18]等。針對命名實體識別中的實體嵌套問題,國內外許多學者提出了解決方案。目前,現有的嵌套實體識別的處理方法可分為四種。第一種方法將命名實體識別任務作為序列標注任務,使用多層的扁平實體識別模型識別嵌套實體。Alex等人[16]提出使用多層CRF進行嵌套命名實體識別,每層CRF負責標注特定類型的實體。Ju等人[17]通過動態堆疊扁平實體識別網絡,動態識別大實體中的小實體,直至沒有實體被識別出為止,有效解決實體嵌套識別問題。第二種為基于超圖的命名實體識別方法。Lu等人[19]及Muis等人[20]先后提出基于超圖的嵌套實體識別模型。第三種為Wang等人[21]采用的Shift-Reduce系統,Shift-Reduce系統將嵌套實體識別任務轉換為Action序列預測任務,結合Stack-LSTM取得了良好的識別效果。最后一種為基于MRC(machine reading comprehension)的方法,Li等人[22]提出將命名實體識別任務轉換為MRC問題,針對每種類型實體,通過問答的方式分別提取文本中的句子類型。文中提出的實體頭尾指針標注方法目前在多個領域得到了廣泛應用。

雖然許多學者提出了針對命名實體識別的解決方案,但針對中文命名實體識別基于字進行詞嵌入潛在問題的研究較少,結合字詞向量進行文本表征的Latice LSTM在訓練時需要查找詞表,導致訓練效果較慢。本文針對中文命名實體識別的字嵌入特征提取困難問題,提出使用ANN、CNN及Bi-LSTM的組合網絡CACL(Combination of ANN CNN and LSTM)作為文本表征學習的方法,增強了神經網絡特征提取能力。此外,針對命名實體識別的嵌套實體問題,本文采用經典的序列標注方法,通過使用合并序列標簽結合CRF的形式進行嵌套實體的標注。

2 模型

本文模型由表征學習方法及實體識別方法組成,模型示意圖如圖2所示。

圖2 模型示意圖

如圖2所示,模型共包括5個部分:詞嵌入層、ANN、CNN、Bi-LSTM與CRF。其中,詞嵌入層、ANN、CNN及Bi-LSTM為模型的表征學習方法。其中,Bi-LSTM層數可根據實際情況增減。為實現嵌套實體識別,模型最后一部分使用合并標簽標注方法結合CRF進行實體標注。

2.1 表征學習方法

2.1.1 詞嵌入層

詞嵌入層旨在將原始文本轉換為分布式的向量表示。給定長度為n的句子S={w1,w2,w3,…,wn},其中wi表示原始文本中的第i個字。通過查找預訓練的詞向量,詞嵌入層將原始文本S轉換為分布式的向量表示S={w1,w2,w3,…,wn},其中未找到對應詞向量的字通過隨機初始化的詞向量進行嵌入。

2.1.2 ANN

ANN是一種淺層的全連接神經網絡,通過連接大量神經元的加權運算與激活函數構成。本文利用ANN對文本的詞向量進行進一步學習,使其能夠更準確表示原始文本特征,其運算公式如式(1)所示。

其中anni為ANN的輸出向量,wi為詞嵌入后獲取的文本的向量表示;Wa和b a為神經網絡的自學習參數,Wa為權重矩陣,ba為偏移量矩陣;tanh為激活函數。

2.1.3 CNN

CNN是一類包含卷積運算的神經網絡,通過使用卷積核平移進行輸入向量的局部加權求和進行表征學習,對局部特征提取能力較強。由于本文是針對文本進行卷積操作,因此此處使用一維卷積進行特征提取,計算公式如式(2)所示。

其中l為卷積核長度ωm為卷積核中第m個待學習參數。此外,為保證卷積后文本長度不變,卷積核長度應設置為單數,并使用長度為(l-1)/2的空值對文本前后進行填充。

2.1.4 Bi-LSTM

Bi-LSTM是LSTM的變體,由一層前向LSTM和一層后向LSTM組成,通過連接兩層LSTM的輸出,可以有效學習序列前后的關聯關系,其計算公式如式(3)所示。

2.2 解碼層

如上文所述,本文采用合并標簽標注方法結合CRF進行嵌套實體標注,以下將對方法進行詳細介紹。

2.2.1 合并標簽方法

合并標簽方法通過將嵌套實體單個字符的多個標簽合并形成新的標簽,解決了單層標簽無法標注嵌套實體的問題,如圖3所示。

圖3 合并標簽示意圖

如圖3所示,“隧道”中心臟為“build”類型實體,“隧道襯砌”為“struct”類型實體。若通過常規的BIOES標注,“隧”和“道”都需要兩個標簽才能完成標注,CRF無法進行解碼。因此,本文通過合并標簽形成新的標簽,再使用CRF對其進行解碼。

2.2.2 CRF

CRF是一個概率模型,通過給定輸入x與前一時刻的狀態yt-1預測當前狀態yt。其概率計算公式如式(4)所示。

其中φt和φp為特征函數,用于預測輸入x與y之間的關聯概率,用于表示當前狀態與前一個狀態的轉換概率。x為模型輸入,yt為當前狀態,yt-1表示前一時刻狀態。最終,我們選用概率最大的狀態作為當前狀態預測值。此外,為了使CRF的輸入維度與標簽類別數保持一致,本文通過一個全連接層對Bi-LSTM的輸出進行降維,計算公式如式(5)所示。

其中Wl與b l為神經網絡待學習矩陣,oi為i時刻Bi-LSTM的輸出向量。

3 實驗

3.1 實驗概述

3.1.1 實驗方案及評價指標

本文實驗主要涉及5種文本表征方法,包括Bi-LSTM、IDs-CNN、Bi-GRU、CACL及Lattice LSTM[15]。其中,Bi-LSTM、IDs-CNN、Bi-GRU為序列數據表征常用的表征方法,CNN-LSTM為本文模型,而Lattice LSTM為Zhang等人提出的另一種融合字詞特征的表征網絡。此外,為驗證模型參數對模型性能影響,本文對模型中涉及的超參數進行實驗,并分析其對模型性能的影響,模型各參數如表1所示。

表1 實驗模型參數

其中,學習率及詞嵌入維度選用中文自然語言處理中常用的學習率0.001及詞嵌入維度300。詞向量采用Python gensim庫中的word2vec模型針對WIKI百科中文語料庫訓練獲取。神經網絡神經元數量取100-500,變化梯度為100。Dropou取[0.1-0.9],變化梯度為0.2。CNN的卷積核大小kernel size設為[3,5],并將填充長度padding分別設為[1,2]以保證卷積后句子長度不變,IDs-CNN的層數設置為4層。

實驗評價指標采用精確率(Precision)、召回率(Recall)及F1值,計算公式如式(6)、式(7)及式(8)所示。

其中TP表示將正類預測為正類數,即識別出的正確的實體數量;FP表示將負類預測為正類數,即識別出的錯誤的實體數量;F N表示將正類預測為負類數,即未識別出的實體的數量。

3.1.2 實驗環境設置

本文實驗主要針對鐵路領域文本,使用《城際鐵路設計規范》TB10623-2014(以下簡稱TB10623)進行標注獲取訓練數據。此外,為進一步驗證模型有效性,本文選用第六屆中國健康信息處理會議(CHIP2020)命名實體識別子任務的公開數據集進行實驗,以下簡稱CHIP2020。數據集的簡介如表2所示。

表2 數據集簡介

如表2所示,CHIP訓練集中包含15000條訓練數據及5000條驗證數據,包含疾病、臨床表現等9類實體;TB10623數據集包含895條訓練數據和228條驗證數據,包含電氣設備、設計參數等6類實體。此外,由于CHIP2020數據集的測試集不包含標注,本文將訓練集按照8∶2的比例進行切分,分為訓練集和測試集。

此外,本文采用的實驗環境如表3所示。

表3 實驗環境設置

3.2 參數驗證實驗

為驗證模型參數對模型性能影響,并選取最優實驗參數,本部分實驗使用CHIP2020數據集,針對模型的隱藏神經元數量、Dropout參數及卷積神經網絡卷積核大小進行分別進行梯度取值對比。

3.2.1 隱藏神經元數量參數驗證

模型的隱藏神經元數量表示神經網絡中每一層中包含的神經元數量,增加模型的隱藏神經元數量可以有效增強模型的學習能力,但神經元數量過多會導致計算量增加和過擬合現象。本文對模型中的隱藏神經元數量分別取100-500,變化梯度為100進行對比實驗,實驗結果如圖4所示。

圖4 隱藏神經元數量對模型性能影響

當隱藏神經元數量為200—400時,模型性能趨于較好,且趨于穩定。因此,出于對模型性能考慮,本文取200為隱藏神經元數量。

3.2.2 Dropout參數驗證

Dropout表示模型訓練時的丟失率,是Hinton等人[23]于2012年提出的防止過擬合的方法,過高的Dropout參數會導致模型學習能力下降,且收斂速度下降,而過低的Dropout參數將導致其效果不明顯。因此,本文選用0.1—0.9區間對其進行實驗,變化梯度為0.2。其實驗結果如圖5所示。

如圖5所示,當Dropout取0.5時模型取得最優性能。因此,本文選用0.5為最終的Dropout參數。

圖5 Dropout對模型性能影響

3.2.3 卷積核大小驗證

CNN卷積核大小設置直接決定卷積計算范圍,由于本文使用CNN對局部的詞匯特征進行學習。因此,僅選用大小為3和5的卷積核進行實驗,實驗結果如表4所示。

表4 卷積核大小對模型影響

當卷積核大小為3時,模型效果最佳。因此,本文選用3為卷積核大小。

3.3 有效性驗證實驗

本部分實驗采用合并標簽方法作為嵌套實體識別方法,并使用Bi-LSTM、Bi-GRU、IDs-CNN及Lattice LSTM作為基線模型驗證CACL作為表征學習方法有效性。其中,模型參數取各模型多次實驗結果平均后最佳參數,實驗結果如表5所示。

由表5可知,CACL作為表征學習方法的模型在兩個數據集上展現出最優效果。

表5 有效性驗證實驗結果

在CHIP2020數據集實驗中,CACL的F1值比次優模型的F1值分別高出1.21%和1.82%,同時模型的Precis i on和Recall均高于其他基線模型。而Lattice LSTM作為融合字詞特征的另一模型,其F1值略高于除CACL外其他模型,且除驗證集Recall指標略低于Bi-LSTM外,其他指標皆高于其他模型。此外,Bi-LSTM的訓練效果略高于IDs-CNN及Bi-GRU。

在TB10632數據集的實驗中,CACL的F1值在Dev及Test數據集中比次優模型分別高出1.82%和1.59%,且除Test數據集中的Recall指標外,模型Precis i on及Recall指標均高于其他基線模型。而Lattice LSTM的各項指標均同樣高于除CACL外的其他模型。此外,與CHIP2020數據集不同,優于TB10632數據集中文本較短,因此IDs-CNN的訓練效果略優于Bi-LSTM及Bi-GRU。

以上結果表明,融合字詞特征可以有效提高命名實體識別能力,且CACL具有更好的文本表征效果。

4 結語

本文針對中文命名實體識別字向量嵌入方法文本表征學習困難問題,提出使用CACL作為文本表征學習方法,并對比現有嵌套實體識別方法,提出一種新穎的中文嵌套命名實體識別模型。實驗結果表明,ANN-Bi-LSTM作為中文命名實體識別表征學習方法是有效的。此外,嵌套實體識別方法對比實驗,本文選用Shift-Reduce系統作為嵌套實體識別方法,并與基線模型進行對比,證明本文模型的有效性。

當然,本文工作也具有一定的局限性。一方面,除了本文使用的本團隊標注的鐵路相關實驗數據外,本文模型僅在CHIP2020數據集進行驗證,針對其他領域數據集的有效性仍需進一步驗證。此外,針對TB10632數據集的實驗效果較差,需要進一步調整才能應用于實際應用場景。在未來工作中,我們將對模型做進一步改進并使用更多其他領域數據來驗證模型。

猜你喜歡
文本實驗方法
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产一级毛片网站| 在线观看视频99| 黄色网在线| 婷婷亚洲最大| 99久久无色码中文字幕| 试看120秒男女啪啪免费| 国产91蝌蚪窝| 国产新AV天堂| 亚洲视频三级| 在线观看热码亚洲av每日更新| 国产在线自乱拍播放| 国产午夜在线观看视频| 欧美日韩北条麻妃一区二区| a级毛片毛片免费观看久潮| 国产一区自拍视频| 制服丝袜一区| 91口爆吞精国产对白第三集| 激情综合网址| 国产一级精品毛片基地| 超碰色了色| 伊人久久精品无码麻豆精品| 99精品视频在线观看免费播放| 狠狠色丁香婷婷| 五月天久久综合国产一区二区| 中国丰满人妻无码束缚啪啪| 一区二区午夜| 干中文字幕| 国产精品成人免费视频99| 久久综合亚洲色一区二区三区| 亚洲视频一区| 四虎在线高清无码| www亚洲天堂| 亚洲人成影视在线观看| 国产欧美视频在线| 欧美亚洲日韩中文| 欧美国产日产一区二区| 97狠狠操| 91亚洲国产视频| 国产福利大秀91| 欧美日韩国产综合视频在线观看| 老司机aⅴ在线精品导航| 色妞www精品视频一级下载| 国产视频a| 全午夜免费一级毛片| 欧美日本视频在线观看| 亚洲区一区| 国产自在自线午夜精品视频| 午夜天堂视频| 亚洲乱强伦| 亚洲黄色视频在线观看一区| 蝌蚪国产精品视频第一页| 日本午夜在线视频| 国产成人夜色91| 久青草免费视频| 国产一级毛片yw| 欧美精品在线观看视频| 国产a网站| 日本高清免费一本在线观看| 精品国产成人国产在线| 亚洲天堂成人| 国产人人射| 国产精品视频白浆免费视频| 一本二本三本不卡无码| 国产日产欧美精品| 热久久综合这里只有精品电影| 区国产精品搜索视频| 亚洲国产精品成人久久综合影院| 日本午夜影院| 欧美视频免费一区二区三区| 无码日韩人妻精品久久蜜桃| 国产91色在线| 又爽又黄又无遮挡网站| 五月天福利视频| 第一页亚洲| 人人91人人澡人人妻人人爽 | 五月激情婷婷综合| 欧美日在线观看| 久久精品只有这里有| 久视频免费精品6| 国产黑丝一区| 欧美另类图片视频无弹跳第一页| 亚洲AV无码不卡无码|