999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識庫對齊的命名實體識別方法

2021-03-22 02:53:17魯佩佩
電腦知識與技術 2021年4期

魯佩佩

摘要:訓練語料庫的貧乏對低資源語種的命名實體識別效果有很大影響,高資源語種向低資源語種進行標簽投影解決了低資源語種的語料問題。但由于詞典的投影昂貴且單一,而Wikidata提供多語詞條,一對多的標注投影極大地減少了投影產生的噪聲,通過易獲得的雙語平行文本,基于Wikidata詞條可構建多語種知識庫,完成標簽投影,構建訓練語料庫,提升低資源語種實體的識別功能。

關鍵詞:低資源語種;知識庫;命名實體識別;標簽投影

中文圖書分類號:TP393? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)04-0184-03

命名實體識別任務的研究從基于規則、基于統計到基于深度學習,雖然深度學習的研究方法在英文等語種的實體識別中有極優的效果,但是對于沒有足夠多標注數據的低資源語種來說,深度學習模型效果不理想。

對于低資源語種的命名實體識別,文獻[1]主要實現了基于統計與規則相結合的人名通過條件隨機場識別;文獻[2]提出了基于學習的實體識別學習框架,向已有特定領域的模型進行學習,并遷移到任意神經網絡模型,避免受到數據噪聲的干擾;文獻[3]使用并行數據將詞性信息從資源豐富的語言傳輸到資源貧乏的語言使用少量帶注釋的數據來學習糾正錯誤,使用少量帶標注的訓練數據通過單詞對齊進行標簽投影來進行半監督學習。

本文將關系抽取中使用較廣泛的遠程監督方法應用到命名實體識別中,通過Wikidata[4]構建多語種知識庫,基于知識庫詞條對實體標簽投影。對于投影產生的標注數據,使用BILSTM處理輸入,輸出層后連接CRF對輸出結果進行約束。

1數據預處理及遠程監督知識庫構建

遠程監督是由Mintz[5]提出的一種弱監督學習方法,多用于進行信息抽取中的關系抽取領域,它主要是通過現有的知識庫對齊大量的無標注語料庫來構建監督學習所需的知識關系語料,可以用來解決監督學習中標注語料不足的問題,則對于本文涉及的低資源語種的標注數據量不足的問題,可通過遠程監督,通過對齊知識庫,構建低資源語種的實體標注語料庫。

1.1Wikidata構建知識庫

在Wikidata知識庫中,詞條數目超過四千萬,數據存儲以三元組的“主謂賓”方式。對于語句“新褲子樂隊的成員有彭磊、龐寬、趙夢和Hayato”則有三元組“name(entity)-member(relationship)-Hayato(entity)”。對Wikidata的數據查詢使用SPARQL[6]語言,它的主要操作是根據給定的關系,從三元組中獲得關系兩側的實體。

1.2基于Selenium的爬蟲翻譯

目前,谷歌翻譯支持109種語言,在構建知識庫時,因為實體的全稱或簡稱有多種,但都代表此實體,如表1所示,Wikidata中,新疆這個詞條對應的各語言個數存在多個,其中,西班牙語(Spanish)對應21個。此外,為了投影覆蓋率,本文基于谷歌翻譯,通過Selenium爬蟲工具,優化補足知識庫。

1.3基于知識庫的標注投影

根據前面的操作步驟,可以完成基本知識庫構建,主要存儲在neo4j數據庫中,如圖1所示:

對于平行語料的雙語文本,基于知識庫的投影如圖2所示,之后對目標語言投影結果分解,就可得到命名實體標注序列:B-PEROOB-LOC I-LOC I-LOCI-LOCI-LOC。

2命名實體識別模型

實體識別模型主要采用BILSTM-CRF[7],如圖3所示,其中BILSTM是由雙向的LSTM組成,此構造可以充分利用上下文信息,把正向和反向兩個方向計算的值拼接作為CRF層的輸入,BILSTM的輸出是標簽的概率值,在BILSTM后接入CRF層主要是預測標簽時可以充分考慮上下文關聯,規避如“B-ORG”后接“I-PER”的情況。

其中,長短期記憶網絡(long short-term memory, LSTM)結構如圖4所示,圖中G1,G2,G3表示門單元結構。G1通過sigmod激活函數處理上一隱藏狀態以及當前輸入來決定是否忘記上一隱藏狀態。G2通過sigmod和tanh來處理當前序列位置的輸入,G3則通過序列輸入和控制參數的輸出,決定需遺忘和需記憶的信息,得到當前位置的狀態。計算如下:

3實驗

3.1實驗數據集

本文雙語平行語料庫主要采用歐洲議會平行語料庫1996-2011,它包括21種歐洲語言,實驗中選取西班牙語-英語的平行語料,測試集采用CoNLL2002數據集,該數據集包含西班牙語和荷蘭語兩個語種,本文選取西班牙語的測試集進行測試。實驗數據詳情見表2:

3.2標注方式和評價標準

本文采用的是BIO標注,對人名、地名和機構名三類實體進行識別操作。評價標準采用精確率(P)、召回率(R)和F1值,定義如下:

3.3知識庫構建及訓練文本生成

對于平行文本,首先使用StanfordCorenlp工具對英語文本進行命名實體識別,該工具主要識別八種類型:O、MISC、LOCATION、GPE、FACILITY、ORGANIZATION、DEMONYM和PERSON,本文主要進行PERSON、LOCATION和ORGANIZATION的識別。源語種文本實體數如表3所示。根據實體識別生成的詞條,從Wikidata中獲得相應實體的西班牙語表示,再投影至西班牙語文本,形成訓練數據。

3.4基于BILSTM-CRF模型進行西班牙語命名實體識別

為了對比不同方法對低資源語種命名實體識別的效果,本文對比CRF模型、BILSTM模型和BILSTM-CRF模型對于只有少量訓練數據的語言進行訓練的結果,選取CoNLL2002語料庫中的200條數據進行訓練。之后再將本文生成的投影數據單獨使用BILSTM-CRF模型進行訓練,參數設置如下:學習率為0.01,dropout為0.5,訓練周期為20,詞向量維度100,隱藏層維度為100,優化器為SGD(Stochastic Gradient Descent)。實驗結果如表4所示:

實驗結果表明,對于只有少量訓練語料數據的低資源語種來看,測試中識別效果很差,對比CRF、BILSTM和BILSTM-CRF模型, BILSTM獲取了詞語前后的歷史信息,融入了詞語的上下文信息,相比于CRF模型,精確率卻下降了18%,因為訓練數量過少,命名實體少,但相對于測試集,命名實體多了很多,所以在召回率和F1的值中效果就會較差。輸出層后通過CRF約束可實現16.42%的改進。通過平行文本進行實體投影的語料來說,雖然投影中會產生不必要的噪聲,但可以在沒有訓練語料的情況下,僅僅通過平行文本,就可達到11%的提升。

4 結束語

在命名實體識別的研究中,對于訓練語料庫豐富的高資源語種可以達到幾近完全正確,而對于低資源語種,由于訓練數據的貧乏,深度學習無法學習實體分布。基于詞典投影是獲得大量低資源訓練語料最直接的方法,但是詞典構建較為昂貴,并且雙語為一對一對應。

本文提出了基于知識庫來完成標簽從高資源語種向低資源語種的投影,為實體標簽投影提供了新的思路,在實驗中對比直接對少量的低資源語種進行訓練。但是在標簽投影的過程中會出現投影丟失的情況,未來可通過跨語種詞向量對齊來優化知識庫,并且投影產生的噪聲不能忽略,直接影響訓練模型,未來可對投影數據進行降噪處理提升識別率。

參考文獻:

[1] 塔什甫拉提,尼扎木丁. 維吾爾語文本信息中人名實體識別研究[D].烏魯木齊:新疆大學,2016.

[2] 張寧. 面向特定領域的命名實體識別技術研究[D].杭州:浙江大學,2018.

[3] Duong L,Cohn T,Verspoor K,et al.What can we get from 1000 tokens?A case study of multilingual POS tagging for resource-poor languages[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha,Qatar.Stroudsburg,PA,USA:Association for ComputationalLinguistics,2014:886-897.

[4] Vrande?i?D,Kr?tzsch M.Wikidata:a free collaborative knowledgebase[J].Communications of the ACM,2014,57(10):78-85.

[5] Mintz M , Bills S , Snow R , et al. Distant supervision for relation extraction without labeled data[C]// International Joint Conference on Acl. Association for Computational Linguistics, 2009.

[6] Catherine COMPAROT,OllivierHAEMMERL?,Nathalie HERNANDEZ. Generation of SPARQL queries from keywords and query patterns[J]. Technique et Science Informatiques,2013,32(7-8).

[7] Huang Z ,Xu W , Yu K . Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer ence, 2015.

[8] Yarowsky D,Ngai G,Wicentowski R.Inducingmultilingual text analysis tools via robust projection across aligned corpora[C]//2001:1-8.

[9] Wang M Q,Manning C D.Cross-lingual projected expectation regularization for weakly supervised learning[J].TransactionsoftheAssociation for Computational Linguistics,2014,2:55-66.

[10] Fang M,Cohn T.Learning when to trust distant supervision:an application to low-resource POS tagging using cross-lingual projection[EB/OL].2016:arXiv:1607.01133[cs.CL].https://arxiv.org/abs/1607.01133.

【通聯編輯:光文玲】

主站蜘蛛池模板: 超薄丝袜足j国产在线视频| 国产欧美另类| 国产一线在线| 麻豆精品国产自产在线| 在线人成精品免费视频| 永久免费无码成人网站| 四虎精品国产永久在线观看| 亚洲人成网7777777国产| 日韩精品免费一线在线观看| 色天天综合久久久久综合片| 国产在线八区| 亚洲熟妇AV日韩熟妇在线| 女人18毛片水真多国产| 国产一级裸网站| av无码一区二区三区在线| 欧美在线网| 伊人激情综合网| 国产第一页免费浮力影院| 91无码视频在线观看| 欧美成人a∨视频免费观看| 国产在线观看第二页| av在线手机播放| 欧美成人精品欧美一级乱黄| 欧美日韩北条麻妃一区二区| 99re经典视频在线| 国产日韩精品欧美一区灰| www中文字幕在线观看| 国产欧美专区在线观看| 五月天综合网亚洲综合天堂网| 99精品影院| 色婷婷亚洲综合五月| 欧美a级完整在线观看| 日本成人福利视频| 精品无码一区二区三区电影| 国产精品林美惠子在线播放| 欧美劲爆第一页| 一级片一区| 国产一级二级在线观看| 国产va欧美va在线观看| 国产97视频在线观看| 国产91久久久久久| 2021国产精品自产拍在线| 国产成人夜色91| 高清国产va日韩亚洲免费午夜电影| 97在线公开视频| 欧美翘臀一区二区三区| 日韩福利在线观看| 亚洲男人在线天堂| 97se亚洲| 久草视频精品| 国产极品美女在线播放| 波多野结衣国产精品| 国产精品美乳| 国产精品妖精视频| 九九线精品视频在线观看| 波多野结衣爽到高潮漏水大喷| 欧美爱爱网| 免费观看三级毛片| 香蕉色综合| 欧美成在线视频| 午夜无码一区二区三区在线app| 亚洲va在线∨a天堂va欧美va| 日本国产精品| 日韩欧美综合在线制服| 伊人无码视屏| 国产剧情一区二区| 精品福利网| 亚洲日本中文综合在线| 日韩AV无码一区| 精品免费在线视频| 国产女人在线视频| 久久99国产综合精品女同| 91在线日韩在线播放| 国产女人综合久久精品视| 全部毛片免费看| 欧美成人午夜影院| 亚洲人成网站观看在线观看| 国产91九色在线播放| 久久夜色精品国产嚕嚕亚洲av| 日本亚洲国产一区二区三区| 亚洲最新网址| 国模在线视频一区二区三区|