999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合音節部件特征的藏文命名實體識別方法

2022-07-15 08:58:18洛桑嘎登索南尖措仁增多杰
廈門大學學報(自然科學版) 2022年4期
關鍵詞:特征信息方法

洛桑嘎登,群 諾,索南尖措,仁增多杰

(西藏大學信息科學技術學院,西藏 拉薩 850000)

命名實體識別(NER)是自然語言處理的基礎任務[1].NER被廣泛應用于下游的自然語言處理任務中,如機器翻譯、構建知識圖譜、智能問答系統、信息抽取、信息檢索等[2].最早的NER方法是基于規則和詞典匹配的NER方法以及基于統計機器學習的NER方法.隨著計算機算法、計算能力、數據規模的不斷發展,深度學習方法在自然語言處理領域大放異彩,在NER任務中取得了很好的成績.

可實現NER的深度神經網絡模型包括雙向長短時-條件隨機場(BiLSTM-CRF)模型、BERT(bidirectional encoder representation from Transformers)-CRF模型以及雙向門控循環單元(BiGRU)模型等.在面向英語的NER任務中,融入字符信息的BiLSTM-CRF模型取得了最好的結果[3].在面向漢語的NER任務中,為了解決漢語詞邊界難以區分的問題,常在模型的輸入端結合詞典信息或改變網絡的結構以適應漢語的NER任務[4-9].最近被提出的FLAT(flat-lattice Transformer)[10]方法,以BiLSTM-CRF為基準模型,融合漢語詞典信息,在漢語NER的一個簡歷數據集上F1達到了94.93%.

藏語NER不同于以上兩種,藏語句子中詞語之間不僅沒有明顯的分隔符,還存在黏著詞的特性,導致藏語NER任務相對復雜.藏語NER方法包括了傳統的基于統計機器學習的方法和通過詞嵌入或字(音節)嵌入方式的深度神經網絡方法.

最早,華卻才讓等[11]提出一種基于音節特征感知機訓練模型,重點研究了利用藏文緊縮格識別音節的方法,F1值達到了86.03%.珠杰等[12]利用CRF方法研究藏文人名的自動識別,并利用格助詞等信息進行后處理,藏文人名識別率達到80%左右.加羊吉等[13]提出了基于規則和CRF相結合的藏文人名識別方法,F1值達到了91.55%.頭旦才讓等[14]實現了基于CRF的藏文地名實體識別,F1值達到了88.45%.王志娟等[15]為了降低藏文人名實體識別語料標注成本,提出基于置信度的藏文人名識別主動學習模型.貢保才讓[16]實現了基于單個音節(字)的深度神經網絡藏文NER.李曉敏[17]研究了基于深度學習的藏文NER方法,所提出的改進的IDCNN(iterated dilated CNN)-CRF模型在藏文NER中F1值達到了80.16%.藏文NER不適合用BERT和Tansformer等模型,這是因為目前藏文NER的語料量有限,遠遠達不到復雜模型需要的百萬級的數據量,采用復雜的網絡容易造成過擬合的問題.

藏文與英語和漢語相比,藏文詞語之間沒有明顯的分隔符,詞語邊界不清晰,存在黏著詞的特性[18],這是藏文NER的主要難點.傳統的詞嵌入方法沒法表征一詞多義的問題,而簡單的字(音節)嵌入,容易忽略構成藏文音節部件的局部特征,如黏著詞的信息等.

針對以上問題,本文首次提出了一種融合構成藏文音節部件和音節特征的藏文NER神經網絡模型SL-BiLSTM-CRF(syllable level BiLSTM-CRF).該模型將構成藏文字(音節)的部件信息和藏文音節特征作為兩種不同模態的輸入,融合兩種模態作為NER神經網絡的輸入.這樣模型可以充分提取構成藏文音節的局部特征,包括黏著詞的特征,從而提高模型的預測能力.

1 SL-BiLSTM-CRF

藏文NER需要解決兩個問題.1) 確定表示實體詞語的邊界,包括帶有黏著詞的實體詞邊界.2) 對實體進行分類,即判斷實體屬于哪種類型.本文首次提出了一種融合構成藏文音節部件特征的藏文NER神經網絡模型SL-BiLSTM-CRF,模型整體架構如下.

圖1 SL-BiLSTM-CRF 網絡架構Fig.1 SL-BiLSTM-CRF neural architecture

1.1 藏文音節特征表征層

在英文NER中,因為英文詞與詞之間有明顯的分隔符(空格),所以英文NER任務實質上是一種分類任務,其難點在如何提取英文命名實體特有的特征,比如大小寫特征等.在漢語NER任務中,漢語的詞語之間沒有明顯的分隔符,一般先對漢語句子進行分詞之后再識別實體并分類[19].藏語NER不同于以上兩種,藏語句子中詞語之間不僅沒有明顯的分隔符,還存在黏著詞的特性,導致藏語NER任務相對復雜.目前,有學者借助漢語NER的思想,先對藏文句子進行分詞再識別實體,但是這類方法存在錯誤傳播的問題.

藏文的每個音節由前加字、基字、上加字、下加字、后加字、再后加字和元音7部分按照一定的規則組成.但是藏文與漢語不同的是藏文是一種拼音文字,藏文中存在黏著詞的特性,有些實體詞以黏著詞的形式出現在文本中,例如:

圖2 SL融合Fig.1 SL fusion

上圖中Vc∈Rn是指藏文音節部件的特征信息,Vs∈Rm是指單個音節的特征信息,V∈Rk表示融合后的特征向量.n、m、k=n+m分別表示Vc、Vs和V的特征維度.其中,Vc是通過對每個藏文音節嵌入成8位獨熱編碼,作為一個單層BiLSTM模型的輸入,在輸出門的隱藏層輸出一個128維的特征向量.Vs通過將一個句子中的20個單音節作為BiLSTM的輸入,得到一個128維的隱藏層特征向量,將兩種特征向量進行連接,作為整個藏文NER模塊中的BiLSTM層的輸入.此時,輸入整個藏文NER模塊中的BiLSTM層的特征向量不僅包含有單個音節在句子中的特征信息,還包含了該音節的構成部件的特征.相比傳統的基于單個音節(字嵌入)的模型,該模型學習了構成音節部件的局部特征,而藏文的黏著詞作為構成音節的一個局部信息,被模型成功的學習到,從而提升實體類型預測的效果.

1.2 BiLSTM層

BiLSTM模型是前向LSTM模型和后向LSTM模型的結合,其克服了單向LSTM模型只能考慮之前出現的信息,而無法考慮上下文信息的弊端.從上文可發現,本文共有3個BiLSTM模塊,分別負責提取構成音節部件特征、音節特征和預測實體標記.對于每個模塊經過BiLSTM得到3個不同的隱藏層輸出:

Ot=σ(wi·Vt+bi),

ht=Ot·tanh(ct),

(1)

1.3 CRF層

BiLSTM模型層,盡管能算出當前詞的標簽概率,但是沒有考慮相鄰標記之間的轉移概率.這樣有可能出現預測的前一個標簽為O,接著下一個標簽預測成I-PER.顯然這樣的預測順序是不合理的.為了讓模型充分考慮相鄰標簽之間的關系,采用CRF模型.設一個藏文句子x={x1,x2,…,xn},把x={x1,x2,…,xn}當作觀測序列,記一個與觀測序列等長的標簽序列y={y1,y2,…,yn},把y={y1,y2,…,yn} 當做狀態序列,用Tyi,yi+1表示從狀態yi到狀態yi+1的轉移分數,hxi,yi表示從第i個觀測序列xi到標簽yi的發射分數.那么模型針對給定的句子x,預測出序列y的得分公式為:

(2)

其中,S(x,y)表示給定觀測序列x預測出標簽序列y的得分.發射分數hxi,yi其實就是上節中預測實體標記的BiLSTM層模型的隱藏層輸出的第i個元素.轉移分數Tyi,yi+1則由CRF層訓練得到.進而利用Softmax歸一化之后,得到最終的實體標簽的概率為:

(3)

2 實驗對比

2.1 實驗設計

為了驗證SL-BiLSTM-CRF模型中SL層在藏文NER任務中的有效性,本文與單個藏文音節(字嵌入)的BiLSTM-CRF模型進行了對比實驗,同時驗證SL-BiLSTM-CRF模型在同類NER模型中的優勢,在標注語料不變的前提下,與在藏文NER任務中取得了不錯效果的統計機器學習模型HMM和CRF,以及BERT-CRF模型進行對比.

2.2 數據和評價指標

本文研究所用數據均通過網絡獲取,通過爬蟲技術抓取數據、清洗數據、人工矯正等步驟,總共收集了近5×104的句對,包含藏文字符數約5×105.語料均來自公開的藏文網站、博客等.實驗語料中的標簽設置為B-PER、I-PER、B-ORG、I-ORG、B-LOC、I- LOC和O,分別代表人名首字、人名非首字、組織機構名首字、組織機構名非首字、地名首字、地名非首字和該字不屬于命名實體.為了調節模型中超參數和獲得更好的近似估計模型的泛化能力,把語料按照6∶2∶2的比例進行訓練集、驗證集和測試集的劃分,具體大小及各實體個數如表1所示.本文中選取精確率(P)、召回率(R)和F1值作為模型的評價指標.

表1 訓練和驗證集的數據統計

2.3 模型訓練

模型使用學習率為0.001的Adam優化算法,訓練集次數epoch設置為50次.音節部件的表征編碼維度設置為8,完整音節的編碼維度為100.在BiLSTM 的輸入和輸出部分使用了采樣概率為0.5的dropout層,以避免訓練時過擬合.操作系統環境為Windows 10.深度學習框架使用Python開源庫Pytorch 1.8.1版本.

2.4 實驗結果與分析

為了證明融入音節特征可以有效提高BiLSTM-CRF模型的NER效果,在相同的標注語料上,本文對比了SL-BiLSTM-CRF模型與單個藏文音節(字嵌入)的BiLSTM-CRF模型在NER任務中的效果,實驗結果如表2所示.

表2 兩種模型的效果

如表2所示,本文提出的SL-BiLSTM-CRF模型融入了構成藏文音節部件的信息之后,模型比傳統的基于音節(字嵌入)的方法精確率、召回率、F1值均提高了2.64,0.66和1.58個百分點.這是因為融入了藏文音節部件信息之后,模型學到了構成藏文音節的局部特征,從而學習到了音節中黏著詞的特征,因此對實體邊界的區分更加準確,從而提升了實體識別的效果.

同時,本文將該方法和目前在藏文NER領域取得不錯成績的傳統統計機器學習方法和基于BERT-CRF的預訓練模型進行了對比實驗,實驗結果如表3所示.

表3 各類模型的效果

如表3所示,SL-BiLSTM-CRF方法與傳統的統計機器學習方法相比,模型的精確率、召回率、F1值都有較高的提升.其中:相比于HMM模型,SL-BiLSTM-CRF的F1值提高了12.88個百分點;相比于CRF,F1值提高了5.80個百分點;相比于BERT-CRF,F1值提高了4.49個百分點,在藏文的NER任務上,BERT-CRF模型的性能低于SL-BiLSTM-CRF的原因可能在于:1) 本文引入了音節特征;2) 本文的數據量對于BERT這類需要百萬級數據量的模型來說還不夠。表4分析了不同模型在不同實體上的精確率、召回率和F1值.

從表4可以看出,在3個實體中,人名(PER)的精確率、召回率、F1值相對較高,這個可能和大多數新聞語料中提及的人名為政治人物或公眾人物,這類人物相對來說具有一定的規范性,而且寫法相對統一,所以效果更好些.地名(LOC)和組織機構名(ORG)的精確率、召回率和F1值偏低.分析結果發現,地名和組織機構名之間存在多種嵌套,如圖2所示,例子中“青海”一詞即是地名也是組織機構名“青海師范大學”的一部分,這類錯誤導致了地名和組織機構名分類不準確的問題.

表4 不同模型在3種實體識別上的性能對比

圖2 實體嵌套的例子Fig.2 Examples of entity nested

3 總 結

因為藏文詞語邊界不清晰,存在黏著詞的特征,導致藏文分詞困難,易忽略音節局部特征,本文提出一種融合藏文音節部件信息和藏文音節信息的藏文深度神經網絡NER方法SL-BiLSTM-CRF.其中,SL模塊對構成音節的部件信息和藏文的單個音節進行特征編碼,將兩種不同模態的特征融合之后送入BiLSTM模型進行特征提取并預測實體標簽,再通過CRF對BiLSTM模型的預測結果進行矯正,最終輸出藏文NER結果.在藏文NER任務中,對比基于單個藏文音節(字嵌入)的BiLSTM-CRF模型,SL-BiLSTM-CRF模型融入音節特征可以有效提高藏文NER的性能.與之前在藏文NER任務上取得不錯效果的HMM、CRF和BERT-CRF相比,由于SL-BiLSTM-CRF加入了藏文音節部件信息的表征向量,在低資源的情況下,仍能取得較明顯的性能優勢.

相比于詞向量作為網絡的輸入,基于音節(字)向量的輸入可以避免在訓練詞向量時依賴分詞結果的準確性,避免了分詞任務的錯誤傳播到NER任務中.但是,單獨基于音節(字)向量的輸入容易忽略音節的局部特征.本文將音節部件信息特征和音節(字)向量信息的表征共同作為網絡的輸入有效改善了以上問題,這也給處理藏文的其他自然語言任務提供了新的思路.當然,本文實驗部分僅考慮了單個命名實體的標注結果,沒有考慮在日常文檔中存在的實體名稱嵌套的問題,實體名稱嵌套是一種很常見的文本現象,下一步本文需要進一步去研究探討,如何解決實體名稱嵌套的問題.此外,本文提出的方法僅在NER任務上做了實驗研究,下一步在其他任務上是否也有類似的表現值得研究.

猜你喜歡
特征信息方法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 91无码视频在线观看| 永久在线播放| 亚亚洲乱码一二三四区| 欧美亚洲国产一区| 亚洲成肉网| 亚洲美女久久| 精品人妻无码区在线视频| 福利视频久久| 原味小视频在线www国产| 久久精品丝袜高跟鞋| 精品久久综合1区2区3区激情| 亚洲男人的天堂久久香蕉网| 亚洲九九视频| 精品无码一区二区三区电影| 国产91在线|中文| 亚洲欧美自拍一区| 一级一毛片a级毛片| 国产精品人人做人人爽人人添| 国产精品第一区在线观看| 亚洲黄色视频在线观看一区| 久久综合九色综合97婷婷| 日韩免费无码人妻系列| 亚洲欧美另类中文字幕| 国产福利一区在线| 国产欧美视频综合二区| 精品国产网站| 91久久天天躁狠狠躁夜夜| www欧美在线观看| 亚洲高清中文字幕在线看不卡| 色哟哟国产精品| 亚洲天堂免费观看| 成人福利在线看| 欧美国产在线看| 亚洲免费福利视频| 国产主播福利在线观看| 四虎国产在线观看| 日本少妇又色又爽又高潮| 美女扒开下面流白浆在线试听| a级毛片免费播放| 色国产视频| 亚洲精品视频网| 免费无码在线观看| 92精品国产自产在线观看| 亚洲av成人无码网站在线观看| 国产又色又爽又黄| 国产在线观看一区二区三区| 露脸一二三区国语对白| 在线观看无码av免费不卡网站 | 亚洲欧美自拍一区| 国产自在自线午夜精品视频| 欧美日韩福利| 亚洲资源站av无码网址| 亚洲水蜜桃久久综合网站| 国产成人精品无码一区二| 三上悠亚一区二区| 亚洲大学生视频在线播放| 孕妇高潮太爽了在线观看免费| 亚洲AV无码乱码在线观看裸奔| 国产成人夜色91| 中文字幕久久波多野结衣| 中国国产高清免费AV片| 国产传媒一区二区三区四区五区| 影音先锋亚洲无码| 精品国产成人三级在线观看| 久久99久久无码毛片一区二区| 国产高清无码麻豆精品| 亚洲精品天堂在线观看| 四虎成人精品在永久免费| 国产激情无码一区二区APP| 欧美三級片黃色三級片黃色1| 操国产美女| 免费av一区二区三区在线| 国产精品55夜色66夜色| 久久视精品| 九九热视频精品在线| 日本a级免费| 欧美日韩激情| 人妻少妇乱子伦精品无码专区毛片| 自偷自拍三级全三级视频| 欧美啪啪视频免码| 色综合五月| 国产h视频免费观看|