999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ASBC 模型的藏文自動分詞方法研究*

2023-09-29 05:51:34尹宗鶴尼瑪次仁
計算機與數字工程 2023年6期
關鍵詞:特征融合效果

尹宗鶴 尼瑪次仁 于 韜 擁 措

(1.西藏大學信息科學技術學院 拉薩 850000)(2.西藏大學藏文信息技術教育部工程研究中心 拉薩 850000)(3.西藏自治區藏文信息技術人工智能重點實驗室 拉薩 850000)

1 引言

1999 年,扎西次仁設計一個人機互助的藏文分詞和詞登錄系統,可以看作藏文分詞研究開始的標志[2];2003 年,陳玉忠等提出符合藏文特性的最佳分詞方案,旨在消除歧義切分和未登錄詞識別問題[3];2009 年,才智杰提出基于規則的“還原法”一定程度上解決了藏文分詞中的黏著詞問題[4];2011年,史曉東等移植漢語分詞系統SegTag 至藏文上,開發了基于HMM(隱馬爾科夫模型)的央金藏文分詞標注系統[5];同年,劉匯丹等實現了基于序列標注的藏文分詞[6];2015 年,李亞超等基于CRF,開發一個名為TIP-LAS 藏文分詞和詞性標注系統[7];2018 年,李博涵等分析和實驗各類RNN(循環神經網絡)在藏文分詞上的表現,開始了深度學習在藏文分詞中的運用[8];同年6 月,國標版《信息處理用藏文分詞規范》正式發布;2020 年,王莉莉等提出一種基于BiLSTM_CRF 的藏文分詞方法,提高了藏文分詞的準確率[9]。

現代藏文分詞主要有基于詞表、統計和神經網絡的三種方法。其中,基于詞表的方法依賴于建立固定大小的詞表,不能處理未登錄詞是最大的局限;基于統計的分詞方法是伴隨SIGHAN 國際中文分詞評測比賽Bakeoff 的開展興起的,2003 年由Xue N W。使用最大熵算法實現由字構詞模型,將分詞問題轉化為序列標注問題,用4-tags 標注法,給中文每個組成詞的漢字標記上不同的標簽,利用不同的詞位標簽對漢字進行詞邊界確定,從而達到分詞目的[10]。后來研究者將該方法運用到藏文分詞上,也得到不錯的效果。隨著深度學習的興起,許多神經網絡模型隨之涌現,神經網絡在藏文自然語言處理領域蓬勃發展。

基于傳統神經網絡模型的藏文分詞算法不能夠有效地獲取藏文語句中的上下文信息,基于此問題,提出兩種改進方法:其一是使用以ALBERT 預訓練語言模型獲取音節向量,使得模型能關注到藏文文本序列上下文的信息,增強模型的性能;其二是在藏文分詞模型中引入音節特征融合,相鄰音節之間進行拼接作為當前音節的輸入。本文提出的ASBC(ALBERT-Syllable-BiLSTM-CRF)藏文分詞模型,在保留BiLSTM-CRF 自身優勢的同時,聯系更多的語義特征,使模型在藏文分詞中具有更好的表現。

2 模型結構

2.1 ASBC藏文分詞模型

本文提出的ASBC 藏文分詞模型總體流程如圖1所示。

圖1 ASBC藏文分詞模型圖

對于一個輸入序列,其經過ALBERT Embedding 層先通過一個全連接層把token 映射到一個較小維度的向量空間,再通過一個全連接層把token映射到目標維度的向量空間,可以得到表示該序列的音節向量;進入到Syllable Fusion 層,對相鄰音節進行向量的拼接,通過音節拼接之后的每個向量輸入到模型中。

本文的Encoding 層用的是雙向長短時記憶模型,Decoding 層使用條件隨機場模型。對于每個輸入序列,首先經過編碼后輸入到雙向長短時記憶中,BiLSTM Layer 有一個向前和一個向后的LSTM并行將對應位置的輸出向量進行拼接,得到的輸出包含過去時刻和未來時刻的上下文信息,然后將其輸入到條件隨機場中,解碼發生在模型的預測階段,CRF Layer 統計每個音節在文本中對應標簽的概率,通過給定的觀察序列預測音節對應的狀態序列,最終有效地保存句子前后的標簽信息。

在氣溫比較低的情況下,輸液液體的溫度時常會影響輸液效果或輸液的舒適度,而通過輸液加熱模塊,把輸液液體進入病人體內之前加熱,以達到正常的輸液效果。

2.2 ALBERT預訓練語言模型

藏文結構復雜且語料稀少,傳統詞向量模型很難獲取高質量的藏文音節向量,針對此問題,本文選用模型結構更為復雜的ALBERT 預訓練語言模型,該預訓練語言模型由西藏自治區藏文信息技術人工智能重點實驗室提供,具體訓練參數如表1所示。

表1 藏文ALBERT預訓練語言模型訓練參數

2.3 音節特征融合

音節特征融合是指將相鄰的兩個音節特征融合成一個音節特征的過程。在一句話中,通常被認為距離越近的兩個音節,其語義關聯性也越強,通過將音節特征融合可使神經網絡提取到更多的輸入特征。音節特征融合具體步驟如下:

1)在藏文語句X=[x1,x2,…xi,…xn]的句尾添加符號作為句子結束的標志。

2)將每個音節和相鄰后一音節拼接成的雙音節作為當前音節的輸入。

3)使用unigram 和bigram 相結合,作為當前音節的輸入。

例如對于?????????????五個音節來說,其unigram表示為??、???、??、??、????;bigram 表示為????、?????、????、??????、????;經過音節特征融合之后的藏文語句X'=[x'1,x'2,…x'i,…x'n],其中x'i表示藏文句子X中第i個音節xi經過音節特征融合之后的音節特征。

3 實驗

3.1 評價指標

在序列標注任務中,模型評估往往采用準確率(P)、召回率(R)、F1 值(F)作為評價指標。準確率表示檢索出來的文本與總文本的比值,用于反映系統的查找精準程度;召回率表示搜索到的相關文本和所有相關文本的比值,用于衡量模型的查全率;而綜合指標即綜合考慮二者的評估對模型的表現進行一個更全面的評估。具體定義如下:

3.2 實驗數據

本實驗基于Python 語言和pytorch 深度學習庫進行實現,實驗數據主要包括第二屆少數民族語言分詞評測大賽(MLWS2021)提供的藏文語料和實驗室自建藏文語料,涉及新聞、小說、詩歌等多個主題,對數據的處理分別經過編碼的調整、病句的處理、語句的去重,最終以現有分詞工具分詞,以《信息處理用藏文分詞規范》為標準,經過人工校對,得到本實驗數據集共8.5萬句,將數據順序隨機打亂,取其中6.5 萬句作為訓練集,測試集和驗證集分別為1萬句。

3.3 實驗設計與分析

預訓練語言模型的應用,使得原本無法針對各種語境變化的靜態音節向量表征,向著真正基于語境的語義特征表示演進。為驗證ALBERT 預訓練語言模型對整個分詞模型的有效性,分別在不同基線模型中加入ALBERT,表2 展示了LSTM-CRF 和BiLSTM-CRF 網絡在加入ALBERT 前后的實驗效果對比。

表2 加入ALBERT效果對比

由表2 可看出,加入Albert 預訓練語言模型后的分詞效果得到了提升,其中基于LSTM-CRF的方法精確率、召回率和F 值分別提升了1.3%、1.8%和1.5%,基于BiLSTM-CRF 的方法精確率、召回率和F值分別提高了1.3%、1.1%和1.2%。

音節特征融合通過音節拼接使神經網絡提取到更多的輸入特征,為驗證音節特征融合方法的有效性,仍以LSTM-CRF 和BiLSTM-CRF 網絡模型作為對比,實驗效果如表3所示。

表3 使用音節特征融合效果對比

由表3 可看出,使用音節特征融合后的分詞效果得到了提升,其中基于LSTM-CRF 的方法精確率、召回率和F 值分別提升了0.9%、1.3%和1.1%,基于BiLSTM-CRF 的方法精確率、召回率和F 值分別提高了1.1%、0.8%和1.0%。

以上實驗表明不論是ALBERT 預訓練語言模型還是音節特征融合,都促使了藏文分詞效果的提升,為進一步提升分詞效果,將不同的方法進行融合,具體實驗結果如表4。

表4 使用ALBERT與音節特征融合效果對比

對比實驗結果發現,當同時融入ALBERT預訓練語言模型和音節特征融合時,分詞達到SOTA 效果。至此,足以證明本文提出的ASBC 模型在藏文分詞方面的優秀表現。

在得到完整的ASBC 藏文分詞模型之后,為進一步保證分詞粒度的準確性,提升分詞的效果,在預處理部分加入了詞典,該詞典包含常見的藏文人名和地名總共20611 個,運用雙向最大匹配算法保證測試語料中專有名詞的完整性,實驗效果如表5所示。

表5 加入詞典效果對比

由表5 可看出,加入名詞詞典的分詞效果得到了提升,但提升效果不明顯,可能存在以下兩個原因:1)測試語料中包含的詞典中的人名地名較少;2)詞典的加入導致語料中專有名詞的粒度發生改變,對前后詞語標簽信息產生一定的影響。

3.4 實驗效果對比

1)BiLSTM-CRF:

????/????/????/???????/????????/??????/????/?????????????/?

2)BiLSTM-CRF(ALBERT):

????/????/????/?????????????????????/????/?????????????/?

3)BiLSTM-CRF(音節特征融合):

????/????/????/???????/??????????????/????/?????????/????/?

4)ASBC:

????/????/????/?????????????????????/????/?????????/????/?/

比較句子(???????????????????????????????????????????????????)的不同分詞效果,發現BiLSTM-CRF模型將句子粒度分得太細,ALBERT 或音節特征融合具有聯系上下文信息的特性,有助于詞粒度的準確判斷,二者結合使之效果達到最佳。

4 結語

ALBERT的Embedding層通過字典將每個音節映射成音節向量,通過預訓練捕捉語法和語義層面的信息,藏文預訓練語言模型可幫助模型獲取藏文語句中的上下文信息及在目標中建立上下文相關的隱含特征聯系,輔助模型更好地鎖定目標音節的標簽;音節特征融合連接相鄰音節的語義特征,進一步提升模型獲取到更多特征信息的能力。實驗驗證了ALBERT 預訓練語言模型和音節特征融合對于藏文分詞的有效性,將兩種方法同時融入BiLSTM-CRF模型中,提出表現能力較好的ASBC藏文分詞模型,最后將ASBC 模型加入人名地名詞典,藏文分詞效果得到進一步提升。

雖然本文提出的ASBC 模型在藏文分詞上具有較好表現,但僅依賴神經網絡大量訓練語料來提升分詞效果性價比不高,分詞與詞性有著極強的關聯性,接下來將結合藏文詞性標注對藏文分詞展開進一步的研究。

猜你喜歡
特征融合效果
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
按摩效果確有理論依據
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
抓住特征巧觀察
主站蜘蛛池模板: 又黄又爽视频好爽视频| 中文字幕自拍偷拍| 国产精品毛片一区| 国产乱人免费视频| 国产美女自慰在线观看| 国产欧美日韩18| 国产福利微拍精品一区二区| 一级做a爰片久久免费| 亚洲精品第五页| 亚洲精品卡2卡3卡4卡5卡区| 久久精品无码一区二区国产区 | 国产精品无码制服丝袜| 亚洲精品va| 无码中文字幕加勒比高清| 亚洲成在人线av品善网好看| 91亚洲视频下载| 在线播放真实国产乱子伦| 亚洲 日韩 激情 无码 中出| 最新日韩AV网址在线观看| 国产在线一区视频| 中文字幕 91| 中文字幕有乳无码| 伊人五月丁香综合AⅤ| 欧美高清三区| 国产精品久久久久久久久| 婷婷色丁香综合激情| 国产在线97| 久久久久亚洲AV成人人电影软件 | 欧美在线一二区| 福利在线不卡一区| 日本在线国产| 亚洲国产欧洲精品路线久久| 中文字幕亚洲精品2页| 色婷婷视频在线| 久久精品丝袜| 国产永久免费视频m3u8| 9999在线视频| jizz在线观看| 亚洲av无码专区久久蜜芽| 91亚洲精选| 国产日本欧美亚洲精品视| 国产在线观看一区二区三区| 国产精品尤物在线| 国产高清色视频免费看的网址| 欧美伦理一区| 专干老肥熟女视频网站| 奇米影视狠狠精品7777| av一区二区三区高清久久| 久久久久夜色精品波多野结衣| 高清色本在线www| 中文字幕欧美日韩| 欧美午夜久久| 久久久久九九精品影院| 国产成人久久综合777777麻豆| 亚洲欧洲日本在线| 香蕉久人久人青草青草| 国产91av在线| 三上悠亚一区二区| 亚洲国产精品日韩av专区| 91亚洲视频下载| 2021国产精品自产拍在线| 日本a∨在线观看| 国产成人综合久久精品尤物| 亚洲an第二区国产精品| 欧美日韩免费在线视频| 国精品91人妻无码一区二区三区| 99视频只有精品| 久热中文字幕在线观看| 亚洲国产综合精品中文第一| 国产欧美亚洲精品第3页在线| 在线欧美日韩| 69精品在线观看| 国产视频a| 亚洲国产成人久久精品软件| 欧美色视频日本| 欧美中文字幕第一页线路一| 日韩免费视频播播| 国产99欧美精品久久精品久久| 欧美笫一页| 亚洲欧美日韩高清综合678| 免费人成在线观看成人片| 欧美成人一区午夜福利在线|