基于ASBC 模型的藏文自動分詞方法研究*

2023-09-29 05:51:34尹宗鶴尼瑪次仁

計算機與數字工程 2023年6期

尹宗鶴尼瑪次仁于韜擁措

（1.西藏大學信息科學技術學院拉薩 850000）（2.西藏大學藏文信息技術教育部工程研究中心拉薩 850000）（3.西藏自治區藏文信息技術人工智能重點實驗室拉薩 850000）

1 引言

1999 年，扎西次仁設計一個人機互助的藏文分詞和詞登錄系統，可以看作藏文分詞研究開始的標志［2］；2003 年，陳玉忠等提出符合藏文特性的最佳分詞方案，旨在消除歧義切分和未登錄詞識別問題［3］；2009 年，才智杰提出基于規則的“還原法”一定程度上解決了藏文分詞中的黏著詞問題［4］；2011年，史曉東等移植漢語分詞系統SegTag 至藏文上，開發了基于HMM（隱馬爾科夫模型）的央金藏文分詞標注系統［5］；同年，劉匯丹等實現了基于序列標注的藏文分詞［6］；2015 年，李亞超等基于CRF，開發一個名為TIP-LAS 藏文分詞和詞性標注系統［7］；2018 年，李博涵等分析和實驗各類RNN（循環神經網絡）在藏文分詞上的表現，開始了深度學習在藏文分詞中的運用［8］；同年6 月，國標版《信息處理用藏文分詞規范》正式發布；2020 年，王莉莉等提出一種基于BiLSTM_CRF 的藏文分詞方法，提高了藏文分詞的準確率［9］。

現代藏文分詞主要有基于詞表、統計和神經網絡的三種方法。其中，基于詞表的方法依賴于建立固定大小的詞表，不能處理未登錄詞是最大的局限；基于統計的分詞方法是伴隨SIGHAN 國際中文分詞評測比賽Bakeoff 的開展興起的，2003 年由Xue N W。使用最大熵算法實現由字構詞模型，將分詞問題轉化為序列標注問題，用4-tags 標注法，給中文每個組成詞的漢字標記上不同的標簽，利用不同的詞位標簽對漢字進行詞邊界確定，從而達到分詞目的［10］。后來研究者將該方法運用到藏文分詞上，也得到不錯的效果。隨著深度學習的興起，許多神經網絡模型隨之涌現，神經網絡在藏文自然語言處理領域蓬勃發展。

基于傳統神經網絡模型的藏文分詞算法不能夠有效地獲取藏文語句中的上下文信息，基于此問題，提出兩種改進方法：其一是使用以ALBERT 預訓練語言模型獲取音節向量，使得模型能關注到藏文文本序列上下文的信息，增強模型的性能；其二是在藏文分詞模型中引入音節特征融合，相鄰音節之間進行拼接作為當前音節的輸入。本文提出的ASBC（ALBERT-Syllable-BiLSTM-CRF）藏文分詞模型，在保留BiLSTM-CRF 自身優勢的同時，聯系更多的語義特征，使模型在藏文分詞中具有更好的表現。

2 模型結構

2.1 ASBC藏文分詞模型

本文提出的ASBC 藏文分詞模型總體流程如圖1所示。

圖1 ASBC藏文分詞模型圖

對于一個輸入序列，其經過ALBERT Embedding 層先通過一個全連接層把token 映射到一個較小維度的向量空間，再通過一個全連接層把token映射到目標維度的向量空間，可以得到表示該序列的音節向量；進入到Syllable Fusion 層，對相鄰音節進行向量的拼接，通過音節拼接之后的每個向量輸入到模型中。

本文的Encoding 層用的是雙向長短時記憶模型，Decoding 層使用條件隨機場模型。對于每個輸入序列，首先經過編碼后輸入到雙向長短時記憶中，BiLSTM Layer 有一個向前和一個向后的LSTM并行將對應位置的輸出向量進行拼接，得到的輸出包含過去時刻和未來時刻的上下文信息，然后將其輸入到條件隨機場中，解碼發生在模型的預測階段，CRF Layer 統計每個音節在文本中對應標簽的概率，通過給定的觀察序列預測音節對應的狀態序列，最終有效地保存句子前后的標簽信息。

在氣溫比較低的情況下,輸液液體的溫度時常會影響輸液效果或輸液的舒適度,而通過輸液加熱模塊,把輸液液體進入病人體內之前加熱,以達到正常的輸液效果。

2.2 ALBERT預訓練語言模型

藏文結構復雜且語料稀少，傳統詞向量模型很難獲取高質量的藏文音節向量，針對此問題，本文選用模型結構更為復雜的ALBERT 預訓練語言模型，該預訓練語言模型由西藏自治區藏文信息技術人工智能重點實驗室提供，具體訓練參數如表1所示。

表1 藏文ALBERT預訓練語言模型訓練參數

2.3 音節特征融合

音節特征融合是指將相鄰的兩個音節特征融合成一個音節特征的過程。在一句話中，通常被認為距離越近的兩個音節，其語義關聯性也越強，通過將音節特征融合可使神經網絡提取到更多的輸入特征。音節特征融合具體步驟如下：

1）在藏文語句X=[x1,x2,…xi,…xn]的句尾添加符號作為句子結束的標志。

2）將每個音節和相鄰后一音節拼接成的雙音節作為當前音節的輸入。

3）使用unigram 和bigram 相結合，作為當前音節的輸入。

例如對于?????????????五個音節來說，其unigram表示為??、???、??、??、????；bigram 表示為????、?????、????、??????、????；經過音節特征融合之后的藏文語句X'=[x'1,x'2,…x'i,…x'n]，其中x'i表示藏文句子X中第i個音節xi經過音節特征融合之后的音節特征。

3 實驗

3.1 評價指標

在序列標注任務中，模型評估往往采用準確率（P）、召回率（R）、F1 值（F）作為評價指標。準確率表示檢索出來的文本與總文本的比值，用于反映系統的查找精準程度；召回率表示搜索到的相關文本和所有相關文本的比值，用于衡量模型的查全率；而綜合指標即綜合考慮二者的評估對模型的表現進行一個更全面的評估。具體定義如下：

3.2 實驗數據

本實驗基于Python 語言和pytorch 深度學習庫進行實現，實驗數據主要包括第二屆少數民族語言分詞評測大賽（MLWS2021）提供的藏文語料和實驗室自建藏文語料，涉及新聞、小說、詩歌等多個主題，對數據的處理分別經過編碼的調整、病句的處理、語句的去重，最終以現有分詞工具分詞，以《信息處理用藏文分詞規范》為標準，經過人工校對，得到本實驗數據集共8.5萬句，將數據順序隨機打亂，取其中6.5 萬句作為訓練集，測試集和驗證集分別為1萬句。

3.3 實驗設計與分析

預訓練語言模型的應用，使得原本無法針對各種語境變化的靜態音節向量表征，向著真正基于語境的語義特征表示演進。為驗證ALBERT 預訓練語言模型對整個分詞模型的有效性，分別在不同基線模型中加入ALBERT，表2 展示了LSTM-CRF 和BiLSTM-CRF 網絡在加入ALBERT 前后的實驗效果對比。

表2 加入ALBERT效果對比

由表2 可看出，加入Albert 預訓練語言模型后的分詞效果得到了提升，其中基于LSTM-CRF的方法精確率、召回率和F 值分別提升了1.3%、1.8%和1.5%，基于BiLSTM-CRF 的方法精確率、召回率和F值分別提高了1.3%、1.1%和1.2%。

音節特征融合通過音節拼接使神經網絡提取到更多的輸入特征，為驗證音節特征融合方法的有效性，仍以LSTM-CRF 和BiLSTM-CRF 網絡模型作為對比，實驗效果如表3所示。

表3 使用音節特征融合效果對比

由表3 可看出，使用音節特征融合后的分詞效果得到了提升，其中基于LSTM-CRF 的方法精確率、召回率和F 值分別提升了0.9%、1.3%和1.1%，基于BiLSTM-CRF 的方法精確率、召回率和F 值分別提高了1.1%、0.8%和1.0%。

以上實驗表明不論是ALBERT 預訓練語言模型還是音節特征融合，都促使了藏文分詞效果的提升，為進一步提升分詞效果，將不同的方法進行融合，具體實驗結果如表4。

表4 使用ALBERT與音節特征融合效果對比

對比實驗結果發現，當同時融入ALBERT預訓練語言模型和音節特征融合時，分詞達到SOTA 效果。至此，足以證明本文提出的ASBC 模型在藏文分詞方面的優秀表現。

在得到完整的ASBC 藏文分詞模型之后，為進一步保證分詞粒度的準確性，提升分詞的效果，在預處理部分加入了詞典，該詞典包含常見的藏文人名和地名總共20611 個，運用雙向最大匹配算法保證測試語料中專有名詞的完整性，實驗效果如表5所示。

表5 加入詞典效果對比

由表5 可看出，加入名詞詞典的分詞效果得到了提升，但提升效果不明顯，可能存在以下兩個原因：1）測試語料中包含的詞典中的人名地名較少；2）詞典的加入導致語料中專有名詞的粒度發生改變，對前后詞語標簽信息產生一定的影響。

3.4 實驗效果對比

1）BiLSTM-CRF：

????/????/????/???????/????????/??????/????/?????????????/?

2）BiLSTM-CRF（ALBERT）：

????/????/????/?????????????????????/????/?????????????/?

3）BiLSTM-CRF（音節特征融合）：

????/????/????/???????/??????????????/????/?????????/????/?

4）ASBC：

????/????/????/?????????????????????/????/?????????/????/?/

比較句子（???????????????????????????????????????????????????）的不同分詞效果，發現BiLSTM-CRF模型將句子粒度分得太細，ALBERT 或音節特征融合具有聯系上下文信息的特性，有助于詞粒度的準確判斷，二者結合使之效果達到最佳。

4 結語

ALBERT的Embedding層通過字典將每個音節映射成音節向量，通過預訓練捕捉語法和語義層面的信息，藏文預訓練語言模型可幫助模型獲取藏文語句中的上下文信息及在目標中建立上下文相關的隱含特征聯系，輔助模型更好地鎖定目標音節的標簽；音節特征融合連接相鄰音節的語義特征，進一步提升模型獲取到更多特征信息的能力。實驗驗證了ALBERT 預訓練語言模型和音節特征融合對于藏文分詞的有效性，將兩種方法同時融入BiLSTM-CRF模型中，提出表現能力較好的ASBC藏文分詞模型，最后將ASBC 模型加入人名地名詞典，藏文分詞效果得到進一步提升。

雖然本文提出的ASBC 模型在藏文分詞上具有較好表現，但僅依賴神經網絡大量訓練語料來提升分詞效果性價比不高，分詞與詞性有著極強的關聯性，接下來將結合藏文詞性標注對藏文分詞展開進一步的研究。