









摘 "要:由于藏語與漢語、英語在語法結構和詞匯特點上的差異,傳統的文本分類方法在藏文上的應用面臨挑戰。為此,該文提出一種基于多特征融合與注意力機制的藏文文本分類模型,該模型結合CINO、TextCNN和BiLSTM模型的優勢。實驗結果表明,該文提出的模型在公開數據集TNCC上的F1值為73.09%,在自建數據集TiTCD上的F1值為80.97%。因此,該模型能夠較好地捕捉到藏文文本語義,在藏文文本分類任務上性能有所提升。
關鍵詞:藏文文本分類;預訓練語言模型;多特征融合;注意力機制;文本分類方法
中圖分類號:H214 " " "文獻標志碼:A " " " " "文章編號:2095-2945(2025)10-0061-05
Abstract: Due to the differences in grammatical structure and lexical characteristics between Tibetan, Chinese and English, the application of traditional text classification methods in Tibetan faces challenges. To this end, this paper proposes a Tibetan text classification model based on multi-feature fusion and attention mechanism, which combines the advantages of CINO, TextCNN and BiLSTM models. Experimental results show that the F1 value of the proposed model on the public dataset TNCC is 73.09%, and the F1 value on the self-built dataset TiTCD is 80.97%. Therefore, this model can better capture Tibetan text semantics and improve performance on Tibetan text classification tasks.
Keywords: Tibetan text classification; pre-trained language model; multi-feature fusion; attention mechanism; text classification methods
隨著信息技術的快速發展,文本分類作為自然語言處理領域的重要任務之一,在信息檢索、情感分析等領域發揮著關鍵作用。然而,由于藏語在語法結構、詞匯形態和表達方式上與漢語、英語等語言存在顯著差異,傳統的文本分類方法在處理藏文文本時往往難以取得理想效果。這種差異不僅體現在詞匯的豐富性和形態變化上,還反映在句法結構的復雜性上,使得藏文文本的語義表示和特征提取面臨較大挑戰。針對這一問題,本研究提出了一種融合多特征與注意力機制的藏文文本分類模型,旨在充分利用藏文文本的語義信息,提升分類性能。通過結合CINO、TextCNN和BiLSTM等模型的優勢,該模型能夠更有效地捕捉藏文文本的深層語義特征,為藏文文本分類任務提供新的解決方案。
1 "相關工作
當前,中英文文本分類技術已較為完善,然而,由于可用的藏語語料庫有限,藏文文本分類研究仍處于早期階段。王莉莉等[1]開發了一種多分類器藏文文本分類模型;蘇慧婧等[2-3]采用了高斯樸素貝葉斯模型、多層感知機和深度可分離卷積網絡進行藏文文本分類;李亮[4]基于ALBERT預訓練模型提出了一種方法;張英等[5]則提出了一種動態多頭注意力機制的分類模型。盡管這些模型在分類效果上表現不錯,但它們大多未采用公共數據集,這限制了對不同方法性能的直接比較。
2 "藏文分類模型
本文開發了一種融合特征與注意力機制的藏文文本分類模型。模型首先利用CINO預訓練詞向量,該模型基于BERT的優勢,采用transformer架構和MLM技術,不僅精確捕捉詞匯信息,還考慮了詞匯的位置信息。接著,通過Transformer Encoder和其Layer的多頭注意力機制處理CINO生成的詞向量;利用雙向長短期記憶網絡(BiLSTM)進行序列建模;并通過TextCNN層提取文本的局部特征。最終,將CINO、BiLSTM、多頭注意力(MHA)和TextCNN的輸出進行融合,輸入全連接層以進行分類。模型結構詳如圖1所示。
2.1 "CINO預訓練語言模型
CINO預訓練模型[6]基于多語言的XLM-R(XLM-RoBERTa)預訓練模型構建,其在多種國內少數民族語言的低資源語料庫上進行了進一步的預訓練。該模型不僅繼承了XLM-R對超過100種語言的識別能力,還增強了對蒙古語、藏語、維吾爾語、哈薩克語、朝鮮語和壯語等語言的理解。研究顯示,CINO在這些少數民族語言的數據集上表現優異,對研究人員具有顯著的應用價值。為了更好地適應這些語言,CINO模型進行了詞匯的擴充和優化,以減少預測誤差。與XLM-R相比,CINO在資源受限的環境中表現更佳,并且在少數民族語言的預訓練方面也更為出色。因此,本文選用CINO-large-v2模型進行詞向量的預訓練工作。
2.2 "TextCNN層
Rakhlin[7]提出的TextCNN模型為文本分類領域帶來了創新。在文本處理中,局部特征通常指連續單詞序列,與N-gram模型理念相近。TextCNN的優勢在于其自動提取關鍵N-gram特征,捕捉文本的多層次語義。該模型專注于局部特征的識別,使用預訓練詞向量輸入,并通過不同大小的卷積核提取特征,這些核能夠識別不同長度的文本模式。TextCNN由卷積層、池化層和全連接層組成:卷積層提取特征,池化層減少特征維度并增強位置不變性,全連接層進行分類。最后,通過softmax函數輸出分類概率,為文本分類提供依據。
2.3 "BiLSTM層
在自然語言處理中,BiLSTM模型具有卓越的上下文信息捕捉能力。BiLSTM是對標準LSTM的改進,采用雙向機制同時分析文本的前文和后文,以更全面地理解語義。本文采用BiLSTM模型,其通過2個方向的特征提取來獲取更豐富的上下文信息。這種雙向策略讓模型能從多角度理解文本的內在聯系,加深對全局語義的把握。為了增強特征提取的精確性,本文使用CINO模型生成的動態詞向量作為BiLSTM的輸入,這些詞向量能夠捕捉詞匯在不同上下文中的變化,為BiLSTM提供更準確的文本表示。結合CINO模型的輸出,本研究的方法不僅提取了文本的局部特征,還深入探索了文本的全局上下文。在BiLSTM處理后,本文將前向和后向特征合并,形成了一個全面的文本表示,既保留了雙向語義信息,也為后續的模型訓練和預測提供了全面的特征支持。
2.4 "多頭注意力機制
多頭注意力機制用于增強模型對序列中不同位置信息的捕捉能力。通過并行處理序列中的所有元素,注意力機制能夠捕捉到序列中不同位置之間的依賴關系;模型可以學習到哪些位置是重要的,哪些是不重要的,從而更加靈活地處理不同長度和復雜度的序列;同時,注意力機制允許模型在訓練時進行并行計算,可以加快訓練速度。
2.5 "藏文文本分類模型框架
本研究提出的模型巧妙地融合了CINO模型提取的[CLS]特征信息與TextCNN及BiLSTM模型提取的特征向量。能夠更全面地捕捉文本的特征,進而提升文本分類的準確性。首先將經過預處理的藏文文本輸入至CINO模型中。CINO模型不僅輸出了編碼器的所有結果,還特別提取了最后一層的[CLS]特征,這些特征富含關鍵的語義信息。通過采用多頭注意力機制,進一步篩選出最具代表性的語義特征。隨后,我們將這些精選的特征并行輸入到TextCNN和BiLSTM模型中,以深入挖掘文本的深層特征和上下文信息。最終,將TextCNN和BiLSTM提取的特征向量與[CLS]特征進行有效融合,并將這一融合后的特征集輸入到分類器中進行文本分類。
3 "實驗
3.1 "實驗環境
論文實驗環境見表1。
表1 "實驗環境配置參數
3.2 "實驗語料來源和數據處理
目前,TNCC數據集是公開可用的藏文語料之一,由Qun等[8]在2017年的研究中首次發布。該數據集依據音節將藏文詞匯進行劃分,并涵蓋了12個分類的藏文文本,分為2個部分:一部分包含新聞標題的短文本,另一部分則包含新聞正文的長文本。在本文中,采用了長文本數據集進行分析。TNCC數據集包含數據類別和數目見表2。
本文按照新聞類別,從香格里拉網、甘南香巴拉在線、西藏日報藏文版等藏文網頁上抓取藏文新聞數據,構建藏文分類語料TiTCD(Tibetan Text Classification Dataset)。該數據集使用TIP-LAS[9]進行分詞,共有9個類別,文本數量為16 045條。TiTCD數據集包含數據類別和數目見表3。
TNCC和TiTCD都按照8∶1∶1隨機劃分為訓練集、驗證集和測試集。
3.3 "實驗參數設置
為了使模型達到最好的效果,實驗對PyTorch版本的CINO-large-v2模型進行了微調。整體模型參數見表4。
3.4 "評價指標
藏文新聞文本分類的評估指標使用Acc(準確率)、Prec(精確率)、Rec(召回率)和Macro-F1,計算公式如下
式中:TP為真陽例,TN為真陰例,FP為假陽例,FN為假陰例,通過以下公式計算得到每一類的F1 值,再將各類的F1值平均,即為評估指標Macro-F1。
3.5 "實驗結果及分析
3.5.1 "TNCC數據集上的分類對比實驗
TNCC數據集是一個公開的藏文新聞文本集合,廣泛用于評估藏文模型的性能。本文中,對比了多種模型,包括CNN、LSTM、TextCNN、BiLSTM、XLR-R-large、CINO-large、CINO-large-v2,以及新提出的分類器模型在該數據集上的表現。表5是TNCC數據集在不同模型下的分類結果,表6是本文模型對測試集文本所屬各個類別的識別情況。
對比表5、表6的數據,XLR模型在分類表現上不如其他模型,這可能是因為其沒有針對藏文進行預訓練。CINO模型的各個版本,包括small-v2、base-v2、large以及large-v2,隨著Transformer層數、隱藏狀態和注意力頭數量的增加,性能也在提升。盡管large和large-v2結構相同,但v2版本對詞表進行了優化,專注于中文和少數民族語言,使得在TNCC數據集上的分類得分逐漸提高。CINO-large-v2取得了最高的F1得分71.0%,表現優于其他單一模型。
本研究提出的分類模型在TNCC數據集上達到了73.09%的Macro-F1值,表現最佳。該模型在大多數類別上識別效果良好,尤其是在器械類文本上。然而,對于文學、藝術和民俗類的文本,分類效果不佳,尤其是民俗類,其召回率最低,影響了整體F1值。這可能是因為民俗類樣本數量較少,導致模型未能充分學習到區分特征。相比之下,語言類雖然樣本也較少,但由于其音節單元與其他類別差異顯著,使得分類效果較好。這表明,即使在訓練樣本有限的情況下,本模型也能實現有效的分類。
3.5.2 "TiTCD數據集上的分類對比實驗
TiTCD數據集為本研究自制數據集,本文分別在CINO-base-v2,CINO-large-v2模型上進行對比實驗,并設置了合理的消融實驗來證明模型的有效性。表7是TiTCD數據集在不同模型下的分類結果,表8是本文模型對測試集文本所屬各個類別的識別情況。
通過對比表7、表8的數據,可以發現本研究提出的分類模型在藏文文本分類任務上表現突出,尤其是在處理藏文新聞文本時效果顯著。在TNCC和自建的TiTCD數據集上的實驗表明,該模型能有效捕捉藏文文本的語義,展現出良好的表示和泛化能力。
在不同類別的文本識別中,法律類文本的分類效果最為顯著,這可能歸因于其較大的數據量,使得模型能夠學習到更多的特征,同時法律類文本的語義特征與其他類別有較大差異。相比之下,科技知識類的分類效果不盡如人意,這可能與樣本數量較少有關,且混淆矩陣顯示,部分科技知識類文本被誤分類為文化類,表明這兩類文本在表達上存在一定的相似性。盡管人物類樣本數量有限,但分類結果卻相當好,這可能是因為人物類文本的音節單元與其他類別有較大差異,使得類別特征更加明顯。這也表明,本模型在樣本數量較少的情況下,也能實現有效的分類。
4 "結束語
本文提出了一種融合特征和注意力機制的藏文文本分類模型,并與其他幾種先進的深度學習模型在TNCC藏文新聞文本分類數據集和自定義數據集上進行了比較。實驗結果表明,該模型的準確性和有效性得到了驗證,其結合了CINO模型的豐富上下文語義捕捉能力、TextCNN模型的局部特征識別能力以及BiLSTM模型的長距離依賴處理能力,通過雙向信息流提升了對上下文的理解,增強了文本特征提取,從而提高了分類性能。
盡管如此,本研究在藏文文本分類方面仍有改進空間。首先,實驗數據集規模較小且類別分布不均勻。其次,模型僅使用了CINO模型來生成藏文詞向量。未來研究將考慮結合統計和語義特征,以生成更高質量的藏文詞向量,進一步提升模型從低資源語言文本中提取語義特征的能力,以期達到更優的分類效果。
參考文獻:
[1] 王莉莉,楊鴻武,宋志蒙.基于多分類器的藏文文本分類方法[J].南京郵電大學學報(自然科學版),2020,40(1):102-110.
[2] 蘇慧婧,群諾,賈宏云.基于GaussianNB模型的藏文文本分類研究與實現[J].青海師范大學學報(自然科學版),2019,35(4):1-4,54.
[3] 蘇慧婧,索朗拉姆,尼瑪扎西,等.基于MLP和SepCNN神經網絡模型的藏文文本分類研究[J].軟件,2020,41(12):11-17.
[4] 李亮.基于ALBERT的藏文預訓練模型及其應用[D].蘭州:蘭州大學,2020.
[5] 張英,擁措,于韜.基于動態多頭注意力機制的藏文語言模型[J].計算機工程與設計,2023,44(12):3707-3713.
[6] YANG Z, XU Z, CUI Y, et al. CINO: A Chinese minority pre-trained language model[J]. arxiv preprint arxiv:2202.13558,2022.
[7] RAKHLIN A. Convolutional neural networks for sentence classification[J]. GitHub,2016(6):25.
[8] QUN N,LI X, et al. End-to-endneuraltext classificationfor Tibetan[J].Chinese Computational Linguistics and Natural LanguageProcessing Based on Naturally Annotated Big Data, 2017.
[9] 李亞超,江靜,加羊吉,等.TIP-LAS:一個開源的藏文分詞詞性標注系統[J].中文信息學報,2015,29(6):203-207.