



摘要:隨著自然語言處理技術的快速發展,跨語言預訓練模型為低資源語言處理提供了新的研究途徑。然而,現有模型在馬來語、豪薩語等低資源語言上的性能仍有待提升,主要受限于訓練數據的匱乏和質量不均。特別是在情感分類任務中,傳統的全參數微調方法難以充分利用有限訓練集中標簽之間的關系,導致模型在不同類別上的性能差異顯著。針對這一挑戰,該文提出了一種基于對比損失的低資源語言情感分類方法(CL-LRSC),通過在多語言預訓練模型的微調過程中引入對比損失,優化文本在向量空間的表示。該方法在保持傳統交叉熵損失的基礎上,通過對比學習使相同情感類別的文本表示相互靠近,不同情感類別的文本表示相互遠離。在阿姆哈拉語、印尼語和豪薩語三種低資源語言的情感分類實驗中,該方法顯著提升了分類性能。實驗結果表明,在XLM-R 模型上,印尼語和豪薩語的F1 分數分別從89.19% 提升至91.96% 和從66.00% 提升至71.48%。研究成果為解決低資源語言的情感分類問題提供了新的思路。
關鍵詞:情感分類;低資源語言;對比損失;多語言預訓練模型
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2025)06-0009-03開放科學(資源服務)標識碼(OSID):
0 引言
自然語言處理(Natural Language Processing, NLP)技術在近年來發展迅速,但在低資源語言(Low-Re?source" Languages)領域的應用仍然存在顯著困難。隨著多語言預訓練語言模型的應用逐漸普及,為低資源語言提供了新的研究路徑和技術支持。例如,mBERT 和XLM-R等多語言模型在低資源語言上的表現較為優異,通過利用跨語言遷移學習可以實現多語言間的知識共享。然而,現有的模型仍然難以直接應用于馬來語、豪薩語等低資源語言,因為這些模型在訓練過程中往往缺乏足夠的語言數據支持,導致語言理解的準確性不足。與高資源語言相比,大多數低資源語言的語料庫規模明顯較小且質量較低。這種訓練數據的不平衡通常會導致模型性能不均衡,即模型在多數類別上表現良好,但在少數類別上表現不佳。傳統的全參數微調方法通常無法解決這個問題,因為它們無法充分利用有限的訓練集標簽之間的關系。然而,優化所有可用數據,特別是標簽之間的關系,對于極低資源語言情感分類(Low-Resource Sentiment" Classifi?cation,LRSC)來說,對提高模型性能至關重要。為應對上述挑戰,本文提出了一種基于對比損失的低資源語言情感分類方法(Contrastive Loss-based Low-Re?source Sentiment Classification,CL-LRSC)。通過引入對比損失,確保模型在微調過程中將相同標簽的文本向量空間拉近,同時將不同標簽的文本向量空間推遠。大量針對各種低資源語言的實驗表明了該方法在微調多語言預訓練模型方面的可靠性。
1 相關工作
在低資源語言的情感分類任務中,研究者面臨數據稀缺和模型性能不足的雙重挑戰。隨著深度學習技術的迅速發展,越來越多的研究者提出了多種有效的解決方案。情感分類作為自然語言處理中的核心任務,已在多種語言環境下得到廣泛應用。然而,對于低資源語言,特別是在缺乏大規模標注數據的情況下,傳統情感分類方法往往難以取得理想效果。為克服數據稀缺所帶來的挑戰,研究者們探索了多種技術途徑,以提升低資源語言情感分類的性能。
遷移學習和跨語言學習是解決低資源問題的常見方法之一。通過借助高資源語言的預訓練模型,研究者能夠有效提升低資源語言在情感分類任務中的表現[1-2]。特別是多語言預訓練模型,如BERT、mBERT和XLM-R,在多個跨語言任務中展現了強大的能力。此外,基于Transformer架構的多語言模型通過共享詞匯表和語料庫,進一步提升了低資源語言的情感分類能力。例如,mBART模型在跨語言情感分類任務中的顯著效果驗證了其在低資源語言上的有效性。楊秀璋等人[3]提出了一種融合BERT預訓練和BiLSTM的場景遷移情感分析方法。
除了遷移學習,近年來自監督學習和無監督學習方法也被廣泛應用于低資源情感分類任務。自監督學習方法通過從大量未標注數據中學習潛在的語言結構,從而提升模型的表現。Sazzed[4]提出的自標簽預訓練任務顯著提高了低資源語言的情感分類能力。該方法通過有效利用少量標注數據,緩解了數據不足帶來的性能瓶頸。此外,Sazzed進一步探討了自監督學習與跨語言知識遷移的結合,以進一步優化情感分類的效果。
在數據稀缺的背景下,數據增強技術也被廣泛采用[5]。特別是基于生成模型的增強方法,通過生成與目標任務相關的文本,彌補了訓練數據的不足[6]。例如,BART和T5等生成式模型在數據增強中的應用顯著增加了訓練樣本的多樣性,從而提升了模型的泛化能力。近年來,生成式技術在低資源語言情感分類任務中展現出巨大潛力,例如引入更為復雜的文本生成方法進一步增強了生成文本與目標任務之間的相關性。
2基于對比損失的低資源語言情感分類
為了將相似的手寫數字圖像映射到特征空間中的相鄰區域,Hadsell等人[7]提出了通過學習不變映射(Dimensionality Reduction by Learning an InvariantMapping,DrLIM)的方法。該方法利用對比損失訓練基礎卷積神經網絡,并在MNIST數據集的子集上進行評估。DrLIM主要通過對比損失在圖像識別任務中優化模型,使得在嵌入空間中,相似的圖像被拉近,不同的圖像則被推遠。因此,受DrLIM啟發,本文在LRSC任務中利用對比損失來進一步提高模型的判別能力。
其中,α是一個縮放因子,用于控制對比損失和交叉熵損失的相對重要性。通過調整α,可以確保在訓練過程中,交叉熵損失和對比損失對模型性能的影響平衡。實驗結果表明,當α=1時,模型能夠獲得最佳的性能。
值得注意的是,盡管在此提出的對比損失方法是為了提升情感分類任務的性能,但其理念同樣適用于其他文本分析任務,尤其是在多語言或跨語言的情感分析中,能夠進一步強化不同語言間的共享語義空間。
3實驗
首先,介紹實驗中使用的訓練語料與實驗所用參數。其次,運用CL-LRSC評估三種資源匱乏的語言:阿姆哈拉語(am)、印尼語(id)和豪薩語(ha)在情感三分類的性能并分析其具體表現。為了模擬所有低資源語言都會面臨的現狀——可獲取的高質量語料匱乏,對于每種語言,本文從現有開源數據集的原始訓練集中抽樣1500個實例。此外,確保每個采樣訓練集中的標簽分布不均衡,以嚴格評估本文方法在這些不同語言環境中的表現。
3.1 訓練語料與超參數設置
本文中印尼語數據集(id)來源于SMSA數據集,而阿姆哈拉語(am)和豪薩語(ha)數據集來源于AfriS?enti-SemEval數據集。鑒于專注于在資源匱乏和語料庫有限的情況下評估模型微調方法,我們將每種語言的訓練集大小限制為1500個實例。
為了進行實驗,我們使用表1中指定的超參數配置了模型,并利用Hugging Face模型中心的相應檢查點初始化編碼器模型XLM-R 和CINO。為了在每個時期結束時在驗證集上評估模型的性能,本文利用AdamW優化器優化模型參數。
此外,對于低資源語言中情緒分析的性能評估,選擇準確率(ACC)和宏平均F1 分數(F1)作為主要指標。鑒于數據集的不平衡性質,某些類別的樣本比其他類別少,單憑準確率可能會忽略少數類別的性能,從而導致評估有偏差且不準確。因此,我們還報告了宏平均F1分數作為補充指標。
3.2 實驗分析
本文評估了CL-LRSC在CINO和XLM-R模型上針對低資源語言的可行性和可靠性。表2總結了阿姆哈拉語、印尼語和豪薩語的性能。CL-LRSC 持續提高F1分數,尤其針對CINO。豪薩語的F1分數顯著提高,從64.95%上升到69.66%。XLM-R也呈現出類似的趨勢,印尼語和豪薩語的F1 分數分別從89.19%上升到91.96%和從66.00%上升到71.48%。
總體而言,實驗通過策略性地限制訓練集大小創建了一個現實且具有挑戰性的環境,反映了許多資源不足的語言所面臨的限制。這些實驗結果為我們方法的穩健性和適應性提供了寶貴的見解,有助于多語言自然語言處理的進步。
4 結束語
本文提出了一種基于對比損失的低資源語言的情感分類方法。通過引入對比損失,我們確保模型在微調過程中將相同標簽的文本向量空間拉近,同時將不同標簽的文本向量空間拉遠。值得注意的是,CLLRSC在XLM-R模型上,印尼語和豪薩語的F1分數分別從89.19% 提升至91.96% 和從66.00% 提升至71.48%。研究成果為解決低資源語言的情感分類問題提供了新的思路。未來,可從以下幾個方面繼續深入研究:探索更多類型的低資源語言,進一步驗證方法的普適性;引入外部知識、少樣本學習等技術,減少對大規模標注數據的依賴;持續優化對比學習策略,提升情感特征表示能力;拓展情感分析下游任務,實現不同任務間的相互促進。相信通過理論與實踐的結合,CL-LRSC方法可以為推動多語言情感計算的發展貢獻更多的力量。