999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向情感語言建模的中文預訓練模型探索與改進

2024-09-14 00:00:00羅允勵
電腦知識與技術 2024年23期

摘要:文章探討了中文預訓練語言模型在情感分析任務中的應用與改進。提出了一種新的預訓練方法,通過引入情感詞典和情感分類任務,提高了模型對情感語義的理解能力。在多個情感分析數據集上的實驗表明,該模型相比現有方法取得了顯著的性能提升,驗證了所提出方法的有效性。該研究為中文情感分析任務提供了新的思路和參考。

關鍵詞:中文預訓練模型;情感分析;情感詞典;多任務學習

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2024)23-0028-03

開放科學(資源服務)標識碼(OSID)

0 引言

隨著深度學習技術的快速發展,預訓練語言模型已經成為自然語言處理領域的重要工具。通過在大規模無標注語料上進行預訓練,語言模型可以學習到豐富的語義知識,并可以方便地應用到下游任務中。近年來,中文預訓練模型取得了長足的進步,在閱讀理解、信息抽取等任務上展現出良好的性能。然而,現有的中文預訓練模型大多只關注通用語義表示的學習,缺乏對情感語義的捕捉和建模能力,這在一定程度上限制了其在情感分析等任務上的應用。

為了解決上述問題,本文探索了面向情感語義建模的中文預訓練模型改進方法。通過在預訓練階段引入外部情感知識和多任務學習策略,提高了模型對情感語義的理解和表示能力。此外,還研究了預訓練模型在下游情感分析任務中的微調和應用技術。在3個情感分析數據集上的實驗表明,本文提出的情感增強預訓練模型顯著優于現有的基于通用預訓練模型的方法,證明了該方法的有效性。

1 研究現狀與問題

1.1 中文預訓練語言模型

近年來,隨著深度學習技術的發展和計算資源的增強,以BERT、RoBERTa為代表的預訓練語言模型取得了顯著成功。通過在大規模無標注語料上進行自監督預訓練,這些模型能夠學習到富含語義信息的通用語言表示,并可以方便地應用到各種下游自然語言處理任務中。在中文領域,也涌現出一批優秀的預訓練模型,如BERT-wwm、ERNIE、MacBERT等。這些模型通過引入全詞遮罩(Whole Word Masking) 、句間關系預測、知識增強等策略,進一步提升了中文語言理解和建模的效果。然而,現有的中文預訓練模型主要關注通用語義表示的學習,對于情感語義的捕捉和建模能力仍有待加強[1]。

1.2 情感分析技術現狀

情感分析旨在自動識別和歸納文本中蘊含的情感傾向和觀點,是自然語言處理領域的重要研究課題。傳統的情感分析方法主要基于詞典和規則,但難以應對復雜多變的語言現象。隨著深度學習的崛起,一系列神經網絡模型被用于情感分析任務,如CNN、RNN、Attention等,顯著提升了情感分類的性能。近年來,大型預訓練語言模型為情感分析帶來了新的突破。通過在海量語料上學習通用語言表示,預訓練模型能夠更好地理解語句的語義信息,并提供更加豐富的特征。然而,由于缺乏對情感信息的顯式建模,現有的預訓練模型在情感分析任務上的表現仍有較大提升空間。因此,如何在預訓練階段有效融入情感知識,提高模型對情感語義的理解和表示能力,是本文研究的重點[2]。

2 面向情感建模的預訓練模型

2.1 模型結構

本文提出的面向情感建模的中文預訓練模型以BERT為基礎,在其架構上進行了一系列改進和擴展。模型的總體結構如圖1所示。首先,沿用了BERT的基本編碼器結構,即基于多層Transformer的雙向編碼器。輸入文本首先經過詞塊化(Tokenization) 處理,然后通過詞嵌入(Word Embedding) 、位置嵌入(Position Embedding) 和段嵌入(Segment Embedding) 的加和得到輸入表示。接下來,這些輸入表示通過多層Transformer編碼器進行特征提取和語義建模,得到每個詞塊的上下文表示。在此基礎上,在模型頂層引入了情感分類器和情感詞典注意力機制。情感分類器通過全連接層和Softmax函數,對文本的情感傾向進行分類[3]。情感詞典注意力機制則利用外部情感詞典知識,為每個詞塊生成情感權重,并與上下文表示進行加權融合,得到蘊含情感信息的文本表示。最后,這些表示被用于預訓練階段的目標任務學習,以及下游情感分析任務的微調。

2.2 預訓練任務設計

為了有效地將情感知識引入預訓練語言模型,本文設計了兩個預訓練任務:情感詞典增強的掩碼語言建模和情感分類任務。

情感詞典增強的掩碼語言建模(Sentiment-Enhanced Masked Language Modeling,SEMLM) :傳統的掩碼語言建模任務通過隨機掩碼輸入文本中的部分詞塊,并讓模型預測被掩碼詞塊的原始標記,以學習上下文語義信息。在此基礎上,利用外部情感詞典對掩碼策略進行優化[4]。具體而言,以更高的概率掩碼情感詞典中的詞塊,迫使模型重點學習這些詞塊的情感語義信息。同時,也保留一定比例的隨機掩碼,以維持模型學習通用語言知識的能力。通過這種掩碼策略的優化,模型能夠更好地捕捉和理解文本中蘊含的情感信息。

情感分類任務(Sentiment Classification,SC) :為了進一步增強模型對情感語義的建模能力,引入情感分類任務作為預訓練的另一個目標任務。對于帶有情感標簽的文本數據,利用模型頂層的情感分類器,對文本的情感傾向進行分類。通過這個過程,模型能夠直接學習情感分類知識,并與掩碼語言建模任務形成互補,提升對情感語義的理解和表達能力。

同時,采用多任務學習的策略,將兩個預訓練任務的損失函數進行加權求和,以平衡不同任務對模型學習的貢獻。

2.3 預訓練數據構建

為了進行有效的預訓練,本文構建了一個大規模的中文情感語料庫。該語料庫包括以下數據來源:

1) 情感分析數據集:收集了多個公開的中文情感分析數據集,如ChnSentiCorp、Weibo_senti、NLPCC2014等,并對其進行了數據清洗和標注統一。這些數據集涵蓋了不同領域和體裁的文本,如新聞、評論、微博等,為模型提供了豐富多樣的情感標注數據。

2) 情感詞典:為了引入外部情感知識,整合了多個中文情感詞典,包括知網Hownet情感詞典、臺灣大學NTUSD情感詞典等。這些情感詞典提供了大量的情感關鍵詞及其對應的情感極性和強度信息,為模型學習情感語義提供了重要的先驗知識[5]。

3) 無標注語料:為了進一步擴充預訓練語料的規模和多樣性,從多個來源收集了大量無標注的中文文本數據,如新聞、百科、小說等(如表1所示)。這些無標注語料雖然沒有情感標簽,但可以提供豐富的語言環境和語義信息,有助于模型學習通用的語言表示。

在數據預處理階段,對所有文本數據進行了分詞、詞性標注等操作,并利用情感詞典對文本中的情感關鍵詞進行了標注。最終,得到了一個包含數億個詞塊的大規模中文情感預訓練語料庫,為模型的訓練提供了充足的數據支持。

3 實驗模型評估

3.1 數據集

為了全面評估本文提出的面向情感建模的中文預訓練模型的效果,在3個公開的中文情感分析數據集上進行了實驗,分別為:

1) ChnSentiCorp數據集:該數據集由譚松波等人從酒店、筆記本電腦和書籍3個領域的用戶評論中收集而成,包含12 000條正向情感樣本和12 000條負向情感樣本。隨機選擇80%的數據作為訓練集,10%作為驗證集,10%作為測試集。

2) Weibo_senti數據集:該數據集由Xiang Lian等人基于新浪微博平臺構建,包含180 000條微博文本,并標注了正向、負向和中性3種情感極性。隨機選擇70%的數據作為訓練集,10%作為驗證集,20%作為測試集。

3) NLPCC2014數據集:該數據集源自NLPCC2014公開評測任務,由網易新聞的用戶評論構成,包括12 000條正向評論和12 000條負向評論。采用官方提供的數據劃分,其中訓練集、驗證集和測試集的比例分別為80%、10%和10%。

以上3個數據集涵蓋了不同的文本體裁和領域,對模型的泛化能力提出了考驗。在每個數據集上進行獨立的實驗,并報告模型在測試集上的準確率(Accuracy) 、精確率(Precision) 、召回率(Recall) 和F1值(F1-score) 。

3.2 實驗設置

在實驗中,將本文提出的情感增強預訓練模型(以下簡稱SEPT) 與以下基線模型進行了比較:1) BERT:使用中文BERT-Base模型作為基線,該模型在大規模通用語料上進行了預訓練,并在下游任務上進行微調。2) RoBERTa:使用中文RoBERTa-Base模型作為另一個基線,該模型在訓練過程中優化了BERT的一些超參數,并去除了下一句預測(NSP) 任務。3) BERT+SC:為了驗證情感分類任務對預訓練的貢獻,在BERT的基礎上加入情感分類任務進行預訓練,記為BERT+SC。4) BERT+SEMLM:為了驗證情感詞典增強掩碼語言建模任務的效果,在BERT的基礎上加入SEMLM任務進行預訓練,記為BERT+SEMLM。

對于所有模型,使用相同的詞塊化方式和詞表,并在預訓練和微調階段使用相同的超參數設置。在預訓練階段,使用AdamW優化器,學習率設為2e-5,批大小設為64,訓練輪數為10。在下游任務微調階段,使用AdamW優化器,學習率設為3e-5,批大小設為32,訓練輪數為5。所有實驗都在NVIDIA Tesla V100 GPU上進行。

3.3 實驗結果與分析

表2展示了各個模型在3個數據集上的情感分類性能。從結果可以看出,本文提出的SEPT模型在所有數據集上都取得了最佳表現,相比基線模型有顯著的性能提升。具體而言,與BERT和RoBERTa相比,SEPT的準確率平均提高了2.1%和1.4%,F1值平均提高了2.3%和1.6%。這表明,通過在預訓練階段引入情感知識和多任務學習策略,SEPT能夠更好地捕捉和理解文本中蘊含的情感信息,從而在下游情感分析任務上取得更優的性能。

進一步分析了不同預訓練任務對模型性能的影響。相比單獨使用情感分類任務的BERT+SC,SEPT在3個數據集上的準確率平均提高了0.8%,F1值平均提高了1.0%。這說明情感詞典增強掩碼語言建模任務能夠提供與情感分類任務互補的語義信息,兩個任務的結合可以更好地提升模型的情感建模能力。

為了進一步分析SEPT模型的情感建模能力,對測試集中的樣本進行了案例研究(Case Study) 。圖2展示了幾個具有代表性的樣本及其預測結果。可以看出,SEPT能夠準確地判斷出文本的情感傾向,即使在一些含有隱晦情感表達或出現負面詞匯的中性文本中,也能做出正確的預測。這得益于模型在預訓練階段學習到的豐富情感語義知識和語境理解能力。

綜上所述,本文提出的面向情感建模的中文預訓練模型SEPT能夠有效地將外部情感知識引入預訓練過程,并通過多任務學習策略增強模型對情感語義的理解和表示能力。實驗結果表明,SEPT在多個情感分析數據集上均取得了顯著的性能提升,證明了該方法的有效性。未來工作將探索將情感預訓練模型應用到其他情感相關任務,如觀點提取、情感原因識別等,進一步拓展模型的應用范圍。

4 結束語

本文針對中文預訓練語言模型在情感分析任務中的局限性,提出了面向情感建模的改進方法。通過引入外部情感知識和多任務學習策略,提高了模型對情感語義的理解能力。在3個情感分析數據集上的實驗表明,本文提出的方法取得了顯著的性能提升。未來工作將探索將情感預訓練模型應用到其他情感相關任務,如觀點提取、情感原因識別等,進一步拓展模型的應用范圍。

參考文獻:

[1] 張韜政,蒙佳健,李康.基于模型不可知元學習與對抗訓練的中文情感分析研究[J].中國傳媒大學學報(自然科學版),2023,30(3):31-40.

[2] 孫凱麗,羅旭東,羅有容.預訓練語言模型的應用綜述[J].計算機科學,2023,50(1):176-184.

[3] 王麗.基于MacBERT的互聯網新聞情感分析[J].信息記錄材料,2023,24(1):148-152.

[4] 丁美榮,馮偉森,黃榮翔,等.基于預訓練模型和基礎詞典擴展的酒店評論情感分析[J].計算機系統應用,2022,31(11):296-308.

[5] 王東,李佩聲.融合膠囊網絡的中文短文本情感分析[J].重慶理工大學學報(自然科學),2023,37(5):178-184.

【通聯編輯:謝媛媛】

主站蜘蛛池模板: 无码精品一区二区久久久| 国产视频a| 亚洲三级成人| 国产成+人+综合+亚洲欧美| 一级在线毛片| yjizz视频最新网站在线| 国产精品综合久久久| 欧美色综合网站| 日韩天堂在线观看| 国产欧美日韩va另类在线播放| 亚洲一级毛片在线观播放| 欧美另类视频一区二区三区| 在线免费无码视频| 在线观看国产小视频| 欧美日韩中文字幕在线| 亚洲综合欧美在线一区在线播放| 国产精品亚欧美一区二区| 国产欧美视频在线观看| 亚洲男人的天堂在线| 亚洲第一成年人网站| 国产午夜福利在线小视频| 日韩精品免费一线在线观看| 国产成年女人特黄特色大片免费| 97se亚洲综合不卡| 国产av剧情无码精品色午夜| 88国产经典欧美一区二区三区| 91精品国产91久无码网站| 亚洲色图欧美在线| www.日韩三级| 国产一级毛片在线| 亚洲一级无毛片无码在线免费视频 | 欧美不卡在线视频| 露脸一二三区国语对白| 欧美精品1区2区| 欧美成在线视频| 国产幂在线无码精品| 欧美一区国产| 午夜视频在线观看区二区| 日韩精品久久无码中文字幕色欲| 一级毛片基地| 国产午夜精品一区二区三| 国产成人无码久久久久毛片| 国产男女XX00免费观看| 六月婷婷激情综合| 欧美劲爆第一页| 亚洲最大福利网站| 国产成人精品男人的天堂| 婷婷成人综合| 国产97视频在线观看| 高清无码一本到东京热| 久久亚洲欧美综合| 午夜爽爽视频| 国产欧美精品午夜在线播放| AV老司机AV天堂| 精品国产成人国产在线| 久草视频一区| 凹凸国产分类在线观看| 国产成人免费观看在线视频| 国产精品视屏| 欧美成人国产| 91在线免费公开视频| 9cao视频精品| 美女一级毛片无遮挡内谢| 亚洲一级毛片| 色综合中文| 欧美日韩第三页| 亚洲精品色AV无码看| 久久久久久久久18禁秘| 久久久噜噜噜| 18黑白丝水手服自慰喷水网站| 91丝袜乱伦| 亚洲日本中文字幕乱码中文| 99精品免费在线| 国产欧美日韩18| 国产精品无码影视久久久久久久| 欧美性猛交xxxx乱大交极品| 伊人无码视屏| 五月婷婷伊人网| 欧美性猛交xxxx乱大交极品| 香蕉国产精品视频| 亚洲欧洲综合| 色香蕉影院|