999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義特征提取的隱式情感分析方法

2025-02-06 00:00:00叢眸彭濤朱蓓蓓
吉林大學學報(理學版) 2025年1期

摘要: 針對目前隱式情感語句中情感詞不明顯或較少、 表達方式委婉等問題, 提出一種基于語義特征提取的隱式情感分析方法.

該方法通過引入與隱式情感語句相關的事實信息作為輔助特征, 并利用RoBERTa預訓練模型對文本及其輔助特征進行深度語義交互, 以獲取全局特征;

同時, 采用雙向門控循環單元(BiGRU)捕捉局部特征, 最后結合注意力池化技術計算情感權重, 從而更準確地識別和理解隱含的情感信息. 在數據集Snopes和PolitiFact

上進行仿真實驗, 實驗結果表明, 該方法在隱式情感分析方面性能優異, 不僅在多個評價指標上超越了現有方法, 且整體性能得到顯著提升, 為更廣泛的情感分析應用場景提供

了有效的解決方案, 特別是在處理復雜和間接表達的情感內容時, 具有重要的應用價值和意義.

關鍵詞: 語義特征; 隱式情感分析; 雙向門控循環單元; 注意力池化

中圖分類號: TP391.43" 文獻標志碼: A" 文章編號: 1671-5489(2025)01-0107-07

Implicit Sentiment Analysis Method Based onSemantic Feature Extraction

CONG Mou1, PENG Tao1,2, ZHU Beibei1

(1. College of Computer Science and Technology, Jilin University, Changchun 130012, China;

2. Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University, Changchun 130012, China)

收稿日期: 2023-12-29.

第一作者簡介: 叢 眸(1999—), 女, 漢族, 碩士研究生, 從事自然語言處理的研究, E-mail: congmou21@mails.jlu.edu.cn.

通信作者簡介: 彭 濤(1977—), 男, 漢族, 博士, 教授, 博士生導師, 從事數據挖掘及Web挖掘、 信息檢索、 機器學習和自然語言處理的研究, E-mail: tpeng@jlu.edu.cn.

基金項目: 國家自然科學基金(批準號: 61872163)和吉林省科技廳重點科技研發項目(批準號: 20210201131GX).

Abstract: Aiming at the problems of"" less obvious or fewer sentiment words and euphemistic expressions in current implicit sentiment statements,

we proposed an implicit sentiment analysis method based on semantic feature extraction. The method" introduced factual information related to implicit sentiment statements as auxiliary features,

and used RoBERTa pre-training model to perform deep semantic interaction between the text and its auxiliary features in order to obtain global features. At the same time, a bidirectional gated

recurrent unit (BiGRU) was used to capture local features, and finally, the sentiment weight was calculated by combining with attention pooling technique, so as to identify and understand the implicit

sentiment information more accurately. The simulation experiments were conducted on" Snopes and PolitiFact datasets, and the results show" that the method has excellent performance" in implicit sentiment analysis.

It not only surpasses existing methods in multiple evaluation metrics, but also significantly improves the overall performance, providing an effective solution for a wider range of sentiment analysis

application scenarios, especially when dealing with complex and indirectly expressed sentiment content, it has important application value and significance.

Keywords: semantic feature; implicit sentiment analysis; bidirectional gated recurrent unit; attention pooling

情感分析用于解決文本情感傾向性問題, 是自然語言處理中較熱門的研究領域[1]. 文本情感語句分為顯示情感語句和隱式情感語句[2], 其中隱式情感語句不含或含

有較少明顯的情感詞. 隨著互聯網技術的發展, 海量信息的涌現使文本種類變多、 格式變得更復雜, 以至于難以被模型理解, 其中隱式情感語句起到了主導作用. 因此, 如何

對隱式情感語句進行分析與特征提取成為自然語言處理中的一個難點. 早期的情感分析方法主要包括基于情感詞典的方法和基于機器學習的方法[3]. 基于情感詞典

的方法使用情感詞典提取文本中的關鍵詞計算加權, 但該方法需消耗大量人力和時間成本. 基于機器學習的方法使用特定的算法對文本中的關鍵詞進行特征提取, 但該方法針對不同

領域的任務需人工調整算法, 無法實現自動化情感分析.

目前主流方法是利用深度學習進行情感分析, 實現自動提取文本中的語義信息. Chen等[4]將軟注意力機制應用于循環神經網絡(recurrent neural network, RNN), 使其

能同時關注特定的獨特特征并捕捉信息隨時間的上下文變化; De Sarkar等[5]提出了一種分層注意力模型, 該模型在不使用手工特征的情況下選擇性地捕獲文檔中的關鍵句

子; Sun等[6]提出了一種基于雙向門控循環單元(bidirectional gated recurrent unit, BiGRU)的多變量時間序列預測方法——膠囊網絡模型, 引入了用戶角色的特征.

但僅考慮語句本身作為情感分析的數據來源并不夠, 因為當文本的語義較復雜時, 除待分析的語句外還有很多與之相關的事實信息, 這些信息同樣重要. 針對上述問題, Zhi等[7]

采用Web和事實數據庫, 可實時判斷實時查詢文本的真實性, 并以支持證據為其判斷提供依據. Popat等[8]提出了一種基于雙向長短期記憶網絡(bidirectional

long short-term memory, BiLSTM)的端到端神經網絡, 用于聚合外部證據. Rao等[9]使用兩級粒度注意力屏蔽雙向Transformer編碼器表示(bidirectional encoder representat

ions from transformers, BERT), 提出了一種層粒度的集成模型, 其中注釋作為重要的輔助特征, 可掩蓋淺層文本與文本之間的共同關注點. 目前的情感分析研究主要集中于顯式

情感分析語句, 忽視了隱式情感分析的重要性. 而隱式情感語句在日常應用場景十分常見, 目前針對隱式情感分析任務存在以下幾個問題: 1) 隱式情感語句缺乏通用性, 與

顯式情感語句相比和語境的關聯程度更大; 2)隱式情感語句不含或含有較少明顯的情感詞, 語言表達更委婉.

為解決上述問題, 本文提出一種基于語義特征提取的隱式情感分析方法. 該方法引入與隱式情感語句相關的事實信息作為外部證據; 使用RoBERTa(robustly optimized BERT pretra

ining approach)對隱式情感語句和外部證據進行預訓練和全局的特征提取, 并進行深度的語義交互; 為學習文本中的局部特征, 使用雙向門控循環單元(BiGRU)對文本進行上下

文特征提取. 該方法針對隱式情感語句設計了不同的特征提取策略, 能更有效、 更完整地捕捉隱式情感語句中包含的情感特征, 在數據集Snopes和PolitiFact上的實驗結果表明, 本文方法比現有方法效果更好、 性能更佳.

1 問題定義

情感分析任務是對情感語句進行二分類(貶義、 褒義), 由于隱式情感語句的語義較復雜, 除語句本身外還有很多對分類任務有重要影響的事實信息. 因此, 本文在提取隱式情感

語句語義特征的同時, 也對與之相關的事實信息進行情感特征提取. 本文的分類任務可定義為: 對給定的任意隱式情感語句Sn和若干個與之相關的事實信息

Em,n進行分類預測得到標簽Ym,n, 表示其情感極性, 其中Ym,n=1表示褒義, Ym,n=0表示貶義. 本文隱式情感語句的分類任務可定義為

(Sn,Em,n)→Ym,n={0,1},(1)

2.1 嵌入層

由于易于微調, BERT[10]和RoBERTa[11]被廣泛用于各種下游自然語言處理任務中. 本文選擇RoBERTa作為骨干網絡, 因為它是性能較好的基線. RoBE

RTa有3種嵌入編碼, 分別為標記嵌入、 分割嵌入和位置嵌入, 其中標記嵌入是基于WordPiece嵌入對模型進行預訓練得到的詞向量. 該模型在輸入文本時, 除在單詞的開頭和結尾

插入特殊的標志位(CLS和SEP)外, 還將每個單詞對應到一個標記嵌入向量上, 以分割句子. 使用WordPiece嵌入可比傳統的詞向量更好地處理未知詞和子詞的組合. 嵌入層結構如圖2所示.

2.2 語義交互層

將Sn=(s1,s2,…,sn)視為n個隱式情感語句的序列, 將E

m,n=(e1,e2,…,em)視為與Sn相關的事實信息的序列. 在語

義交互層中, 采用12層的Transformer雙向編碼器提取情感語句中的特征. 首先, 隱式情感語句Sn和與之相關的事實信息Em,n交互, 計算公式為

Attention(Em,n,Sn,Sn)=Softmax

Em,n,STndSn,(2)

其中向量Em,n作為查詢(query), 向量Sn作為鍵(key)和值(value), 在Transformer編碼器中進行深度語義交互, 鍵和值由不同的可學習線性層投影h次.

每個Transformer編碼器由兩個子層的模塊化單元組成: 多頭自關注和前饋網絡. 輸出被連接并轉換為原始大小, 從而生成最終的輸出:

Z=concat(H1,H2,…,Hh)Wo,(3)

其中Hj=Attention(EWEj,SWSj,SWSj), 線性變換為WEj,

3.1 數據集

數據集PolitiFact和Snopes[12]是情感分析領域常用的數據集. 數據集PolitiFact包含了美國政治人物的言論; 數據集Snopes是由事實核查員從Snopes網站上手

動驗證和分類的信息數據集, 包含各種主題信息. 各數據集的具體信息列于表1.

3.2 參數設定

本文模型基于TensorFlow-gpu 2.5.0,Kerasbert 0.89,Keras 2.4.3實現, GPU為RTX 4090 TI. 訓練集和測試集劃分為8∶2. 學習率為1×10-5, 批量大小為128, 最大序列長度為120.

3.3 對比模型

為評估本文方法在隱式情感語句分析任務上的性能, 選取多個基線模型進行對比, 包括: 捕獲不同卷積窗口大小的語義模型(CNN)[13]; 用于學習和表示詞序列的語義模

型(LSTM)[14]; 使用注意力機制捕捉序列中不同位置之間關系的Transformer模型(Transformer)[15]; 采用多層雙向Transformer編碼器的BERT模型(BERT)[10]; 更健壯的BE

RT變體RoBERTa, 其中測試了重要的BERT設計選擇和訓練策略(RoBERTa)[11]; 使用局部窗口注意力和任務驅動的全局注意力融合模型(Longformer)[16].

3.4 評價指標

為測試本文方法的性能, 選擇合適的評價指標對分類結果進行評價. 精度在二元分類任務中應用廣泛, 即使有少數樣本被錯誤分類, 仍可得到很高的準確

率. 因此, 為更全面評估基于語義特征提取的隱式情感分析方法的性能, 本文選擇準確率(Accuracy)、 F1值(F1-score)、 精度(Precision)和召回率(Recall)作為評估指標, 計算公式分別如下:

Accuracy=TP+TNTP+FN+FP+TN,(10)F1-score=2×TP2×TP+FN+FP,(11)

Precision=TPTP+FP,(12)Recall=TPTP+FN,(13)

其中TP,TN,FP,FN分別為真陽性、 真陰性、 假陽性和假陰性樣本數. 對所有的評估指標, 值越大性能越好.

3.5 實驗結果

表2列出了在數據集PolitiFact和Snopes上本文模型和對比模型各評價指標的結果.

由表2可見, 本文模型性能優于選取的對比模型. 傳統的基于詞嵌入的CNN和LSTM模型的

分類性能最差, 因為這些方法常受限于淺層語義表示, 難以捕捉隱式情感語句中的復雜情感表達. 當從經典的深度學習語言模型轉移到基于Transformer的模型時, 兩個數據集的所有指標均

有約8~13個百分點的改進. 在這些方法中, Longformer擅長處理長序列, 與經典深度學習語言模型相比, 準確率約提高15個百分點. Longformer基于Transformer架構的模型在處理

長序列時具有明顯優勢, 這是因為它們可以有效緩解長距離依賴問題, 從而提高了對較長文本或復雜句子結構的情感分析準確性. BERT和RoBERTa在一般的文本分類任務上均較先進. 但與

這兩種方法相比, 本文模型在數據集Snopes上的準確率約提高2.9個百分點, 在數據集PolitiFact上的準確率約提高3.4個百分點. 從而證明了將BiGRU模塊組合到RoBERTa體系結構中能更好地提取

隱式情感語句中的語義特征, BiGRU模塊的加入使模型能在RoBERTa提供的全局語義基礎上進一步提煉局部特征. 這種組合方式不僅增強了對上下文的理解, 還特別適合處理那些情

感表達較隱晦、 需要結合前后文才能正確解讀的語句.

3.6 消融實驗

為檢驗本文模型各模塊的有效性, 進行RoBERTa與LSTM、 GRU堆疊的消融實驗, 設計了“RoBERTa_LSTM/GRU_N”模塊, 以驗證RoBERTa與LSTM、 GRU組合的可行性和有效性. 其中

N表示LSTM或GRU的迭代次數, N=1,2,3." 在數據集Snopes上對應的準確率、 F1值、 精度以及召回率列于表3. 由表3可見, RoBERTa_ GRU_3性能最好.

綜上所述, 針對隱式情感分析中存在的語義不易理解等問題, 本文提出了一種基于語義特征提取的隱式情感分析方法. 該方法將RoBERTa融合BiGRU捕捉隱式情感語句中的語義特征, 捕獲句子之間的依賴關系, 以此對隱式情感語

句及其與之相關的事實信息同時進行全局和局部的深層次特征提取. 在數據集Snopes和PolitiFact上的實驗結果表明, 本文模型在各評價指標上都性能良好. 與其他方法相比

, 本文模型架構簡單、 訓練速度較快、 精確度高, 在隱式情感語句分析任務的整體性能上獲得了有效提升, 消融實驗也驗證了模型中的各模塊對最終結果都有貢獻.

參考文獻

[1] 張銘泉, 周輝, 曹錦綱. 基于注意力機制的雙BERT有向情感文本分類研究 [J]. 智能系

統學報, 2022, 17(6): 1220-1227. (ZHANG M Q, ZHOU H, CAO J G. A Study on Double

BERT Directed Sentiment Text Classification Based on Attention Mechanisms [J]. Journal of Intelligent Systems, 2022, 17(6): 1220-1227.)

[2] 張軍, 張麗, 沈凡凡, 等. RoBERTa融合BiLSTM及注意力機制的隱式情感分析 [J]. 計算機工程與應用, 2022, 58(23): 142-150. (ZHANG Z, ZHANG L, SHEN F F, et al. Impl

icit Sentiment Analysis with RoBERTa Fusion BiLSTM and Attention Mechanisms [J]. Computer Engineering and Applications, 2022, 58(23): 142-150.)

[3] 武壯, 晁榮志, 陳湘國, 等. 基于BERT-MSCNN的同行評議情感分類研究 [J]. 軟件導

刊, 2023, 22(8): 54-58. (WU Z, CHAO R Z, CHEN X G, et al. A Study on Peer-Reviewed Sentiment Classification Based on BERT-MSCNN [J]. Software Guide, 2023, 22(8): 54-58.)

[4] CHEN T, LI X, YIN H, et al. Call Attention to Rumors: Deep Attention Based Recurrent Neural Networks for Early Rumor D

etection [C]//Trends and Applications in Knowledge Discovery and Data Mining. Berlin: Springer International Publishing, 2018: 40-52.

[5] DE SARKAR S, YANG F, MUKHERJEE A. Attending Sentences to Detect Satirical Fake

News [C]//Proceedings of the 27th International Conference on Computational Linguistics. [S.l.]: ACL, 2018: 3371-3380.

[6] SUN X, WANG C, Lü Y W, et al. Rumour Detection Technology Based on the BiGRU_C

apsule Network [J]. Applied Intelligence, 2023, 53(12): 16246-16262.

[7] ZHI S, SUN Y C, LIU J Y, et al. ClaimVerif: A Real-Time Claim Verification System

Using the Web and Fact Databases [C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. New York: ACM, 2017: 2555-2558.

[8] POPAT K, MUKHERJEE S, YATES A, et al. Declare: Debunking Fake News and False C

laims Using Evidence-Aware Deep Learning [EB/OL]. (2018-09-17)[2023-09-10]. https://arxiv.org/abs/1809.06416.

[9] RAO D N, MIAO X, JIANG Z H, et al. STANKER: Stacking Network Based on Level-Grain

ed Attention-Masked BERT for Rumor Detection on Social Media[C]//Proceedings

of the 2021 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2021: 3347-3363.

[10] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of Deep Bidirectional T

ransformers for Language Understanding [EB/OL]. (2018-10-11)[2023-10-01]. https://arxiv.org/abs/1810.04805.

[11] LIU Y H, OTT M, GOYAL N, et al. Roberta: A Robustly Optimized Bert Pretraining A

pproach [EB/OL]. (2019-07-26)[2023-10-15]. https://arxiv.org/abs/1907.11692.

[12] POPAT K, MUKHERJEE S, STR?GEN J, et al. Where the Truth Lies: Explaining

the Credibility of Emerging Claims on the Web and Social Media [C]//Proceedings of the 26th International Conference on World Wide Web Companion. New York: ACM, 2017: 1003-1012.

[13] WANG W Y. “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News

Detection [EB/OL]. (2017-05-01)[2023-09-20]. https://arxiv.org/abs/1705.00648.

[14] RASHKIN H, CHOI E, JANG J Y, et al. Truth of Varying Shades: Analyzing Languag

e in Fake News and Political Fact-Checking [C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2017: 2931-2937.

[15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need [C]//Procee

dings of the 31st International Conference on Neural Information Processing System. New York: ACM, 2017: 5998-6008.

[16] BELTAGY I, PETERS M E, COHAN A. Longformer: The Long-Document Transformer

[EB/OL]. (2020-04-10)[2023-10-20]. https://arxiv.org/abs/2004.05150.

(責任編輯: 韓 嘯)

主站蜘蛛池模板: 国产自产视频一区二区三区| 精品福利视频导航| 欧美精品三级在线| 波多野结衣一区二区三区AV| 国产欧美性爱网| 免费人成在线观看视频色| 干中文字幕| 麻豆精选在线| 国产成人av一区二区三区| 久久精品视频亚洲| 欧美在线国产| 四虎永久在线| 日韩国产黄色网站| 天天躁夜夜躁狠狠躁图片| 成人自拍视频在线观看| 欧美午夜理伦三级在线观看| 欧美爱爱网| 国产视频大全| 国产精品第一区| 在线观看无码av免费不卡网站| 国产麻豆va精品视频| 精品无码一区二区三区电影| 亚洲视频二| 欧美第九页| 91精品视频网站| 国产精品免费久久久久影院无码| 国产精品自在拍首页视频8| 欧美日韩精品一区二区视频| 在线免费亚洲无码视频| 狠狠色噜噜狠狠狠狠色综合久 | 人人澡人人爽欧美一区| 国产高清免费午夜在线视频| 激情亚洲天堂| 欧美亚洲激情| 91久久精品国产| 午夜毛片免费观看视频 | 中文字幕亚洲专区第19页| 久久国产高潮流白浆免费观看| 欧洲亚洲一区| 思思热精品在线8| 在线欧美日韩国产| 国产一在线| 中文字幕无码电影| 亚洲精品无码抽插日韩| 97久久免费视频| 看国产毛片| WWW丫丫国产成人精品| 91国内外精品自在线播放| 欧美亚洲一二三区| 亚洲h视频在线| 午夜三级在线| 亚洲人成网站在线观看播放不卡| 国产成人精品免费视频大全五级| 韩日免费小视频| 啪啪啪亚洲无码| 91成人在线免费观看| 黄色在线网| 9cao视频精品| 黄网站欧美内射| 国产精品成人观看视频国产| 国产91视频免费| 欧美日韩午夜视频在线观看 | 国产精品亚洲欧美日韩久久| 免费毛片网站在线观看| 色婷婷色丁香| 又黄又湿又爽的视频| 久久这里只有精品免费| 久久中文无码精品| 国产无遮挡猛进猛出免费软件| 色一情一乱一伦一区二区三区小说| 中文字幕无码中文字幕有码在线| 国产精品成| 日韩精品无码一级毛片免费| 麻豆国产精品视频| 国产精品免费p区| 亚洲欧美另类日本| 久久免费看片| 免费高清a毛片| 国产成人高清精品免费| 国产原创自拍不卡第一页| 无码一区18禁| 成人一级黄色毛片|