999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的中文諷刺定義與識別研究

2024-04-23 02:29:16張藝博
中阿科技論壇(中英文) 2024年4期
關鍵詞:定義機制文本

嚴 帥 張藝博

(成都錦城學院,四川 成都 611731)

在語言學與計算機兩大研究領域,尤其是在對中文復雜情感識別的探索中,諷刺與反語、反諷這兩個近義詞在定義上經常產生混淆。深度學習作為近年來人工智能領域逐漸成熟的技術,為我們提供了全新的視角與方法來探索和理解這類復雜的語言現象。其通過模擬人腦神經網絡的工作原理,在大量語料庫中學習和提取語言的深層次特征,從而能夠實現對中文諷刺等復雜情感的精準識別。

無論是社交媒體情感分析,還是智能客服語義理解等場景,都需要對中文諷刺進行準確的識別和處理以提升任務效果。諷刺與反語、反諷雖然在情緒表達的功能與效果上較為相似,但在具體界定和語境運用上存在一定的差異。這種差異可能導致語料庫構建過程中采集和標注的不準確,進而影響基于深度學習的中文諷刺識別分類模型的訓練效果。因此,有必要深入分析諷刺規律,探索有效的諷刺語料庫有效性驗證方法,以及利用注意力機制捕捉與諷刺密切相關的上下文信息,以提升模型訓練效果。

1 中文諷刺及其近義詞定義

1.1 反語的定義

《辭海》將“反語”定義為用與本意相反的話語來表達本意。李澤娟(2010)認為反語可以等價理解為說反話[1]。閻蘋等(2009)則認為反語是通過使用與字面意思相反的話語來表達難以直接表述的內容[2]。反語可劃分為正義反說和反義正說兩類。正義反說指用否定的形式來表達肯定的意思,從而形成一種反差的效果。這種反差不僅增強了語言的趣味性,還使得表達的內容更加引人注目。例如“自古以來主賢臣直,……今魏征敢于立言勸諫,全賴圣上賢明”[3]中,“賴”字與夸獎本意的相反關系。反義正說則是用肯定的形式來表達否定的意思,這種方式與正義反說正好相反,它是通過將負面的內容以正面的方式表達出來。如“我真是喜歡讓我春游不了的雨天”(出自本文構建的數據集IROLIT 2024)中,“喜歡”一詞與不喜歡本意的相反關系。反語的修辭重點在于“反”而不在于反諷和諷刺兩種修辭所著重強調的“諷”,這是反語與兩者最明顯的區別。

1.2 反諷的定義

《辭海》將“反諷”定義為語境對一個陳述語的明顯的歪曲。曾衍桃(2006)認為作者在生成反諷時關注的生成重點在于是否產生嘲弄嘲諷的情緒,而不著重在于說反話[4]。本文認為,反諷是通過言辭與實際情況之間的明顯矛盾來表達言外之意的一種修辭方式。它往往依賴于特定的語境和聽者的理解,因為字面上的意義與實際意圖之間存在差異。反諷與反語之間存在“反”這一共性,但反語主要依賴于字面意義與實際意圖之間的反差,而反諷則更側重于言辭與實際情況之間的矛盾。如“多養珍禽異獸,敵人就不敢來了,如果敵人從東方來了,可以下令麋鹿把他們頂回去,就不用士兵了”[5]中,表面是通過言辭在贊同“多養珍禽異獸以抵御敵人”的主意,實際上“珍禽異獸能夠抵御敵人的能力”與事實之間存在明顯矛盾,正是這種矛盾構成了反諷的核心。

1.3 諷刺的定義

《辭海》將“諷刺”定義為用譏刺和嘲諷來揭露、挖苦丑陋的落后事物和荒謬行為。范岳(1981)認為諷刺時常以反語的形式表現出來,且有些諷刺的效果是通過說話者的語言同他所要表達的真實思想之間的矛盾性造成的[6]。曹婉君(1999)則認為反語可以具有諷刺意味,但大多數情況下并不具有諷刺意味[7]。本文認為諷刺是反諷的擴展,諷刺在反諷的定義基礎上不再過于依賴言辭與實際情況之間的矛盾,而是引入了諷刺情景信息詳細度與客觀事實矛盾需求間的反比關系。諷刺情景信息詳細度越接近于極限,諷刺對語境反轉陳述句表面意思的需求就越低,同時諷刺還常運用比喻和夸張等修辭手法。整個句子沒有構造反轉和矛盾,而是通過細化闡述以提高諷刺情景信息詳細度,并降低對客觀事實矛盾的需求或使用夸張手法。

2 中文諷刺語料庫現狀

目前已有的中文諷刺識別研究中存在語料庫規模太小、諷刺數據標注方法不夠準確等語料庫質量問題。Tang等(2014)用基于表情符的規則從plurk挖掘繁體中文諷刺語料1 005條,并總結了多種諷刺語言模式[8]。此語料庫基于傳統反語的“說反話”定義,但將數據歸類為“高強度副詞短語+正形容詞短語+負面背景”“高強度積極形容詞+負面背景”“高強度積極名詞+負面背景”等基于語法結構的反諷分類模式,存在定義不明、反諷分類模式泛用性較低等語料庫質量問題。例如,給詞語添加雙引號制造反語以及將語境聯系產生反諷等多種反諷模式都無法歸類進Tang的諷刺模式中。大部分諷刺研究者都是直接使用已有語料庫或在已有語料庫基礎上進行少量擴充。例如,李明峰等(2018)使用Tang標注的1 005條諷刺語料與從COAE2014中抽取篩選的2 000條非諷刺語料構成語料庫[9]。Sun等(2016)通過人工篩選,從新浪微博獲取了1 030條諷刺語料,加上Tang的1 005條反諷語料以及從微博、博客隨機獲取的1 000條非反諷語料,共同構建了一個包含反諷、諷刺和正常三個類別的語料庫[10]。但這些語料庫存在的共有問題是忽視了語料庫的質量對模型效果的影響。即便對模型進行了優化,也沒有很好把握到諷刺文本的多種特征。

3 諷刺識別相關技術

3.1 卷積神經網絡

卷積神經網絡(CNN)是主要用于處理網格狀數據的神經網絡,其通過卷積層對數據的空間層級特征自動進行提取,并通過池化層減小數據的空間維度[11]。通過對多層次的抽象特征表示進行學習,CNN模型能更好地理解和捕捉輸入文本數據的局部和全局結構。

諷刺文本有時是短小的句子,CNN能通過卷積操作捕捉局部的語義特征,有效地識別一些局部的情感表達。CNN通過卷積核的滑動操作可保持平移不變性,即模型能無視情感表達所在位置影響來檢測情感特征。這對處理諷刺文本中情感信息的位置不確定性有一定幫助。

3.2 長短時記憶網絡

長短時記憶網絡(LSTM)[12]作為一種特殊的循環神經網絡(RNN),相比傳統的RNN結構,其設計的初衷在于解決長期依賴問題。LSTM的核心結構包括細胞狀態、輸入門、遺忘門和輸出門。這些組件使得網絡具有了長期記憶、抗梯度消失和靈活性等特點。在處理諷刺文本這樣的復雜長語境時,LSTM具有獨特優勢。諷刺文本通常具有多層次的語義結構和豐富的上下文信息,傳統模型往往難以捕捉其中的長期依賴關系。而LSTM能夠通過其門控結構對文本中的關鍵信息進行更有效的提取,特別是其對輸入的敏感性可調,使得網絡能夠根據情感表達的細微變化進行靈活調整,從而更好地捕捉諷刺文本中的情感信息變化。此外,LSTM對變長序列的處理能力也使其更適應諷刺文本的多樣化長度,為諷刺識別模型的建模提供了更大的靈活性。

3.3 注意力機制

注意力機制允許神經網絡在處理輸入數據時集中注意力于相關的部分。其克服了傳統神經網絡中隨著輸入長度增加系統的性能下降、輸入順序不合理導致系統的計算效率低下、系統缺乏對特征的提取和強化等局限,能更好地建模具有可變長度的序列數據,以此增強自身捕獲遠程依賴信息的能力,在減少層深度的同時提高精度[13]。

在深度學習中,注意力機制能夠通過不斷調整權重的方式將網絡的關注點聚焦于數據中最重要的小部分。注意力機制會對序列中各元素與其余元素之間的相似度進行計算,并歸一化為注意力權重。再將每個元素與其注意力權重進行加權求和,以產生自注意力輸出。注意力機制對中文語境諷刺文本的處理,在理想情況下會對每個元素計算相似度,找出差值過大個體并增大其輸入權重。相似度差值過大的元素,為語句中的不和諧元素,即諷刺語句中“反”的部分。因此,在由注意力機制對語句中的不和諧元素增大權重后,模型相比引入注意力機制前能更精確地捕捉到諷刺語句的特點,從而增強模型訓練效果。

4 實驗與分析

4.1 基于近似關系的諷刺定義

基于對諷刺及其近義詞定義與相互關系的探討,本文認為無論是自身真實意圖與陳述句表面意思相反的諷刺型反語,還是通過語境來反轉陳述句表面意思的反諷,都屬于諷刺領域的一部分。反語中的大部分反義正說和少部分帶有幸災樂禍的正義反說屬于諷刺型反語,反諷與諷刺型反語由于各自“反”的性質不同所以兩者是諷刺中相隔離開的概念,諷刺相比反諷而言有更多的情景信息以及修辭手法的使用,其所含情景信息越多,修辭手法程度越強,對語境反轉陳述句表面意思的需求就越低,在情景信息詳細度與修辭手法程度達到一定量時,無須任何種類的“反”都可以體現出諷刺。所以諷刺是部分反語、小情景反諷、修辭諷刺和大情景諷刺共同組成的概念,有必要從詞語反向、事實違背、修辭強度、情景信息量與事實反向間的關系等方向展開探討。

4.2 IROLIT 2024諷刺語料庫構建與探索

本文基于近似關系的諷刺定義提出更符合諷刺產生規律的諷刺文本采集標準,此標準將詞語反向和事實違背量化為違和度,將修辭強度量化為標點符號的使用情況,將情景信息量量化為文本長度。其中違和度包括“形容詞褒貶不和諧”“感謝或期望不和諧”“同音字或諧音字替代不和諧”“雙引號表反義不和諧”“稱呼與自嘲不和諧”“專有名詞及關聯標題不和諧”“程度不和諧”。為保證文本分類的可靠性,采用人工采集與標注方法。本文分別從Tang的語料庫獲得了946條(2014年)、從新浪微博采集了1 331條(2018年)、從B站采集了670條(2024年),共計2 947條中文諷刺文本,與2 947句從三個采集點隨機采集的非諷刺文本構成共計5 894條文本的中文諷刺語料庫IROLIT 2024,其文本長度單位為字符。此語料庫中的諷刺文本長度分布與非諷刺文本長度分布大致接近,且0~20字符長度之間的文本數量分布的坡度遠比20~30和30~100字符長度之間的文本數量分布的坡度陡峭。可以發現,各社交媒體的用戶在發表看法時更傾向于使用字符長度為20~100的文本。不論是諷刺還是非諷刺文本,如果社交媒體用戶希望表達復雜情感,都需要結合一定情景信息量,而情景信息量的多少很大程度上取決于文本長度。

為驗證中文諷刺特征規律隨時間變化這一觀點,本文對自建自標注IROLIT 2024語料庫進行了中文諷刺情感符號使用頻度隨時間變化的統計分析。

本文對數據集中所包含的三個來源的數據分別按照時間進行了統計,三個來源分別是2014年的plurk,2018年的新浪微博和2024年的B站。為保證結論的嚴謹性,之后又從2024年的plurk、新浪微博、B站各采集100條文本作為同一年代不同平臺條件下的補償文本,用于補償平臺不同對統計結果的影響,提高統計結果的可靠性。以下是補償系數和補償結果公式:

圖1 中文諷刺情感符號頻度隨時間變化規律

4.3 對抗訓練及注意力機制效果實驗

本節實驗在訓練時語料庫均采用4.2節中建立的IROLIT 2024諷刺語料庫,并對各模型學習率和訓練輪數等參數的設置進行了統一,以保證對比結果的變量控制。考慮到本文將中文諷刺識別任務設定為文本二分類的任務,選擇常用于文本分類任務的兩種實驗性能指標——準確率和F1值作為本實驗中評價模型性能的指標。按照語句長度分布規律使用IROLIT 2024對Tang的含1 005條諷刺語料的COLING 2014語料庫進行了非諷刺文本的補充,使其變成由數量均衡的諷刺文本和非諷刺文本構成的COLING 2014_Z語料庫。之后對IROLIT 2024和COLING 2014_Z進行了十折交叉,將兩個語料庫各自分成了訓練集、驗證集和測試集并分兩種情景進行對抗訓練實驗。情景一是使用COLING 2014_Z自身的訓練集、驗證集和測試集在各模型上進行訓練和測試。情景二則是使用COLING 2014_Z的訓練集、驗證集和IROLIT 2024的測試集在各模型上進行訓練。訓練模型構建了TextCNN、TextRCNN、DPCNN、TextRNN、Transformer、LSTM、FastText這7個深度學習常用模型,訓練效果如表1所示。

表1 對抗訓練情景實驗結果比較

對抗訓練實驗結果表明,即使用于測試的IROLIT 2024測試集中包含一些COLING 2014_Z語料庫在訓練中已見過的文本,依舊讓原本在情景一中自身測試集上獲得了較高精確度和F1值的COLING 2014_Z語料庫在情景二中IROLIT 2024測試集上獲得的精確度和F1值產生了明顯的下降,最終在所有訓練模型上的平均精確度下降了25.51%,平均F1值下降了26.94%。

依據對抗訓練情景實驗結果,本文認為傳統諷刺定義過于寬泛,易產生定義不清的問題。COLING 2014語料庫采用的諷刺模式定義的范圍也過于狹窄,很大程度上影響諷刺語料庫中諷刺種類與特征的多樣性以及在這一語料庫上訓練獲得的模型的泛化性能。本實驗采取使用新語料庫的測試集對以往語料庫進行測試攻擊的方式,證明了本文基于近似關系的諷刺定義相比以往中文諷刺語料庫構建的諷刺定義標準,能更好地捕捉不同種類和特征的中文諷刺文本,且擁有更好的泛化性能與可靠性。

此外,本文還選取TextRNN模型與LSTM模型進行注意力機制效果實驗,并與引入注意力機制后的TextRNN_Att和LSTM_Att模型訓練效果進行對比,結果如表2所示。

表2 注意力機制效果實驗結果比較

注意力機制效果實驗結果表明,引入注意力機制后,RNN模型各方面性能反而下降,而LSTM模型則有明顯提升。推測RNN由于其簡單循環結構,加入注意力機制后可能無法有效利用額外信息而性能下降,同時RNN更容易受梯度消失影響,此缺點會在引入注意力機制后進一步加劇,而注意力機制需要更穩定的梯度來進行學習。相比之下,LSTM本身已經具有處理長期依賴的能力,引入注意力機制后,LSTM獲得了更加精細的信息篩選方式,使得模型在預測每個輸出時,能夠更加準確地關注到對應的輸入信息。因此,引入注意力機制在對中文語境諷刺的判斷任務中并不一定對所有架構的模型都具有正向作用,是否引入這一機制需要結合實際情況判斷。

5 結語

本文提出了新的諷刺定義并按照該定義構造了新的中文諷刺語料庫IROLIT 2024,為未來的中文諷刺語料庫構建提出了中文諷刺標注改進思路。隨后基于新語料庫進行了中文諷刺情感規律的探索,得出了語料庫長度分布特點及用戶諷刺習慣隨時間推移在不斷變化的結論,為將來如何更符合諷刺發展規律地選擇和捕捉中文諷刺特征提供了新的思路和角度。

本文重點分析了深度學習技術融入諷刺識別任務的思路,包括CNN、LSTM、注意力機制等,特別是通過實驗分析證明了基于新定義的語料庫構建方法的有效性,并結合新語料庫驗證了注意力機制的引入進一步幫助神經網絡模型捕捉中文諷刺的上下文特征,但也存在梯度問題風險。此發現不僅為未來自然語言處理研究者提供了新方法,也為相關具體應用提供了風險規避建議。

展望未來,研究將持續關注中文諷刺的語言學解構、中文諷刺相關規律探索、注意力機制優化以更好地捕捉中文諷刺特征等方向,以期推動自然語言處理技術進一步發展。

猜你喜歡
定義機制文本
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 福利一区在线| 久久精品亚洲中文字幕乱码| 成人日韩精品| 亚洲精品桃花岛av在线| 在线精品视频成人网| 亚洲区一区| 国产在线精品香蕉麻豆| a欧美在线| 久久男人视频| 国产美女无遮挡免费视频| 日本精品视频一区二区| 亚洲AⅤ无码日韩AV无码网站| 国产成人AV大片大片在线播放 | 国产福利一区在线| 亚洲天堂色色人体| 最新国产在线| 无码国产偷倩在线播放老年人| 亚洲成人在线免费观看| 国产精品久久久久无码网站| 国产成人亚洲综合a∨婷婷| 亚洲一区国色天香| 免费一级毛片| 欧美成人a∨视频免费观看| 国产天天射| 精品久久777| 岛国精品一区免费视频在线观看 | 四虎国产永久在线观看| 国产精品xxx| 夜夜操狠狠操| 奇米影视狠狠精品7777| 色婷婷电影网| 成年人国产视频| 亚洲三级色| 国产日韩欧美精品区性色| 麻豆AV网站免费进入| 久久精品电影| 久久亚洲天堂| 亚洲欧美h| 伊人91在线| 亚洲精品视频在线观看视频| 一级毛片不卡片免费观看| 国产视频欧美| 高潮爽到爆的喷水女主播视频| 欧美午夜一区| 99er这里只有精品| 国产精品久久久久久久久| 高清精品美女在线播放| 国产成人精品免费视频大全五级| 亚洲欧洲日产国产无码AV| 青草91视频免费观看| 亚洲久悠悠色悠在线播放| 特黄日韩免费一区二区三区| 9cao视频精品| 国产成人综合日韩精品无码首页 | 亚洲天堂精品视频| 国产乱人免费视频| 亚洲第一中文字幕| 日韩欧美国产中文| 国产成a人片在线播放| 91欧美亚洲国产五月天| 国产综合精品日本亚洲777| 色综合综合网| 日本免费新一区视频| 国产农村妇女精品一二区| 国产女人在线观看| www成人国产在线观看网站| 少妇人妻无码首页| 国产成人精品高清不卡在线| 色综合色国产热无码一| 亚洲天堂成人在线观看| 99视频精品在线观看| 91国内外精品自在线播放| 国产一区成人| 妇女自拍偷自拍亚洲精品| 中文国产成人久久精品小说| 伊人色综合久久天天| 国产丝袜无码精品| 中文字幕无线码一区| 精品国产aⅴ一区二区三区| 日本一区二区三区精品AⅤ| 久久这里只精品国产99热8| 毛片免费在线|