999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語言學特征與層次注意力機制的幽默識別

2020-08-19 07:00:56鄒艷波樊小超
計算機工程 2020年8期
關鍵詞:語義特征文本

楊 勇,楊 亮,鄒艷波,任 鴿,樊小超,

(1.新疆師范大學 a.計算機科學技術學院; b.物理與電子工程學院,烏魯木齊 830054;2.大連理工大學 計算機科學與技術學院,遼寧 大連 116024)

0 概述

幽默普遍存在于日常用語中,是人們溝通交流的重要組成部分。幽默一詞來源于英文單詞“Humor”,由林語堂先生于1924年引入中國,有可笑、有趣而意味深長之義[1]。近年來,隨著人工智能的快速發展,幽默識別受到了國內外學者的廣泛關注。幽默識別任務通常是識別某個語句或段落是否包含幽默的語義表達[2-3]。幽默數據集有多種類型[3],包括笑話、One-liner形式的幽默、對話幽默等,本文的研究重點為One-liner形式的幽默。

One-liner形式的幽默通常是一個簡短的句子,使用少量詞匯傳達幽默的語義。與其他形式的幽默相比,One-liner形式的幽默缺乏上下文信息,多數采用語音、語言歧義或疊字等手段產生預期的幽默效果。針對One-liner形式的幽默,目前的幽默識別方法主要分為基于特征工程的機器學習方法[4-5]和基于神經網絡的深度學習方法[6-7]。前者需要領域專家構建特征,且耗時耗力,泛化能力較差。后者網絡結構的構建通常缺乏幽默理論的驅動,可解釋性較差。為解決以上問題,本文提出基于語音、字形和語義的層次注意力神經網絡模型(PFSHAN)進行幽默識別。

1 相關工作

隨著幽默在互聯網中的廣泛應用以及文本情感分析問題的深入研究,越來越多的學者對幽默識別產生了很大興趣,幽默識別成為自然語言處理領域的熱點研究問題之一。對于幽默識別研究,根據使用方法的不同,本文從基于特征工程的機器學習方法和基于神經網絡的深度學習方法兩個方面對現有工作進行概述。

基于特征工程的機器學習方法被廣泛應用于幽默識別領域。文獻[8]構建大規模的笑話語料庫,并利用n-gram特征對幽默段落進行識別。文獻[5]定義3種類型的幽默特征,包括頭韻、反義詞和成人俚語,并通過實驗證明了其在幽默識別中的有效性。文獻[9]基于幽默的不一致性理論和語言學特點,設計5個類別多達50多種幽默特征。文獻[4]對幽默的潛在語義特征進行系統闡述并構建包括語音特征、歧義特征、不一致性特征和情感特征在內的4種類型的幽默特征。在此基礎上,文獻[10]將語義分析和情感分析相結合,對情感關聯模式進行建模并用于幽默識別。文獻[11]通過成分分析和依賴關系分析得到幽默的句法特征來提升幽默識別的性能。文獻[12]基于幽默的歧義性和語音特性提出一系列幽默特征。文獻[13]由喜劇電視節目中的對話構造了幽默數據集,并采用多模態的分析方法,結合聲音特征與語義特征進行幽默識別。

近年來,基于神經網絡的深度學習方法在幽默識別領域取得了許多研究成果。文獻[14]提取《生活大爆炸》中的對話文本,利用幽默情景劇中特有的背景笑聲自動標注笑點,并采用長短期記憶(Long Short Term Memory,LSTM)網絡提取語義特征和聲音特征識別笑點。文獻[15]采用卷積神經網絡(Convolutional Neural Network,CNN)和LSTM提取幽默特征并識別對話中的笑點。文獻[7]比較CNN與傳統機器學習方法的性能。文獻[16]采用LSTM和注意力機制在幽默評測中取得了較好的結果。文獻[17]結合人工特征和神經網絡自動提取的特征,對西班牙語的推特文本進行幽默識別。文獻[18]構建了一個大型的俄語幽默數據集,并使用調優的預訓練語言模型進行幽默識別。文獻[19]提出基于張量的幽默識別方法,能夠有效提取幽默語句的詞匯特征。

對于現有工作的研究結果表明,語音特征和歧義性特征能夠有效提高幽默識別的性能,然而人工構造的特征成本較高且泛化能力較差。相比于基于特征工程的機器學習方法,基于神經網絡的深度學習方法能夠自動提取幽默的高維語義特征且性能較好。然而,現有基于神經網絡的深度學習方法缺乏幽默理論的驅動,實驗結果難以給出令人信服的解釋。本文提出PFSHAN模型識別幽默語句,PFSHAN模型基于幽默的語言學特征,分別從文本的語音、字形和語義3個維度提取幽默特征,并采用層次注意力機制,使得模型能夠提取更有效的幽默特征。

2 基于音形義的幽默識別方法

如圖1所示,本文提出基于音形義的層次注意力神經網絡模型進行幽默識別的主要步驟為:1)將文本內容表示成對應的音素形式,采用卷積神經網絡提取語句的語音特征;2)將文本表示成字符形式,采用雙向門控循環單元(Bi-directional Gated Recurrent Unit,Bi-GRU)和注意力機制提取文本的字形特征;3)引入單詞歧義性等級信息,更好地提取幽默語句的語義特征。為更好地區分不同幽默特征在幽默識別過程中的貢獻程度,本文采用層級注意力機制來調節幽默語言學特征和幽默語句的關聯程度。

圖1 基于音形義的層次注意力神經網絡模型Fig.1 Hierarchical attention neural network model based on pronunciation,font and semantics

2.1 基于語音的幽默特征提取

許多幽默由語音引起,文本內容中不協調的發音產生了幽默[20]。文獻[5]指出幽默文本的語音特征與其語義內容一樣重要。語音是引發幽默的重要手段,其通常通過押頭韻或尾韻的形式進行表現[4]。

例1You can tune a piano,but you can’t tuna fish.

在例1中,句子的語義并不有趣,但是句子中單詞“tune”和“tuna”有相似的發音,這使得句子的幽默效果得到了加強。在許多幽默文本中,即使文本內容不幽默,也經常使用頭韻、尾韻等語音特點引發或增強幽默效果。

由于單詞的發音和拼寫并不完全一致,因此無法從字符來直接獲取句子的語音表示。為獲得單詞的語音表示,本文使用卡內基梅隆大學(CMU)的發音詞典將文本表示成其對應的語音形式。相比于含有重音標識的版本,包含39個音素的無重音標識的CMU發音詞典更加準確。因此,本文采用無重音標識的CMU發音詞典將幽默語句中的單詞轉換成對應的音素表示。例如,單詞“word”的音素表示為[“W”,“ER”,“D”]。卷積神經網絡能夠更好地提取數據的局部特征且速度較快,因此本文采用卷積神經網絡提取幽默語句中頭韻、尾韻等語音特征。

2)變換層。本文的目標是發現單詞間的頭韻、尾韻等語音特征,因此采用變換層對輸入張量進行變換,使得卷積神經網絡的滑動窗口能夠提取多個單詞對應位置上的語音信息。

3)卷積層。卷積層利用一個窗口大小為h的卷積核提取局部的語音特征,其計算公式如下:

ci=f(wpi:i+h-1+b)

(1)

其中,ci為輸出的特征向量,f為非線性激活函數ReLU,w為參數,pi:i+h-1代表p中的第i列到第i+h-1列,b為偏置項。在實驗中使用二維卷積神經網絡及多個卷積核。

4)池化層。該層主要用于文本語音特征的降維,壓縮參數數量,緩解過擬合現象,提高模型的容錯能力。常用的池化操作有平均池化和最大池化兩種策略,本文采用最大池化策略獲取固定長度的語音特征向量:

(2)

對池化后的特征向量進行拼接后,得到語句的語音特征表示為:

(3)

2.2 基于字形的幽默特征提取

幽默是一種文體,通常有其獨特的表達方式,在很多情況下,正是字形的特征產生了幽默效果[21]。文獻[22]指出反復出現的文本元素序列使得文本表現出相對穩定的特征。幽默語句常采用重復的字符或重復的標點符號等方法表達出幽默的效果。

例2I used to be a coyote,but I’m alright noooooooooooow!!!

例2是一個幽默的語句,該句采用字符重復的方式表現出幽默的效果。語句中的單詞“now”是一個不規范的拼寫形式,字符“o”被重復了多次,同時為了表達強調的效果,“!”也被重復了多次。這種刻意的字符重復是幽默語句的重要特征。

對于例2中“now”的不規范拼寫形式,常規的詞向量表示會將其作為未登錄詞處理,模型無法關注到該類單詞對幽默識別性能的影響。為使模型能夠捕獲幽默語句的字形特征,本文對幽默語句的字符進行建模,將句子表示成字符的序列,句子的字符序列的向量表示作為模型輸入。循環神經網絡(Recurrent Neural Network,RNN)能夠更好地處理序列信息,因此本文采用RNN提取語句中的重復字符、符號等字形特征。

在字形特征提取層中,為緩解RNN的梯度爆炸、梯度消失及長期依賴等問題,研究人員提出LSTM網絡和門控循環單元(Gated Recurrent Unit,GRU)神經網絡。GRU相比LSTM參數更少,訓練速度更快,而兩者性能相當。基于以上特性,本文采用GRU提取字形特征。GRU利用重置門和更新門控制序列的狀態更新。在t時刻GRU的狀態可以形式化表示為:

zt=σ(Wzxt+Uzht-1+bz)

(4)

rt=σ(Wrxt+Urht-1+br)

(5)

(6)

(7)

GRU能夠提取每個時間步長t之前的信息,但是忽略了t之后的文本信息。Bi-GRU包含兩個相互獨立的隱藏狀態,可以同時從前向和后向提取文本信息,然后對兩部分信息進行整合,從而更好地利用文本的上下文信息。本文采用Bi-GRU提取文本的字形特征,其形式化表示如下:

(8)

(9)

(10)

在字符特征注意力層中,為能夠對攜帶顯著語義信息的字符給予更多的關注,在提取字形特征時,引入注意力機制,其形式化表示如下:

wij=tanh(WT[hj·Hc]+b)

(11)

(12)

(13)

其中,W為權重矩陣,b為偏置項,tanh為激活函數,aij為注意力權重,所有參數采用隨機初始化并在訓練中動態更新,qc為字符特征注意力層的輸出向量。

2.3 基于語義的幽默特征提取

句子本身的語義特征將為幽默識別提供直接的線索。文獻[23]指出語義的歧義性會引發幽默,歧義性是幽默產生的重要因素。幽默語句中的歧義性是指句子中的某些單詞包含多個語義,使得句子存在多種不同的理解方式[24]。

例3Did you hear about the guy whose whole left side was cut off? He’s all right now.

例3是一個典型的由于歧義性引起幽默的語句。單詞“right”包含多個語義,它既可以被理解為“右側”,又可以被理解為“恢復”。由于單詞的多個語義造成了句子理解的偏差,因此使該語句顯得十分有趣。句子中單詞包含的同義詞的個數與語句是否幽默具有一定的相關性。

基于特征工程的機器學習方法將單詞包含的同義詞的個數作為特征來識別幽默[4]。為使神經網絡模型能夠學習到包含不同同義詞數量的單詞,本文根據同義詞的個數對單詞進行分類,將類別信息進行向量表示并和單詞的向量表示進行融合,最后采用Bi-GRU和注意力機制提取攜帶歧義性信息的潛在語義特征。

在語義特征提取層中,Bi-GRU能夠有效處理文本序列數據并能夠更好地提取上下文信息。因此,本文采用Bi-GRU提取文本的語義特征,攜帶歧義性等級信息的語義特征可表示為Hu=Bi-GRU(x′i,ht-1)。

在語義特征注意力層中,為使模型能夠關注攜帶顯著語義信息的單詞,在提取語義特征時,引入注意力機制,其中qu為語義特征注意力層的輸出向量。

2.4 層次注意力機制

由于不同幽默語言學特征和幽默語句的關聯程度不同,因此本文采用層次注意力機制調整不同語言學特征對于幽默識別性能的影響,其形式化表示如下:

wj=tanh(WTVj+b)

(14)

(15)

(16)

其中,W為權重矩陣,b為偏置項,Hp為語音特征表示,qc為字形特征表示,qu為語義特征表示,Vj為不同句子的表示,βj為注意力權重,所有參數采用隨機初始化并在訓練中動態更新,q為句子的最終特征表示。

2.5 幽默分類

本文提取文本的語音、字形和語義特征,采用softmax函數進行幽默識別,其形式化表示如下:

v=tanh(Wpq+bp)

(17)

(18)

本文模型基于反向傳播算法與端到端的方式進行訓練,并采用期望交叉熵作為損失函數。

(19)

其中,y為真實標簽,i、j分別為句子的編號和類別編號,λ為正則化參數,θ為超參數。

3 實驗結果與分析

3.1 實驗數據與評價指標

Puns數據集[4]中的幽默語句來自同名網站,非幽默文本來自美聯社新聞、紐約時報、雅虎新聞和諺語。Puns數據集包含幽默語句2 423條,非幽默語句2 403條,句子平均長度為13.5。Oliner數據集[5]中的幽默語句來自多個著名的幽默網站,非幽默語句來自路透社新聞標題。Oliner包含幽默、非幽默語句各16 000條,句子平均長度為12.6。為便于和基線方法進行比較,本文采用精確率、準確率、查全率和F1值作為評價指標。

3.2 實驗設置

在訓練過程中,詞向量采用GloVe進行初始化,維度為300。語音向量采用高斯分布U(-0.1,0.1)進行隨機初始化,維度為100。字符向量采用隨機初始化,維度為100。單詞被劃分為4個歧義性類別,歧義性等級采用隨機初始化,維度為10。卷積神經網絡采用2D卷積和池化層,卷積核數量為128,卷積核大小為2、3、4。Bi-GRU的神經元個數為150,優化方法為Adadelta[26]。Batch大小為64,dropout為0.5。同時,在訓練過程中使用學習率衰減和早停機制防止過度擬合,并使用五倍交叉驗證法減少數據集劃分的影響。

3.3 對比方法

實驗對比方法具體如下:

1)支持向量機(Support Vector Machine,SVM)。該方法[4]使用人工構造的語音特征、歧義特征、不一致特征和情感特征,采用支持向量機模型。

2)HCFW2V。該方法[4]同時使用上述4類特征和詞向量作為幽默特征,采用隨機森林模型。

3)ST。該方法[10]同時使用上述4類特征以及人工構造的情感沖突和情感轉換特征,采用隨機森林模型。

4)Syn。該模型[11]同時使用上述4類特征以及人工構造的句法結構特征,采用隨機森林模型。

5)CNN。該模型[7]采用卷積神經網絡進行幽默識別。

6)Bi-GRU。該模型采用Bi-GRU提取幽默文本的潛在語義特征并進行幽默識別。

7)Bi-GRU+Att。該模型采用Bi-GRU和注意力機制提取語義特征并進行幽默識別。

8)CNN+HN。該模型[27]采用CNN和Highway網絡架構。

9)PFSHAN。本文提出的一種基于語音、字形和語義的層次注意力神經網絡模型。

表1和表2列出了不同幽默識別方法與模型的性能對比,其中最佳結果加粗顯示,實驗結果表明:

表1 Puns數據集上的實驗結果Table 1 Experimental results on Puns dataset %

表2 Oliner數據集上的實驗結果Table 2 Experimental results on Oliner datasets %

1)基于特征工程的機器學習方法的性能低于基于神經網絡的深度學習方法。對于相同的人工特征集合,基于特征工程的機器學習方法在兩個數據集上性能有所差別。HCFW2V在Puns數據集上性能較好,而SVM在Oliner數據集上性能較好。這也說明了基于特征工程的機器學習方法依賴于人工特征的構造,其泛化能力較差。此外,引入句法信息后,幽默識別的性能有了一定幅度的提升。

2)基于神經網絡的深度學習方法能夠自動學習幽默語句的潛在語義特征,在兩個數據集上均表現出較好的性能。Bi-GRU能夠更好地利用上下文信息與長距離的依賴關系,其性能優于CNN。引入Highway后,CNN的性能有了較大幅度的提升。

3)PFSHAN模型在兩個數據集上均取得了最佳的性能。PFSHAN模型能夠提取語句的語音、字形和語義信息,而且在提取語義特征時,其能夠捕獲單詞的歧義性信息,從多個維度提取幽默特征。此外,PFSHAN模型采用層級注意力機制,不僅能夠調節不同輸入對提取特征的影響,而且能夠調節不同語言學特征對幽默識別的影響。

3.4 歧義性等級信息對模型性能的影響

為驗證歧義性等級信息對幽默識別的影響,本文對比僅使用語義信息的Bi-GRU和加入歧義性等級信息的Bi-GRU的PFSHAN模型幽默識別性能。如圖2所示,加入了歧義性等級信息后,PFSHAN模型F1值均有所提高,在Puns數據集上F1值提高了0.8%,在Oliner數據集上提高了1.14%。實驗結果表明,單詞的歧義性等級信息能夠有效提高PFSHAN模型的幽默識別性能。

圖2 歧義性等級信息對幽默識別性能的影響Fig.2 Impact of ambiguous level information on performance of humor recognition

3.5 語音、字形和語義特征對模型性能的影響

本文對比語音、字形和語義特征對PFSHAN模型性能的影響,PFSHAN-pro、PFSHAN-font、PFSHAN-sem分別表示未使用語音、字形和語義信息的PFSHAN模型。如表3所示,當PFSHAN模型未使用語義信息時,模型性能受到的影響最大。這表明模型能夠從文本的潛在語義信息中學習到與幽默關聯較強的信息,如果僅從語音和字形特征對幽默進行識別,則模型性能較差。當PFSHAN模型未使用字形信息時,對模型性能影響較小。這可能是因為在構造數據時對數據進行了預處理,其不規范的拼寫等字形特征較少。語音特征對模型有一定的影響,說明文本中一部分幽默是由語音特征引起。當同時引入音形義特征時,PFSHAN模型取得了最佳的性能,這表明語音、字形和語義特征能夠更加有效地對幽默文本進行表征,從而提高幽默識別性能。

表3 語音、字形和語義特征對幽默識別性能的影響Table 3 Impact of pronunciation,font and semantics on performance of humor recognition %

3.6 層次注意力機制對模型性能的影響

本文對比了不同注意力機制對幽默識別性能的影響。PFSHAN-Hyp表示提取字形和語義特征后,采用注意力機制得到字形和語義信息的表示,然后直接和語音信息進行拼接并識別幽默。PFSHAN-Lin-Hyp表示只使用Bi-GRU提取字形和語義特征,并使用CNN提取語音特征,然后拼接3類特征進行幽默識別。

如表4所示,采用層次注意力機制能夠有效提高幽默識別的性能,相比不使用注意力機制的模型,PFSHAN在兩個數據集上的F1值分別提高了1.19%和0.97%。實驗結果表明,層次注意力機制不但能夠調整不同字符或單詞對于不同幽默特征的權重,而且能夠調節不同幽默語言學特征和幽默語句的關聯程度,從而提高幽默識別性能。

表4 層次注意力機制對幽默識別性能的影響Table 4 Impact of hierarchical attention mechanism on performance of humor recognition %

3.7 錯誤樣例分析

為更好地研究并提升PFSHAN模型在幽默識別任務中的性能,對其錯誤樣例進行分析。以下是兩個PFSHAN模型不能正確識別的樣例:

例4The one who invented the door knocker got a no bell prize.

例5A clean house is a sure sign of a broken computer.

例4和例5均為幽默樣例,但是PFSHAN模型卻把它們視為非幽默的語句。在例4中,“no bell prize”的發音和“nobel prize”發音十分類似,所以引發了幽默的效果。顯然,該句的幽默效果是語音所致,但是“nobel prize”沒有出現在原文中,PFSHAN模型無法捕獲相關的語音特征。此外,背景知識也是判斷該語句是否是幽默的重要因素。在例5中,“clean house”和“broken computer”形成了語義上的對比,這種不協調、不一致使得句子產生了幽默的效果,因此如何捕獲文本語義的不一致性將是未來幽默識別中的重要研究方向。

4 結束語

本文提出基于語音、字形和語義的層次注意力神經網絡模型(PFSHAN)進行幽默識別。基于幽默文本的語言學特點,采用CNN和Bi-GRU捕獲幽默語句的語音、字符和語義特征,同時利用層次注意力機制調節不同語言學特征對幽默識別的影響。實驗結果表明,本文方法能夠有效獲取幽默語句的音形義特征,提高幽默識別性能。但由于PFSHAN模型僅適用于英文文本的幽默識別,而中英文表達在很多方面存在差異,因此下一步將構建中文幽默數據集及模型進行中文幽默文本識別。此外,如何利用自注意力機制與預訓練模型捕獲文本語義的不一致特征也將是今后研究的重點。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 免费视频在线2021入口| 天天摸夜夜操| 天天综合网色中文字幕| 在线观看国产精美视频| 国内精品免费| 青青草原国产精品啪啪视频| 国产成人毛片| 少妇精品久久久一区二区三区| 国产欧美精品专区一区二区| 国产精品v欧美| 亚洲国产日韩在线成人蜜芽| 国产一二三区在线| 99视频国产精品| 无码一区中文字幕| 亚洲人成在线精品| 99国产精品免费观看视频| 成人午夜视频网站| 中国一级特黄视频| 99在线免费播放| 69视频国产| 国产成人综合亚洲欧美在| 强乱中文字幕在线播放不卡| 国产av无码日韩av无码网站| 亚洲欧美成人在线视频| 天天爽免费视频| av午夜福利一片免费看| 波多野结衣久久高清免费| 波多野结衣在线se| 综合色在线| 蜜桃臀无码内射一区二区三区| 亚洲第一成人在线| 青青草欧美| 欧美视频在线不卡| 欧美成人免费午夜全| 亚洲欧州色色免费AV| 成年人福利视频| 国产极品美女在线播放| 2020国产免费久久精品99| 免费看a毛片| 免费国产在线精品一区| 无码丝袜人妻| 久久精品娱乐亚洲领先| 欧美成在线视频| 久久99精品久久久久纯品| 国产网友愉拍精品视频| 国产精品亚洲αv天堂无码| 日韩免费毛片视频| 日韩精品成人在线| 国产十八禁在线观看免费| 最新午夜男女福利片视频| 精品国产免费观看| 自慰高潮喷白浆在线观看| 国产第一福利影院| 97人人做人人爽香蕉精品| 久久一色本道亚洲| 久久永久视频| 亚洲品质国产精品无码| 中国国产一级毛片| 国产呦精品一区二区三区下载| 日本免费a视频| 天堂成人在线视频| 91免费片| 日韩午夜福利在线观看| 国产欧美日韩资源在线观看| 日韩精品高清自在线| 日本午夜视频在线观看| 久久五月视频| 亚洲另类国产欧美一区二区| 亚洲第一视频网站| 国产在线自乱拍播放| 国产精品成人观看视频国产 | 成人在线综合| 亚洲欧美色中文字幕| 久久91精品牛牛| 免费又爽又刺激高潮网址| 欧美日韩中文国产| 国产一区二区三区日韩精品| 欧美在线导航| 国产无遮挡猛进猛出免费软件| 漂亮人妻被中出中文字幕久久| 新SSS无码手机在线观看| 亚洲精品在线影院|