999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合情感與語義的多模態(tài)對話生成方法

2023-06-25 08:27:56張翼英馬彩霞柳依陽王德龍
天津科技大學(xué)學(xué)報 2023年3期
關(guān)鍵詞:模態(tài)特征文本

張翼英,馬彩霞,張 楠,柳依陽,王德龍

(天津科技大學(xué)人工智能學(xué)院,天津 300457)

開放域?qū)υ捰捎趹?yīng)用范圍廣而受到產(chǎn)業(yè)界和學(xué)術(shù)界普遍關(guān)注[1],語音對話具有省時、高效等優(yōu)勢,在開放域?qū)υ捴邪l(fā)揮著越來越重要的作用.語音模態(tài)是指以音頻形式存儲的說話內(nèi)容,由于其中包括振幅、頻率等多種音頻特征,這些特征包含說話人的重要信息,因此僅利用文本單模態(tài)生成對話往往無法滿足要求.如何利用音頻和文本特征生成信息豐富且流暢的對話響應(yīng)是值得探究的問題.

在文本單模態(tài)對話生成方面,基于門控循環(huán)單元(gate recurrent unit,GRU)構(gòu)建Seq2Seq對話模型,其編碼器將上下文文本編碼至一個向量,解碼器將該向量作為輸入,并對信息解碼,從而輸出響應(yīng)序列[2].但Seq2Seq不能很好地捕捉到上下文信息[3],于是HRED(hierarchical recurrent encoder-decoder)模型應(yīng)運而生,該模型通過額外增加一個編碼器對上下文建模,減少了相鄰句子間的計算步驟,促進信息的傳播[4].為了提升回復(fù)的多樣性并控制回復(fù)的情感傾向,條件變分自動編碼(conditional variational auto encoder,CVAE)模型往往結(jié)合注意力機制或Seq2Seq模型實現(xiàn)指定情緒的響應(yīng)生成[5-6].但Seq2Seq模型和HRED模型對長句的生成效果較差,為解決這一問題,Google團隊于2017年提出自注意力機制和Transformer序列到序列模型[7].該模型能夠并行提取其他位置的信息,并將信息進行加權(quán)平均化,再和當(dāng)前位置進行融合,在對話生成、情感識別等多種任務(wù)上的運行效果均有較大提升;在多模態(tài)對話任務(wù)中,研究人員應(yīng)用CVAE模型根據(jù)多模態(tài)條件和給定情感信息生成連貫的對話響應(yīng)[8],但該研究僅僅將模態(tài)間進行線性連接,未考慮不同模式之間的交叉融合,不能深入挖掘模態(tài)內(nèi)部的關(guān)聯(lián).文獻(xiàn)[9]利用音頻輔助文本進行對話生成,提出融合音頻的Audio-Seq2Seq文本對話生成模型,將文本嵌入向量和音頻向量同時輸入注意力模塊,探究振幅及響度對于對話生成情感的重要性.由于該研究的基礎(chǔ)是Seq2Seq模型,因此仍存在對話較為通用、多樣性較差等問題.此外,不少學(xué)者致力于研究多模態(tài)Transformer,其中有研究[10]采用基于Transformer的自監(jiān)督多模態(tài)表示學(xué)習(xí)框架VATT(video-audio-text transformer)實現(xiàn)了多模態(tài)視頻的有效監(jiān)督,但該方法常被應(yīng)用于圖像相關(guān)的下游任務(wù);文獻(xiàn)[11]提出了視聽場景感知對話(audio-visual scene-aware dialog,AVSD),通過引入多任務(wù)學(xué)習(xí)實現(xiàn)多模態(tài)對話生成,但該方法將語音模態(tài)進行了單向映射,未將音頻特征與文本特征充分融合,因此生成的對話不能囊括音頻特征中豐富的情感信息.

為了解決上述問題,本文提出文本音頻Transformer(audio text transformer,AT-Transformer)模型實現(xiàn)音頻和文本雙模態(tài)的對話生成,該模型的編碼器將文本和音頻雙模態(tài)進行模態(tài)間和模態(tài)內(nèi)部特征融合,區(qū)別于已有的線性連接方法,實現(xiàn)了模態(tài)間特征關(guān)聯(lián)性的深入挖掘.為了驗證模型的有效性,在IEMOCAP數(shù)據(jù)集[12]上進行了實驗,通過與基于純文本的Transformer模型和基于音頻、文本多模態(tài)的Audio-Seq2Seq、VATT和AVSD模型進行困惑度及生成多樣性比較,并從語義相關(guān)性、流暢度和情感匹配性3個方面進行人工評估.實驗結(jié)果表明,本文模型能夠生成內(nèi)容豐富、情感適宜的響應(yīng).

本文的主要工作如下:

(1)提出多模態(tài)注意力機制,探究文本特征和音頻特征之間的深入關(guān)聯(lián),使得文本生成任務(wù)能夠充分融入音頻特征所包含的潛在信息.

(2)從語句生成的多樣性方面提升對話生成效果,避免生成通用性、無意義的回復(fù).

(3)通過灰度對數(shù)功率譜圖、Mel頻譜圖、Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)圖與注意力熱力圖的對比驗證了語音頻率、基頻、共振與注意力之間的正向關(guān)系,表明語音模態(tài)能夠明顯促進對話生成質(zhì)量的提升.

1 相關(guān)研究

1.1 對話生成

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和算力的提升,許多學(xué)者致力于研究對話生成技術(shù),按生成的依據(jù)可以將這些技術(shù)劃分為純文本對話生成和多模態(tài)對話生成兩種方式.純文本對話生成通過對文本數(shù)據(jù)的分析和處理,進而生成響應(yīng)的過程.傳統(tǒng)的Seq2Seq模型對上下文信息的依賴有限,生成的響應(yīng)存在無意義、內(nèi)容不豐富等問題,而HRED模型將Seq2Seq模型進行層次化改進,提升了對上下文信息的關(guān)注度,進而提高了多輪對話的生成效率.變分自編碼器(variational auto encoder,VAE)通過將潛在特征表述為概率分布的方式更適合對話上下文內(nèi)部狀態(tài)的表示,條件變分自編碼器(CVAE)結(jié)合雙重注意力機制能夠?qū)⑸舷挛捻憫?yīng)和隨機的潛在變量連接,有效地控制響應(yīng)的情感傾向[13].為了解決Seq2Seq模型和HRED模型對長句及多輪對話生成效果不佳的問題,Transformer模型通過多頭注意力機制關(guān)注當(dāng)前的詞和句子中的其他詞,可以有效獲取上下文語義信息[7].盡管這些模型取得了較好的對話效果,但是并未考慮語音模態(tài),可能會存在對上下文語義感知不準(zhǔn)確的問題,故而對對話生成質(zhì)量造成影響.

多模態(tài)對話生成以視頻、音頻、微表情、文本等多種模態(tài)特征為依據(jù),通過模態(tài)融合建模不同模態(tài)之間的關(guān)系,進而生成適合不同場景的回復(fù),具有廣闊的研究前景[14].Wang等[2]通過視覺模型提取視覺特征,并將其輸入序列到序列的對話生成中,學(xué)習(xí)在給定文本和視覺上下文情況下生成下一語句的概率.Chen等[5]使用文本實體定位圖像中的相關(guān)對象,建立文本與對象之間的映射,并通過跨模態(tài)注意力機制構(gòu)建多模態(tài)Transformer,從而生成與視覺和文本上下文一致的響應(yīng).除了視頻模態(tài)之外,文獻(xiàn)[9]對音頻上下文進行建模,并提出音頻增強的Seq2Seq模型,實現(xiàn)對話生成任務(wù),驗證了音頻特征對于對話生成的有效性.上述研究雖然能夠產(chǎn)生效果較好的響應(yīng),但是未對語音模態(tài)進行考慮,并且序列到序列的模型存在生成多樣性較差、語義不豐富等問題.本文工作區(qū)別于已有工作,通過應(yīng)用多模態(tài)融合實現(xiàn)音頻和文本模態(tài)間特征的深度挖掘,從而構(gòu)建多模態(tài)注意力機制AT-Transformer模型,經(jīng)驗證雙模態(tài)特征比純文本特征實現(xiàn)了對話質(zhì)量和情感匹配度的顯著提升.

1.2 多模態(tài)融合

多模態(tài)融合是將音頻、視頻、微表情等多形態(tài)數(shù)據(jù)進行綜合處理的過程,是多模態(tài)對話生成的基礎(chǔ)[13].模型相關(guān)的融合方法雖然復(fù)雜性較高,但具有較強的實用性和較高的準(zhǔn)確率.Rohanian等[15]使用長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)對文本中的詞匯信息和音頻中的聲學(xué)特征進行順序建模,實現(xiàn)阿爾茨海默病的檢測.Shen等[16]通過構(gòu)建LSTM網(wǎng)絡(luò)交互單元,對音頻和文本之間的動態(tài)交互進行建模,實現(xiàn)語音情感的準(zhǔn)確分類.由于上述研究對文本和音頻特征進行順序建模,未考慮特征間的深層交互關(guān)系,并且LSTM網(wǎng)絡(luò)仍存在梯度消失及梯度爆炸問題.Saha等[17]提出基于自身、模態(tài)間和任務(wù)間注意力機制的多模態(tài)多任務(wù)深度神經(jīng)網(wǎng)絡(luò),實現(xiàn)情感和任務(wù)類別的聯(lián)合學(xué)習(xí).該模型實現(xiàn)了對話行為及情感的準(zhǔn)確分類以及模態(tài)間的深層融合,但未對主要關(guān)聯(lián)部分進行探究,并且對話生成任務(wù)還需補充解碼器部分.本文通過將Transformer的編碼器部分的多頭注意力機制部分進行跨模態(tài)設(shè)計,并通過實驗分析不同參數(shù)的重要性程度,促進對話生成質(zhì)量的進一步提升.

2 任務(wù)定義

本文的目標(biāo)是通過音頻、對話上下文兩種模態(tài)信息生成內(nèi)容豐富、具有一定情感并且流暢的回復(fù).該任務(wù)定義為:DA(dialogue audio)表示當(dāng)前對話單位音頻片段;DT(dialogue text)為當(dāng)前對話音頻DA所對應(yīng)的文本;R(response)表示在給定對話單位音頻片段DA和對話文本DT的前提下生成的對話響應(yīng)文本,其中包含m個單詞,即R={r1,r2,…,rm}.則在給定對話音頻片段DA和對應(yīng)文本DT的情況下生成響應(yīng)文本R的概率表示為

其中:r<i表示響應(yīng)文本R中的前i-1個單詞,θ為可訓(xùn)練的參數(shù).

3 模型描述

本文提出一種基于多模態(tài)注意力機制的ATTransformer模型,綜合考慮文本、音頻雙模態(tài),旨在探究語音模態(tài)對于對話生成效果的影響.實驗證明,利用該生成模型能夠生成內(nèi)容豐富、情感適宜并且流暢的對話回復(fù).該模型在傳統(tǒng)Transformer的基礎(chǔ)上提出多模態(tài)注意力機制,并設(shè)計情感和內(nèi)容相關(guān)的目標(biāo)函數(shù),采用核采樣算法提升回復(fù)的多樣性,整體架構(gòu)如圖1所示.

圖1 AT-Transformer模型整體結(jié)構(gòu)Fig.1 Overall structure of AT-Transformer model

該模型主要分為3個部分:第1部分對數(shù)據(jù)進行預(yù)處理,將音頻數(shù)據(jù)缺失的數(shù)據(jù)進行過濾,通過計算Mel聲譜,進行卷積操作獲得嵌入向量,同時對文本數(shù)據(jù)設(shè)置最大單詞長度,進行特征提取,然后將其進行嵌入向量表示;第2部分將文本嵌入向量和音頻嵌入向量輸入生成模型進行訓(xùn)練,在訓(xùn)練過程中通過多模態(tài)注意力機制實現(xiàn)音頻和文本特征的融合;第3部分通過多樣性損失函數(shù)提升對話生成質(zhì)量.

4 AT-Transformer模型

4.1 多模態(tài)融合

對音頻中的特征進行提取,需要考慮說話者的態(tài)度、情感色彩的變化、對應(yīng)的聲音形式、語調(diào)及說話節(jié)奏等特征[18],而Mel頻譜圖更接近人類感知音高的方式,因此本文使用VGGish對該特征進行提取,并通過卷積操作獲取音頻向量的嵌入表示,最后使用主成分分析法進行特征降維,從而在編碼器中實現(xiàn)特征融合.

為了使對話文本向量攜帶相應(yīng)的順序信息,文本表示由單詞(w)嵌入和位置嵌入構(gòu)成,具體如圖1中的輸入部分所示.

4.2 多模態(tài)注意力機制

目前已有的多模態(tài)注意力機制主要是將不同的模態(tài)進行一維卷積操作,并將不同的模態(tài)進行跨模態(tài)操作并投影至同一模態(tài),然后將該模態(tài)下的所有特征進行連接,再進行自注意力操作實現(xiàn)多模態(tài)特征融合[19].雖然該方法實現(xiàn)了特征的有效融合,但是這種方法進行了兩次跨模態(tài)操作,計算復(fù)雜度較高.

為了使音頻特征和文本特征進行有效融合,本文使用多模態(tài)注意力計算的方法,將文本和音頻分別進行嵌入向量表示,并通過注意力分?jǐn)?shù)體現(xiàn)二者之間的關(guān)系.本文在Transformer模型[7]的基礎(chǔ)上對其中的多頭注意力機制進行改進,其中Q、K和V分別代表注意力中的查詢、鍵和值,多模態(tài)注意力機制的結(jié)構(gòu)如圖2所示,其中的藍(lán)色圓形表示輸入的文本向量,橙色圓形表示輸入的音頻向量.

圖2 多模態(tài)注意力機制Fig.2 Multimodal attention mechanism

其中:Qc、Kc和Vc分別是文本模態(tài)所對應(yīng)的查詢、鍵和值,Qa、Ka和Va為音頻模態(tài)所對應(yīng)的查詢、鍵和值,權(quán)重矩陣模態(tài)內(nèi)部和模態(tài)之間的多頭注意力表示為

其中:Cc和Aa分別為文本和音頻模態(tài)內(nèi)部計算所得注意力,Ac和Ca為文本和音頻兩種方式的跨模態(tài)注意力,dk為輸入向量的維度.然后,將式(5)—式(8)與對應(yīng)模態(tài)的值進行向量乘積,此處以Ac為例,賦值后A'c為

公式(9)將文本和音頻兩種方式的跨模態(tài)注意力分別與對應(yīng)模態(tài)的值進行向量乘積,分別求取每部分的最終注意力值,實現(xiàn)模態(tài)之間的深度融合[7].同時,受文獻(xiàn)[20]的啟發(fā),將模態(tài)之間的注意力向量進行連接,實現(xiàn)語音與文本之間注意力機制的深度挖掘,保證了模態(tài)融合的完整性,公式為

式中:RMM為最終的語音文本模態(tài)注意力計算結(jié)果,Mc和Ma分別為文本模態(tài)和音頻模態(tài)的注意力,Cc、Ac、Aa和Ca分別為依據(jù)式(9)進行向量乘積之后的計算結(jié)果.

4.3 多樣性損失函數(shù)

對話生成任務(wù)通常以softmax交叉熵作為損失函數(shù),傾向于從候選集中生成頻率最高的語句作為響應(yīng),從而出現(xiàn)生成的語句無意義、重復(fù)性較高等問題.為了提高生成語句的多樣性,在原損失函數(shù)的基礎(chǔ)上考慮了單詞的頻率,同時通過動態(tài)調(diào)整參數(shù)實現(xiàn)對目標(biāo)單詞索引權(quán)重的配置,進而控制損失函數(shù)Le的收斂速度,其中該部分模型架構(gòu)圖1中的全連接層FC,公式為

其中:Ls為softmax交叉熵?fù)p失函數(shù),x是softmax層之前預(yù)測層的輸出,xi是x集合(x∈R|V|)中的第i個單詞,t是目標(biāo)單詞的索引.wt是 t所對應(yīng)的權(quán)重,tt是t所對應(yīng)的單詞,f(tt)是tokent在訓(xùn)練集中出現(xiàn)的頻率,λ為控制頻率影響大小的超參數(shù).在公式(12)中,由于eλ能夠通過調(diào)整λ的大小控制權(quán)重wt的變化速度,進而控制損失函數(shù)的收斂速度,同時當(dāng)λ=0時,該損失函數(shù)與softmax交叉熵?fù)p失函數(shù)相同.

5 實 驗

5.1 數(shù)據(jù)集

本研究使用IEMOCAP作為數(shù)據(jù)集,該數(shù)據(jù)集包含12h的試聽數(shù)據(jù),參與者在其中進行即興表演或根據(jù)腳本場景表演,其中包含5個會話.由于該數(shù)據(jù)集包含文本和音頻雙模態(tài)并且具有情感標(biāo)簽,探討音頻特征對于對話生成文本是否具有情感因素方面的作用有一定的幫助,本研究將后4個session作為訓(xùn)練集,session1作為測試集,IEMOCAP數(shù)據(jù)集的初始對話數(shù)、預(yù)處理后的對話數(shù)和詞匯大小見表1.

表1 IEMOCAP數(shù)據(jù)集的初始對話數(shù)、預(yù)處理后的對話數(shù)和詞匯大小Tab.1Initial utterance number,preprocessed utterance number and vocabulary size of the IEMOCAP dataset

5.2 數(shù)據(jù)預(yù)處理

首先對IEMOCAP中的不規(guī)范文本數(shù)據(jù)及相對應(yīng)的音頻數(shù)據(jù)進行過濾,然后對不完整的音頻數(shù)據(jù)及對應(yīng)的文本數(shù)據(jù)進行過濾,通過觀察音頻數(shù)據(jù)的時長及文本特征長度,將特征維度進行對齊,其中文本數(shù)據(jù)的維度為90,音頻數(shù)據(jù)的維度為90×128,學(xué)習(xí)率設(shè)置為1×10-4.

5.3 實驗評估

5.3.1 困惑度和多樣性評估

開放域?qū)υ捝扇蝿?wù)的自動評估方法一直以來都面臨著挑戰(zhàn),而人工評估方法成為一個較為可靠的評估標(biāo)準(zhǔn).

本實驗主要進行了困惑度(perplexity,PPL)[21]和多樣性兩方面的自動評估.對于一個由詞語序列組成的句子,困惑度計算公式為

其中:s為候選句子,N為候選句子s的長度,P(wi)為第i個詞的概率,第一個詞為P(w1|w0),w0為句子開始占位符.該方法用于估算模型的信息密度,檢測對話生成語句相對于已有參考語句的平均生成質(zhì)量,困惑度越小,語言模型越好.

回復(fù)多樣性作為影響對話質(zhì)量的關(guān)鍵要素之一,在開放式對話任務(wù)中備受關(guān)注,傳統(tǒng)的Seq2Seq模型產(chǎn)生的回復(fù)往往會面臨回復(fù)語句單一、枯燥乏味等問題,這嚴(yán)重影響用戶體驗,而Transformer模型能夠在一定程度上緩解這一問題.本實驗主要采用Distinct[22]方法對回復(fù)多樣性Dn進行評估.

其中:ND為回復(fù)語句中不重復(fù)的n-gram的數(shù)量,NS為回復(fù)語句中n-gram詞語的總數(shù)目.式(15)分別對回復(fù)中不同的單個單詞和兩個單詞進行統(tǒng)計,并將該數(shù)目分別除以各自相對應(yīng)的總數(shù),本實驗中主要采用D1和D2計算回復(fù)中的內(nèi)容多樣性.

為了驗證所提模型的對話生成質(zhì)量及對話多樣性效果,本文選取模型Transformer、Audio-Seq2Seq、VATT、AVSD進行實驗比較,分別對其進行困惑度及多樣性評估,其中Transformer模型未考慮音頻模態(tài),而Audio-Seq2Seq、VATT、AVSD模型均考慮了文本和音頻模型,具體比較數(shù)據(jù)見表2.實驗結(jié)果表明,基于AT-Transformer模型相較于傳統(tǒng)Transformer及其他各類多模態(tài)模型在困惑度和多樣性均有一定提升,與表2中標(biāo)紅的其他模型的最佳實驗結(jié)果相比,困惑度降低了0.2%,D1和D2分別提升了0.06和2.7%.總體來看,本文提出的模型在困惑度和D2上的性能提升較為明顯.

表2 不同模型在IEMOCAP數(shù)據(jù)集上的困惑度和多樣性比較Tab.2 Comparison of AT-Transformer’s perplexity and diversity on IEMOCAP data sets with different models

5.3.2 人工評估

由于情感相關(guān)性與內(nèi)容相關(guān)性很難通過自動評估方法進行考量,為了驗證文中模型的效果,從語義相關(guān)性、流暢度和情感匹配度三方面進行評估[13],邀請5名具有對話相關(guān)工作經(jīng)驗的人進行評分,根據(jù)語句與人工回復(fù)語句的近似程度及內(nèi)容豐富性評分,其中分?jǐn)?shù)分別為0、1、2,如果語句中包含的內(nèi)容較多但不偏離核心話題,那么其得分越高;對于流暢度,人工主要依據(jù)其可讀性將其分?jǐn)?shù)判定為0、1、2;情感匹配度主要是由評分者判定生成語句情感和對話數(shù)據(jù)本身情感是否匹配,如果強匹配則評分為2,若情感傾向一致,但有一點偏離,則評分為1,若情感傾向完全不同則評分為0.回復(fù)在語義相關(guān)性、流暢度和情感匹配度中的達(dá)標(biāo)程度見表3.

表3 回復(fù)在語義相關(guān)性、流暢度和情感匹配度中的達(dá)標(biāo)程度Tab.3Degree to which the response meets the criteria for semantic relevance,fluency and emotional matching

實驗數(shù)據(jù)表明,相較于最優(yōu)基準(zhǔn)模型,本文模型在情感匹配度上提升2%,在流暢度及語義相關(guān)性方面與純文本特征生成的回復(fù)效果基本持平,表現(xiàn)為語義相關(guān)性提升0.5%,而流暢度則下降0.11%.由此可看出音頻特征的增加對于提升對話的情感匹配度有一定的作用,而文本特征嵌入向量具有充分的表示能力,因此增加音頻特征之后并不能使流暢度顯著提升.Transformer模型與AT-Transformer模型生成的回復(fù)對比見表4.

表4 Transformer模型和AT-Transformer模型在系統(tǒng)中生成的回復(fù)對比Tab.4 Comparison of responses generated by Transformer model and AT-Transformer model

在表4中分別針對4組上下文將 Transformer模型和AT-Tranformer模型生成的回復(fù)進行對比,從中可以看出本文所提出的模型包含的內(nèi)容較為豐富,例如,針對第4組上下文Transformer模型產(chǎn)生的響應(yīng)對于上文進行了同義表述然后進行了反問,而ATTransformer模型在承接上文語義之后,又進行了話題的延展,增強了內(nèi)容豐富性,同時情感與上文較為一致.

5.3.3 對話音頻頻率對注意力機制的影響

音頻特征在一定程度上能夠體現(xiàn)說話者所強調(diào)的語義重點及情緒特征,對于生成語義契合、情感匹配的回復(fù)具有一定的意義.為了探究音頻頻率在對話生成中的作用,選用session1中的第5個會話中的音頻片段,其對應(yīng)表述為“Okay.But I didn’t tell you to get in this,line if you are filling out this particular form.”,其中圖3—圖5分別為該語句所對應(yīng)的灰度對數(shù)功率譜圖、Mel頻譜圖和MFCC圖.綜合3個圖可以看出,在0.5~4s之間的頻率較高,與此同時該音頻對應(yīng)的音頻-文本和文本-音頻注意力強度如圖6所示.

圖3 “Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”音頻對應(yīng)的灰度對數(shù)功率譜圖Fig.3 Gray logarithmic power spectrum corresponding to “Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”

圖3中的紅色圓點為基頻f0,綠色區(qū)域為每幀語音在空氣中的聲壓級(SPL為對數(shù)功率譜),將圖3與圖6對比可以發(fā)現(xiàn)綠色及紅色原點部分越密集,圖6中注意力分?jǐn)?shù)越高,這也就證明了模型的注意力與基頻f0、聲壓級具有對應(yīng)關(guān)系.Log-Mel Spectrogram特征通過構(gòu)建Mel頻率的維度和時間幀長度,實現(xiàn)了不同時頻下音頻信號特征表示(圖4).將圖4和圖6對比可以發(fā)現(xiàn)文本-音頻注意力機制與Mel時頻的變化趨勢較為一致.

圖4 Mel頻譜圖Fig.4 Mel spectrogram

由圖5可知:MFCC特征能夠充分體現(xiàn)說話者的聲音特點,考慮到人耳對不同頻率的感受程度,常用于語音辨識.

圖5 MFCC圖Fig.5 MFCC diagram

MFCC特征包括音高、過零率、共振峰等,能夠在一定程度上體現(xiàn)說話者的情感特點,比如開懷大笑時聲音會高一些,而心情不好則聲音低迷.通過對比圖5與圖6,可以發(fā)現(xiàn)文本-音頻注意力機制能夠捕捉MFCC所體現(xiàn)的這些特征.

圖6 基于AT-Attention模型的音頻-文本注意力和文本-音頻注意力示意圖,該圖所對應(yīng)的語句為“Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”Fig.6 Audio-context attention and context-audio attention schematic diagram based on AT-Attention model,the corresponding sentence of which is “Okay.But I didn’t tell you to get in this line if you are filling out this particular form.”

圖6中的文本-音頻注意力熱力圖直觀地顯示出不同時間的注意力強度變化,對比圖3—圖6可發(fā)現(xiàn)注意力分?jǐn)?shù)與音頻的振幅、基頻、共振峰相關(guān)特征、MFCC系數(shù)均有關(guān)系,并且隨著時間變化,注意力分?jǐn)?shù)與Mel頻譜圖中的頻率和對數(shù)功率譜呈明顯的正向關(guān)系,與音頻強度和MFCC具有一定的正向?qū)?yīng)關(guān)系.

6 結(jié) 論

本文提出了基于AT-Transformer的語音文本多模態(tài)對話生成模型,該模型通過VGGish實現(xiàn)對對話上下文的音頻特征進行提取,并通過WordEmbedding計算文本嵌入向量,通過將其與位置編碼進行加和融入位置信息,并將二者作為模型的輸入.在編碼階段,通過多頭注意力機制對文本和語音模態(tài)內(nèi)、模態(tài)間關(guān)系計算,實現(xiàn)模態(tài)之間關(guān)系的深入挖掘,實驗表明文本-音頻注意力分?jǐn)?shù)更能反映音頻上下文的重要性程度.語音模態(tài)對于感知對話上下文的語義重要性有著不可或缺的作用,并且從多樣性方面提升對話生成質(zhì)量,與純文本對話生成任務(wù)相比較,生成語句的流暢度基本持平,情感匹配度和語義相關(guān)性均有一定的提升.此外,由于現(xiàn)實生活中的音頻數(shù)據(jù)具有時長差異性較大、不均衡的特點,如何對信息量較小的音頻段進行過濾,實現(xiàn)高效的音頻特征處理是下一步值得研究的問題.

猜你喜歡
模態(tài)特征文本
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美国产日韩在线| 国产精品手机在线播放| 91在线无码精品秘九色APP| 欧美日韩中文国产va另类| 国产精品视频第一专区| 国产成人精品18| 国产乱子伦精品视频| 国模视频一区二区| 国产9191精品免费观看| 亚洲综合九九| 91www在线观看| 国产精品毛片一区视频播| 久久综合色88| 国产精品视频导航| 日本在线欧美在线| 成人免费网站久久久| 国产视频自拍一区| 国产精品污视频| 国产aⅴ无码专区亚洲av综合网| 日韩大片免费观看视频播放| 欧美亚洲国产精品第一页| 欧美一级大片在线观看| av色爱 天堂网| 极品国产在线| 在线视频亚洲色图| 精品丝袜美腿国产一区| 久久久久免费精品国产| 美女被操91视频| 91小视频在线播放| 99青青青精品视频在线| 呦系列视频一区二区三区| 亚洲国产精品美女| 成人一区在线| 亚洲人在线| 国产v欧美v日韩v综合精品| 日本成人精品视频| 国产精品播放| 午夜性刺激在线观看免费| 亚洲国产成人超福利久久精品| 免费日韩在线视频| 黄色在线不卡| 91免费国产在线观看尤物| 秋霞国产在线| 欧美一区二区三区国产精品| 亚洲天堂2014| 亚州AV秘 一区二区三区| 亚洲无码免费黄色网址| 成人精品免费视频| 无码福利视频| 欧美日韩高清| 美女被狂躁www在线观看| 爆操波多野结衣| 亚洲热线99精品视频| 精品一区二区无码av| 97人妻精品专区久久久久| 亚洲最新在线| www.狠狠| 污网站免费在线观看| 无码国产偷倩在线播放老年人 | 综合色区亚洲熟妇在线| 欧美日韩资源| 日韩色图区| 超清无码一区二区三区| 久久黄色免费电影| 亚洲成人播放| 国产成a人片在线播放| 福利在线免费视频| 日本久久网站| 九色91在线视频| 专干老肥熟女视频网站| 日本亚洲欧美在线| 97综合久久| 99视频在线免费看| 激情乱人伦| 国产精品成| 日韩天堂在线观看| 久久综合一个色综合网| 乱码国产乱码精品精在线播放| 色噜噜综合网| 精品福利一区二区免费视频| 播五月综合| 91无码人妻精品一区|