999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種隨機平均分布的集成學習方法

2022-02-19 10:23:52艾旭升盛勝利李春華
計算機應用與軟件 2022年2期
關鍵詞:情感方法模型

艾旭升 盛勝利 李春華

1(蘇州工業職業技術學院軟件與服務外包學院 江蘇 蘇州 215104) 2(蘇州科技大學電子與信息工程學院 江蘇 蘇州 215009)

0 引 言

情感引導非語言的社會信號(例如肢體語言和面部表情)表達需求,需求和欲望是人類交流中重要的副語言信息。目前,語音情感識別在醫療和心理咨詢、客戶服務和電信等領域已經有著廣泛的應用。在醫療領域,語音情感識別可以幫助臨床醫生在線評估患者因情緒困難而產生的心理障礙。在客戶呼叫中心行業中,語音情感識別自動檢測客戶的滿意度,提高服務質量。在電信領域,語音情感識別幫助調度中心優先接入高優先級的緊急呼叫。

近年來,注意力模型引起了學術界的廣泛關注。特別是在圖像處理、語音識別和自然語言處理領域,注意力模型與卷積循環神經網絡的結合可以更好地聚焦輸入目標,成為學術界關注的熱點。在語音情感識別中,各個幀對情感的影響并不相同,注意力模型估計每個幀的重要性,而不是簡單取平均值或最大值,有利于卷積循環神經網絡更準確地識別目標情感。在訓練過程中,學習算法往往采用交叉熵損失函數評價模型的好壞,通過減少損失函數值逐漸逼近最佳模型。然而大多數語音情感樣本的樣例分布并不平衡,存在多數類樣例數大于少數類樣例數的現象,訓練得到的模型識別少數類的能力偏低,影響模型的整體性能。因此,在不平衡樣本上訓練模型時,需要考慮不平衡問題,防止模型向多數類偏置。

為解決傳統機器學習中的不平衡問題,學術界已經提出了很多方法或算法,一些方法在深度學習領域仍然適用。比如Bagging并不與具體算法相關,方便遷移到深度學習領域。然而,當基于放回抽樣的Bagging應用到深度學習時,經過有限輪學習后,基分類器的訓練誤差盡管接近0,重復的訓練樣例還是帶來了過學習風險,降低綜合分類器的情感識別能力。為解決傳統Bagging方法的過學習問題,本文基于機會均等原則,提出一種隨機平均分布的集成方法(Redagging)。Redagging等概率地把訓練樣例放入子訓練樣本,避免子訓練樣本中的重復樣例,提高綜合分類器的預測能力。圖1展示了在10個IEMOCAP樣本上兩種集成方法的實驗結果,深色柱體代表Bagging基分類器的平均UAR(Unweighted Average Recall),淺色柱體代表Redagging基分類器的平均UAR。可以看出,在大多數樣本上,Redagging基分類器的平均UAR明顯高于Bagging基分類器的平均UAR,因而只要保證Redagging基分類器的異構性,理論上Redagging綜合分類器的性能將超越Bagging綜合分類器的性能。

圖1 兩種集成學習方法的基分類器比較

1 相關工作

語音情感識別研究初期,大多采用傳統機器學習方法,語音信號轉化為統計特征后,語音情感識別轉化為多分類問題[1-2]。隨著深度學習在圖像識別方面的成功應用,深度學習也開始解決語音情感識別問題,其中卷積循環神經網絡和注意力模型受到廣泛關注[3-4]。Lee等[5]開始采用雙向長短期記憶網絡(BiLSTM)抽取高層屬性,情感識別準確率明顯提高。Trigeorgis等[6]結合卷積神經網絡(CNN)和雙向長短期記憶網絡(BiLSTM),抽取語音信號代表的高層特征,進一步提高了識別精度。Chen等[7]在前面工作的基礎上,提出融入關注度模型的卷積循環神經網絡,處理3通道的底層特征,顯著提高了卷積循環神經網絡的情感識別能力。Latif等[8]采用多種濾波器寬度的并行卷積層,直接從原始語音中捕獲各種上下文信息,取得了良好的實驗效果。Kwon[9]提出深度跨步卷積神經網絡(DSCNN),聚焦語音信號的顯著性和描述性特征,從而提高預測準確率。

同時,深度學習的不平衡問題也引起研究者的重視,學者開始重新評估以往不平衡問題的解決方法,試圖遷移到深度學習領域。Hensman等[10]研究不平衡數據集對CNN神經網絡的影響,指出過采樣是抵消樣本分布不平衡的可行方法。Lin等[11]在交叉熵損失函數的基礎上,提出焦點損失函數(Focal Loss),在存在大量背景樣本的情況下,顯著提高前景物體的識別精度。Etienne等[12]通過聲道長度擾動合成少數類樣例,合成的少數類樣例和原樣本一起訓練模型,改善模型預測少數類的能力。Buda等[13]比較多種不平衡問題解決方法,分析不平衡數據集對CNN神經網絡分類的影響,認為不平衡問題確實存在,需要采用過采樣方法和選取合適的閾值來提高模型的預測能力。Zheng等[14]從不同角度抽取情感特征來構建異構基分類器,然后使用集成學習方法執行情感識別任務。目前,在深度學習領域,集成學習解決不平衡問題的研究還很少,缺乏集成學習方法和其他不平衡學習方法的比較研究,而易于移植的集成學習方法是快速提高學習算法性能的常用途徑之一,遷移集成學習方法到深度學習領域具有重要的研究價值。

一般來說,集合學習方法分為三種:Bagging[15]、Boosting[16]和Stacking[17]。Bagging采用有放回抽樣構建子訓練樣本,每個子訓練樣本構建一個模型,最終的分類結果由全部模型的投票結果決定。Boosting通過增加錯誤分類樣例的權重和降低正確分類樣例的權重逐步提高模型的分類能力,是一種串行集成方法。Stacking先訓練多種類型的基分類器,然后把多個基分類器的輸出作為輸入傳輸到元分類器,最后由元分類器判定分類結果。Boosting是通過降低訓練誤差而提高泛化誤差,而深度學習算法經過有限輪后訓練誤差逼近0,因而Boosting并不適用深度學習任務。Stacking構造多種類型的基分類器,不適用提升單種模型的預測能力。Bagging通過抽樣樣本構建異構的基分類器,與具體學習算法分離,并且基分類器構建過程并行進行,具有良好的移植性和擴展性。本文提出的Redagging方法仍然具備Bagging的優點,與Bagging相比,Redagging有2個不同點:(1) 訓練樣例在一個子訓練樣本中很少重復出現;(2) 訓練樣例平均分布到子訓練樣本。

2 卷積循環神經網絡和注意力模型

2.1 輸入向量

mi=log(qi)

(1)

(2)

(3)

2.2 卷積循環神經網絡

輸入x后,首先卷積層(CNN)捕捉低層特征,接下來的BiLSTM層包含2個LSTM單元,分別順序和逆序提取高層特征,接著進入全連接層后,輸出向量p=(p1,p2,…,pT)。任意t∈{1,2,…,T},pt代表情感et的概率,最后標簽y判定為T個情感中pt取得最大值的情感。卷積循環神經網絡(CRNN)結構如圖2所示,其中通道數c為1或3。

圖2 卷積循環神經網絡

CRNN的BiLSTM層簡單地認為每個幀對目標情感的貢獻度相同,但研究證明各個幀對目標情感的貢獻度并不一致[4],而圖2的網絡結構并沒有考慮由此帶來的影響,下面給出一種融入注意力模型的卷積循環神經網絡模型ARCNN以解決這一問題。

2.3 融入注意力模型的卷積循環神經網絡

(4)

式中:W表示可訓練的網絡參數。

(5)

ARCNN整體設計如圖3所示。

圖3 注意力卷積循環神經網絡

基于圖3定義的網絡結構,ARCNN各層的參數設置如表1所示。每個全卷積層都跟著一個Max池化層,最后一個池化層輸出大小為300×5×512,經過全連接層后,轉化為768維的序列,再經過BiLSTM層后,向量大小變成300×256。接下來的全連接層轉換到300×1向量,然后采用式(4)和式(5)計算語句情感特征,再經過全連接層和Softmax激活函數后,輸出概率最大的分量下標y。

表1 ARCNN架構

需要說明的是,每個池化層、第1個全連接層和第3個全連接層都跟著BatchNormalization層[18]和LeakyLeRU[19]激活層。因為BatchNormalization層和LeakyLeRU激活層不改變向量維度,為節省空間沒有在表1中列出。后面的實驗把ARCNN作為基準方法或基分類器。

3 基于隨機平均分布的集成學習方法

給定一個訓練集D={(x1,y1),(x2,y2),…,(xm,ym)},xi∈X,yi∈Y,X代表樣例空間,Y={0,1,…,T-1}。按照yi值進行劃分,得到T個訓練子集{D1,D2,…,DT},任意t∈{1,2,…,T},Dt中的元素yi值相同。為討論方便,假設|D1|<|D2|<…<|DT|,|Dt|代表Dt的大小。

3.1 Bagging

算法1Bagging

輸出:H(x)=argmax(p)

%argmax取p最大分量的下標

fork=1,2,…,K

fort=1,2,…,T

end for

end for

p=(h1(x)+h2(x)+…+hK(x))/K

%取平均值

證明:事件A0:x不出現,那么:

事件A1:x出現1次,那么:

因為P(A)=1-P(A0)-P(A1)=

已知d→+∞,dt≈d,因此:

為了避免自舉樣本重復樣例帶來的過學習問題,需要減少重復樣例。另外,基分類器的異構性同樣重要,同構的基分類器也不能提高模型的識別能力。

3.2 Redagging

Redagging基于標簽t的訓練子集Dt,隨機生成不少于K|D1|個樣例的樣本池Dt*,然后把Dt*按照順序分配到每個自舉樣本Dk。因為新方法把每個樣例隨機平均分布到自舉樣本,所以命名為隨機平均分布集成方法(Redagging)。其中:K代表自舉樣本數,|D1|代表訓練集中少數類樣例數;|DT|代表多數類樣例數。Redagging的偽代碼實現如算法2所示,其中偽隨機數采用NumPy[20]提供的梅森旋轉算法[21]接口生成。

算法2Redagging

輸出:H(x)=argmax(p)

%argmax取p最大分量的下標

fort=1,2,…,T

fori=1,2,…,I

r=產生一個偽隨機數;

Dt,i=基于r生成Dt的隨機排列;

end for

Dt*=Dt,1∪Dt,2∪…∪Dt,I;

%Dt*為標簽t生成至少K|D1|個樣例

end for

fork=1,2,…,K

fort=1,2,…,T

%[]取Dt*中第k段t標簽樣本

end for

end for

p=(h1(x)+h2(x)+…+hK(x))/K

%取平均值

與Bagging相比,Redagging在所有自舉樣本上平均分布樣例,重復樣例很低,自舉樣本由于隨機數種子不同,仍然保持樣本間的差異性。在10個IEMOCAP[22]數據集上比較Bagging和Redagging,實驗結果如圖4所示。可以看出,Redagging基分類器的平均UAR高于Bagging基分類器的平均UAR,表明自舉樣本的重復樣例造成性能下降;并且,Redagging的UAR也高于基分類器的平均UAR,反映了基分類器的異構性。

圖4 兩種方法在10個IEMOCAP數據集上的UAR比較

4 實驗與結果分析

實驗運行在H3C G4900服務器上,服務器配置Tesla V100獨立32 GB GPU顯卡,安裝Python 3.7.0、CUDA 10.01加速平臺和cuDNN 7.4.2.24深度學習加速平臺。

語音信號通過python_speech_features庫[23]轉換語音信號到輸入向量,窗口大小等于25 ms,位移等于10 ms,采用NumPy[20]數組存儲向量和執行矩陣運算。為區別通道數c=1或c=3兩種情況,命名ARCNN有兩個別名:通道數c=1時,ARCNN命名為ARCNN-2D;輸入通道數c=3時,ARCNN命名為ARCNN-3D。ARCNN各層調用Keras[24]函數實現,采用categorical_crossentropy損失函數[25]評價模型,選擇Adam優化器[26],學習率設為10-3。

在IEMOCAP和EMODB[27]數據集上,ARCNN-2D和ARCNN-3D作為基準方法,與過采樣、Bagging、欠采樣、Redagging作比較。過采樣隨機復制訓練集中的少數類樣例,直到所有標簽的樣例數相同。欠采樣隨機去除訓練集中的多數類樣例,直到所有標簽的樣例數相同。Bagging參照算法1,ARCNN-2D和ARCNN-3D作為基分類器。Redagging參照算法2,ARCNN-2D和ARCNN-3D作為基分類器。考慮到初始化權重的隨機性,每個實驗任務運行5次,取5次運行結果的平均值作為實驗結果。

4.1 基于IEMOCAP數據庫的性能比較

IEMOCAP由五個會話組成,每個會話由一對發言者(女性和男性)在背誦臺詞和即興表演情景中完成。樣例平均時長為4.5 s,采樣率為16 kHz,實驗在高興、憤怒、悲傷和中性四種情感樣本上運行。每個任務使用10-fold交叉驗證技術,每個樣本中的1個說話人構成測試集,另外1個說話人構成驗證集,其余8個說話人構成訓練集,10個樣本的訓練集描述如表2所示,驗證集和測試集的不平衡比與訓練集的不平衡比接近。實驗中Bagging和Redagging的K值設為5,當K>5,兩種方法的性能沒有顯著提升。

表2 IEMOCAP訓練集描述

在10個IEMOCAP樣本上測試ARCNN和4種不平衡方法,每個訓練集上循環10代取得最高UAR的模型,保存在驗證集上,五種方法在測試集上的平均UAR如表3所示。可以看出,在五種方法中,Redagging表現最好,欠采樣和過采樣次之,采用ARCNN-3D作為基分類器的Bagging方法優于未采樣的ARCNN-3D,但采用ARCNN-2D作為基分類器的Bagging方法和未采樣的ARCNN-2D保持在一個水平。為了進一步比較五種方法的整體表現,進一步統計每個方法在10個樣本上的平均排名,統計結果如圖5所示。可以看出,當ARCNN-2D作為基準方法時,采用ARCNN-2D作為基分類器的Redagging平均排名最靠前,欠采樣次之,緊跟著是過采樣和采用ARCNN-2D基分類器的Bagging方法,平均排名最低的是未采樣的ARCNN-2D;當ARCNN-3D作為基準方法時,采用ARCNN-3D作為基分類器的Redagging平均排名仍然最靠前,欠采樣次之,過采樣和采用ARCNN-3D基分類器的Bagging方法并不比未采樣的ARCNN-3D排名靠前。

表3 五種方法在10個IEMOCAP樣本上的平均UAR

圖5 五種方法在10個IEMOCAP樣本上的召回率平均排名

F1值是召回率和精度的加權平均,當評價不平衡學習方法時,F1值是一個重要指標。當算法在10代內取得最大召回率時,對應的平均F1值如表4所示。可以看出,在五種方法中,Redagging表現最好,欠采樣次之,過采樣和Bagging并沒有顯著提高未采樣的ARCNN性能。為了進一步比較方法在不同樣本的表現,統計每個方法在10個樣本上的F1值平均排名,統計結果如圖6所示。可以看出,在五種方法中,Redagging平均排名最靠前,欠采樣緊隨其后,過采樣和Bagging平均排名墊底。需要指出的是,盡管采用ARCNN-2D基分類器的欠采樣方法提升了ARCNN-2D性能,但由于欠采樣是隨機去除訓練樣例訓練單個分類器,性能容易波動。在表4中,基于ARCNN-2D的欠采樣方法比基準方法的平均F1值高,而在圖6中,它的F1值平均排名比基準方法靠后,正反映了欠采樣方法的不穩定性。

表4 五種方法在10個IEMOCAP樣本上的平均F1值

圖6 五種方法在10個IEMOCAP樣本的F1值平均排名

在表3和表4中,ARCNN-3D性能并沒有超越ARCNN-2D,原因可能是ARCNN-3D輸入有更多的通道,需要采用更多的卷積層。這種超出了本文的討論范圍,并且性能更好的分類器也會帶來不平衡方法的性能提升,不會影響上面的分析結果

4.2 基于Emo-DB數據庫的性能比較

Emo-DB由10位專業演員的535句話組成,涵蓋7種情緒(中立、恐懼、喜悅、憤怒、悲傷、厭惡和無聊),原始音頻在44.1 kHz采樣,后來下采樣到16 kHz。盡管大多數論文采用了全部7種情感,但事實上焦慮和厭惡兩種情感在某些驗證集上樣例數小于3個,而每次實驗是在25代中找到UAR最高的模型,采用這兩種情感樣本易于造成實驗數據波動,因此在本實驗中只采用了憤怒、無聊、高興、悲傷和中性五種情感樣本。實驗使用10-fold交叉驗證技術。每個樣本中的1個說話人構成測試集,另外1個說話人構成驗證集,剩下的8個說話人構成訓練集,10個樣本的訓練集描述如表5所示,驗證集和測試集的不平衡比與訓練集的不平衡比接近。實驗中Bagging和Redagging的K值設為4,當K>4,兩種方法的性能沒有顯著提升。

表5 EMODB訓練集描述

在10個EMODB樣本上測試ARCNN和4種不平衡方法,每個訓練集上循環25代,取得最高UAR的模型保存在驗證集上,五種方法在測試集上平均UAR如表6所示。可以看出,在五種方法中,Redagging表現最好,過采樣次之,然后是Bagging,欠采樣并沒有提升ARCNN性能。為了進一步比較5種方法的整體表現,進一步統計每個方法在10個樣本上的UAR平均排名,統計結果如圖7所示。

表6 五種方法在10個EMODB樣本上的平均UAR

圖7 五種方法在10個EMODB樣本上的UAR平均排名

可以看出,當ARCNN-2D作為基準方法時,采用ARCNN-2D作為基分類器的Redagging平均排名最靠前,過采樣次之,緊跟著是采用ARCNN-2D基分類器的Bagging方法,欠采樣平均排名跟在ARCNN-2D之后;當ARCNN-3D作為基準方法時,采用ARCNN-3D作為基分類器的Redagging平均排名仍然最靠前,過采樣次之,采用ARCNN-3D作為基分類器的Bagging方法緊隨其后,然后是欠采樣,未采樣的ARCNN-3D平均排名最低。

當算法在25代內取得最大UAR時,對應的平均F1值如表7所示。可以看出,與未采樣的ARCNN相比,不平衡學習方法都提高了平均F1值,其中Redagging提高最顯著。為了進一步比較方法在不同樣本的表現,進一步統計每個方法在10個樣本上的平均排名,統計結果如圖8所示。可以看出,在五種方法中,Redagging平均排名最靠前,其他不平衡學習方法的平均排名也高于未采樣的ARCNN。

表7 五種方法在10個EMODB樣本上的平均F1值

圖8 五種方法在10個EMODB樣本的F1值平均排名

如果采用更多的卷積層,ARCNN-3D可能優于ARCNN-2D,但這個差異不影響Redagging的優越性,因為性能更好的基分類器也會進一步提升Redagging性能。整體而言,在IEMOCAP和EMODB兩個數據庫上的實驗表明,從UAR和F1值兩個指標來看,Redagging不僅優于Bagging,也優于重采樣和欠采樣方法,有效提高了ARCNN的情感識別能力。

5 結 語

本文基于卷積循環網絡和注意力模型,提出基于隨機平均分布的集成學習方法(Redagging),解決了Bagging方法的過學習問題,提升了ARCNN的分類性能。在IEMOCAP和EMODB數據庫的實驗結果表明,與包括Bagging在內的其他不平衡學習方法相比,不管單通道輸入向量還是3通道輸入向量,Redagging都能提升卷積循環神經網絡和注意力模型的情感識別能力,驗證了本文方法的有效性。

Redagging是Bagging方法的改進版本,獨立于具體學習算法,適用于在不平衡數據集上提升基分類器(比如深度神經網絡模型)的泛化能力。事實上,在機器學習技術的應用場景下,只要存在不平衡數據集帶來的模型偏置問題,Redagging都可能有所幫助。本文以語音情感識別任務為例,證實了Redagging方法的合理性和有效性,未來將推廣到圖像識別領域,研究解決背景檢測、異常行為檢測和人臉屬性識別等任務的不平衡問題。

猜你喜歡
情感方法模型
一半模型
如何在情感中自我成長,保持獨立
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
如何在情感中自我成長,保持獨立
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 萌白酱国产一区二区| аv天堂最新中文在线| 亚洲最黄视频| 久996视频精品免费观看| 亚洲精品无码成人片在线观看| 青青热久麻豆精品视频在线观看| 国产精品视频观看裸模| 茄子视频毛片免费观看| 国产精品999在线| 亚洲开心婷婷中文字幕| 试看120秒男女啪啪免费| 国内嫩模私拍精品视频| 午夜福利在线观看入口| 毛片视频网址| 97国产精品视频自在拍| 精品无码国产自产野外拍在线| 福利视频久久| 在线观看亚洲精品福利片| 国产精品福利尤物youwu| 久久久国产精品无码专区| 日韩乱码免费一区二区三区| 日韩精品亚洲人旧成在线| 国产网友愉拍精品视频| 国产靠逼视频| 亚洲成网777777国产精品| 午夜精品影院| 亚洲一区二区三区麻豆| 婷婷成人综合| 谁有在线观看日韩亚洲最新视频| а∨天堂一区中文字幕| 国产精品区视频中文字幕| 国产精品三级av及在线观看| 国产91色| 亚洲六月丁香六月婷婷蜜芽| 亚洲乱码在线视频| 国产精品无码在线看| 亚洲无码四虎黄色网站| 免费无码又爽又黄又刺激网站| 色综合手机在线| 国产jizzjizz视频| 色精品视频| 国产一区免费在线观看| 四虎永久免费在线| 中文字幕亚洲精品2页| 国产成人亚洲毛片| 成人免费视频一区| 国产第一页免费浮力影院| 最新精品国偷自产在线| 99热精品久久| 黑人巨大精品欧美一区二区区| 久草网视频在线| 伊人久热这里只有精品视频99| jijzzizz老师出水喷水喷出| 欧美精品不卡| 日韩成人免费网站| 精品精品国产高清A毛片| 国产剧情一区二区| 亚洲综合日韩精品| 激情综合网址| 亚洲成a人片| 国产99免费视频| 四虎永久在线精品国产免费| 亚洲天堂在线视频| 熟女日韩精品2区| 国产日韩欧美精品区性色| 在线观看精品自拍视频| 超清无码熟妇人妻AV在线绿巨人 | 精品天海翼一区二区| 久久综合九九亚洲一区| 婷婷99视频精品全部在线观看| 亚洲最新在线| 色哟哟精品无码网站在线播放视频| 日本尹人综合香蕉在线观看| a级毛片视频免费观看| 99久视频| 国产麻豆福利av在线播放| 亚洲天堂网在线播放| 91精品福利自产拍在线观看| 国产高清无码第一十页在线观看| 一级黄色欧美| 亚洲欧美激情小说另类| 欧美成人精品高清在线下载|