999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種語音情感深度遷移識別算法

2022-03-07 06:57:56王繼東李慧琪
軟件導刊 2022年2期
關鍵詞:分類特征情感

王繼東,李慧琪

(湖州師范學院教師教育學院,浙江湖州 313000)

0 引言

近年來,人工智能技術飛速發展,在眾多領域中應用廣泛。其中,情感計算作為計算機科學、心理學、神經科學等多學科交叉的新興研究領域,已成為人工智能發展的重要方向。而語音情感識別作為情感計算的重要分支是當前人工智能應用研究的熱點。

語音情感識別是指利用計算機分析情感,提取其表達情感的聲學特征,利用該特征進行建模并識別,尋找情感與特征之間的映射關系,實現情感分類。早在21 世紀初,Nwe 等使用隱馬爾科夫鏈模型對語音進行情感分類,實驗表明在語音情感分類上LFPC(Log Frequency Power Coefficients)特征優于MFCC(Mel Frequency Cepstrum Coefficient)特征,但隱馬爾科夫鏈未能考慮音頻特征的前后關系,導致可參考數據較少,預測準確率較低。Jain 等使用支持向量機劃分語音情感,降低無關維度的影響,提高了情感識別率,然而該方法無法大規模處理訓練樣本,對核函數及相關參數的敏感性使得劃分結果隨機性較大。Mirsamadi 等構建了基于注意力機制的雙向長短時記憶網絡(Bidirectional Long Short-Term Memory,BLSTM)模型用于語音情感分類,該模型通過分析音頻特征的前后關系以提高準確率,但模型較為復雜,訓練時間較長。

由于人類在語音情感表現及主觀判斷上的個體差異性較大,傳統識別分類算法通常需要足夠量級的數據才能較為準確提取語音情感的共同特征。目前,缺少大型語音情感訓練數據集是語音情感識別的瓶頸。鑒于此,文獻[7-9]嘗試將遷移學習技術與神經網絡相結合以解決該問題。其中,利用遷移學習將源域資源作為先驗信息遷移至目標域任務中,以提高資源利用率,解決資源不足的問題。當前,遷移學習方法在計算機科學領域引起了廣泛的研究和探討。在語音情感識別方面,Badshah 等使用CNN 卷積神經網絡對語音進行情感分類,先將語音轉化為語譜圖的二維形式,然后使用預訓練的Alexnet 網絡對自身進行遷移學習,以避免發生過擬合。Liu 等將FaceNet 模型改進后用于語音情感識別,先將語音信號轉化為波形圖和頻譜圖,隨后將其分別送入FaceNet 模型進行端到端訓練,以獲得較高的識別準確率。宋鵬等提出一種結合最大均值差異法與半監督判別法算法。文獻[16-17]則使用了遷移學習技術對前人提出的語音情感識別算法進行改進,取得了一定的效果。然而,以上遷移學習算法大多只在測試集上表現良好,在具體實踐中泛化能力較低。

針對上述問題,本文提出了一種語音情感深度遷移識別算法。首先利用手工提取特征的CNN 模型在源域中較大的語音情感數據集上進行訓練擬合,得到預訓練模型;然后,基于遷移學習技術凍結預訓練模型的卷積層,同時動態增減輸出層語音情感分類數量以形成新的分類模型;最后,將新模型在目標域中較小的語音情感數據集上進行測試,以實現低資源數據集條件下的語音情感識別。

1 本文算法

本文基于卷積層特征相關性提取功能和遷移學習方法,以下將按照算法運行步驟詳細介紹其中的關鍵處理環節。

算法主要包括確定源域數據集和構建語音情感分類模型兩步,如圖1 所示。首先,確定源域數據集,以目標域

D

中的語音情感數據集

C

為參考,通過分析數據集屬性,選擇備選數據集

C

。之后,計算

C

C

的相關性,若相關性較高則令

C

為源域

D

中的數據集

C

,否則重新選擇

C

。在確定源域數據集

C

后,進行語音情感分類模型構建。接下來,建立一個卷積神經網絡訓練擬合

C

中提取的特征,以獲取預訓練模型

N

。最后,在目標域

D

中修改

N

形成最終的遷移學習模型

N

1.1 確定源域數據集

通過選擇源域數據集、特征提取及相關性計算確定合適的源域數據集

C

,具體如下:

1.1.1 構建屬性分析表

構建屬性分析表是確定源域數據集的前提。本文基于語音情感分類的群體特異性、表現特異性和環境特異性,構建數據集屬性集

Attr

,如式(1)所示。

Fig.1 Algorithm steps圖1 算法步驟

At

tr={語言,語音長度,錄制環境,性別比例,

基于提取特征和相關性計算兩步操作以分析目標域

D

中語音情感數據集

C

與備選數據集

C

的屬性,并最終確定源域

D

中語音情感數據集

C

。

1.1.2 特征提取

為了多角度提取語音情感特征,借鑒文獻[18]的語音情感特征歸納方法,分別從數據集

C

C

中提取每條語音的1 582個情感特征形成特征集,如表1 所示。其中,“基頻個數”和“持續時長”為全局基本特征描述,直接作為新特征;局部基本特征描述則通過特征統計函數處理而成。為了保證源域

D

和目標域

D

中提取特征的相關性,使用式(2)將語音情感的特征向量

v

進行歸一化處理。

Table 1 Speech emotion feature set表1 語音情感特征集

1.1.3 相關性計算

1.2 語音情感分類模型構建

在確定源域數據集

C

后,利用遷移學習和CNN 構建語音情感分類模型,具體包括構建預訓練模型和遷移學習訓練兩部分。

1.2.1 構建預訓練模型

參照LeNet5設計一個深度可滿足數據集擬合且便于遷移的CNN,如圖2 所示。先通過卷積層處理輸入特征,然后經過全連接層進行特征擬合。由于語音情感信息較稀疏,在卷積層之間使用了Maxpool 層以突顯優勢特征,并且在全連接層間加入Dropout 層,通過隨機丟棄一半特征以避免發生過擬合現象,增強網絡的泛化能力。在網絡末端插入6 分類的Softmax 層,通過式(4)交叉熵損失函數的計算結果進行反向傳播訓練。

其中,

C

為損失值、

n

為樣本數量、

y

為樣本標簽、

a

為樣本正確的概率。在訓練網絡構建完成后,使用

C

提取的特征向量進行擬合訓練。當訓練準確率開始震蕩且與測試準確率相接近時,將分類層Softmax 之外的擬合參數和訓練網絡以文件形式分開保存,形成預訓練模型

N

。

Fig.2 Training network and hyperparameters圖2 訓練網絡與超參數

1.2.2 遷移學習訓練

將預訓練模型用于遷移學習訓練時,若源域與目標域相關性較高,則預訓練模型中卷積層的特征相關性提取可在不改變該層擬合參數的條件下,將卷積層直接應用于目標域。為此,構建了遷移學習訓練模型

N

,如圖3 所示。其中,預訓練模型

N

的具體組成見圖2;遷移學習模型

N

基于

N

改造而成。具體修改操作包括:①凍結

N

中卷積層Conv_1 和Conv_2 的擬合參數,使其在遷移學習訓練過程中始終保持不變;②動態增減分類層Softmax 的超參數,以滿足語音情感分類要求。在遷移學習訓練模型

N

構建完成后,使用目標域數據集

C

提取的特征進行訓練,以實現語音情感分類。

1.2.3 復雜度分析

卷積神經網絡包含多個隱藏層,其計算主要是矩陣乘法,時間復雜度為

O

(

d

d

),其中

d

表示第l 層的維度。因此,CNN 的時間復雜度可表示為:

其中,

t

為模型訓練的迭代次數,

L

為卷積層數。本文語音情感分類識別算法中預訓練和遷移訓練都基于CNN,因此時間復雜度可表示為:

其中,

n

n

分別為預訓練和遷移訓練的迭代次數。

Fig.3 Construction of transfer learning training network圖3 遷移學習訓練網絡構建

2 實驗與分析

實驗環境為Intel Core i3-8145U 2.3GHz,4GB RAM,Window 10 操作系統,基于Pytorch 框架實現本文算法,并進行相關實驗和分析。由于語音情感在自然狀態和表演狀態下的表現存在差異,因此選擇2個表演數據集CASIA和EMO-DB作為研究對象。其中,CASIA 庫是普通話語音情感數據庫,包括4 名演員憤怒、驚訝、恐懼、快樂、嫉妒和悲傷6 種情緒,共1 200 條數據;EMO-DB 庫為德語語音情感數據庫,包括10 名演員生氣、高興、害怕、悲傷、厭惡、無聊和中性7 種情緒,共535 條數據,但由于厭惡語句過少無法進行訓練,本文予以剔除,僅使用剩下的6 種情感,共489條數據進行訓練。

2.1 測試遷移學習

選擇CASIA 庫1 200 條數據作為源域數據集,選擇EMO-DB 庫106 條數據作為目標域數據集。根據式(3),從源域數據集中隨機抽取兩批106 條數據,計算的距離值為0.458 3;從源域數據集中隨機抽取106 條數據,計算其與目標域數據集的距離值為0.480 3;從源域數據集中隨機抽取106 條數據,計算其與同等規模的全1 分布距離為1.508 1??勺C明源域與目標域之間的距離較短,適合語音情感遷移學習。

本文從CASIA 庫中隨機抽取的方法是將數據按大小升序排列后進行編號,以系統時間為隨機種子,使用隨機函數從[1,1 200]范圍內產生所需數量的數據。為取得預訓練模型,本文將CASIA 中抽取的1 200 條數據,隨機選擇1 080 條數據作為訓練集,其余數據作為測試集。采用Adam 優化器,學習率設置為0.001,批尺寸為50。

圖4 是預訓練模型混淆矩陣,可見模型在預判“生氣”情緒時效果較好,在預判“驚訝”情緒時效果一般,模型的總體效果較好。

Fig.4 Pre training model confusion matrix圖4 預訓練模型混淆矩陣

在遷移學習訓練時,選擇EMO-DB 庫中106 條數據模擬日常可收集的數據量進行訓練,從中隨機選擇74 條數據作為訓練集,剩余32 條作為測試集。采用Adam 優化器,學習率設置為0.001,批尺寸為20。訓練混淆矩陣如圖5 所示,可見當改變情感位置與種類時,預訓練對遷移學習訓練會造成較大影響,例如在本次預訓練過程中,預判正確率較高的傷心情感準確率為100%,而其中不存在的無聊情感,則大部分被模型誤判為中性情感。

由圖4-圖5 可見,當源域與目標域較接近時,遷移學習對提高語音情感識別訓練準確率存在較大的正向影響。

Fig.5 Transfer learning model confusion matrix圖5 遷移學習模型混淆矩陣

2.2 算法比較

為了檢驗遷移學習提升準確率的效果,在設置相同優化器、學習率等參數條件下,使用BLSTM 和CNN 模型與本文算法進行了比較實驗。實驗輸入數據分別為EMO-DB中1 男1 女共106 條數據與CASIA 中120 條數據,以模擬低資源數據集。如圖6 所示,當BLSTM 和CNN 僅訓練EMODB 的106 條和CASIA 的120 條數據時,容易發生過擬合現象。而本文算法可有效提升低資源數據集的泛化能力,以獲取更高準確率。

Fig.6 Comparison of recognition rate圖6 識別率比較

3 結語

本文基于CNN 和遷移學習提出了一種語音情感識別算法。該算法在目標域數據集不足的限制條件下,通過確定源域數據集和構建語音情感分類模型兩個步驟實現了對低資源數據集的語音情感分類。對比現有傳統算法,本文算法識別率達到60%以上。未來工作中,將尋找適用于語音情感識別的預訓練模型對其進行遷移學習,以進一步提升語音情感識別的精度。

猜你喜歡
分類特征情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 99re这里只有国产中文精品国产精品| 超薄丝袜足j国产在线视频| 国产在线观看一区精品| 女人18毛片久久| 国产精品自在线拍国产电影| 国产亚洲欧美在线中文bt天堂| 91精品国产一区自在线拍| 伊人色综合久久天天| 国产成人午夜福利免费无码r| 亚洲人在线| 无码一区18禁| 国产主播在线一区| 真实国产乱子伦高清| 亚洲综合经典在线一区二区| 亚洲精品福利网站| 超清人妻系列无码专区| 久久天天躁狠狠躁夜夜2020一| 国产欧美综合在线观看第七页| 青青热久麻豆精品视频在线观看| 麻豆精品视频在线原创| 亚洲日本www| 亚洲国产综合精品一区| 国产一级妓女av网站| 日韩中文无码av超清| 国产草草影院18成年视频| 欧美特级AAAAAA视频免费观看| 最新加勒比隔壁人妻| 亚洲最大看欧美片网站地址| 中文字幕在线日本| 亚洲第一色网站| 九色91在线视频| 99热最新网址| 毛片久久久| 欧美三级自拍| 久久青草视频| 99久久精品国产精品亚洲| 国产性生交xxxxx免费| 国产不卡网| 国产91av在线| 亚洲第一视频免费在线| 欧美亚洲欧美| 极品av一区二区| 99热这里都是国产精品| 国产呦视频免费视频在线观看| 午夜不卡视频| 毛片免费高清免费| 国产精品原创不卡在线| 国产精品视频免费网站| 538精品在线观看| 香蕉网久久| 亚洲色图欧美| 国产簧片免费在线播放| 伊人久综合| 青青草原国产一区二区| 一区二区三区在线不卡免费| 国产日韩欧美在线视频免费观看| 欧美日在线观看| 无码有码中文字幕| 国产午夜不卡| 日韩在线中文| 欧美亚洲网| 精品国产自在在线在线观看| 欧美一级爱操视频| 国产草草影院18成年视频| 亚洲一区二区成人| 日日拍夜夜操| 国产亚洲精品精品精品| 狠狠色狠狠色综合久久第一次| 精品国产免费观看| 97超爽成人免费视频在线播放| 国产在线日本| 国产丝袜第一页| 国内毛片视频| 女人18毛片久久| 蜜臀AVWWW国产天堂| 91一级片| 久久久久久久97| 国产喷水视频| 久久综合九九亚洲一区| 欧美在线综合视频| 五月婷婷综合在线视频| 国产真实乱子伦视频播放|