一種語音情感深度遷移識別算法

2022-03-07 06:57:56王繼東李慧琪

軟件導刊 2022年2期

王繼東，李慧琪

（湖州師范學院教師教育學院，浙江湖州 313000）

0 引言

近年來，人工智能技術飛速發展，在眾多領域中應用廣泛。其中，情感計算作為計算機科學、心理學、神經科學等多學科交叉的新興研究領域，已成為人工智能發展的重要方向。而語音情感識別作為情感計算的重要分支是當前人工智能應用研究的熱點。

語音情感識別是指利用計算機分析情感，提取其表達情感的聲學特征，利用該特征進行建模并識別，尋找情感與特征之間的映射關系，實現情感分類。早在21 世紀初，Nwe 等使用隱馬爾科夫鏈模型對語音進行情感分類，實驗表明在語音情感分類上LFPC（Log Frequency Power Coefficients）特征優于MFCC（Mel Frequency Cepstrum Coefficient）特征，但隱馬爾科夫鏈未能考慮音頻特征的前后關系，導致可參考數據較少，預測準確率較低。Jain 等使用支持向量機劃分語音情感，降低無關維度的影響，提高了情感識別率，然而該方法無法大規模處理訓練樣本，對核函數及相關參數的敏感性使得劃分結果隨機性較大。Mirsamadi 等構建了基于注意力機制的雙向長短時記憶網絡（Bidirectional Long Short-Term Memory，BLSTM）模型用于語音情感分類，該模型通過分析音頻特征的前后關系以提高準確率，但模型較為復雜，訓練時間較長。

由于人類在語音情感表現及主觀判斷上的個體差異性較大，傳統識別分類算法通常需要足夠量級的數據才能較為準確提取語音情感的共同特征。目前，缺少大型語音情感訓練數據集是語音情感識別的瓶頸。鑒于此，文獻［7-9］嘗試將遷移學習技術與神經網絡相結合以解決該問題。其中，利用遷移學習將源域資源作為先驗信息遷移至目標域任務中，以提高資源利用率，解決資源不足的問題。當前，遷移學習方法在計算機科學領域引起了廣泛的研究和探討。在語音情感識別方面，Badshah 等使用CNN 卷積神經網絡對語音進行情感分類，先將語音轉化為語譜圖的二維形式，然后使用預訓練的Alexnet 網絡對自身進行遷移學習，以避免發生過擬合。Liu 等將FaceNet 模型改進后用于語音情感識別，先將語音信號轉化為波形圖和頻譜圖，隨后將其分別送入FaceNet 模型進行端到端訓練，以獲得較高的識別準確率。宋鵬等提出一種結合最大均值差異法與半監督判別法算法。文獻［16-17］則使用了遷移學習技術對前人提出的語音情感識別算法進行改進，取得了一定的效果。然而，以上遷移學習算法大多只在測試集上表現良好，在具體實踐中泛化能力較低。

針對上述問題，本文提出了一種語音情感深度遷移識別算法。首先利用手工提取特征的CNN 模型在源域中較大的語音情感數據集上進行訓練擬合，得到預訓練模型；然后，基于遷移學習技術凍結預訓練模型的卷積層，同時動態增減輸出層語音情感分類數量以形成新的分類模型；最后，將新模型在目標域中較小的語音情感數據集上進行測試，以實現低資源數據集條件下的語音情感識別。

1 本文算法

本文基于卷積層特征相關性提取功能和遷移學習方法，以下將按照算法運行步驟詳細介紹其中的關鍵處理環節。

算法主要包括確定源域數據集和構建語音情感分類模型兩步，如圖1 所示。首先，確定源域數據集，以目標域

中的語音情感數據集

為參考，通過分析數據集屬性，選擇備選數據集

。之后，計算

與

的相關性，若相關性較高則令

為源域

中的數據集

，否則重新選擇

。在確定源域數據集

后，進行語音情感分類模型構建。接下來，建立一個卷積神經網絡訓練擬合

中提取的特征，以獲取預訓練模型

。最后，在目標域

中修改

形成最終的遷移學習模型

。

1.1 確定源域數據集

通過選擇源域數據集、特征提取及相關性計算確定合適的源域數據集

，具體如下：

1.1.1 構建屬性分析表

構建屬性分析表是確定源域數據集的前提。本文基于語音情感分類的群體特異性、表現特異性和環境特異性，構建數據集屬性集

Attr

，如式（1）所示。

Fig.1 Algorithm steps圖1 算法步驟

tr={語言,語音長度,錄制環境,性別比例,

基于提取特征和相關性計算兩步操作以分析目標域

中語音情感數據集

與備選數據集

的屬性，并最終確定源域

中語音情感數據集

。

1.1.2 特征提取

為了多角度提取語音情感特征，借鑒文獻［18］的語音情感特征歸納方法，分別從數據集

和

中提取每條語音的1 582個情感特征形成特征集，如表1 所示。其中，“基頻個數”和“持續時長”為全局基本特征描述，直接作為新特征；局部基本特征描述則通過特征統計函數處理而成。為了保證源域

和目標域

中提取特征的相關性，使用式（2）將語音情感的特征向量

進行歸一化處理。

Table 1 Speech emotion feature set表1 語音情感特征集

1.1.3 相關性計算

1.2 語音情感分類模型構建

在確定源域數據集

后，利用遷移學習和CNN 構建語音情感分類模型，具體包括構建預訓練模型和遷移學習訓練兩部分。

1.2.1 構建預訓練模型

參照LeNet5設計一個深度可滿足數據集擬合且便于遷移的CNN，如圖2 所示。先通過卷積層處理輸入特征，然后經過全連接層進行特征擬合。由于語音情感信息較稀疏，在卷積層之間使用了Maxpool 層以突顯優勢特征，并且在全連接層間加入Dropout 層，通過隨機丟棄一半特征以避免發生過擬合現象，增強網絡的泛化能力。在網絡末端插入6 分類的Softmax 層，通過式（4）交叉熵損失函數的計算結果進行反向傳播訓練。

其中，

為損失值、

為樣本數量、

為樣本標簽、

為樣本正確的概率。在訓練網絡構建完成后，使用

提取的特征向量進行擬合訓練。當訓練準確率開始震蕩且與測試準確率相接近時，將分類層Softmax 之外的擬合參數和訓練網絡以文件形式分開保存，形成預訓練模型

。

Fig.2 Training network and hyperparameters圖2 訓練網絡與超參數

1.2.2 遷移學習訓練

將預訓練模型用于遷移學習訓練時，若源域與目標域相關性較高，則預訓練模型中卷積層的特征相關性提取可在不改變該層擬合參數的條件下，將卷積層直接應用于目標域。為此，構建了遷移學習訓練模型

，如圖3 所示。其中，預訓練模型

的具體組成見圖2；遷移學習模型

基于

改造而成。具體修改操作包括：①凍結

中卷積層Conv_1 和Conv_2 的擬合參數，使其在遷移學習訓練過程中始終保持不變；②動態增減分類層Softmax 的超參數，以滿足語音情感分類要求。在遷移學習訓練模型

構建完成后，使用目標域數據集

提取的特征進行訓練，以實現語音情感分類。

1.2.3 復雜度分析

卷積神經網絡包含多個隱藏層，其計算主要是矩陣乘法，時間復雜度為

(

)，其中

表示第l 層的維度。因此，CNN 的時間復雜度可表示為：

其中，

為模型訓練的迭代次數，

為卷積層數。本文語音情感分類識別算法中預訓練和遷移訓練都基于CNN，因此時間復雜度可表示為：

其中，

和

分別為預訓練和遷移訓練的迭代次數。

Fig.3 Construction of transfer learning training network圖3 遷移學習訓練網絡構建

2 實驗與分析

實驗環境為Intel Core i3-8145U 2.3GHz，4GB RAM，Window 10 操作系統，基于Pytorch 框架實現本文算法，并進行相關實驗和分析。由于語音情感在自然狀態和表演狀態下的表現存在差異，因此選擇2個表演數據集CASIA和EMO-DB作為研究對象。其中，CASIA 庫是普通話語音情感數據庫，包括4 名演員憤怒、驚訝、恐懼、快樂、嫉妒和悲傷6 種情緒，共1 200 條數據；EMO-DB 庫為德語語音情感數據庫，包括10 名演員生氣、高興、害怕、悲傷、厭惡、無聊和中性7 種情緒，共535 條數據，但由于厭惡語句過少無法進行訓練，本文予以剔除，僅使用剩下的6 種情感，共489條數據進行訓練。

2.1 測試遷移學習

選擇CASIA 庫1 200 條數據作為源域數據集，選擇EMO-DB 庫106 條數據作為目標域數據集。根據式（3），從源域數據集中隨機抽取兩批106 條數據，計算的距離值為0.458 3；從源域數據集中隨機抽取106 條數據，計算其與目標域數據集的距離值為0.480 3；從源域數據集中隨機抽取106 條數據，計算其與同等規模的全1 分布距離為1.508 1?？勺C明源域與目標域之間的距離較短，適合語音情感遷移學習。

本文從CASIA 庫中隨機抽取的方法是將數據按大小升序排列后進行編號，以系統時間為隨機種子，使用隨機函數從［1，1 200］范圍內產生所需數量的數據。為取得預訓練模型，本文將CASIA 中抽取的1 200 條數據，隨機選擇1 080 條數據作為訓練集，其余數據作為測試集。采用Adam 優化器，學習率設置為0.001，批尺寸為50。

圖4 是預訓練模型混淆矩陣，可見模型在預判“生氣”情緒時效果較好，在預判“驚訝”情緒時效果一般，模型的總體效果較好。

Fig.4 Pre training model confusion matrix圖4 預訓練模型混淆矩陣

在遷移學習訓練時，選擇EMO-DB 庫中106 條數據模擬日常可收集的數據量進行訓練，從中隨機選擇74 條數據作為訓練集，剩余32 條作為測試集。采用Adam 優化器，學習率設置為0.001，批尺寸為20。訓練混淆矩陣如圖5 所示，可見當改變情感位置與種類時，預訓練對遷移學習訓練會造成較大影響，例如在本次預訓練過程中，預判正確率較高的傷心情感準確率為100%，而其中不存在的無聊情感，則大部分被模型誤判為中性情感。

由圖4-圖5 可見，當源域與目標域較接近時，遷移學習對提高語音情感識別訓練準確率存在較大的正向影響。

Fig.5 Transfer learning model confusion matrix圖5 遷移學習模型混淆矩陣

2.2 算法比較

為了檢驗遷移學習提升準確率的效果，在設置相同優化器、學習率等參數條件下，使用BLSTM 和CNN 模型與本文算法進行了比較實驗。實驗輸入數據分別為EMO-DB中1 男1 女共106 條數據與CASIA 中120 條數據，以模擬低資源數據集。如圖6 所示，當BLSTM 和CNN 僅訓練EMODB 的106 條和CASIA 的120 條數據時，容易發生過擬合現象。而本文算法可有效提升低資源數據集的泛化能力，以獲取更高準確率。

Fig.6 Comparison of recognition rate圖6 識別率比較

3 結語

本文基于CNN 和遷移學習提出了一種語音情感識別算法。該算法在目標域數據集不足的限制條件下，通過確定源域數據集和構建語音情感分類模型兩個步驟實現了對低資源數據集的語音情感分類。對比現有傳統算法，本文算法識別率達到60%以上。未來工作中，將尋找適用于語音情感識別的預訓練模型對其進行遷移學習，以進一步提升語音情感識別的精度。