基于自動機器學習的電網客戶語音情感分類方法

2022-06-07 02:13:02王慶娟金良峰

浙江電力 2022年5期

沈然，王慶娟，金良峰，丁麒

（國網浙江省電力有限公司營銷服務中心，杭州 311121）

0 引言

在電力運營過程中，電力客戶服務平臺為企業與海量用戶之間的溝通提供一種有效的方式［1］。公司電力客服業務存在坐席人員流動性大、業務水平參差不齊、部分人員對電力客服業務領域知識儲備有所不足等問題，可能導致其解答用戶訴求精準度低、時效性差，無法及時解決用戶問題，增加了用戶的投訴。為了解決這些問題，提升電網客服服務質量，電網客服系統需要量化客戶訴求中的情感因素，以便快速了解客戶的訴求焦點，并根據客戶情感反饋來評估具體事項的實施效果，這對電力企業具有十分重要的意義［2］。

語音情感識別是人工智能算法核心應用之一，在語音信號處理和情感分析等方面具有重要的應用價值，也是當下學術界熱門的研究方向［3］。將語音情感識別應用到電力運營過程中的客戶語音情感識別，可以為電網公司提供有價值的客戶情感反饋，為后續決策提供數據支持。相關研究表明，人的情感會影響到發音器官的運動，當人的心情是積極的時候，聲音是清脆、高昂的；而當人的心情是消極的時候，聲音則是沉悶、無力的。在學術研究中［4］，語音情感識別是通過語音信號來分析和推測用戶情感的方法，它能夠根據采集到的語音信號，判斷人在發聲過程中的情感。經典的語音情感識別方法一般先從語音信號中提取特征表示，然后訓練分類算法完成情感分類。在語音情感識別任務中，語音信號的特征選擇具有重要的作用，常用的語音信號特征包括基音、語速、強度（韻律特征）、線性預測倒譜系數、梅爾頻率倒譜系數（頻譜特征）等［5］。然而，這些特征都是領域專家通過個人經驗設計的，這些人工設計的特征在通用的語音任務上取得了較好的效果，但是在特定的語音情感分類任務上面往往表現不佳。因此學術界開始研究使用以神經網絡等為代表的端到端的語音情感分類方法，以此從數據中自動學習語音數據的特征表示。

近年來，機器學習和深度學習算法得到了快速發展，并由此產生了包括CNN（卷積神經網絡）、LSTM（長短期記憶網絡）等在內的一大批優秀的算法，基于深度學習的神經網絡在語音情感識別任務中表現出優異的性能［6］。相對于傳統的利用手工特征訓練分類模型的語音情感識別方法，該方法可以將特征自主學習融合到模型訓練過程中，并達到很好的識別效果。然而，傳統的基于神經網絡等學習方法需要專家根據任務和經驗預先設計神經網絡模型，這些模型都是由專家通過大量的試錯過程手動設計的，這意味著即使是專家也需要大量的資源和時間來創建性能良好的模型，這限制了神經網絡在語音情感分類任務上的應用［7］。

為了簡化算法流程，將人類從機器學習模型設計的過程解放出來，讓模型設計過程更加智能，學術界一直在探索讓算法自動尋找最優網絡結構的方法［8］。自動機器學習是指將深度神經網絡的設計和訓練進行自動化端到端流程的過程，并應用適當的數據預處理、特征工程、模型選擇和模型評估來解決特定任務。這一概念的思路就是在智能搜索和算法優化的基礎上，由算法本身去尋找特定任務的具體數據處理與識別算法和方案，從而代替專家進行網絡模型設計和算法求解，并且這種方法設計的神經網絡模型能在應用效果上超過大部分專家。自動機器學習技術對于降低構建機器學習系統的人力和時間成本具有十分重要的價值，得到了學術界和工業界的廣泛關注［9］。

為了根據電網客戶語音情感分類任務需求提供的數據，靈活使用最先進的深度學習模型，自動確定最適合特定應用的模型架構和學習策略，解決算法應用過程中過多依賴人工算法設計的問題，本文利用自動機器學習算法進行語音情感分類自動識別研究。從而簡化了算法使用邏輯，提升電網客戶服務的智能便捷化和響應水平，降低人工智能的落地難度，提升客戶服務的智能便捷化響應水平，為企業級客戶服務AI（人工智能）中臺奠定基礎［10］。

1 神經網絡搜索空間構建

人工設計的網絡如DenseNet（密集連接卷積網絡）、VGG、ResNet（深度殘差網絡）等結構，是通過卷積、池化、全連接等網絡層搭建出來的。自動機器學習算法為了得到最終神經網絡框架，也需要預先定義類似的操作集合來構成待求解模型的搜索空間［11］。為了完成對網絡結構設計的建模和自動化，通過搜索的方法得到最優網絡結構，結合過去研究過程中對經典問題進行模型設計的經驗，通常可以減小所設計的搜索空間、簡化搜索過程，并且能夠提高模型的性能。

為了針對電網客戶語音情感分類任務獲得更好的性能效果，本文采用基于細胞神經結構和元架構的方式進行模型搜索［12］。與常用的鏈式搜索不同，該方法首先在小的數據集上搜索出最合適的細胞結構，然后將其遷移到大數據集的細胞上。這就可以避免在大數據集上不斷訓練搜索而給網絡帶來巨大的計算量，利用有限的計算資源達到最好的效果，同時盡可能將更多的步驟自動化。同時，為了提高效率，會引入歷史上模型的設計經驗來指導搜索過程。

1）為了實現神經結構細胞和元架構的搜索，首先需要解決神經結構細胞的搜索空間設計問題。為了快速獲得合適的細胞結構，只搜索簡單的單層搜索結構。為此，假設每個細胞由一個輸入節點和一個輸出節點組成，而一個細胞的輸出可以通過一個結合操作對所有中間節點的輸出進行整合。針對處理語音信號的神經網絡的細胞結構，其基本組成單位如表1所示。

表1 CNN搜索空間設計

2）細胞搜索的范圍確定后，就可以設計與之對應的元架構空間。為了方便大規模的數據集處理以及不同尺度的特征要求，本文引入了2種細胞單元架構，一種保留輸入數據的維度，另一種降低輸入數據的維度。元架構構建采用固定元架構的方式。每個細胞結構將重復多次，但是他們的具體權值參數將通過具體數據進行訓練得到。

在具體應用中，對于神經網絡結構的第l層，記其中的基本操作結構集合為每個基本操作都有唯一的輸入和數據節點，定義操作的神經網絡圖模型的鄰接矩陣為Gl=其中，=k表示數據節點i和j之間的操作為k。那么網絡的構建可以采用層次化的構建完成，即第l層的結構為第l-1 層的結構組裝產生，具體過程通過ASSEM函數實現：

通過該網絡結構，數據節點i的特征圖xi為它的所有前驅數據節點的特征圖xj組合得到，具體過程通過merge函數實現：

2 神經網絡結構搜索策略定制

在自動機器學習算法中，神經網絡結構搜索策略主要研究使用什么樣的算法能夠高效準確地從搜索空間中找到最優的模型結構和超參數［13］。制定搜索策略一般化的過程是：根據基本的策略規則創建初始網絡；然后對其進行訓練，并在驗證集合上進行測試；最后根據網絡測試結果和性能的反饋來優化這些策略規則。這3個步驟是一個更新迭代的過程，通過不斷地優化策略可以實現對網絡模型進行迭代更新。最新學術研究發現，強化學習、梯度優化和貝葉斯優化等搜索策略在自動機器學習模型搜索中具有出色表現，3種方法在實驗中的表現始終優于隨機搜索［14］。

在這3種方法中，梯度優化具有較高的求解效率，但是求解過程中，需要將離散的模型參數進行連續化表示，在此過程中會帶來性能損失。貝葉斯優化利用高斯過程來估計模型的參數，建模時需要對參數的先驗分布進行假設，但是因為模型參數的復雜性，往往難以對參數分布設計合理的先驗。強化學習是更為常用的自動機器學習求解算法，它不依賴于參數的先驗分布，得到的模型也能達到較好的性能。因此，本文利用強化學習［15］進行模型求解。由于機器學習的推理模型的映射和連接性通常可以通過變長字符串表示，因此基于NASNet 算法［16］，通過一個RNN（循環神經網絡）［17］作為控制器來生成這個字符串，進而對應到特定的網絡結構。

算法如圖1 所示，通過RNN 控制器采樣得到某一個特定的神經網絡結構，并在該神經網絡結構下利用語音情感分類數據訓練模型，然后得到相應的驗證集上的準確率。使用該準確率來表征本次搜索得到的神經網絡結構的好壞，進而將此作為信號來訓練RNN 控制器。RNN 控制器每次的輸出結果為一個特定的卷積神經網絡結構，把RNN控制器中每一步輸出的結果看作是強化學習中的行動，對應的狀態就是控制器到第t步為止生成的網絡結構。該強化學習問題在一個軌跡結束之后會給出一個反饋R，也就是該神經網絡結果對應的驗證集上的損失。這樣就可以使用強化學習方法來更新RNN控制器權重，即通過最大化反饋期望的方式來優化控制器RNN。

圖1 基于強化學習的自動機器學習搜索算法

式中：a為RNN 控制器預測得到的超參數；T為其長度；θ為RNN 控制器的參數；(·)為1到T時刻反饋值R的期望；模型的訓練過程為最大化J(θ)的過程。

對于強化學習生成的神經網絡，利用語音情感分類數據進行訓練，并且記錄得到的這個神經網絡結果在驗證集上的誤差，以此誤差更新RNN控制器的權重。此外，算法還使用了啟發式方法輔助網絡結構的搜索，即根據空間激活的大小靈活調整卷積核的個數，以使得隱藏狀態的維度保持在一個相對穩定的范圍。

在算法求解過程中，首先定義強化學習的操作空間為前文中得到的元架構，強化學習的狀態空間為根據現有架構的參數序列，記t時刻狀態為st。為了得到最優的網絡模型并以此訓練客戶情感分類模型，該問題等價于最大化以下的目標函數：

式中：P(at|a1：(t-1)；θ)為當前狀態下，選取下一個動作at的概率。

在強化學習中，式（4）存在不同的表達方法。本文中利用Q-learning（Q學習粒子群算法）進行函數的求解，則式（4）等價于：

式中：Q值為通過強化學習得到的模型在情感分類任務上得到較高準確率的概率，通過構建的神經網絡預測得到；β和γ分別為不同損失的權重系數；R值為利用得到的模型在情感分類任務中的準確率，通過函數Lval(·)求得；A為動作集合。

式中：Xtrain和Ytrain分別為情感分類任務中的語音數據和相應的標簽；w為構建的神經網絡模型參數。

整個算法的求解過程如表2所示。

表2 基于強化學習的情感分類模訓練過程

3 實驗結果與分析

3.1 實驗數據

為了驗證本文提出的自動機器學習客戶語音情感分類算法的有效性，利用浙江省電力公司客戶服務中心電話客服平臺現有系統，收集客戶語音片段共計2 799 段。這些片段人工劃分為兩類，一類是2 000 段中性情感的語音，另一類是799 段憤怒的語音。這些片段都被裁剪到固定長度，使得每個語音樣本均能用一個等長的序列表示，從而得到預處理后的語音序列。對每個語音片段利用開源預訓練語音模型VGGish［18］，作為主干網絡提取每個語音片段的矢量表示。

3.2 實驗步驟

整個實驗過程在Ubuntu18.04 操作系統下的TensorFlow2.0平臺上進行，自動機器學習算法庫采用AutoKeras。每次實驗過程中，從第1 個類別中隨機選取799 個語音片段，與第2 個類別的799個片段合并，作為此情感分類任務的數據集，并按照0.7、0.2、0.1 的比例劃分訓練集、驗證集和測試集。在嘗試的所有模型上分別迭代100次，選出最優的模型作為最終結果。

實驗過程中，除了模型結構外，對分類模型的其他參數進行了如下嘗試：

1）全連接層輸出維度的選擇：對于不同的全連接層，嘗試64、128、256、512、1 024 等不同維度。

2）全連接層的層數：對于模型中全連接層的層數，嘗試2、3、4、5、6、7、8 等不同的層數（不包括最后的分類全連接層）。

3）dropout 的使用：主要測試了使用dropout（x，p=0.5）、dropout（x，p=0.2）以及不使用dropout這3種策略。

4）歸一化選擇：嘗試BatchNorm 和Layer-Norm這2種歸一化方法［19］。

3.3 實驗結果

訓練得到的模型的實驗結果采用分類準確率進行評價，其計算公式為：

即測試集合上，模型預測正確數量所占總量的比例。

通過自動機器學習算法，得到的最終模型為：

1）BatchNorm層。

2）3×1普通卷積層。

3）細胞結構1：3×1 普通卷積層；3×1 平均池化層；3×1普通卷積層；全連接層。

4）細胞結構2：3×1 普通卷積層；5×1 普通卷積層；全連接層；3×1普通卷積層。

5）輸出通道數為1的1×1普通卷積層。

6）輸出維度為512 的全連接層加ReLU 激活函數。

7）最后通過一個全連接層以及softmax函數得到模型的分類預測輸出。

通過搜索算法得到的模型類似經典分類任務的卷積神經網絡。它首先采用BatchNorm 操作對數據進行歸一化，利用帶池化的操作細胞結構1對數據進行相關性分析和降維，然后利用細胞結構2進行進一步特征提取，再利用輸出通道數為1 的1×1卷積降低輸入通道，并利用兩層全連接層提取特征，最終利用softmax函數完成分類任務。

從所有模型中選出驗證集上準確率最高的模型，并最終在測試集上進行測試。訓練過程中得到的最好的模型在測試集上的準確率為90.93%。結果相應的混淆矩陣如表3所示，可見實現了一個比較高的識別率。

表3 分類結果混淆矩陣

為了驗證自動機器學習在模型搜索上的優越性，將自動搜索得到的模型和其他常用語音分類算法進行了對比，實驗結果如表4所示。其中包括了MFCC（梅爾倒譜系數）+SVM（支持向量機）和LPCC（線性預測倒譜系數）+SVM 為經典的手工特征分類方法［5］，ResNet_1D為根據經典分類網絡模型ResNet18 設計的語音分類網絡，其中的二維卷積改成了適合語音信號的一維卷積，LSTM+softmax 是利用循環神經網絡進行語音分類的方法。表4實驗結果表明，利用自動機器學習算法得到的神經網絡，具有更好的情感分類性能。

表4 不同分類算法準確率

此外，不同的搜索策略對最終的神經網絡模型具有較大影響。在實驗過程中，利用強化學習、梯度優化和貝葉斯優化3種搜索策略進行網絡結構搜索。梯度優化和貝葉斯優化得到的網絡結構和本文采用的強化學習得到的結構較為類似，但是梯度優化算法得到的結構缺少BatchNorm 層，貝葉斯優化算法得到的結構中部分卷積為3×1深度分離卷積。3個方法得到的模型經訓練后在最終的測試集上得到的分類準確率如表5所示。實驗結果表明，利用強化學習在該問題上得到的模型具有更高的準確率。

表5 不同搜索策略的模型分類準確率

4 結語

對電網客戶語音中隱含的情感信息進行深度挖掘是提高電力企業客戶滿意度及客服主動服務意識的有效手段。實現量化客戶訴求情感分析，有利于快速了解客戶的關注焦點，減少投訴的發生。為了實現采用最新的人工智能算法對客戶語音進行準確情感識別的目的，本文提出了一種基于自動機器學習的電網客戶情感自動分類算法。該算法通過構建神經網絡搜索空間和神經網絡結構搜索2個模塊完成神經網絡模型的設計。算法在國網浙江省電力有限公司客戶服務中心收集的數據集上進行了驗證。驗證結果表明，該算法具有較高的識別率。