國電電力寧夏新能源開發有限公司 郝益波
在日益數字化、智能化的時代,語音虛擬機器人在許多領域都可找到自己的位置。并且隨著電力智能化行業的發展,語音虛擬機器人也被應用于智能控制方面,但是與任何具有重大影響的可行性技術變革一樣,語音智控也會迫在眉睫的受到來自外界的惡意指令影響。尤其是在自動語音識別(ASR)方向,黑客可利用外部代理設備發送隱藏的語音指令或是信號來干涉語音虛擬機器人的正常運行。
為了對抗和攔截這種惡意的信號指令,本文將惡意信號噪聲添加到原始聲音樣本中,并利用改進的深度殘差收縮網絡(Deep Residual Shrinkage Networks,DRSN)結合連結主義時間分類CTC (Connectionist Temporal Classification)對惡意指令進行實時檢測,為滿足實時性的需求本文引入了剪枝優化方案,目的是為了減少網絡節點和硬件資源的消耗,同時也要兼顧保證準確率性能指標的波動在可接受的范圍之內。
隨著“雙碳計劃”進行的如火如荼,各大新能源發電企業及運營企業在新能源集控系統領域深耕多年,新能源集控系統已取得了長足發展。集控系統的講解多年來一直以人工講解為主,風機遠程控制也是以值長的密碼、指紋等方式進行,系統的控制及交互還在以傳統方式實現。為克服現有技術中關于新能源集控系統講解方式落后、交互方式及控制方式效率低的缺陷,達到對集控系統智能安全交互與智能控制的效果。在語音控制[1]的過程需兼顧防止惡意指令的侵入,電力控制的安全不能出現紕漏,因此在智控過程中需時刻監控聲源信號的輸入以確保控制過程中的安全。
語音識別系統的攻擊在電力領域是較致命的。一些研究人員在惡意語音信號生成方面做了一些研究,可被借鑒于智慧電力的語音智控方面。Carlini等人(2016年)率先解決語音界面的安全問題,并引入了所謂的隱藏語音命令[2],證明了針對原始ASR系統的攻擊,僅基于隱馬爾可夫模型(HMM)是可行的。他們使用反向特征提取來創建模糊的對抗性惡意樣本[3],這些樣本聽起來像是隱藏在噪聲中高度失真的語音,人類很難理解。
深度殘差收縮網絡是基于深度殘差網絡的一種改進版本,在深度殘差網絡的基礎上該算法引入了軟閾值化的子網絡,主要思想是在算法特征學習的過程中自動剔除多余的噪音數據,其算法原理如下:殘差模塊是構成深度殘差網絡的基本單元,其中還有兩個標準化機制,作用是在模型訓練過程中加快網絡的收斂速率、改善梯度彌散和提高網絡的泛化能力等。深度殘差收縮網絡面向的是帶有噪音信號的數據,可將噪聲數據理解為惡意對抗聲音信號,這里所降低的就是與原始聲音無關的噪聲數據。
軟閾值化。深度殘差網絡具備降噪功能的核心理念就是引入軟閾值化,作用是將輸入的數據朝零的方向開始壓縮,該算法思想被廣泛應用于信號降噪過程中。深度殘差收縮在模型的訓練過程中反向傳播,不僅可在卷積層間逐級反饋,也可在恒等映射層進行反向傳播,更方便地訓練出更優質的模型。
修剪神經網絡的意義在于不降低其性能的情況下去除權重。本文所使用的網絡模型是深度收縮殘差網絡,為使網絡模型更適用于電力生產過程中的及時性需求。大多數情況下剪枝操作都會或多或少的對模型的準確率性能有所影響,這需后期的經驗對模型進行微調,剪枝策略和閾值設置對剪枝效果也有一定的影響。
自動語音識別一般可看作一個序列到另一個序列的問題:系統必須學習如何從語音中提取聲學特征X作為輸入序列、從而生成單詞Y的輸出序列,這個過程也被稱為轉錄[4]。ASR模型本質上是概率性的,旨在計算后驗分布p(Y|X),等價于在給定語音特征序列X的前提下求最可能得到的序列Y。相反端到端ASR旨在將這種基于模塊的方法簡化為深度學習框架內的單一網絡架構,在端到端模型中多個模塊合并在一個深度網絡中聯合訓練,該網絡實現了聲信號到輸出標簽序列的實際映射。
CTC是一種避免輸入和輸出序列之間的對齊方法,因此它是無對齊的。本質上它利用馬爾可夫猜想通過動態規劃有效地解決了順序問題,通過計算不同的路徑來計算所有可能的硬對齊,然后通過聚集硬對齊來實現軟對齊,當枚舉硬對齊時CTC假設輸出標簽是相互獨立的。
2.2.1 利用殘差收縮網絡模型進行檢測
將語音樣本轉化為聲紋特征圖譜,聲紋特征圖譜是由聲音的強度、波長等信息組成的,具有唯一性可測量性等特征。本文將含1萬份惡意指令的音頻和1萬份正常音頻轉化聲紋特征圖譜,再將其輸入到已經構建好的深度殘差收縮網絡中進行訓練,得到經過剪枝后的訓練模型。與利用殘差網絡訓練的模型相比,該模型所用的數據是成對存在的,分別是訓練的時序數據和標簽數據,目的就是找到一個時序分類器將樣本進行分類。CTC的放置位置在雙向遞歸網絡的后面作為序列預測的損失來源,CTC會在學習過程中選擇一條好的路徑。
2.2.2 實驗過程及結果
本實驗利用改進的殘差網絡收縮算法,選取參雜惡意信號音頻和正常音頻進行預訓練,在訓練過程中采取學習率衰減的辦法來進行訓練,再進行稀疏訓練。在后續訓練過程中需不斷調整壓縮率和學習率,實現模型壓縮效率和模型性能指標間的平衡。稀疏訓練結束后就是剪枝操作,對數據通道進行剪枝,本文利用剪枝腳本進行剪枝的實驗,該腳本融合了通道剪枝的策略減去了65%的通道,模型由之前的262.2M壓縮到91.77M,模型性能由原來的0.94降低到0.92,降低幅度在可接受范圍內。
本文在深度收縮殘差網絡中引入CTC子網絡,并在該基礎上做出量相關的改進,從而提高了模型的性能,另外還對訓練好的模型進行剪枝相關操作以滿足電力智控行業的實時性要求。實驗表明該方法在電力智控行業防范惡意語音侵入方面有一定效果:選取深度殘差收縮網絡作為語音輸入識別主體算法的原因,是為利用該算法的注意力機制摒棄語音輸入過程中的噪聲,提高語音數據的質量;為適應電力行業對智控的實時性,提出利用剪枝優化的方法對模型進行通道剪枝以縮小模型的體積。模型體積減小的優勢不僅在于響應更為及時,也可遷移到移動設備端進行檢測。
無論在電力智能語控還是其他方面,都需做到對入侵信息動態監視,基于策略的攔截在面對大量紛繁數據時會顯得力不從心,因此保護系統不被侵入在電力系統的安全運行中意義重大。作為新一代信息技術高度集成和綜合應用,人工智能既符合互聯網技術的發展潮流,又滿足當下的實用需求。