自動語音辨識對抗攻擊和防御技術綜述

2022-07-21 09:44:48李克資張思聰閆嘉樂

計算機工程與應用 2022年14期

李克資，徐洋，張思聰，閆嘉樂

貴州師范大學貴州省信息與計算科學重點實驗室，貴陽 550001

語音交互正在改變人們與日常智能設備互動的方式。智能終端設備算力的不斷增強，加上無線網絡覆蓋率提升和速度的提高，為語音控制技術提供了新的發展環境。自動語音辨識（automatic speech recognition，ASR）可以幫助智能設備準確有效地解釋收到的語音信號，從而使用者能夠遠程發送語音命令和控制智能設備。在2009年以前，主流的語音識別框架是高斯混合模型（Gaussian mixture model，GMM）加隱馬爾可夫模型（hidden Markov model，HMM）[1-2]，這種聲學模型容量小，表達能力弱。隨著深度神經網絡（deep neural networks，DNN）的興起[3-5]，目前深度神經網絡已經成為語音辨識框架的標配，這使得語音辨識準確率得到了顯著提升，常見的語音辨識系統有Kaidl[6]、DeepSpeech[7]等。

最近的研究發現，深度神經網絡算法有著嚴重的脆弱性。在原始樣本上添加精心設計的對抗擾動（adversarial perturbations，APs）生成的對抗樣本（adversarial examples，AEs），可以欺騙模型使其預測錯誤的結果，從而使設備執行惡意的控制命令。現有工作中，對抗樣本的研究主要集中在圖像分類[8]、圖像分割[9]、目標檢測[10]、自然語言處理（natural language processing，NLP）[11]等方面。構建音頻對抗樣本攻擊和防御研究相對分散，關于ASR系統已知和新漏洞分類的綜合結論較少。因此，需要對當前的研究現狀進行全面的總結，為今后的研究提供參考。

本文首先分別對音頻對抗樣本生成和防御技術的研究現狀進行分析總結，主要選取近幾年在ASR對抗樣本研究領域代表性方法。然后介紹ASR系統對抗樣本生成和防御技術相關挑戰。最后討論該領域有待進一步研究的問題和思路。

1 簡介

1.1 對抗樣本定義

音頻對抗樣本是指在原音頻樣本中通過人工添加人耳無法察覺或在經處理不影響整體的人耳察覺的細微擾動所形成的樣本，這類樣本會導致訓練好的模型以高置信度給出與原樣本不同的分類或轉錄輸出。圖1展示對抗樣本的一個示例，即向原始數據添加一個微小擾動使得ASR產生錯誤的結果。

圖1 對抗攻擊示例Fig.1 Sample of adversarial attack

1.2 相關概念

對抗擾動：對抗樣本的重要組成部分。擾動需滿足兩個方面的要求：一是要保證其微小性，達到添加后人耳無法察覺或者人耳能夠察覺但不影響音頻整體的聽覺效果；二是將其添加到原有音頻數據上之后，所產生的新音頻具有迷惑原有深度模型的作用。

對抗攻擊（adversarial attack）：指的是構造對抗樣本對模型進行攻擊，主要分為黑盒攻擊和白盒攻擊。

黑盒攻擊（black box attack）：未知模型內部結構與參數，從輸入、輸出數據的對應關系進行攻擊的方法。

白盒攻擊（white box attack）：在已知模型內部結構與參數的情況下進行攻擊的方法，與黑盒攻擊相對。

對抗防御（adversarial defense）：指的是減弱或者防止對抗樣本對模型的攻擊。

對抗樣本的魯棒性（robustness of adversarial examples）：指的是對抗樣本在經過無線播放（over-the-air）或防御過程后，仍保持對模型攻擊能力的一種性質。

目標/定向攻擊（targeted attack）：目標ASR最終的轉錄結果是攻擊者預先指定的單詞、短語或句子。

非目標/非定向攻擊（untargeted attack）：目標ASR最終的轉錄結果是除正確結果以外的任意值。

1.3 基本流程

對抗樣本的生成方法和防御方法有多種，但是究其根本都有一定的操作流程。總體來說，對抗樣本的生成與防御可以歸納為圖2所示流程圖。

圖2 對抗攻擊和防御流程Fig.2 Flow chart of adversarial attack and defense

2 起源

2.1 前期工作

在ASR對抗樣本生成的前期工作中，Vaidya等人[12]、Carlini等人[13]已經證明，針對深度學習ASR的定向對抗攻擊是可能的。他們通過微調音頻的梅爾倒譜系數（Mel-frequency cepstrum coefficient，MFCC）聲學特征直至被ASR系統誤讀，然后將微調過的MFCC特征重構回語音波形以生成對抗樣本。然而，這樣的方法產生的對抗音頻與原始音頻差別很大。在大多數情況下，人類無法理解生成的音頻并且會將其認為是噪音。一旦聽者知道可能隱藏聲音指令，生成的音頻能夠輕易地讓人類產生懷疑。

Zhang等人[14]提出了克服這一限制的方法，Dolphin-Attack。他們已經證明，攻擊者可以利用麥克風的非線性來調制超聲波基帶音頻信號，并將其注入到環境中，以實現隱藏語音指令。但DolphinAttack方法的主要缺點是，攻擊者需要在被攻擊的系統附近放置一個超聲波發射器，并且需要從特定麥克風記錄的音頻信號中檢索信息，然后將攻擊定制到一個特定的設置，這在實踐中是昂貴的。Song等人[15]和Roy等人[16]引入了類似的基于超聲波的攻擊，但其未產生對抗樣本，而是在人類聽不到的頻率范圍與ASR系統交互。

與調制語音命令到超聲波的DolphinAttack不同，Yuan等人[17]提出了CommanderSong，將惡意命令注入到常見的歌曲中。他們利用迭代優化算法來尋找最小擾動。此外，他們還通過噪聲模型將硬件設備噪聲引入到對抗樣本中，使他們的方法實現了無線播放攻擊。然而，他們的方法中使用的噪聲模型僅對特定的設備有效，并且實驗是在近距離進行的。Carlini等人[18]提出了一個以原始音頻作為輸入的基于梯度下降最小化（類似于之前對圖像分類的對抗攻擊）創建最優的音頻對抗樣本生成算法。其使用CTC-Loss（connectionist temporal classification）構建針對ASR系統的定向攻擊，其工作證明音頻對抗樣本可以使ASR系統將一段音頻轉錄為任意的文本。

相比以上在白盒攻擊假設下的研究，在黑盒對抗樣本生成領域，因無法獲取目標模型的內部信息，Alzantot等人[19]通過使用遺傳算法生成語音關鍵字識別系統[20]的對抗樣本，其為語音對抗樣本黑盒生成方面的研究提供了研究思路。Taori等人[21]基于遺傳算法引入梯度估計算法求解近似解，以彌補遺傳算法的缺點。Khare等人[22]為了拓展算法處理短語和句子，引入了CTC損失函數。并且為了加速樣本生成在遺傳算法的基礎上引入動量變異，對遺傳算法中變異的環節進行優化。

隨著對抗攻擊技術的不斷發展，對抗樣本防御方法也得到廣泛關注和研究，通過攻擊防御的博弈以提高模型的安全性。在ASR對抗防御的前期工作中，主要是從消除對抗擾動和提升ASR模型魯棒性兩方面出發。在消除對抗擾動方面，音頻領域的對抗防御很大程度上參考圖像領域的方法，如特征壓縮、JPEG壓縮、量化、隨機平滑等基于輸入變換的防御方法[23-25]方法。通過結合音頻的特性（如時序性等）和輸入變換方法以消除對抗擾動。在提升ASR模型魯棒性方面，一是通過對抗訓練[26]的方法，使用混合對抗樣本和原始樣本的數據集對基于深度學習的ASR模型進行訓練，提高ASR模型對于對抗樣本的敏感性。二是通過蒸餾網絡[27]，通過對模型內部參數進行優化選取，提升ASR模型的魯棒性。

2.2 對抗攻擊基本原理

為了欺騙ASR系統，通過添加少量噪聲輕微干擾合法的音頻文件或語音特征來生成對抗樣本。音頻剪輯的人聽不到添加的噪聲，或只將其視為微弱的背景噪聲，但噪聲擾動會導致ASR模型對輸入進行錯誤分類和轉錄，甚至轉錄成攻擊者指定的字段。

ASR系統任務的對抗樣本可描述如下：通過在原始音頻中添加微小的、人類幾乎無法察覺的擾動，以使得ASR系統產生錯誤的轉錄結果。假設給定一個ASR系統f和一個原始語音樣本x，生成一個對抗樣本x′可以被描述為一個有約束條件的優化問題：

t和t′分別表示x和x′的轉錄結果。表示添加在x上的對抗擾動。表示對擾動進行距離度量。

3 對抗樣本生成

接下來主要在白盒、黑盒兩個假設條件下對生成技術展開綜述。

3.1 語音對抗樣本白盒生成技術

白盒生成技術（白盒攻擊）是指攻擊者在已知目標模型所有知識的情況下生成對抗樣本，對目標系統進行攻擊。由于攻擊者可以得到目標模型的信息，相比黑盒攻擊方案，白盒攻擊方案具有容易實施的優點。現有對抗樣本研究工作大多基于白盒條件的假設。下面從普適性、魯棒性、隱蔽性三方面進行綜述。

3.1.1 普適性對抗樣本生成技術

現有的對抗樣本生成算法大多為輸入依賴型（inputdependent），即針對一個原始樣本生成一個對抗擾動。如公式（2）中對應一個原始樣本xi，生成一個對抗擾動δi以欺騙模型。

表示模型函數，表示對應x∈Rd的預測標簽。但在非數字空間的現實場景下，攻擊者通常無法事先預知音頻的具體內容，無法針對不同的模型、數據集進行一一分析訓練產生對抗擾動。為解決這一問題，是否可以根據同一分布數據集中少量數據，產生一個適用于所有樣本的對抗擾動呢?假設μ∈Rd表示音頻的分布，則普適性擾動δ∈Rd，使得：

最早在2017年，Moosavi-Dezfooli等人[28]指出針對基于卷積神經網絡的圖像識別模型能夠生成有效的普適性對抗擾動向量。添加對抗擾動的樣本能越過深度模型決策邊界，這個擾動向量滿足：

ξ限制普適擾動向量v的大小，α控制所有對抗樣本的失敗率。

擾動向量尋找方式如圖3所示[28]。在圖3中，數據點x1、x2和x3被疊加，分類區域Ri用不同的顏色表示。算法按照公式（5）通過對最小擾動Δvi序列進行聚合，將當前擾動點xi+v發送到相應的分類區域Ri之外。

表示模型函數，表示對應x∈Rd的預測標簽。v表示普適擾動向量，Δvi表示最小擾動。

圖3 用于計算普適性對抗擾動算法的示意圖Fig.3 Schematic representation of proposed algorithm used to compute universal perturbations

在文獻[28]中尋找Δvi使用DeepFool[29]算法。此處需要注意，根據不同的反向傳播梯度方向可以得到不同的普適性對抗擾動向量，但是最后達到的效果相同。

在Moosavi-Dezfooli等人[28]工作基礎上，Vadillo等人[30]和Abdoli等人[31]首先嘗試擴展到音頻領域，Vadillo等人重構了文獻[28]中的算法并且聚集了擾動向量δ，對于每個迭代，利用DeepFool方法[29]得到每個輸入數據的最小樣本擾動，并且更新擾動到總的擾動中。實驗結果表明，生成的普適擾動會使擾動后的音頻被誤分類為除原音頻外的其他類，即實現了非定向無目標攻擊，但并未研究定向目標攻擊。

Abdoli等人[31]使用DDN L2[32]方法代替文獻[28，30-31]中使用的DeepFool[29]方法，其目的是實現目標攻擊。此外，Abdoli等人又提出了一個新的懲罰公式，以尋找定向有目標和非定向無目標的普適對抗擾動。其設計的定向有目標攻擊懲罰公式如式（6）：

其中SPL（sound pressure level，SPL）控制擾動量級，SPL(δ)=20 lgP(δ)。g(*)j為分類器f的Pre-Softmax層對標簽類型j的輸出，c為懲罰系數，c＞0。k控制樣本誤分類的置信水平。yt為目標類，θ為分類器f的參數。

對于非定向無目標攻擊只需修改公式（6）如下：

實驗評估其方法對基于一維CNN模型的語音分類模型，定向攻擊達到85.4%攻擊成功率，非定向攻擊產生83.1%成功率。

Vadillo等人[30]和Abdoli等人[31]的研究針對語音分類模型。然而，生成ASR系統普適性對抗擾動相比于語音分類更困難，因為構造優化損失函數需要將ASR系統的轉錄輸出與目標序列比對，而由于目標序列的重復、移位等，標簽的種類大幅增加，導致計算量驟增。

Neekhara等人[33]提出針對ASR系統普適性對抗擾動生成方法，主要目標是尋找擾動δ使得：

C(x)表示ASR的轉錄結果；

表示字符串x,y之間字符錯誤率（character error rate，CER）。編輯距離（edit distance），又稱Levenshtein距離[34]，是指兩個字符串之間，由一個轉換成另一個所需的編輯操作次數。許可的編輯操作包括替換、插入、刪除。編輯距離越小，兩個字串之間的相似度越大。

相比語音分類普適性對抗擾動生成任務，ASR對抗擾動生成成功的判定條件由標簽的不同更換為轉錄結果與目標序列的CER。即求得的CER大于閾值t，說明擾動生成成功。

生成方法依舊借鑒文獻[28]中的迭代思路，不過由于ASR模型的特殊性，不能直接應用在圖像中的DeepFool方法尋找最小擾動。而是通過迭代梯度符號方法，具體尋找公式如下：

Neekhara等人[33]的工作對于DeepSpeech的非目標攻擊成功率為89.06%，并未實現目標攻擊。

Lu等人[35]對基于端到端（end-to-end）ASR系統生成定向有目標的普適性對抗擾動，主要探索了LAS[36]、CTC[37]和RNN-T[38]三種模型的普適性研究。另外研究了兩種擾動添加方式，加性（additive）和預加性（prepending），論證了生成普適性擾動不必對一個音頻的全部數據進行擾動，并且可以將擾動添加到輸入音頻的任何位置。其中加型擾動是添加與原始音頻樣本等長的擾動，即對每個數據點進行修改如公式（10）所示：

另一種預加性擾動是在原始音頻數據前添加一定長度的擾動數據如式（11）：

此方式可以不對音頻的內容數據進行修改，極大地保留了音頻本身，并且能夠提升錯誤率。另外因加入的對抗擾動在整體音頻之前，不會被人輕易察覺是音頻本身的原因，而會理解為信號或硬件問題。但是相比于加性方式，預加性擾動的幅度會很大，刺耳的噪音能輕易地被發覺，并且同時增加了音頻的長度。

Lu等人[35]在常用的基于LAS、CTC和RNN-T的模型下進行對比實驗。實驗發現，在三種模型中，LAS是最容易受到擾動的。RNN-T對加性擾動更有魯棒性，特別是在長話語上。CTC對加性和預加性擾動都是魯棒的。對于攻擊RNN-T，預加性擾動比加性擾動更有效，并且可以誤導模型對任意長度的話語預測相同的短目標。

除了基于優化和基于梯度符號方法生成對抗樣本，近來基于生成模型的方法[39-40]也逐步被研究，其核心思想為通過生成模型生成器學習擾動的分布，然后根據分布快速生成對抗擾動，基于生成模型的方法主要工作在于生成模型的架構搭建以及損失函數的構建和優化，因為本質是神經網絡生成模型如自動編碼機（auto encoder，AE）[41]和生成對抗網絡（generation adversarial network，GAN）[42]。基于生成模型的方法可以快速生成對抗樣本，缺點是需要訓練出深層多參數的生成器。

3.1.2 魯棒性對抗樣本生成技術

音頻傳入ASR的途徑可以分為兩類：直接傳入（over-line）、無線傳入（over-air）。直接傳入是直接將原始音頻或者生成的對抗樣本音頻直接輸入到模型中，如圖4（a）。無線傳入指的是音頻經過揚聲器播放和麥克風記錄再傳入ASR模型，如圖4（b）。

圖4 音頻傳播示意圖Fig.4 Audio transmission diagram

魯棒性對抗樣本的產生困難之處在于經過揚聲器播放和麥克風錄制后，音頻文件中會引入環境的混響和設備的噪音。相比直接傳入方式，在無線傳入的方式下，對抗樣本需要對未知的環境和設備產生魯棒性。

針對混響和噪音的問題，Yakura等人[43]提出在對抗樣本生成的過程中添加帶通濾波器、脈沖響應（impulse response，IR）和高斯白噪聲，用以模擬噪音和混響的影響。其想法來源借鑒圖像領域Athalye等人[44]的工作，即對圖像進行旋轉、放大、縮小、改變亮度、增加噪音等模擬環境對圖像的影響，以增加生成的對抗樣本魯棒性。Yakura等人提出的方法優化目標如下：

式中，t(*)表示帶通濾波器、脈沖響應和高斯白噪聲等的轉化操作。其中帶通濾波器用來限制擾動的頻率范圍，脈沖響應用以模擬現實環境混響，高斯白噪聲用于模擬自然界的隨機噪聲。最后具體的優化公式如下：

其中，BPF為帶通濾波器，Conv為卷積操作，ω為高斯白噪聲，H表示脈沖響應集合。

類似Yakura等人[43]提出的方法，Qin等人[45]考慮房間脈沖響應（room impulse response，RIR），使用聲學房間模擬器，通過文獻[46]中方法生成RIRr，然后與輸入音頻進行卷積操作t(x)=x*r得到經過混響后的音頻t(x)。其產生魯棒性的對抗樣本優化過程如下：

x為原始音頻，y為攻擊目標內容，f(*)為目標ASR模型，δ為添加的擾動，T表示脈沖響應集合，lnet(*)表示目標ASR的損失函數。文中針對基于LAS-Attention的ASR模型生成對抗樣本，其模型能夠處理長句子而不只是處理單詞短語。其實驗結果表明增加了魯棒性的對抗樣本經過模型之后甚至能夠取得比原始音頻更低的詞錯誤率（word error rate，WER）和更高的準確率，充分說明了其生成方法的有效性。然而，和Yakura等人[43]的方法一樣，Qin等人[45]通過使用模擬環境進行仿真實驗得到的魯棒性對抗樣本只能在特定的模擬環境下攻擊成功，不能在實際環境中產生攻擊效果。Szurley和Kolter[47]也提出多個環境下的魯棒性對抗樣本生成，然而，其對抗樣本只能在專門設計消除RIR的消音室有效。

針對環境獨立（environment-independent）對抗樣本，Sch?nherr等人提出Imperio攻擊[48]，其目標是產生在不同的實際環境下的魯棒性對抗樣本。Imperio攻擊中仍然需要使用RIR仿真等技術模擬無線播放產生的混響和噪音，不同的是該算法使用DNN模擬RIR濾波器集，通過反向傳播可以直接對原始音頻進行優化得到魯棒性對抗樣本，優化目標如下所示：

d、k、f*()分別表示上述DNN模型的過濾集維數、學習率和激活后函數。由于Imperio攻擊中包含的EOT操作是動態的，所以適合各種房間設置，包括會議室、演講大廳和辦公室。Imperio針對ASR混合模型Kaldi進行測試，相比端到端的ASR（如Deepspeech），攻擊更難一些。多組對比實驗證明其方法具有不同環境下生成定向魯棒對抗樣本的能力。

由于揚聲器和麥克風的特性對音頻的影響，信道脈沖響應（channel impulse response，CIR）濾波器集被整合為Metamorph對抗攻擊[49]中EOT操作的一部分。這種攻擊的公式如下：

其中，αt是精心制作的對抗信號的質量和攻擊算法在目標模型上的總體成功率之間的平衡系數，M表示封閉環境中話筒位置的個數。這些超參數在制造強大的對抗樣本中起著關鍵作用，攻擊者應該精確地定位這些信號。Metamorph對抗攻擊的有效性已經在DeepSpeech系統中被證明。然而，代價是使用各種CIR文件集。

以上基于EOT的方法，其局限性在于轉換分布必須是事先已知，如果實際的轉換不滿足設計的分布，EOT算法效果會很差，并且基于EOT的方法需要消耗大量的計算時間和計算力。為實現一種快速高魯棒的音頻對抗樣本生成方法，Liu等人[50]提出了加權擾動技術（weighted perturbation technology，WPT）和微取樣擾動技術（sampling perturbation technology，SPT）。其中WPT通過利用音頻序列定位（audio sequence location，ASL）模型找到權重較大的關鍵點，然后使用迭代梯度法不斷調整音頻向量不同位置的權重大小，從而達到快速生成音頻對抗樣本的目的；SPT基于音頻識別過程中上下文相互關聯的特性，通過減少擾動的音頻向量點的個數，以提高音頻對抗樣本的魯棒性。WPT和SPT有良好的擴展性，能夠和當前提出的音頻對抗樣本攻擊相結合，從而增強效果。其實驗表明文中方法可以在4～5 min分鐘構造出一個強魯棒性的音頻對抗樣本。

Esmaeilpour等人[51]介紹了一種新的對抗算法攻擊最先進的ASR系統，即DeepSpeech，Kaldi和Lingvo[52]。其方法是建立在利用Cramer積分概率度量對對抗優化公式的傳統失真條件進行擴展的基礎上。最小化這個度量，衡量原始和對抗樣本分布之間的差異，有助于將對抗樣本制作得非常接近合法語音記錄的子空間。這有助于在不使用昂貴的EOT或靜態房間脈沖響應模擬的情況下，產生更魯棒的對抗音頻。其方法在CER和句錯誤率（sentence error rate，SER）方面優于其他定向和非定向算法。此外，其方法是無EOT的，與其他昂貴的基于EOT的對抗算法相比，對連續的無線回放顯示了相當強的魯棒性。

3.1.3 對抗樣本距離度量（隱蔽性）

根據對抗樣本定義，生成人類無法聽到或者人類無法理解的對抗音頻是關鍵的。這體現在對抗樣本生成過程中對抗樣本與原始樣本的距離度量，即對抗擾動的量級。也可以解釋為對抗樣本的隱蔽性。

在對抗樣本距離度量前期研究中，研究者廣泛采用lp范數對擾動進行約束。lp范數優勢為易于實現；劣勢為計算量大且無法保留音頻的時序性特點。不同于使用lp范數，Zhang等人[14]提出DolphinAttack方法，其主要通過人耳無法察覺的超聲波作為載體，并且利用麥克風的漏洞產生人類不可察覺的對抗樣本，可以成功攻擊目標系統。其方法主要缺點為，高頻擾動易被取音設備中的低通濾波器過濾，對抗樣本從而失效。Sch?nherr等人[53]首個提出使用基于心理聲學的方法產生不可感知的音頻對抗樣本，相比之前工作采用的lp范數對擾動進行約束，其提出使用聽覺閾來限制擾動，其方法產生定向的對抗樣本成功率達到98%，并且沒有人能夠識別出對抗樣本。但是其沒有對其他方面（如無線播放等）進行實驗，其主要是提供了一種新的約束擾動的思路。

受Sch?nherr[53]啟發，Qin等人[45]通過用頻率掩蔽方法替代lp范數約束對抗擾動。其優化方法如下：

lnet(*)表示Cross-entropy損失函數。α·lθ(x,δ)約束擾動產生。表示原始音頻的頻率掩蔽閾值，表示歸一化功率譜密度，px(k)為功率譜密度。其核心思想為設置一個頻率閾值θx(k)，只要pˉδ(k)低于閾值，即可產生有效的對抗擾動。

Liu等人[50]對lp范數進行對比實驗，以比較哪種范式適合音頻對抗樣本生成，并且提出結合總變差去噪（total variation denoising，TVD）[54]以減少噪聲干擾，讓對抗樣本在聽覺方面更像原始音頻。TVD的原理是，一個含有雜訊的訊號相較于其未受雜訊影響的訊號，會有較大的總變差值，即其梯度絕對值的總和較大。因此若能找到一個與原始訊號相似且總變差較小的訊號，即可作為原始訊號的降噪結果。此算法可以在去除雜訊的同時保留邊緣，即使在低訊號雜訊比的情況下，依然能有效地去噪和保留邊緣。在TVD過程之后，可以移除對抗樣本中的大部分脈沖，使失真更加難以察覺。該方法可以使生成的對抗樣本達到100%的攻擊成功率和31.9 dB的信噪比。

最后從普適性、魯棒性、距離度量三方面將前文白盒對抗樣本生成技術進行歸納總結為表1。

3.2 黑盒對抗樣本生成技術

在黑盒攻擊假設下，攻擊者只能充當一個可以得到ASR模型輸出結果的普通用戶。相比白盒攻擊，黑盒攻擊難度更大。但由于不需要掌握目標模型，黑盒攻擊更容易在低控制權場景下部署和實施，更加具有實際意義。由于黑盒攻擊本身的局限，現有的工作主要是針對定向生成和魯棒性對抗樣本生成。

表1 語音對抗樣本白盒生成技術研究總結Table 1 Summary of speech adversarial example white box generation technology

3.2.1 定向對抗樣本生成技術

在黑盒攻擊的假設下，攻擊者無法獲取系統的任何信息，所以無法使用在白盒場景下反向傳播方法。在此基礎上Alzantot等人[19]通過使用遺傳算法生成語音關鍵字識別系統[20]的對抗樣本。其算法流程為：首先在音頻取樣的隨機子集的最低有效位上增加隨機噪音生成對抗樣本候選種群。然后計算種群中適應度最高的樣本，如果能夠被目標模型識別為目標詞則結束，未被有效識別則再經過交叉和變異等操作形成新的候選種群。最后迭代以上算法，直到得到有效地對抗樣本或者到達最大迭代次數。

論文實驗效果在非定向攻擊取得了100%的成功率。在定向攻擊實驗中，文中實驗為10類關鍵詞的語音，對于每一類生成其余9類的定向對抗樣本，其取得了87%的成功率，平均生成每個對抗音頻的時間為37 s，原始音頻與對抗樣本擁有85%的相似度。Alzantot等人[19]為語音對抗樣本黑盒生成方面的研究提供了研究思路，但是其局限在于，對于文中的語音關鍵字識別對抗樣本生成，效率較低。其中未能嘗試對大規模ASR系統和長句子的攻擊，對于無線播放攻擊也未進行實驗論證。

Taori等人[21]為了拓展算法處理短語和句子，引入了CTC損失函數，并且為了加速樣本生成提出引入動量變異的遺傳算法，見圖5。此外，因遺傳算法適用于搜索具有潛在有益變異方向的大目標空間。而當對抗擾動接近目的擾動，遺傳算法的作用就會變弱。為了解決遺傳算法的問題，Taori等人引入梯度估計算法，提出基于遺傳算法和梯度估計算法對DeepSpeech進行黑盒對抗樣本生成。其方法最后取得了89.25%字相似度，94.6%的對抗樣本和原始音頻的相似度，但是成功率只有35%。并且文中并未做多組對比實驗，相比Alzantot等人[19]的方法，其受限于ASR模型最后一層給出的信息，并且需要知道模型的損失函數。

圖5 基于遺傳算法的黑盒對抗樣本生成Fig.5 Black box adversarial example generation based on genetic algorithm

針對DeepSpeech和Kaldi系統，Khare等人[22]提出基于多目標進化優化的算法生成對抗樣本。考慮兩個目標：減少文本相似度；保持音頻聲學相似度。并對比使用MOGA[55]、NSGA[56]兩個遺傳算法生成對抗樣本。其非定向生成實驗增加較大詞錯誤率，音頻相似度在非定向和定向任務中分別達到了98%、97%。

3.2.2 魯棒性對抗樣本生成技術

相比于白盒條件下對抗樣本魯棒性的研究，黑盒條件下的對抗樣本魯棒性研究相對較少。為黑盒對抗攻擊開發EOT操作是極具挑戰性的，因為攻擊者不能訪問受害者模型及其相關參數設置。為了應對這一限制，文獻[57]開發了一種在線技術來代替無線EOT操作。然而，這種技術需要大量的實驗來捕獲局部和全局的環境場景分布。

Chen等人[58]針對商業黑盒ASR系統構建物理世界的對抗攻擊。其關鍵思想為通過小數量的策略查詢構建一個替代模型，并且通過開源的ASR系統增強替代模型，用于處理復雜的目標系統。實驗驗證，其方法對于某些黑盒設備98%的目標命令可以產生至少一個成功的對抗樣本，但是成功率較低，并且攻擊所使用的設備不具有普適性，有些設備自帶降噪功能，文中并未進行描述。

為探究真實攻擊環境下，擾動的播放時延對原始音頻的對抗攻擊生成的影響，Ishida等人[59]提出時間魯棒的對抗樣本生成算法。其主要使用進化的多目標優化方式在黑盒條件下針對語音關鍵詞模型生成魯棒對抗樣本，其主要優化以下三個目標函數：

E(*)、σ(*)分別表示期望和標準差，Ti(*)表示±Tmax的時間差，S為目標樣本，ρ為添加的擾動。然后通過加權切比雪夫方法，將多目標優化問題簡化為多個單目標優化問題，然后使用多目標進化算法生成對抗樣本。實驗結果證明，其方法產生了更平滑的音頻，并生成了對時間魯棒的對抗樣本，為更魯棒的對抗樣本生成提供了新的研究方向和思路。

最后將前文所列黑盒假設下對抗樣本生成技術的文獻關鍵研究點進行總結為表2。

3.3 對抗樣本生成總結

如表1和表2所列，本節從白盒和黑盒對抗樣本生成兩個方面綜述了ASR音頻對抗樣本生成的研究現狀。在白盒方面，從對抗樣本普適性、魯棒性和隱蔽性三個角度進行綜述分析。對于普適性，結合現實攻擊考慮，生成不依賴輸入樣本的普適性擾動能夠滿足現實攻擊的要求。對于魯棒性，對抗音頻的播放和記錄是實現在現實環境下攻擊的關鍵，沒有魯棒性，對抗攻擊只能停留在理論層面；對于隱蔽性，生成不易被人類察覺的擾動是重要的，這也是對抗樣本定義中的要求。在黑盒生成方面，由于黑盒本身具有較大的難度，所以從定向和魯棒性兩個角度進行綜述分析。對于定向方面，在不知道模型內部細節的情況下，定向攻擊模型具有很大威脅性和現實意義。結合魯棒性，既有定向又有物理魯棒性的攻擊可以完全攻破ASR模型。

4 對抗防御

本章將總結近年來具有代表性的對抗防御方法，主要分為主動防御和被動防御。主動防御是指提高模型的魯棒性。被動對抗防御是指在模型已經訓練完成后，對要輸入的數據進行某些特定的處理以至于模型能夠分辨出對抗樣本和正常樣本。主動對抗防御方法主要包括對抗訓練（adversarial training）和擾動消除。被動防御方法通常包括對抗檢測和網絡驗證（network verification）。

4.1 主動對抗訓練

4.1.1 對抗訓練

對抗訓練是最早提出來的防御對抗樣本攻擊的方法，也是常用的防御方法。主要思想如圖6所示[60]。

圖6 標準與對抗決策邊界的概念說明Fig.6 Conceptual illustration of standard vs.adversarial decision boundaries

在圖6（a）中決策邊界能夠較好地區分兩類數據點，但是有一些數據點離決策邊界過近。假設每個數據點有一個人類無法察覺鄰域，如圖6（b）所示，表示為每個點的一個范數鄰域，在這個鄰域內的數據點對于人類無法區分，這個時候圖6（b）上的星形點就是對抗樣本。對抗訓練就是把這些星形點代表的對抗樣本加入到訓練樣本中去，改變模型的決策邊界，使得模型能夠正確區分這些對抗樣本，當鄰域中的所有數據點都不會越過決策邊界的時候，即圖6（c）所示，這一模型就具有在這一鄰域范圍內的對抗魯棒性，即對數據點的改變不超過這一鄰域的對抗擾動都無法改變模型的分類結果。

表2 語音對抗樣本黑盒生成技術研究分類總結Table 2 Summary of speech adversarial example black box generation

Sun等人[61]提出使用結合對抗數據的自然數據增強方法訓練模型。他們針對MFCC特征，通過使用快速梯度符號方法（fast gradient signal method，FGSM）[26]對每個小批量（mini-batch）產生對抗數據，動態地將FGSM生成的對抗樣本整合到訓練集中，通過使用結合對抗樣本的增強數據重訓練語音分類（speech-to-label）模型。此外，他們利用師生訓練（teacher-student）[62]使他們的方法更加健壯（robust）。他們在定制的卷積神經網絡以及Aurora-4和CHIME-4任務做了實驗。對抗訓練方法使相對單詞錯誤率降低了23%。然而，尚無研究證明對抗訓練可以使ASR系統具有魯棒性。

4.1.2 擾動消除

擾動消除防御方法已經得到了廣泛的研究，其重點是消除對抗擾動。樣本去除擾動的過程稱為去噪。在轉換后，對抗樣本不會影響深度神經網絡模型的原本預測。

在CommanderSong[17]工作中，作者提出了兩種防御音頻對抗樣本的方法。第一種方法的靈感是，揚聲器或背景的噪音降低了對抗樣本攻擊的成功率，而對合法音頻命令的識別影響很小。因此，作者提出在輸入音頻中添加噪聲。如果這種擾動輸入與原始輸入的ASR系統的識別結果不同，則可以將該輸入視為對抗樣本。然而，這種方法并不適用于3.1.2節提到的模擬了揚聲器和背景噪音生成的魯棒性對抗樣本。第二種方法是通過降低采樣率來壓縮輸入。如果這兩種輸入對ASR有不同的結果，那么它很有可能是一個對抗樣本。通過實驗對該方法的有效性進行了評估，結果表明該方法適用于無線播放環境。

Das等人[63]設計并實現了一個名為ADAGIO的工具，允許對抗音頻攻擊和防御的交互實驗。采用音頻壓縮作為防御手段。他們認為，產生的對抗擾動過于脆弱，可以通過簡單的音頻處理技術，如自適應多速率（adaptive multi-rate，AMR）編碼和MP3壓縮，輕易消除。這兩種方法與上面的CommanderSong方法有著相同的理念，即修改輸入以衰減添加到原始音頻中的精心制作的擾動。

Latif等人[64]提出了一種基于GAN的防御方法。他們利用生成模型，通過將對抗樣本移回原始樣本的分布來消除對抗擾動。對將多種環境噪聲添加到良性樣本中生成的對抗樣本和良性樣本組成的對抗樣本數據集進行評估，實驗結果表明，該方法能夠去除對抗樣本中的一些擾動。同樣采用GAN，Esmaeilpour等人[65]提出CC-DCGAN來應對先進的ASR系統。與傳統防御方法不同，該方法不直接采用低級轉換，例如自動編碼給定的輸入信號，以消除潛在的對抗干擾。相反，通過最小化給定測試輸入和生成網絡之間的相對弦距，以找到一類條件生成對抗網絡（condition generation network，CGAN）的最優輸入向量。然后，根據合成的頻譜圖和給定的輸入信號的原始相位信息重建一維信號。因此，這種重構沒有給信號添加任何額外的噪聲，并且根據其實驗結果，在WER和SER方面明顯優于傳統的防御算法。

Esmaeilpour等人[66]提出了一種新的對抗攻擊的防御方法。利用深度神經網絡平滑光譜圖減少對抗擾動帶來的影響。然后對平滑后的光譜圖進行動態分區和網格移動處理，提取加速魯棒特征。最后輸入支持向量機（support vector machine，SVM）。實驗結果表明，該方法能夠有效地消除后門（backdoor）攻擊和DolphinAttack[14]所帶來的干擾。該方法充分結合卷積深度學習的去噪優點和支持向量機的分類性能，能夠較好地權衡深度神經網絡和支持向量機的準確性和彈性。

Tamura等人[67]比較了不同ASR輸入的轉錄結果，提出了一種基于沙盒的防御方法。他們首先利用動態下采樣和去噪技術消除對抗擾動，然后比較ASR轉錄結果的CER，將CER大于閾值的樣本視為對抗樣本。通過對3個數據集構建的混合數據集的評估結果表明，他們的方法能夠成功防御對抗攻擊。然而，他們并沒有在評估中指定使用的具體攻擊，這不能評估他們對現有攻擊的防御效果，并且擾動消除技術只具備雛形，需要繼續對其進行優化以提升效果。

Yang等人[68]提出了一種新的基于U-Net的注意力模型U-NetAt，使ASR系統對對抗樣本具有魯棒性。受U-Net語音增強的啟發，他們將注意門集成到上采樣塊中，從輸入中提取高級特征表示，保持了音頻特征。最后，U-Net的輸出是增強的音頻和對抗擾動。實驗結果表明，他們的方法能夠消除Khare等人[22]和Yakura等人[43]提出的方法所引入的對抗擾動。

4.2 被動對抗防御

被動防御的重點是在ASR系統建立后發現對抗樣本。根據防御策略的不同特點，從對抗檢測和網絡驗證兩個方面對被動對抗策略進行綜述。

4.2.1 對抗檢測

對抗檢測可以看作是一種二分類任務，目標是將對抗樣本和正常樣本進行二分類。

為了防御Alzantot等人[19]提出的對抗攻擊，Rajaratnam等人[69]提出了一種對抗檢測方法。他們獨立使用多種音頻預處理方法（壓縮、語音編碼、濾波等）檢測對抗樣本。此外，他們使用不同的集成策略來組合這些方法。實驗結果表明，他們的方法可以達到93.5%的正確率和91.2%的召回率。然而，Rajaratnam等人提出的方法對于其他對抗攻擊方法有效性有待研究。

Samizade等人[70]設計了一個基于CNN的分類神經網絡，見圖7。該模型以語音信號的二維倒譜特征作為輸入，通過卷積、池化、全連接最后輸出分類置信度。實驗檢測Carlini等人[18]和Alzantot等人[19]提出的攻擊時，檢測準確率可以接近100%。此外，他們的方法可以檢測未知的攻擊。不過，此方法也需要訓練新的判別模型并且需要構造合適的訓練集進行針對性訓練。

圖7 基于CNN的分類神經網絡Fig.7 Classification neural network based on CNN

4.2.2 網絡驗證

網絡驗證通過確定目標神經網絡的性質，然后判斷輸入符合或者違反網絡的性質。該類方法對目前尚未出現的對抗樣本攻擊方式也有潛在的檢測效果，因此網絡驗證是一種備受關注的防御方式。例如，利用不同ASR上的轉錄差異，對比輸入加入微小噪聲后的輸出差異。這種防御方法可以檢測到不可察覺的攻擊，是對抗樣本防御的一種有前景的解決方案。

受多版本編程原理的啟發，Zeng等人[71]提出了一種檢測語音對抗樣本的新方法。基于不同ASR系統對單一正常語音的轉錄結果應該是相同的這一事實，他們計算了在多個ASR系統中，每兩個ASR系統并行輸出的相似度評分。對相似度低于閾值的樣本分類為對抗樣本。對文獻[18]提出的攻擊，檢測準確率可以達到98.6%。

受語音分類器對自然噪聲的相對魯棒性的啟發，Rajaratnam等人[72]提出了一種新的方法來防御對抗攻擊。與利用音頻預處理來檢測對抗樣本不同，他們將隨機噪聲添加到特定的頻帶，然后通過計算訓練數據集中對抗和良性樣本的識別分數來找到一個閾值。識別分數小于閾值的測試樣本被視為對抗樣本。此外，為了使防御方法更具魯棒性，他們利用集成方法對不同配置下的識別分數進行了組合。實驗結果表明，他們的檢測方法達到了91.8%的準確率和93.5%的召回率。

Kwon等人[73]根據音頻修改對輸入添加低失真后，對比轉錄結果的差異，利用這種差異來檢測對抗樣本，不同的轉錄結果被視為對抗樣本。實驗結果表明，他們的方法能夠成功地檢測Carlini等人[18]生成的對抗樣本。但是，他們的檢測方法需要原始的樣本和對應的對抗樣本，這在實踐中是不現實的，因為防御者不能同時獲得兩類樣本。

由于音頻序列具有明顯的時間依賴性（temporal dependency，TD），Yang等人[74]提出了一種基于時間依賴性的對抗樣本檢測方法，方法流程如圖8所示。

在圖8中，給定一個音頻序列，首先分別計算輸入音頻全部和前k部分轉錄結果得到Swhole、Sk，然后比較Swhole的前k部分S{whole,k}與Sk。對于正常樣本，S{whole,k}和Sk是相似的。對于對抗樣本，由于失去了TD，S{whole,k}和Sk將產生很大差距。實驗結果表明，他們的方法可以檢測Yuan等人[17]、Carlini等人[18]和Alzantot等人[19]提出的方法產生的對抗樣本。他們的方法為研究對抗攻擊提供了一種新穎的思路。

與Yang等人[74]類似，Ma等人[75]提出了一種基于音頻和視頻流時間相關性的高效、直觀的檢測方法。根據對抗樣本中音頻和視頻之間的關聯低于正常樣本的特點，利用同步置信度作為音視頻相關性的閾值，低于閾值的分數將被視為對抗樣本。實驗結果表明，該方法能夠成功檢測Carlini等人[18]生成的對抗樣本。

4.3 對抗防御總結

圖8 基于時間依賴的音頻對抗樣本判別方法Fig.8 Pipeline of temporal dependency based method for discriminating audio adversarial examples

本節從主動和被動防御兩個方面總結了對抗防御的研究現狀。主動和被動防御方法各有優劣。對于主動防御方面，主動防御方法需要較多的訓練數據和訓練時間，但是有較好的防御能力。對于被動防御方面，被動防御方法需要壓縮、采樣率改變等轉換方法，時間相對少，但是防御效果可能會較差。研究音頻對抗樣本的通用防御方法，權衡時間和效率是極為關鍵的，同時也要結合音頻的特點，如時序性、聲學信號處理等。

5 面臨的挑戰與解決辦法

盡管ASR對抗樣本研究已經取得了一些有前景的成果，但在最先進的方法和用戶期望之間仍存在差距，這表明人們仍然需要在該問題上持續探索。另外，ASR系統中存在對抗樣本的內在原因也有待研究。就目前來說，還面臨著不少挑戰，接下來分別對攻擊和防御兩方面進行闡述。

5.1 對抗攻擊

前文已分別對白盒和黑盒假設下的普適性、魯棒性和距離度量三個方面對抗樣本生成方法進行了總結。通過總結可以發現，為了構造有效的音頻對抗樣本，目前仍有以下問題需要解決。

5.1.1 構建全面的對抗攻擊

在對抗樣本研究領域中有黑盒和白盒攻擊場景，白盒攻擊場景為對抗樣本研究的基礎場景，研究者期望首先對白盒攻擊研究以實現黑盒攻擊。因此現有的對抗樣本生成方法研究大多針對白盒攻擊場景。通過前文對于白盒攻擊場景下的總結，現有的工作只針對普適性、魯棒性、隱蔽性中的單個方面。然而在實際應用場景下，這是不夠的，所以需要構建全面的對抗樣本生成方法。構建方法可以采用集成策略，通過集成現有的普適性、魯棒性、隱蔽性研究中的方法。此外，（1）研究能夠直接產生具有多個性質的對抗樣本生成方法也是一個思路。（2）通過攻擊和防御的博弈也是提升對抗樣本攻擊效果的一個必要條件。

5.1.2 對抗樣本遷移性

圖9（a）為單個目標模型A的對抗樣本實例。在圖9（a）中，模型A是目標模型。對應的線為目標模型的決策邊界。如果樣本在目標模型的邊界內，則該樣本被目標模型A正確地識別。否則，沿目標模型的邊界生成對抗樣本X1。

圖9 遷移性對抗樣本Fig.9 Examples of transferability

可遷移性（transferability）的概念是，針對單個模型的對抗樣本有可能攻擊同一類型數據的其他目標模型。在圖9（b）中，X2、X3都是模型A的對抗樣本，同時X2也可以使得模型B產生錯誤結果，X3可以使得模型A、B、C全部產生錯誤結果。X3作為模型B的對抗樣本也可以遷移到模型C使其產生錯誤。

通過研究對抗樣本的可遷移性，攻擊者可以在白盒條件下生成具有遷移性對抗樣本，然后利用對抗樣本遷移性攻擊未知黑盒ASR系統。相比文獻[58-59]等基于替代模型和進化算法的工作，遷移性攻擊具有更好的研究前景和現實意義。在圖像領域，研究人員利用集成方法使對抗樣本具有一定的可遷移性[76]。然而，關于語音對抗樣本的相關研究較少。Cisse等人[77]的方法表明，針對DeepSpeech2[78]系統生成的對抗樣本對Google Voice具有一定遷移性。Kreuk等人[79]的方法表明，對抗樣本可以保持在同一架構下的不同數據集上訓練的兩個模型之間的可遷移性。因此，構建更多可遷移的對抗樣本可從以下兩個方面考慮：一方面，類似對抗防御，研究數據層面的操作（如數據轉換）對樣本的影響；另一方面，在模型層面，研究深度神經網絡的可解釋性[80]，通過分析模型的架構、參數和預測以生成ASR系統的遷移性對抗樣本。

5.1.3 對抗樣本隱蔽性

在圖9（a）中，攻擊者希望原始樣本X和對抗樣本X1之間的距離盡可能小，即添加的對抗擾動盡可能隱蔽。現有的對抗樣本生成方法，因為攻擊成功率往往和擾動量級成反比，所以攻擊者需要權衡對抗擾動量級和攻擊成功率之間的比例。在這種權衡下生成的對抗樣本質量并不夠好，總能夠聽到遠離音頻本身的雜音。在對抗樣本研究前期工作中，Vaidya等人[12]、Carlini等人[13]通過微調音頻的聲學特征直至音頻被ASR系統誤讀，然后將微調過的特征重構回語音波形以生成對抗樣本。Yuan等人[17]提出了CommanderSong，將惡意命令注入到歌曲中。因此，是否可以借鑒上述工作，轉變一下思路不尋求擾動的最小，而是尋求有現實意義的對抗擾動。可以從以下兩方面考慮：（1）可以研究將對抗樣本重構成不同于原始音頻的內容如歌曲音樂。（2）可以將生成的對抗擾動修改為背景音樂，在保持對抗性的基礎上更不易被懷疑。此外，因背景音樂對抗擾動會遠離決策邊界，可能會具有較高的遷移性。

5.2 對抗防御

對抗樣本存在的原因目前仍是一個懸而未決的問題，如何保證ASR的安全性也是一個挑戰。本節將從主動防御和被動防御兩方面闡述現有方法的問題并探討一些可行的改進策略。

5.2.1 主動防御

對抗訓練以及集成對抗訓練確是防御對抗樣本攻擊的基礎方法，但是也存在著很大的局限性。（1）對抗訓練會大幅度降低模型對正常樣本的識別準確率，這一現象稱為標簽泄露[81-82]。（2）對抗訓練需要不斷輸入新類型的對抗樣本，從而不斷提高模型的魯棒性。為了保證模型不被新型攻擊方法攻破，需要使用多種方法生成高強度的對抗樣本，并且網絡架構要有充足的表達能力。最關鍵的是，無論使用多少混合原始和對抗樣本的數據集進行訓練，都會存在新的對抗樣本能夠對網絡進行欺騙和攻擊。盡管有不少的防御方法，但是也無法完全區分對抗樣本和正常樣本，對抗攻擊的安全隱患依然存在。

Sun等人[61]提出了動態對抗訓練來提高語音分類網絡的魯棒性。然而，尚無研究證明對抗訓練可以使ASR系統具有魯棒性。因此，需要進一步研究對抗樣本進行對抗（再）訓練對ASR系統魯棒性的影響。此外，利用語音增強去噪，對ASR系統的輸入進行預處理，也是一種有前景的防御對抗樣本的方法。如Latif等人[64]、Esmaeilpour等人[65]使用不同的生成模型消除對抗擾動。

5.2.2 被動防御

雖然近年來提出了多種對抗防御方法，在有效性方面，對抗性訓練表現出較好的性能，但計算成本很高。在效率方面，許多基于隨機的防御/檢測系統的配置只需幾秒鐘。因此被動防御研究仍具有前景。在識別系統方面，Zeng等人[71]利用ASR的多樣性差異識別結果來檢測對抗樣本；Yang等人[74]提出了一種基于時間依賴性的對抗樣本檢測方法；Kwon等人[73]利用ASR對擾動樣本和正常樣本的不同識別結果來檢測對抗樣本。因此，可以考慮使用ASR系統和音頻信號本身的特點，如聲學特征處理、時序依賴等快速檢測對抗樣本。此外，結合圖像領域對抗攻擊和防御的研究[83-88]看，最近的許多論文表明很多防御方法并沒有他們聲稱的那樣有效。所以應當考慮研究權衡準確性和有效性的可證明防御理論。

6 結束語

最近的研究表明，基于DNN的系統容易受到對抗樣本的影響。在圖像領域已經對對抗攻擊和防御進行了廣泛研究。但在語音領域，在ASR場景下，研究相對分散，所以本文回顧了ASR領域現有的對抗樣本生成方法。在對抗防御方面，對主動和被動防御的方法進行了綜述。通過對現有的對抗樣本攻擊和防御技術的回顧，探討了對抗樣本在ASR領域的發展，并提出了面臨的挑戰以及未來的研究方向。