韓松莘 郭松輝 徐開勇 楊 博 于 淼
1 (戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450001)
2 (河南省信息安全重點(diǎn)實(shí)驗(yàn)室(戰(zhàn)略支援部隊(duì)信息工程大學(xué)) 鄭州 450001)
基于深度學(xué)習(xí)的自動(dòng)語音識(shí)別(automatic speech recognition, ASR)系統(tǒng)[1]能夠?qū)⒄Z音準(zhǔn)確翻譯為文本信息,深刻改變了人機(jī)交互方式[2].在智能家居或自動(dòng)駕駛等交互場景中,ASR 系統(tǒng)接收語音并將其解釋為相應(yīng)的命令,為人們控制智能設(shè)備帶來諸多便利.然而,目前主流的ASR 系統(tǒng)已被發(fā)現(xiàn)存在潛在的安全隱患[3-4],即攻擊者在語音中添加精心構(gòu)造的擾動(dòng),將其以廣播或播報(bào)形式播放[5],能夠使目標(biāo)設(shè)備執(zhí)行惡意命令[6],嚴(yán)重威脅著受害者的隱私安全甚至人身安全.
前人的工作提出了一系列針對(duì)深度神經(jīng)網(wǎng)絡(luò)的攻擊方案.這些攻擊以損失[7](loss)或適應(yīng)度(fitness)函數(shù)值[8]為目標(biāo)進(jìn)行迭代優(yōu)化,將生成的特殊擾動(dòng)添加到原始語音上,改變語音識(shí)別模型對(duì)語音的轉(zhuǎn)錄結(jié)果,實(shí)現(xiàn)對(duì)ASR 系統(tǒng)的攻擊.已有研究證明,如果攻擊者能夠完全獲取目標(biāo)模型的網(wǎng)絡(luò)參數(shù)(白盒攻擊),則能以接近100% 的攻擊成功率[9]使目標(biāo)ASR將一段語音轉(zhuǎn)錄為攻擊者設(shè)置的任意文本.當(dāng)前,在語音識(shí)別領(lǐng)域,對(duì)于對(duì)抗攻擊的研究主要分布在降低擾動(dòng)感知度[10-12]、實(shí)時(shí)擾動(dòng)[13]、通用擾動(dòng)[14]等方向.現(xiàn)有的語音對(duì)抗攻擊通常在整條語音上添加擾動(dòng),引入了高頻噪聲,易被人耳察覺.而降低擾動(dòng)感知度研究的普遍做法是設(shè)計(jì)優(yōu)化目標(biāo),將對(duì)抗擾動(dòng)集中到人類不易注意到的音頻區(qū)域[11,15-16](聽覺掩蔽區(qū)域).但是,這樣做一方面會(huì)降低對(duì)抗樣本的魯棒性,另一方面計(jì)算過程依賴輸入語音,不能適用于生成通用對(duì)抗擾動(dòng).為了解決該問題,Liu 等人[9]將擾動(dòng)點(diǎn)的數(shù)量因素引入到音頻對(duì)抗樣本的生成中,限制在部分采樣點(diǎn)上添加擾動(dòng),將擾動(dòng)比例降低至75%,但受限于ASR 模型轉(zhuǎn)錄的上下文特征,能夠降低的采樣點(diǎn)比例有限,且沒有給出采樣點(diǎn)選取策略.
針對(duì)擾動(dòng)范圍難以進(jìn)一步降低的問題,本文分析了ASR 網(wǎng)絡(luò)模型的特征提取過程[17-18],發(fā)現(xiàn)每幀語音中,在不同位置上添加擾動(dòng)能夠?qū)μ卣髟斐刹煌潭鹊挠绊懀@些影響能夠通過正向傳播改變神經(jīng)網(wǎng)絡(luò)的決策.通過分析特征提取中對(duì)生成對(duì)抗樣本的影響因素,可以篩選出對(duì)于生成對(duì)抗樣本更重要的采樣點(diǎn)[19],從而進(jìn)一步降低擾動(dòng)范圍.基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)通用框架如圖1 所示.預(yù)處理模塊對(duì)原始語音進(jìn)行剪切、濾波操作,以消除語音信號(hào)的靜默和突兀噪聲部分;特征提取模塊中ASR 系統(tǒng)將語音信號(hào)分幀,并以幀為單位提取信號(hào)特征,特征類型包含梅爾頻率倒譜系數(shù)[20](melscale frequency cepstral coefficients, MFCC)、FBank[21](filter bank)特征和自動(dòng)提取的高維特征等;神經(jīng)網(wǎng)絡(luò)對(duì)這些特征進(jìn)行分類后,ASR 系統(tǒng)將每幀的分類結(jié)果組合解碼,最后輸出語音信號(hào)對(duì)應(yīng)的轉(zhuǎn)錄文本.經(jīng)典ASR 系統(tǒng)如DeepSpeech[22],Kaldi[23]等提取原始語音的MFCC 特征,Lingvo[24]提取FBank 特征,洪青陽等人[25]總結(jié)了上述特征的計(jì)算關(guān)系.如圖2 所示,本文依據(jù)ASR 系統(tǒng)中的計(jì)算對(duì)圖進(jìn)行了簡化修改.

圖1 ASR 系統(tǒng)的通用框架Fig.1 General framework for ASR systems

圖2 ASR 系統(tǒng)中一般特征提取流程Fig.2 General feature extraction process in ASR system
上述定義特征的共同點(diǎn)在于對(duì)原始語音進(jìn)行分幀、加窗處理,然后以幀為單位進(jìn)行離散傅里葉變換(discrete Fourier transform, DFT),以準(zhǔn)確提取頻域信息.如圖3 所示,分幀通常采用交疊分段方法,保證相鄰2 幀間相互重疊一部分,使得幀與幀之間能平滑過渡.加窗即每幀乘以一個(gè)窗口函數(shù),增加每幀頭尾端的連續(xù)性,減少頻譜泄漏.在主流的ASR 系統(tǒng)實(shí)現(xiàn)中,多采用漢寧窗.

圖3 分幀與加窗處理示意圖Fig.3 Diagram of framing and windowing
分幀和加窗操作將導(dǎo)致幀內(nèi)不同區(qū)域采樣點(diǎn)對(duì)計(jì)算離散傅里葉變換的貢獻(xiàn)是不等價(jià)的,因此在各點(diǎn)上添加擾動(dòng)對(duì)頻域信息的影響也不均衡.主要體現(xiàn)在:1)在分幀結(jié)構(gòu)的非重疊區(qū)間上添加擾動(dòng)只會(huì)直接影響單幀頻域信息,而在重疊區(qū)間添加擾動(dòng)會(huì)同時(shí)改變包含該重疊區(qū)間的相鄰2 幀的頻域信息;2)幀片段和窗口函數(shù)相乘將導(dǎo)致同等擾動(dòng)水平下,在幀內(nèi)中間區(qū)域添加擾動(dòng)比在頭尾兩端添加擾動(dòng)對(duì)DFT 的影響更大.
當(dāng)前語音對(duì)抗樣本研究中,在反向傳播更新對(duì)抗性擾動(dòng)階段,均在整條語音范圍內(nèi)添加擾動(dòng)[4],而沒有考慮到上述特性.為了進(jìn)一步降低擾動(dòng)范圍,本文研究的主要問題包含:1)幀內(nèi)不均衡結(jié)構(gòu)存在于DFT 的計(jì)算過程中,直接影響的是神經(jīng)網(wǎng)絡(luò)的輸入,是否能通過神經(jīng)網(wǎng)絡(luò)影響語音識(shí)別的轉(zhuǎn)錄結(jié)果;2)要將擾動(dòng)范圍限制在重點(diǎn)區(qū)域的采樣點(diǎn)上,需要分析上述單類影響因素疊加時(shí)對(duì)語音識(shí)別結(jié)果的綜合影響,并給出其分布規(guī)律.
本文分別對(duì)分幀、加窗進(jìn)行理論分析,提出單因素影響下添加擾動(dòng)的位置與求解對(duì)抗樣本之間的規(guī)律.在此基礎(chǔ)上,根據(jù)各影響因素在幀內(nèi)的分布設(shè)計(jì)了交叉實(shí)驗(yàn),并提出度量方法和相應(yīng)的評(píng)價(jià)指標(biāo):將潛在可求解的對(duì)抗樣本規(guī)模定義為對(duì)抗樣本空間,并以白盒攻擊方式攻擊目標(biāo)模型,基于語音對(duì)抗攻擊擾動(dòng)幅值和求解難度反相關(guān)的特性,以條件衰減的方式對(duì)對(duì)抗性擾動(dòng)進(jìn)行迭代和優(yōu)化,通過統(tǒng)計(jì)不同幅度水平下成功攻擊的次數(shù),作為對(duì)對(duì)抗樣本空間的近似度量.我們在LibriSpeech 數(shù)據(jù)集[26]上對(duì)交叉試驗(yàn)組進(jìn)行測試,實(shí)驗(yàn)結(jié)果證明了對(duì)抗樣本空間隨耦合作用、位置權(quán)重、區(qū)間長度變化的一般規(guī)律,并提出了最重要的擾動(dòng)范圍分布,約占總采樣點(diǎn)的40%.另外,我們在討論中證明了在不受耦合作用影響時(shí),對(duì)抗樣本空間和位置權(quán)重正相關(guān).最后,討論了本文提出的方法用于度量對(duì)抗樣本空間時(shí)的客觀性.
本文的主要貢獻(xiàn)包括3 個(gè)方面:
1) 完成了分幀、加窗結(jié)構(gòu)中單個(gè)影響因素?cái)_動(dòng)DFT 特征的理論分析,提出了分幀結(jié)構(gòu)下耦合作用導(dǎo)致對(duì)抗樣本空間縮減,加窗結(jié)構(gòu)下對(duì)抗樣本空間和位置權(quán)重正相關(guān)的分布規(guī)律.
2) 研究了對(duì)序列模型的對(duì)抗樣本空間度量,提出了基于擾動(dòng)水平迭代衰減的對(duì)抗樣本空間度量方法和相應(yīng)的評(píng)價(jià)指標(biāo),以探索復(fù)合因素作用下對(duì)抗樣本空間隨擾動(dòng)位置的分布規(guī)律.
3) 根據(jù)ASR 中的分幀類型,設(shè)計(jì)了限制擾動(dòng)范圍的交叉實(shí)驗(yàn).以降低對(duì)抗樣本上的整體噪聲能量為目標(biāo),提出了基于幀結(jié)構(gòu)的重點(diǎn)區(qū)域擾動(dòng)范圍.通過在多個(gè)模型上進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明了幀同步結(jié)構(gòu)的模型中對(duì)抗樣本空間主要受耦合作用影響而縮減,為高質(zhì)量語音對(duì)抗樣本的生成提出新的角度.
根據(jù)擾動(dòng)作用階段,將相關(guān)工作分為對(duì)定義特征的擾動(dòng)分析,以及添加擾動(dòng)對(duì)神經(jīng)網(wǎng)絡(luò)的影響分析,并介紹了它們的相關(guān)應(yīng)用.
早期,在神經(jīng)網(wǎng)絡(luò)研究和算力水平發(fā)展薄弱的階段,主流的語音識(shí)別工具采用特征提取和模式識(shí)別方法將語音轉(zhuǎn)錄為文本.該階段對(duì)特征擾動(dòng)分析的研究目的集中在提升識(shí)別的準(zhǔn)確率和對(duì)噪聲的魯棒性.Breithaupt 等人[27]通過對(duì)DFT 特征進(jìn)行擾動(dòng)分析,發(fā)現(xiàn)基于模式識(shí)別的ASR 對(duì)方差較大的噪聲更敏感,并應(yīng)用特征平滑來降低該誤差.Ravindran 等人[28]在特征提取前對(duì)信號(hào)進(jìn)行低通濾波,減小重疊影響,并在信道中產(chǎn)生更平滑的包絡(luò)信號(hào),從而提升了MFCC的噪聲魯棒性.針對(duì)分幀、加窗結(jié)構(gòu),文獻(xiàn)[29]通過將窗口函數(shù)導(dǎo)致的加權(quán)最優(yōu)解和迭代求解到的幀內(nèi)局部最優(yōu)解相結(jié)合,解決助聽器噪聲消除最優(yōu)解問題.該方案證明了加權(quán)重疊相加(weighted overlap-add,WOLA)結(jié)構(gòu)本身不會(huì)對(duì)語音去噪能力造成嚴(yán)重限制,通過在FFT(fast Fourier transform)域應(yīng)用迭代方案,可以計(jì)算出WOLA 權(quán)重并據(jù)此產(chǎn)生在聲學(xué)上無法與干凈語音區(qū)分的濾波噪聲.從而,本文將對(duì)抗性擾動(dòng)噪聲集中至權(quán)重較高的重點(diǎn)區(qū)域也具備一定的可行性,但神經(jīng)網(wǎng)絡(luò)的重點(diǎn)區(qū)域權(quán)重計(jì)算方法與模式識(shí)別不同,仍需探討神經(jīng)網(wǎng)絡(luò)模型中輸入重點(diǎn)區(qū)域的分布規(guī)律.文獻(xiàn)[30] 研究了每個(gè)MFCC 特征提取步驟的影響,分析出MFCC 特征向量的輸入信噪比(SNR)與輸出擾動(dòng)界之間的關(guān)系,通過實(shí)驗(yàn)驗(yàn)證:即使在輸入信號(hào)中添加信噪比約等于0 的擾動(dòng),其頻譜覆蓋率也能達(dá)到98%以上.
隨著對(duì)深度學(xué)習(xí)的進(jìn)一步研究,基于深度神經(jīng)網(wǎng)絡(luò)的ASR 大幅度提升了識(shí)別準(zhǔn)確率,但同時(shí)引入了新的安全風(fēng)險(xiǎn).文獻(xiàn)[31]指出深度神經(jīng)網(wǎng)絡(luò)易被添加在原始數(shù)據(jù)中的微小擾動(dòng)影響而做出錯(cuò)誤分類,這種錯(cuò)誤被攻擊者利用后能夠執(zhí)行帶有惡意意圖的目標(biāo)攻擊.在語音識(shí)別中,由于對(duì)抗攻擊對(duì)擾動(dòng)后每幀的轉(zhuǎn)錄結(jié)果都有一定要求,目前所有針對(duì)語音識(shí)別的目標(biāo)攻擊主要基于迭代優(yōu)化方式進(jìn)行求解[4,32].而降低擾動(dòng)感知度的研究主要通過設(shè)計(jì)優(yōu)化目標(biāo),將對(duì)抗擾動(dòng)集中至人耳不易感知到的頻域內(nèi).文獻(xiàn)[11, 16]提出一種優(yōu)化目標(biāo),利用心理聲學(xué)掩蔽和頻率掩蔽現(xiàn)象,將對(duì)抗性擾動(dòng)集中至人耳不易注意到的區(qū)域,從而降低擾動(dòng)感知度,但仍在語音數(shù)據(jù)的全局范圍內(nèi)添加了噪聲,且增加了迭代所需時(shí)間.Eisenhofer 等人[15]反向利用了掩蔽原理,使求解到的對(duì)抗樣本極易被人耳感知,從而提升模型對(duì)對(duì)抗攻擊的魯棒性.
文獻(xiàn)[33]分析了語音特征提取流程中的MFCC計(jì)算過程,在MFCC 特征向量中生成對(duì)抗性噪聲,并將其注入到語音數(shù)據(jù)中,具有擾動(dòng)感知小且生成速度快的優(yōu)點(diǎn).Abdullah 等人[34]分析了語音特征提取流程中的DFT 計(jì)算過程,通過刪除其中強(qiáng)度低于設(shè)定閾值的分量,并利用反變換從剩余的分量中構(gòu)建一個(gè)新的語音,以較小的擾動(dòng)實(shí)現(xiàn)對(duì)轉(zhuǎn)錄結(jié)果的修改.文獻(xiàn)[33-34] 的共同點(diǎn)在于擾動(dòng)感知小且生成速度快,然而,這些方法只能用于無目標(biāo)攻擊.Liu 等人[9]認(rèn)為,將擾動(dòng)集中至某一頻率或某一時(shí)間段內(nèi)會(huì)破壞對(duì)抗樣本的魯棒性,因此提出了采樣點(diǎn)攻擊,限制只在部分語音采樣點(diǎn)上添加擾動(dòng),最高將擾動(dòng)范圍降低至75%.本文結(jié)合對(duì)DFT 特征的擾動(dòng)分析,探索添加對(duì)抗擾動(dòng)的重點(diǎn)區(qū)域分布規(guī)律,在重點(diǎn)區(qū)域上添加擾動(dòng),以進(jìn)一步降低該擾動(dòng)比例.
本文攻擊方法的目標(biāo)是探索不同擾動(dòng)范圍下對(duì)抗樣本的潛在求解規(guī)模,即對(duì)抗樣本空間.最終求解的對(duì)抗性擾動(dòng)幅度越小,對(duì)抗樣本的質(zhì)量越高.但由于優(yōu)化算法的效率限制,難以求解全局最優(yōu)解,本文以有限次數(shù)迭代中的最優(yōu)結(jié)果進(jìn)行對(duì)抗樣本空間的相對(duì)比較.為了減小誤差,我們采用白盒攻擊的方式,在完全訪問目標(biāo)模型網(wǎng)絡(luò)參數(shù)的條件下進(jìn)行對(duì)抗樣本生成,更新擾動(dòng)的示意圖如圖4 所示.

圖4 攻擊模型流程圖Fig.4 Flow diagram of the attack model
針對(duì)原始語音“Set alarm”,要添加對(duì)抗性擾動(dòng)使目標(biāo)模型將其識(shí)別為“Open the door”.在正向傳播階段,攻擊者首先向目標(biāo)模型查詢原始語音到目標(biāo)轉(zhuǎn)錄的梯度[35],這個(gè)過程需要訪問模型的網(wǎng)絡(luò)參數(shù)和loss值[36]來計(jì)算loss減小的梯度信息.在反向傳播階段,攻擊者利用梯度信息更新對(duì)抗性擾動(dòng),并將部分對(duì)抗性擾動(dòng)添加到原始語音上,添加擾動(dòng)的范圍選擇見實(shí)驗(yàn)設(shè)計(jì)部分.該方法從梯度信息到對(duì)抗性擾動(dòng)的計(jì)算規(guī)則較簡單,且不考慮到LSTM 網(wǎng)絡(luò)中每幀添加擾動(dòng)后模型決策結(jié)果logits的改變對(duì)后續(xù)幀的影響,難以經(jīng)過單次迭代實(shí)現(xiàn)目標(biāo)攻擊,所以我們設(shè)置短步、多次迭代的策略進(jìn)行對(duì)抗樣本求解.
為了充分利用語音的短時(shí)平穩(wěn)特性,語音信號(hào)的特征提取方法中普遍包含由分幀、加窗和離散傅里葉變換組成的短時(shí)分析技術(shù).分幀結(jié)構(gòu)中存在的幀間層疊,加窗結(jié)構(gòu)中所乘窗口函數(shù)的曲線隨位置變化,使得同一段擾動(dòng)添加在幀內(nèi)不同位置時(shí),能在不同程度上影響該幀的短時(shí)分析結(jié)果,從而導(dǎo)致神經(jīng)網(wǎng)絡(luò)對(duì)該幀及相鄰幀的識(shí)別結(jié)果發(fā)生變化.為了界定出對(duì)于求解對(duì)抗樣本最重要的擾動(dòng)區(qū)域,本文首先對(duì)特征提取流程進(jìn)行擾動(dòng)分析.
事實(shí)上,ASR 中的分幀方式可以被分為2 類,我們分別稱為Ⅰ類分幀和Ⅱ類分幀,它們的主要區(qū)別在于重疊區(qū)間的分布不同.其中,Ⅰ類分幀方式存在非重疊區(qū)間,相鄰幀間的相關(guān)性較小,減少了后續(xù)特征提取與神經(jīng)網(wǎng)絡(luò)分類的計(jì)算量.為了描述方便,以幀移為單位,根據(jù)重疊程度的不同,本文將整條語音分為甲、乙2 類擾動(dòng)區(qū)間.如圖5 所示,Ⅰ類分幀方式中幀重疊比例μ <0.5,幀移較長,存在部分區(qū)間乙,其中的采樣點(diǎn)只被用來計(jì)算單幀的DFT 特征.在原始語音上添加擾動(dòng)時(shí),如果擾動(dòng)范圍屬于區(qū)間乙,則該擾動(dòng)直接影響區(qū)間所屬幀的DFT 特征;而擾動(dòng)范圍屬于重疊區(qū)間甲時(shí),會(huì)同時(shí)影響相鄰2 幀的DFT特征.

圖5 Ⅰ類分幀的區(qū)間種類Fig.5 Interval categories of class- Ⅰ framing
這種相鄰幀之間共用部分?jǐn)?shù)據(jù)的情形屬于外部耦合,本文將在重疊范圍上添加擾動(dòng)同時(shí)影響多幀DFT 特征的現(xiàn)象稱作耦合作用.并有理由相信,發(fā)生在輸入空間的影響能夠通過神經(jīng)網(wǎng)絡(luò),對(duì)求解對(duì)抗樣本造成影響.分析如下:生成對(duì)抗樣本即求解讓神經(jīng)網(wǎng)絡(luò)做出目標(biāo)誤分類的理想最小擾動(dòng),我們以C()表示神經(jīng)網(wǎng)絡(luò)分類器, σ表示激活函數(shù),w,b分別表示神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置,在分析過程中忽略序列模型神經(jīng)網(wǎng)絡(luò)logits中前一幀決策結(jié)果對(duì)后一幀的影響.以相鄰2 幀上對(duì)抗樣本的求解為例,si代表第i幀的原始語音信號(hào), δi為添加在第i幀的局部擾動(dòng),ti表示神經(jīng)網(wǎng)絡(luò)對(duì)第i幀識(shí)別結(jié)果的目標(biāo)分類.在乙區(qū)間上添加擾動(dòng),即求解
不考慮序列模型的幀間影響,式(1)可理解為分別求解2 個(gè)分類任務(wù)中的對(duì)抗樣本,其解空間互不影響.而在相鄰2 幀的重疊區(qū)間甲上添加擾動(dòng),即求解式(2):
擾動(dòng) δi需滿足使相鄰2 幀同時(shí)實(shí)現(xiàn)目標(biāo)攻擊,即求解當(dāng)前區(qū)間上使各自幀實(shí)現(xiàn)目標(biāo)攻擊對(duì)抗性擾動(dòng)的交集,從而導(dǎo)致解空間的縮減.Ⅱ類分幀方式中的所有區(qū)間都是重疊區(qū)間,但重疊程度有所差異.我們同樣以幀移為單位,按重疊程度將其分為甲、乙區(qū)間.如圖6 所示,Ⅱ類分幀中重疊比例μ >0.5且?guī)戚^小,可以跟蹤語音信號(hào)的連續(xù)性,并且不會(huì)遺漏幀邊緣處的突然變化.

圖6 Ⅱ類分幀的區(qū)間種類Fig.6 Interval categories of class- Ⅱ framing
由于所有的重疊區(qū)間都是幀移的一部分,以幀移為單位劃分?jǐn)_動(dòng)區(qū)間可以不考慮重疊關(guān)系,并擴(kuò)展至整個(gè)語音序列.在以上2 類分幀方式中,以幀移為單位的區(qū)間劃分總結(jié)如表1 所示.

Table 1 Practical Interval Categories and Characteristics Summary表1 實(shí)際區(qū)間類型及特點(diǎn)總結(jié)
在重疊區(qū)間上擾動(dòng),首先對(duì)相鄰幀的DFT 特征產(chǎn)生直接影響,然后經(jīng)神經(jīng)網(wǎng)絡(luò)的前向傳播改變模型決策.后續(xù)實(shí)驗(yàn)將會(huì)證明,特征提取結(jié)構(gòu)對(duì)神經(jīng)網(wǎng)絡(luò)的輸入產(chǎn)生的影響能夠作用于對(duì)抗樣本空間.
在本節(jié)分析中,我們定義符號(hào)上標(biāo)表示特征類型,下標(biāo)表示區(qū)間范圍.語音信號(hào)被讀取到數(shù)字空間后以離散數(shù)值形式存儲(chǔ),定義原始語音信號(hào)為s(n),擾動(dòng)信號(hào)為δ(n),n為采樣點(diǎn)序號(hào), 則對(duì)抗樣本
在特征提取過程中,預(yù)加重操作能夠在一定程度上彌補(bǔ)高頻部分的損耗,提升模型識(shí)別準(zhǔn)確率,因而其在音頻特征提取中被廣泛應(yīng)用,在時(shí)域上對(duì)抗樣本的預(yù)加重為
其中濾波器系數(shù) α是一個(gè)常數(shù),且0.9 <α <1.隨后,對(duì)抗樣本被分幀、加窗.為了區(qū)分重疊部分和非重疊部分,本文定義符號(hào)為:幀移N;重疊比例 μ;單幀長度N+μN(yùn);第i幀信號(hào).第i幀信號(hào)由幀移和重疊(overlap)兩部分拼接而成.加窗即每幀信號(hào)乘以窗口函數(shù),第i幀的漢寧窗特征為
這里的窗口函數(shù)
其中,a為固定常數(shù).
計(jì)算對(duì)抗樣本的第i幀特征時(shí),通過DFT 計(jì)算頻率分量:
根據(jù)DFT 的線性性質(zhì)Xi(k)=,在對(duì)抗樣本優(yōu)化過程中,s(n)保持恒定,δ(n)根據(jù)梯度信息迭代優(yōu)化.因此,Xi(k)主要受的影響而發(fā)生變化:

圖7 單幀中權(quán)重隨位置的變化趨勢Fig.7 Variation trend of weight with position in single frame
由上述分析可知,耦合作用和窗口權(quán)重對(duì)同一采樣點(diǎn)的影響作用是相反的,它們直接影響DFT 特征計(jì)算,并擴(kuò)展至MFCC 或FBank 等定義特征,這些定義特征作為神經(jīng)網(wǎng)絡(luò)的輸入特征被進(jìn)行分類.在特征提取算法和參數(shù)固定后,語音序列中每個(gè)采樣點(diǎn)對(duì)語音特征的貢獻(xiàn)將由其位置決定,語音識(shí)別系統(tǒng)從中提取主要信息,但對(duì)于更精細(xì)的對(duì)抗性擾動(dòng)來說,對(duì)由位置差異導(dǎo)致的變化更加敏感,根據(jù)噪聲與定義特征的對(duì)應(yīng)關(guān)系,我們劃分出重點(diǎn)區(qū)域的可能分布.又因?yàn)檎Z音識(shí)別神經(jīng)網(wǎng)絡(luò)具有非線性及維度高的特點(diǎn)[32],從輸入特征到分類結(jié)果的對(duì)應(yīng)關(guān)系無法被解析,本文通過實(shí)驗(yàn)確定上述因素對(duì)求解對(duì)抗樣本的綜合影響.
目標(biāo)ASR 模型的網(wǎng)絡(luò)參數(shù)是通過對(duì)規(guī)模數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)的特征提取流程后,對(duì)這些特征訓(xùn)練得到的,在求解對(duì)抗樣本時(shí),網(wǎng)絡(luò)參數(shù)不再發(fā)生變化.攻擊過程中,只有保持和目標(biāo)ASR 相同的特征提取方法和參數(shù),才能保證所求解對(duì)抗樣本的有效性.該條件限制了本文在實(shí)驗(yàn)設(shè)計(jì)方面的靈活性,不能通過定制特征提取過程中的參數(shù)[37]來正向驗(yàn)證擾動(dòng)效果,而只能通過劃分不同位置的區(qū)間,根據(jù)每類位置上對(duì)抗樣本的潛在求解空間的大小來驗(yàn)證擾動(dòng)重點(diǎn)區(qū)域的分布.因此,本文設(shè)置每步迭代的DFT 特征計(jì)算過程和ASR 模型中保持一致,通過調(diào)整擾動(dòng)范圍來探索影響因素的重要性.在這種情況下,3 類影響對(duì)抗樣本空間大小的因素為:
1)耦合作用.在重疊區(qū)間上添加擾動(dòng),縮小了對(duì)抗樣本求解空間.
2) 位置權(quán)重差異.在權(quán)重較大的區(qū)間上添加擾動(dòng)對(duì)DFT 特征具有更大的能動(dòng)性,使神經(jīng)網(wǎng)絡(luò)的輸入有更大的可選擇空間.
3) 區(qū)間長度差異.當(dāng)重疊比例 μ偏離0.5 時(shí),甲、乙2 類區(qū)間的長度不相等,在較長的擾動(dòng)區(qū)間上生成對(duì)抗樣本,對(duì)抗樣本空間更大.
為了驗(yàn)證上述3 種影響因素對(duì)對(duì)抗樣本空間的影響,本文通過控制變量分別在2 類分幀方式上對(duì)擾動(dòng)范圍限制設(shè)計(jì)了定性分析實(shí)驗(yàn),擾動(dòng)范圍如圖8 所示.

圖8 對(duì)2 類分幀區(qū)間的擾動(dòng)范圍設(shè)計(jì)Fig.8 Perturbation range design for two frame intervals
以幀移為基本單位,我們設(shè)計(jì)了影響因素差異最大的擾動(dòng)區(qū)域.其中,A~D為Ⅰ類分幀下的擾動(dòng)范圍,A,B分別代表僅在每個(gè)幀移的乙、甲區(qū)間內(nèi)添加擾動(dòng);C,D分別為組合權(quán)重和長度差異的對(duì)照試驗(yàn).E~G為Ⅱ類分幀下的擾動(dòng)范圍,E,F(xiàn)長度相等,由于單幀內(nèi)存在多個(gè)幀移單位,且甲、乙區(qū)間交替重復(fù)出現(xiàn),我們忽略E,F(xiàn)區(qū)間的權(quán)重大小差異,它們的主要差異在于受耦合作用影響的程度,為了進(jìn)一步降低耦合作用的影響,我們設(shè)計(jì)了G組區(qū)域限制實(shí)驗(yàn),如圖9 所示.

圖9 通過減少擾動(dòng)區(qū)域?qū)χ丿B區(qū)間解耦合Fig.9 Decoupling overlapping intervals by reducing the disturbance area
通過將擾動(dòng)范圍限制在跨幀移周期上,在單個(gè)甲、乙區(qū)間上交替添加擾動(dòng),由于圖9 中虛線部分所示的位置權(quán)重差異,當(dāng)擾動(dòng)位于某幀的后半部分時(shí),對(duì)該幀的影響幾乎可以忽略不計(jì),因此每處擾動(dòng)可被視為只對(duì)單幀產(chǎn)生影響,耦合作用比僅在乙區(qū)間上添加更低.但負(fù)面影響是每幀中包含的擾動(dòng)區(qū)域降低為1,擾動(dòng)區(qū)間長度等效縮短.
這些擾動(dòng)范圍以幀移為單位重復(fù),擴(kuò)展至整個(gè)音頻,在對(duì)抗樣本求解過程中,只在圖中擾動(dòng)波形部分更新擾動(dòng),其余區(qū)域擾動(dòng)大小固定置0,表2 對(duì)比了各類擾動(dòng)范圍上的影響因素分布.

Table 2 Experiment Design of Perturbation Range Constraints表2 擾動(dòng)范圍限制實(shí)驗(yàn)設(shè)計(jì)
為了充分探索不同擾動(dòng)區(qū)域上蘊(yùn)含的潛在對(duì)抗樣本空間大小,本文在白盒攻擊場景下求解對(duì)抗樣本.為了模擬每條原始語音生成對(duì)抗樣本的平均能力,我們?yōu)槊織l語音隨機(jī)選取轉(zhuǎn)錄目標(biāo)進(jìn)行攻擊.針對(duì)ASR 的目標(biāo)攻擊要使得所有幀的分類結(jié)果解碼后滿足目標(biāo)語句,需要多次迭代計(jì)算梯度,每次迭代時(shí)通過梯度下降和反向傳播算法更新對(duì)抗性擾動(dòng).傳統(tǒng)攻擊中,梯度下降的優(yōu)化目標(biāo)[38]通常設(shè)置為
其中?model()是目標(biāo)ASR 模型的損失函數(shù),?metric()度量并限制對(duì)抗樣本和原始語音之間的差異.目前語音對(duì)抗樣本領(lǐng)域?qū)?metric()計(jì)算方法進(jìn)行了各種探索:Carlini 等人[7]采用失真分貝dBx(δ)來描述 δ的擾動(dòng)水平,并將其添加到損失函數(shù)中作為優(yōu)化目標(biāo),以降低對(duì)抗性擾動(dòng) δ引起的失真;Liu 等人[9]分別計(jì)算了基于全變分降噪(total variation denoising,TVD)正則化等3 種擾動(dòng)度量方法,并比較其對(duì)信噪比、dBx(δ)和攻擊成功率等指標(biāo)的影響.這些正則化項(xiàng)均在成功執(zhí)行攻擊之外引入了額外的優(yōu)化目標(biāo),以降低擾動(dòng)大小,而本文的主要研究目標(biāo)在于探索具有天然優(yōu)勢的擾動(dòng)范圍,以此為基礎(chǔ)減少擾動(dòng)點(diǎn)的個(gè)數(shù).這種情況下設(shè)置額外優(yōu)化目標(biāo)進(jìn)行求解,將不能客觀反映出限制擾動(dòng)范圍對(duì)對(duì)抗樣本空間的影響.
為了探索耦合作用、權(quán)重因子對(duì)對(duì)抗樣本空間的疊加影響,本文不設(shè)置?metric(),如式(9)所示,優(yōu)化目標(biāo)僅設(shè)置為當(dāng)前語音到目標(biāo)語句的損失值:
其中?(·)為目標(biāo)模型采用的損失函數(shù),即?model() ;βkδn即第n次迭代的對(duì)抗性擾動(dòng),由根據(jù)梯度更新的擾動(dòng)δn和衰減系數(shù) βk構(gòu)成,常數(shù) β滿足β ∈(0,1),k即當(dāng)前已成功攻擊的次數(shù); δ的更新規(guī)則為
滿足δ0=0 且δn∈[-M,M].ε表示由攻擊者指定的超參數(shù),攻擊者依據(jù) ε調(diào)整從梯度中計(jì)算的擾動(dòng)大小,從而改變對(duì)抗樣本解的搜索效率.給定原始語音x、目標(biāo)語句t和最大迭代次數(shù)iter,在限制范圍上添加對(duì)抗性擾動(dòng)可分為3 個(gè)步驟:
1) 在每步迭代中,首先根據(jù)當(dāng)前樣本到目標(biāo)t的梯度確定樣本更新的方向,然后以合適的步長 ε更新樣本,更新時(shí)擾動(dòng)大小需滿足δn∈[-M,M].
2) 每次更新樣本后即向目標(biāo)模型查詢,檢查是否完成攻擊,若ASR 將當(dāng)前樣本轉(zhuǎn)錄為目標(biāo)語句,則以 β倍率對(duì)當(dāng)前擾動(dòng)βk-1δn進(jìn)行衰減;若沒有完成攻擊,則繼續(xù)在當(dāng)前擾動(dòng)水平上進(jìn)行迭代優(yōu)化.
3) 如果發(fā)生衰減,衰減后的樣本βkδn通常失去目標(biāo)攻擊能力,樣本將在更低的擾動(dòng)水平上繼續(xù)進(jìn)行迭代優(yōu)化,擾動(dòng)大小滿足βkδn∈[-βkM,βkM],以搜索更小的對(duì)抗性擾動(dòng).
一條對(duì)抗樣本在某些采樣點(diǎn)上隨機(jī)多次 +1 或 -1,仍能夠?qū)δ繕?biāo)模型造成目標(biāo)攻擊,但神經(jīng)網(wǎng)絡(luò)輸出層logits幾乎沒有變化.因此對(duì)抗樣本空間可被視為由很多高維子空間組成,擾動(dòng)差異較小且具有相近logits分布的對(duì)抗樣本視為位于同一子空間.我們用對(duì)抗樣本空間大小來描述一條語音在一個(gè)具體模型上的潛在可求解對(duì)抗樣本的質(zhì)量,對(duì)抗樣本空間越大,對(duì)抗性擾動(dòng)的幅值越小, 可求解的對(duì)抗樣本質(zhì)量越好.不同的原始語音和目標(biāo)轉(zhuǎn)錄設(shè)置之間的對(duì)抗樣本空間不具有可比性,同一組源語音和轉(zhuǎn)錄目標(biāo)設(shè)置下,不同擾動(dòng)區(qū)間上的對(duì)抗樣本空間才能進(jìn)行比較.
在目標(biāo)模型和網(wǎng)絡(luò)參數(shù)已知的條件下,一條語音到目標(biāo)語句對(duì)抗樣本解的空間是固定的.而限制擾動(dòng)范圍會(huì)導(dǎo)致某些從原始語音到對(duì)抗樣本的路徑不可達(dá),我們用對(duì)抗樣本空間的縮減來描述這一現(xiàn)象.同時(shí),由于對(duì)抗樣本空間是不可測量的,我們用有限次迭代下的成功攻擊次數(shù)k來描述對(duì)抗樣本空間的大小,根據(jù)不同區(qū)間上求解對(duì)抗樣本的k值比較耦合作用、位置權(quán)重和區(qū)間長度對(duì)對(duì)抗樣本空間的綜合影響.
在對(duì)抗樣本求解過程中,本文攻擊方案主要解決在求得對(duì)抗樣本后存在局部最優(yōu)解的問題.在當(dāng)前擾動(dòng)水平上求得對(duì)抗樣本后,如果不衰減繼續(xù)執(zhí)行迭代,loss值仍可以被進(jìn)一步降低,經(jīng)過一定次數(shù)的迭代后,求解算法將會(huì)在局部最優(yōu)解[39]附近震蕩,但此時(shí)的迭代對(duì)于度量對(duì)抗樣本空間是沒有意義的,只探索了某子空間中的附近區(qū)域.
所提出的衰減系數(shù) βk的主要作用包含:1)降低擾動(dòng)大小;2)跳出當(dāng)前局部最優(yōu)解繼續(xù)進(jìn)行優(yōu)化.在我們的方案中,每次執(zhí)行衰減,logits輸出都發(fā)生了較大改變,意味著其在對(duì)抗樣本空間也發(fā)生了較大程度的轉(zhuǎn)移,因此可以用衰減次數(shù)k度量對(duì)抗樣本空間.優(yōu)化算法示意圖如圖10 所示.

圖10 通過擾動(dòng)衰減探索對(duì)抗樣本空間Fig.10 Exploring adversarial example space through perturbation decay
每步迭代添加的擾動(dòng)都會(huì)使loss減小,實(shí)現(xiàn)目標(biāo)攻擊時(shí)的loss并不一定是局部最小值.每次實(shí)現(xiàn)目標(biāo)攻擊后,本文優(yōu)化算法不繼續(xù)降低loss值,而是執(zhí)行擾動(dòng)衰減,以降低擾動(dòng)水平并跳出當(dāng)前局部最優(yōu)解范圍.
為了探究在固定迭代次數(shù)下在語音上限制不同范圍對(duì)生成對(duì)抗樣本的影響,針對(duì)2 類分幀方式,本文選取了4 種語音識(shí)別模型中的6 個(gè)模型作為目標(biāo)模型:DeepSpeech v0.9.3,DeepSpeech v0.4.1,DeepSpeech v0.1.1,Lingvo,SpeechBrain-Transducer,Whisper 進(jìn)行交叉驗(yàn)證,它們的信息介紹如表3 所示.

Table 3 Target Model Configuration Information表3 目標(biāo)模型配置信息
1) DeepSpeech.是由百度公司在2014 年發(fā)布的端到端語音識(shí)別模型,各個(gè)版本之間網(wǎng)絡(luò)結(jié)構(gòu)無變化,新版本比舊版本采用了更多訓(xùn)練數(shù)據(jù),特征提取方式也存在部分差異.其中v0.1.1 屬于Ⅱ類分幀方式,幀長為400,幀移為160;v0.4.1 和v0.9.3 屬于Ⅰ類分幀方式,幀長為512,幀移為320.
2) Lingvo.是由谷歌公司在2019 年開源的語言相關(guān)任務(wù)序列模型.Lingvo 模型采用了金字塔式特征提取,同一幀的特征比DeepSpeech 分布在更多的原始語音區(qū)間內(nèi).提取語音的Mel 譜圖特征,幀長為400,幀移為160.
3) SpeechBrain-Transducer.是由Mila 研究所等在2020 年主導(dǎo)的開源一體化語音工具包.我們選取了其中的Transducer 網(wǎng)絡(luò)作為目標(biāo)模型.其預(yù)訓(xùn)練模型提取語音的FBank 特征,幀長400,幀移160.
4) Whisper.是由OpenAI 公司在2022 年發(fā)布的通用語音識(shí)別模型,采用自注意力機(jī)制的MLP(multilayer perceptron)作為Transformer 的編解碼器,提取語音的FBank 特征,幀長400,幀移160.
其中2 類分幀方式的對(duì)比驗(yàn)證了本文分析規(guī)律的普遍性;DeepSpeech v0.9.3 和v0.4.1 對(duì)比,驗(yàn)證能夠兼容窗口函數(shù)中不同的權(quán)重分布;DeepSpeech v0.1.1,Lingvo,SpeechBrain-Transducer,Whisper 對(duì)比驗(yàn)證能夠兼容多種特征提取方法.對(duì)抗攻擊不涉及模型的訓(xùn)練過程,本文針對(duì)訓(xùn)練完成的ASR 模型生成對(duì)抗樣本.
我們使用LibriSpeech 數(shù)據(jù)集進(jìn)行規(guī)模測試.LibriSpeech 數(shù)據(jù)集來源于LibriVox 項(xiàng)目,由采樣率為16 kHz 的英語音頻數(shù)據(jù)組成,發(fā)音較清晰,不會(huì)因?yàn)閿?shù)據(jù)質(zhì)量問題影響實(shí)驗(yàn)結(jié)果.為了探索對(duì)抗樣本空間的分布差異,所求解對(duì)抗樣本應(yīng)有一定難度,過短的原始語音和目標(biāo)語句設(shè)置會(huì)導(dǎo)致對(duì)抗樣本的求解簡單,甚至在黑盒攻擊條件下也能成功,因此本文過于在test-clean 分支上隨機(jī)選取600 條平均時(shí)長為5 s 的原始語音組成數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其中300 條作為原始語音,另外300 條的轉(zhuǎn)錄作為目標(biāo)語句.
隨著攻擊成功次數(shù)的增大,擾動(dòng)幅度呈指數(shù)級(jí)減小,本文采用Adam 優(yōu)化器來適應(yīng)擾動(dòng)幅度的改變.學(xué)習(xí)率設(shè)置為100,初始擾動(dòng)幅值閾值M設(shè)置為2000,衰減系數(shù) β設(shè)置為0.8.
迭代次數(shù)iter即停止優(yōu)化的條件,一步迭代包含完整的梯度下降和反向傳播流程.通過在不限制擾動(dòng)范圍的條件下生成對(duì)抗樣本進(jìn)行實(shí)驗(yàn)測試,本文攻擊方法能夠使99%以上的語音在500 步之內(nèi)完成對(duì)抗樣本的優(yōu)化.限制擾動(dòng)范圍會(huì)增大對(duì)抗樣本的求解難度,但大部分樣本仍在500 步之內(nèi)找到局部最優(yōu)解,為了統(tǒng)一條件,本文設(shè)置除Whisper 之外的其他模型上迭代次數(shù)iter=500,Whisper 模型上迭代次數(shù)iter=2000.
1) 成功攻擊次數(shù)k.k值能夠反映所求解對(duì)抗性擾動(dòng)的幅值大小,第k次攻擊成功后,對(duì)抗性擾動(dòng)的值域?yàn)閇-0.8k×2 000,0.8k×2 000],k值越大,最終求解對(duì)抗性擾動(dòng)越小.同時(shí)k值每次增長所需的迭代次數(shù)也能反映出對(duì)抗樣本的求解難度:k+1所需要的迭代次數(shù)越多,當(dāng)前擾動(dòng)水平下對(duì)抗樣本的求解難度越大.
2)功率信噪比(SNR).k值反映了對(duì)抗性擾動(dòng)幅值的極值水平.語音信號(hào)作為1 維序列數(shù)據(jù),其整體擾動(dòng)水平應(yīng)在全序列上計(jì)算.求解難度增大意味著最后求解出的全局?jǐn)_動(dòng)水平較高,本文采用功率信噪比來量化評(píng)價(jià)擾動(dòng)水平,計(jì)算方法如式(11)所示,功率信噪比越小,意味著噪聲能量相對(duì)越大,
3)攻擊成功率(SR).如果1 條語音在500 次迭代內(nèi)沒有求解出符合條件的對(duì)抗樣本,則認(rèn)為攻擊失敗.本文采用在300 條語音上測試的整體攻擊成功率來檢驗(yàn)限制擾動(dòng)范圍對(duì)攻擊可用性的影響.
4)對(duì)抗樣本空間.在數(shù)據(jù)集實(shí)驗(yàn)層面,如果k值平均值顯著降低,則意味著該擾動(dòng)范圍縮減了對(duì)抗樣本空間.
5)對(duì)抗樣本的求解難度.隨著k值增大,攻擊方法將限制在更小的擾動(dòng)幅值內(nèi)求解對(duì)抗樣本,為了比較限制不同范圍對(duì)求解難度的影響,本文采用k值增加所需的迭代次數(shù)來反映求解難度.在擾動(dòng)區(qū)間固定的條件下,2 次成功攻擊之間所需的迭代次數(shù)越多,意味著對(duì)抗樣本求解難度越大.
在已完成訓(xùn)練的6 個(gè)模型上,我們以固定排列的原始語音和目標(biāo)句子進(jìn)行對(duì)抗樣本生成實(shí)驗(yàn).統(tǒng)計(jì)300 條語音在500 次迭代下的平均成功攻擊次數(shù)(k值)與不限制擾動(dòng)范圍下的平均k值.統(tǒng)計(jì)信息如表4 和表5 所示,同一模型的不同實(shí)驗(yàn)間(橫向比較)唯一變量是擾動(dòng)范圍.

Table 4 Perturbation Range Constraints Experiments of Class-I Framing表4 Ⅰ類分幀中限制擾動(dòng)區(qū)間實(shí)驗(yàn)

Table 5 Perturbation Range Constraints Experiments of Class- Ⅱ Framing表5 Ⅱ類分幀中限制擾動(dòng)區(qū)間實(shí)驗(yàn)
在包含非重疊區(qū)間的Ⅰ類分幀方式中, Deep-Speech v0.9.3 和v0.4.1 這2 組實(shí)驗(yàn)數(shù)據(jù)表現(xiàn)出相同規(guī)律:區(qū)間A和區(qū)間B相比,A中擾動(dòng)范圍的長度和位置權(quán)重影響因素均比B差,只有耦合作用影響因素優(yōu)于B,但仍取得了較大的k值,這說明在非耦合區(qū)間上求解對(duì)抗樣本,其對(duì)抗樣本空間更大.同時(shí),區(qū)間A對(duì)抗樣本的信噪比也顯著優(yōu)于區(qū)間B,在更小的擾動(dòng)范圍上獲得了更小的噪聲能量.
在區(qū)間C上添加擾動(dòng),取得了4 個(gè)區(qū)間中最佳的評(píng)價(jià)結(jié)果.區(qū)間C包含的重疊部分同樣包含在區(qū)間B中,其擾動(dòng)比例也與區(qū)間B相同.但是,攻擊效果顯著優(yōu)于區(qū)間B,驗(yàn)證了在幀內(nèi)各區(qū)間上生成對(duì)抗樣本時(shí),對(duì)抗樣本解的空間分布是非均衡的.其次,區(qū)間C包含完整的區(qū)間A和部分重疊幀,可被近似視為不受耦合作用影響.在擾動(dòng)區(qū)間長度增大且權(quán)重小幅度提升的條件下,區(qū)間C上的擾動(dòng)幅值減小,功率信噪比小幅度提升.
區(qū)間B包含區(qū)間D和部分重疊幀.在均受耦合作用影響的條件下,區(qū)間D中擾動(dòng)范圍的長度和位置權(quán)重影響因素均比B差,所求解對(duì)抗樣本的擾動(dòng)幅值大幅度增大,功率信噪比大幅度降低.
因此,根據(jù)Ⅰ類分幀方式的4 組實(shí)驗(yàn)和不限制擾動(dòng)范圍的對(duì)照試驗(yàn)結(jié)果,我們總結(jié)規(guī)律有4 點(diǎn):
1) 不限制擾動(dòng)范圍的對(duì)抗樣本空間最大;
2) 對(duì)抗樣本空間縮減主要由耦合作用導(dǎo)致;
3) 擾動(dòng)范圍由非重疊區(qū)間擴(kuò)展加入部分重疊區(qū)間時(shí),對(duì)抗樣本空間增大,功率信噪比小幅度提升;
4) 擾動(dòng)范圍由重疊區(qū)間進(jìn)行截?cái)鄷r(shí),對(duì)抗樣本空間大幅度縮減,求解到的對(duì)抗樣本功率信噪比大幅度縮減.
我們在所有區(qū)間都屬于重疊幀的Ⅱ類分幀方式上驗(yàn)證上述規(guī)律,擾動(dòng)范圍限制試驗(yàn)結(jié)果如表5 所示.
在所有區(qū)間都屬于重疊幀的Ⅱ類分幀方式中,DeepSpeech v0.1.1,Lingvo,SpeechBrain-Transducer 的表現(xiàn)相同,當(dāng)把擾動(dòng)范圍完全限制在強(qiáng)重疊區(qū)間或重疊區(qū)間上時(shí),對(duì)抗樣本求解空間均大幅度縮減,且強(qiáng)重疊區(qū)間E上的對(duì)抗樣本空間比弱重疊區(qū)間F更小;而在通過減少擾動(dòng)區(qū)域?qū)χ丿B區(qū)間解耦合的G區(qū)間上,以更小的位置權(quán)重和更小的擾動(dòng)范圍反而取得了更大的k值,在3 組限制范圍實(shí)驗(yàn)中實(shí)驗(yàn)效果最佳.結(jié)合圖9 分析,增大擾動(dòng)區(qū)間的間隔后,重疊部分更容易分布在權(quán)重較低的位置,每區(qū)間添加的擾動(dòng)可被近似視為對(duì)單幀起作用,其評(píng)價(jià)指標(biāo)結(jié)果也類似于Ⅰ類分幀方式中在區(qū)間A上添加擾動(dòng).
但Whisper 表現(xiàn)出不同的規(guī)律:強(qiáng)重疊區(qū)間上的對(duì)抗樣本空間大小和弱重疊區(qū)間上的幾乎相等;G區(qū)間的主動(dòng)解耦合操作減小了整體的可擾動(dòng)范圍,縮減了對(duì)抗樣本空間,起到了和其余3 個(gè)模型完全相反的作用.由于幀長和幀移參數(shù)決定了語音幀內(nèi)的采樣點(diǎn)貢獻(xiàn)的不均衡分布,相同的幀長和幀移意味著同等幅度的擾動(dòng)對(duì)DFT 特征有相同的控制能力,已知由DFT 特征計(jì)算的MFCC、Mel 頻率譜、FBank特征表現(xiàn)出相同的規(guī)律,且Whisper 采用的Log-Mel特征由在Mel 頻率譜的基礎(chǔ)上取對(duì)數(shù)得到,因此我們更傾向于認(rèn)為這種規(guī)律差異是由于模型結(jié)構(gòu)造成的,可能的原因?yàn)椋篋eepSpeech 是CTC 結(jié)構(gòu)的模型,Lingvo 和SpeechBrain 是Transducer 結(jié)構(gòu)的模型,它們都是逐幀解碼的模型結(jié)構(gòu),語音結(jié)束則解碼過程結(jié)束;而Whisper 是一種基于seq2seq 結(jié)構(gòu)的模型,特點(diǎn)是逐詞解碼,直到解碼出<EOS>標(biāo)記,解碼過程結(jié)束.在多次解碼的過程中,幀與幀之間的位置劃分發(fā)生相對(duì)變化,會(huì)導(dǎo)致強(qiáng)重疊與弱重疊結(jié)構(gòu)的相互轉(zhuǎn)化,從而對(duì)抗樣本空間只由擾動(dòng)區(qū)間長度決定,且和區(qū)間長度正相關(guān).
本文只從輸入特征的擾動(dòng)能力差異分析了對(duì)抗樣本空間受影響的規(guī)律,把模型對(duì)特征的處理作為黑盒,不考慮模型處理機(jī)制對(duì)對(duì)抗樣本空間的影響,因此我們暫時(shí)把本文規(guī)律的適用范圍限制在CTC及Transducer 結(jié)構(gòu)的模型上.
總的來說,重疊程度較弱的區(qū)間上更容易求解對(duì)抗樣本,而為了利用該結(jié)論限制目標(biāo)攻擊的擾動(dòng)范圍,要付出的代價(jià)有所差異:如果特征提取過程中天然存在非重疊區(qū)間,直接將擾動(dòng)范圍限制在重疊區(qū)間上,即可有效降低擾動(dòng)范圍;如果特征提取流程中不存在非重疊區(qū)間,若限制擾動(dòng)范圍到弱重疊區(qū)間不能有效降低,則以增大擾動(dòng)區(qū)間間隔的方式對(duì)擾動(dòng)區(qū)間解耦合;若需進(jìn)一步提升語音質(zhì)量,從擾動(dòng)范圍的左側(cè)(權(quán)重更大的地方)進(jìn)行擴(kuò)充能夠取得更好的擾動(dòng)效果.
上述實(shí)驗(yàn)結(jié)果展示了限制擾動(dòng)范圍對(duì)對(duì)抗樣本求解結(jié)果的影響,是一種靜態(tài)結(jié)果,代表了對(duì)抗樣本空間的縮減程度.為了理解對(duì)抗樣本的求解難度隨擾動(dòng)范圍的變化,我們繪制了本節(jié)實(shí)驗(yàn)中不同區(qū)間的平均k值隨迭代次數(shù)的增長趨勢,如圖11 所示,該圖中所示k值為每個(gè)模型上300 條對(duì)抗樣本的求解過程的平均值.

圖11 語音識(shí)別模型中的平均k 值變化Fig.11 Variation of the average k values in ASR
在所有模型上,未限制擾動(dòng)范圍的k值變化最快,對(duì)抗樣本求解過程最活躍,每次縮減后,僅需較少次迭代,即可求得更小擾動(dòng)的對(duì)抗樣本解.除Whisper模型外,所有子圖中耦合作用更弱的區(qū)間的平均k值均處于較高的水平,持續(xù)大于等于比自己擾動(dòng)范圍更大的限制區(qū)間.不同區(qū)間的求解規(guī)律和對(duì)抗樣本的空間縮減特性一致:在限制擾動(dòng)區(qū)間增大了對(duì)抗樣本求解難度的條件下,非重疊幀上的擾動(dòng)范圍越多,可擾動(dòng)區(qū)間越大,越容易求解對(duì)抗樣本.
本文對(duì)ASR 的數(shù)據(jù)預(yù)處理過程進(jìn)行分析,根據(jù)擾動(dòng)作用隨幀內(nèi)權(quán)重和復(fù)用程度隨采樣點(diǎn)位置的變化,提出了3 種對(duì)抗樣本空間的影響因素,并對(duì)其影響大小進(jìn)行了實(shí)驗(yàn)分析.但考慮到神經(jīng)網(wǎng)絡(luò)具有非線性特點(diǎn),位置權(quán)重和區(qū)間長度優(yōu)勢對(duì)對(duì)抗樣本空間的影響不能確定.針對(duì)該問題,本節(jié)屏蔽耦合作用的影響,以攻擊單字符為目標(biāo)進(jìn)行對(duì)抗樣本生成實(shí)驗(yàn).
當(dāng)以一句話中的單個(gè)字符為目標(biāo)進(jìn)行攻擊時(shí),如使目標(biāo)模型將原始語音“I think so”轉(zhuǎn)錄為“I thank so”,如果對(duì)抗樣本空間較大,在單幀(轉(zhuǎn)錄結(jié)果為“i”的對(duì)應(yīng)幀)上添加擾動(dòng)就能使ASR 的識(shí)別結(jié)果發(fā)生改變.但當(dāng)對(duì)抗樣本空間較小時(shí),需要在左右相鄰幀(“i”的鄰近幀,可能為“h-i--”等,其中“-”表示空白偽字符)上添加擾動(dòng),才能將該幀的轉(zhuǎn)錄結(jié)果誤導(dǎo)為目標(biāo)字符.這種情況下,所有擾動(dòng)的優(yōu)化目標(biāo)只有1 個(gè),而非5.4 節(jié)實(shí)驗(yàn)中每幀都有對(duì)應(yīng)的優(yōu)化目標(biāo),因此不存在耦合作用.
在實(shí)際實(shí)驗(yàn)中,我們發(fā)現(xiàn)將一個(gè)字符的轉(zhuǎn)錄結(jié)果指定為不存在的單詞時(shí)(如“think”攻擊為“thgnk”)難以攻擊成功,這是由于訓(xùn)練集中沒有該單詞,模型網(wǎng)絡(luò)參數(shù)中也沒有對(duì)應(yīng)的模式.對(duì)抗樣本研究中,添加的擾動(dòng)只能使模型將數(shù)據(jù)判斷為錯(cuò)誤的已有類別,而不能新增類別.因此,本文隨機(jī)選取了10 條語音,只改變其中的1 個(gè)字符進(jìn)行目標(biāo)攻擊,測量無耦合作用條件下區(qū)間A和區(qū)間B的對(duì)抗樣本空間大小,來比較權(quán)重和長度優(yōu)勢對(duì)對(duì)抗樣本空間的影響.我們?nèi)圆捎?.4 節(jié)攻擊方式和評(píng)價(jià)指標(biāo)k進(jìn)行測量.其中原始語音及其目標(biāo)設(shè)置如表6 所示.

Table 6 Original Speech and Attack Target Setting for Single Frame Attack表6 針對(duì)單幀攻擊的原始語音及攻擊目標(biāo)設(shè)置
如4.3 節(jié)所述,對(duì)抗樣本空間和神經(jīng)網(wǎng)絡(luò)參數(shù)、當(dāng)前語音、目標(biāo)字符有關(guān),我們首先在攻擊目標(biāo)的第t幀上選取擾動(dòng)范圍,如果沒有攻擊成功,向左右擴(kuò)展1 幀再次嘗試攻擊,重復(fù)這個(gè)流程,直到攻擊成功,實(shí)驗(yàn)結(jié)果如表7 所示,kA,kB分別表示在區(qū)域A,B上添加擾動(dòng)時(shí)的k值.

Table 7 Experimental Results of Single Frame Attack表7 單幀攻擊實(shí)驗(yàn)結(jié)果
在重疊區(qū)間B上添加擾動(dòng)時(shí),對(duì)抗樣本求解結(jié)果普遍優(yōu)于區(qū)間A,表明在不受耦合作用影響時(shí),具有權(quán)重和長度優(yōu)勢的區(qū)間上具有更大的對(duì)抗樣本空間.這些優(yōu)勢發(fā)生在對(duì)輸入數(shù)據(jù)的預(yù)處理階段,經(jīng)過特征提取和神經(jīng)網(wǎng)絡(luò)的分類,仍能作用于對(duì)抗樣本空間.
本文所提出攻擊方法的特點(diǎn)在于設(shè)置階段性的優(yōu)化目標(biāo).隨著成功攻擊次數(shù)的增大,求解到的對(duì)抗樣本擾動(dòng)減小,即能夠以更精細(xì)的擾動(dòng)實(shí)現(xiàn)攻擊.因此攻擊成功次數(shù)可以作為衡量對(duì)抗樣本空間大小的指標(biāo).攻擊方法包含梯度下降和反向傳播2 個(gè)階段,在梯度下降過程中,目標(biāo)函數(shù)關(guān)于參數(shù)的梯度是在完整語音上進(jìn)行計(jì)算的,而在反向轉(zhuǎn)播更新對(duì)抗性擾動(dòng)時(shí),擾動(dòng)范圍的限制使得只有部分梯度信息被用來更新擾動(dòng),選用帶有動(dòng)量的優(yōu)化算法更有利于實(shí)現(xiàn)優(yōu)化目標(biāo).
5.4 節(jié)實(shí)驗(yàn)中采用Adam 優(yōu)化器,每次迭代的優(yōu)化方向和步長由原始語音、攻擊目標(biāo)、歷史擾動(dòng)決定,當(dāng)陷入局部最優(yōu)解時(shí),無法求解到更小的對(duì)抗性擾動(dòng),可能存在探索對(duì)抗樣本空間不充分的問題.PGD 攻擊[40]采用隨機(jī)重啟策略解決這一問題,本文借鑒該方案,在攻擊過程中每迭代固定間隔次數(shù),即在對(duì)抗性擾動(dòng)上添加隨機(jī)噪聲,以微調(diào)優(yōu)化方向,從而增加跳出局部最優(yōu)解的機(jī)會(huì)以繼續(xù)進(jìn)行優(yōu)化.本節(jié)在DeepSpeech v0.4.1 模型上進(jìn)行噪聲擾動(dòng)實(shí)驗(yàn),在迭代過程中,每隔10 次迭代添加1 次噪聲,該噪聲采樣數(shù)和原始語音保持一致,每個(gè)采樣點(diǎn)噪聲服從N(0,9)正態(tài)分布,其余設(shè)置和5.4 節(jié)保持一致.表8 測試了A,B,C,D這4 個(gè)區(qū)域在添加隨機(jī)噪聲擾動(dòng)的條件下的對(duì)抗樣本空間大小.

Table 8 Experimental Results of Noise Attack表8 噪聲攻擊實(shí)驗(yàn)結(jié)果
添加噪聲的擾動(dòng)實(shí)驗(yàn)與無噪聲擾動(dòng)實(shí)驗(yàn)表現(xiàn)出相同的規(guī)律,即不限制擾動(dòng)范圍時(shí)對(duì)抗樣本空間最大,其次是非耦合幀占主體的區(qū)間C和區(qū)間A.另外,與表4 相比,表8 中各區(qū)間的SNR值和k值沒有增大.我們對(duì)比分析了原始實(shí)驗(yàn)和噪聲實(shí)驗(yàn)中的個(gè)體差異,發(fā)現(xiàn)確實(shí)存在部分語音和目標(biāo)轉(zhuǎn)錄在添加隨機(jī)噪聲后能夠求解出更小擾動(dòng)的對(duì)抗樣本,但是,還有一部分樣本數(shù)據(jù)添加隨機(jī)噪聲后k值減小,即比無噪聲更早地陷入了局部最優(yōu)解.因此,在數(shù)據(jù)集規(guī)模上,添加隨機(jī)噪聲不能更客觀地探索對(duì)抗樣本空間,我們不建議在探索對(duì)抗樣本空間時(shí)添加隨機(jī)擾動(dòng).
除在度量對(duì)抗樣本空間大小時(shí)訪問了模型梯度外,本文在更嚴(yán)格的條件下設(shè)置了攻擊目標(biāo)和條件,以探索對(duì)抗樣本重點(diǎn)區(qū)域的真實(shí)分布.所設(shè)計(jì)的擾動(dòng)范圍限制實(shí)驗(yàn)以幀為單位在整條語音的部分區(qū)間上添加擾動(dòng).根據(jù)實(shí)驗(yàn)過程中的人耳監(jiān)聽,對(duì)于某些天然難求解對(duì)抗樣本的原始語音,在限制擾動(dòng)范圍后k值更小,所求解出的對(duì)抗性擾動(dòng)的幅值也普遍較大,均勻分布在整條語音上時(shí)將產(chǎn)生啁啾噪聲(Chirp),不能完全用于實(shí)際對(duì)抗攻擊.同時(shí),我們也在采用基于心理聲學(xué)掩蔽[12,16]的對(duì)抗樣本生成方法上進(jìn)行了測試,以這些語音為原始語音生成的目標(biāo)攻擊對(duì)抗樣本能感覺到底噪的存在.Vadillo 等人[12]也認(rèn)為語音對(duì)抗樣本研究中的評(píng)價(jià)指標(biāo)只是定量描述了添加的擾動(dòng)量,不能客觀反映出對(duì)人耳的影響,考慮將底噪轉(zhuǎn)化為噪點(diǎn)[41]是降低擾動(dòng)感知度研究中更具潛力的研究方向.
本文所證明的對(duì)抗樣本重點(diǎn)區(qū)域分布規(guī)律,為語音對(duì)抗攻擊和防御提供了新的思路:對(duì)于攻擊方,如果要執(zhí)行特定短語的目標(biāo)攻擊,以弱重疊區(qū)間或向左側(cè)擴(kuò)展的擾動(dòng)范圍能最大程度保持信噪比,進(jìn)一步探索出序列模型中幀與幀識(shí)別結(jié)果相互影響的規(guī)律并予以規(guī)避后,有希望實(shí)現(xiàn)針對(duì)語音識(shí)別的最小范圍攻擊甚至每幀單采樣點(diǎn)擾動(dòng)攻擊;如果要執(zhí)行擾亂原始語音識(shí)別結(jié)果的無目標(biāo)攻擊,則特征耦合作用與模型識(shí)別結(jié)果的幀間相互影響則轉(zhuǎn)變?yōu)閮?yōu)勢,將擾動(dòng)添加在重疊區(qū)域上即可實(shí)現(xiàn)高信噪比的無目標(biāo)攻擊.對(duì)于防御方,利用對(duì)抗樣本比正常語音魯棒性差的特點(diǎn),在重疊區(qū)間上添加隨機(jī)干擾噪聲,能夠破壞對(duì)抗樣本而盡可能降低對(duì)正常業(yè)務(wù)的影響.
對(duì)于希望在語音中添加對(duì)抗性擾動(dòng)以保護(hù)日常對(duì)話隱私免受廣告服務(wù)商竊取的防御者[42]來說,針對(duì)離線語音文件防識(shí)別的應(yīng)用需求,普遍做法是在文件傳輸至互聯(lián)網(wǎng)前添加通用擾動(dòng)[43],由于通用擾動(dòng)的生成不依賴于具體的語音文件,采用心理聲學(xué)降低擾動(dòng)感知度的方法將不再適用,本文方法同樣不依賴具體的語音文件,能更好地和通用擾動(dòng)結(jié)合,降低擾動(dòng)感知度;針對(duì)實(shí)時(shí)添加擾動(dòng)干擾任意語音識(shí)別結(jié)果的應(yīng)用需求[33],也可以結(jié)合本文規(guī)律在重疊區(qū)間上添加噪聲.
本文從幀的結(jié)構(gòu)對(duì)求解對(duì)抗樣本的影響展開分析,證明了在不考慮模型對(duì)特征處理機(jī)制差異的條件下,分幀過程中存在的耦合作用是對(duì)抗樣本空間縮減的主要原因,并給出了在限制擾動(dòng)范圍時(shí)最應(yīng)該保留的擾動(dòng)區(qū)間.在研究過程中,本文采用交叉試驗(yàn)方法,將復(fù)合因素疊加分析問題轉(zhuǎn)變?yōu)閷?duì)抗樣本空間求解問題,并設(shè)計(jì)了針對(duì)序列到序列模型的對(duì)抗樣本空間度量方法和評(píng)價(jià)指標(biāo),解決了固定結(jié)構(gòu)的耦合作用、位置權(quán)重、區(qū)間長度影響難以在同一尺度下進(jìn)行比較的問題.經(jīng)檢驗(yàn),該度量方法能夠在數(shù)據(jù)集規(guī)模上客觀地度量對(duì)抗樣本空間.最后,我們提出了應(yīng)用該一般規(guī)律的應(yīng)用場景,為語音識(shí)別攻擊與防御提供新的思路.
作者貢獻(xiàn)聲明:韓松莘提出論文選題,設(shè)計(jì)實(shí)驗(yàn)并編寫代碼進(jìn)行測試,完成論文初稿撰寫;郭松輝對(duì)現(xiàn)象進(jìn)行理論分析,指導(dǎo)實(shí)驗(yàn)的總體設(shè)計(jì);徐開勇指導(dǎo)從理論到現(xiàn)象之間的總結(jié),完善規(guī)律的應(yīng)用范圍;楊博完善論文中前后邏輯,對(duì)設(shè)計(jì)思路和分析部分做出重要修改;于淼參與多次實(shí)驗(yàn),驗(yàn)證規(guī)律.