999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞替換的對(duì)抗文本生成研究

2022-11-03 09:22:22王曉娟
現(xiàn)代信息科技 2022年17期
關(guān)鍵詞:排序語(yǔ)義單詞

王曉娟

(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)

0 引 言

近年來(lái),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)在眾多領(lǐng)域得到了廣泛應(yīng)用,如計(jì)算機(jī)視覺,自然語(yǔ)言處理等。然而,大量的研究表明DNN容易受到對(duì)抗攻擊,即通過(guò)在原始輸入中添加微小的擾動(dòng)誤導(dǎo)DNN 做出錯(cuò)誤預(yù)測(cè)。在廣泛使用DNN 的自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域,垃圾郵件過(guò)濾,惡意軟件檢測(cè)和情感分析等實(shí)用系統(tǒng)應(yīng)用廣泛,與此同時(shí),其安全問(wèn)題也越來(lái)越受關(guān)注。因此,對(duì)抗攻擊的研究具有重要意義。

現(xiàn)有的文本對(duì)抗攻擊方法按攻擊時(shí)修改內(nèi)容的粒度分為三類:字符級(jí)對(duì)抗攻擊,詞級(jí)對(duì)抗攻擊以及句級(jí)對(duì)抗攻擊。其中,字符級(jí)對(duì)抗攻擊主要思路是改變單詞中不起眼的字母,使單詞在預(yù)測(cè)時(shí)失效,如Gao 等人通過(guò)替換、插入、刪除、交換字符來(lái)構(gòu)造對(duì)抗樣本;句級(jí)對(duì)抗攻擊主要是通過(guò)增加句子或者是對(duì)整個(gè)原始句子進(jìn)行修改來(lái)構(gòu)造對(duì)抗樣本,如Wang 等人通過(guò)在段尾添加句子的方式構(gòu)建對(duì)抗樣本,以達(dá)到欺騙機(jī)器閱讀理解模型的目的;詞級(jí)對(duì)抗攻擊主要是通過(guò)增刪和替換單詞來(lái)構(gòu)造對(duì)抗樣本,如Ren 等人和Jin 等人通過(guò)確定原始輸入中單詞的重要性分?jǐn)?shù),選擇關(guān)鍵單詞進(jìn)行同義詞替換的方式使目標(biāo)模型做出錯(cuò)誤預(yù)測(cè)。字符級(jí)對(duì)抗樣本的構(gòu)造往往會(huì)引入語(yǔ)法錯(cuò)誤,容易被語(yǔ)法檢查器識(shí)別;句級(jí)對(duì)抗樣本擾動(dòng)粒度較大,容易加劇與原始句子之間的語(yǔ)義相似度差距;相比之下,詞級(jí)對(duì)抗攻擊的擾動(dòng)率相對(duì)較小且具有更少的語(yǔ)法錯(cuò)誤。

現(xiàn)有的文本對(duì)抗攻擊場(chǎng)景分為黑盒和白盒。其中,白盒攻擊需要訪問(wèn)目標(biāo)模型的參數(shù),損失函數(shù)等構(gòu)造對(duì)抗樣本,這類攻擊的計(jì)算成本很高,需要了解模型的內(nèi)部細(xì)節(jié),而這在大多數(shù)真實(shí)場(chǎng)景中是無(wú)法獲得的。黑盒攻擊僅使用目標(biāo)模型預(yù)測(cè)的置信度分?jǐn)?shù)或分類概率來(lái)構(gòu)造對(duì)抗樣本,相比較白盒攻擊而言,黑盒攻擊更具有現(xiàn)實(shí)價(jià)值。Ren 等人和Jin等人使用單詞重要性分?jǐn)?shù)來(lái)對(duì)單詞進(jìn)行排序,然后用相似的單詞替換它們。這里的單詞重要性分?jǐn)?shù)排序通過(guò)觀察依次對(duì)原始樣本中的單詞刪除或用其他符號(hào)替換單詞后目標(biāo)模型置信度分?jǐn)?shù)的變化來(lái)得到。這種方法存在明顯的缺點(diǎn):

(1)通過(guò)刪除每個(gè)單詞或用其他符號(hào)代替單詞來(lái)排序,可能會(huì)改變?cè)驾斎氲恼Z(yǔ)義,導(dǎo)致不清楚目標(biāo)模型置信度的變化是由于去掉單詞引起的,還是由于修改了輸入引起的;

(2)這種排序機(jī)制對(duì)于原始輸入較長(zhǎng)的情況,需要頻繁訪問(wèn)目標(biāo)模型,導(dǎo)致效率低下。

本文提出一種新的單詞排序機(jī)制,通過(guò)訓(xùn)練替代模型計(jì)算單詞重要性分?jǐn)?shù),并結(jié)合語(yǔ)義相似度分層采樣后得到的目標(biāo)模型決策概率差值對(duì)原始輸入中的單詞進(jìn)行排序,然后對(duì)排序后的單詞依次使用同義詞進(jìn)行替換,直到改變目標(biāo)模型的預(yù)測(cè)結(jié)果。本文所使用的方法是基于黑盒攻擊場(chǎng)景的詞級(jí)文本對(duì)抗攻擊,通過(guò)實(shí)驗(yàn),本文在目標(biāo)模型的訪問(wèn)頻率上與以往的方法相比,大大降低,并且攻擊成功率達(dá)到或超過(guò)之前的攻擊方法。

1 方法

1.1 問(wèn)題定義

針對(duì)上述問(wèn)題,本文提出了一種適應(yīng)黑盒場(chǎng)景的更加有效的單詞排序和替換方法。具體而言,本文的方法主要包括兩個(gè)步驟:

(1)單詞排序,對(duì)輸入=(,,…,x)中的重要單詞進(jìn)行選擇并按其重要性程度進(jìn)行降序排序;

(2)單詞替換,對(duì)于步驟(1)中確定的重要單詞進(jìn)行同義詞替換,生成對(duì)抗樣本。本文所提方法的總體結(jié)構(gòu)圖如圖1所示。

圖1 總體結(jié)構(gòu)圖

1.2 單詞排序

本文從輸入 中單詞本身對(duì)分類決策的影響以及替換同義詞后對(duì)分類決策的影響兩個(gè)角度出發(fā),綜合測(cè)量單詞的重要程度后進(jìn)行排序。如何確定單詞排序的有效方式是本文探討的重點(diǎn)內(nèi)容。本文的方法是首先建立一個(gè)可解釋的替代模型,獲取單詞本身的重要性分?jǐn)?shù),即單詞重要性評(píng)分策略;然后對(duì)上述步驟中找到的重要單詞進(jìn)行同義詞替換,根據(jù)語(yǔ)義相似度分層采樣后,進(jìn)而計(jì)算目標(biāo)模型決策概率差值,即單詞替換評(píng)分策略;最后,將上述兩個(gè)步驟中得到的分?jǐn)?shù)結(jié)合后,對(duì)單詞進(jìn)行降序排序。

1.2.1 單詞重要性評(píng)分策略

黑盒場(chǎng)景相比較白盒更符合實(shí)際,而在黑盒場(chǎng)景下無(wú)法訪問(wèn)被攻擊的目標(biāo)模型的訓(xùn)練數(shù)據(jù),本文使用文獻(xiàn)[10]中的框架通過(guò)在類似的數(shù)據(jù)集上訓(xùn)練替代模型以達(dá)到模仿目標(biāo)模型決策的目的。

將個(gè)單詞的索引用表示,并且其對(duì)應(yīng)的在中的子向量表示為X

其中∈ρXR,作為超參數(shù)進(jìn)行調(diào)整,以找到使互信息(X;)最大化的。

1.2.2 單詞替換評(píng)分策略

其中,Encoder( · )是一個(gè)通用句子編碼器,用來(lái)對(duì)句子進(jìn)行向量化;Sim( · )表示語(yǔ)義相似度函數(shù);Coc( · )表示余弦相似度計(jì)算。

1.3 單詞替換

合適的替換詞應(yīng)該滿足以下標(biāo)準(zhǔn):

(1)與原詞具有相同的詞性;

(2)符合上下文的語(yǔ)境;

接下來(lái)按照以下過(guò)程進(jìn)行替換:

(1)為了保證語(yǔ)法正確和語(yǔ)義流暢,將x同義詞集合中與x詞性不同的單詞過(guò)濾掉,將過(guò)濾后的同義詞集'中的每一個(gè)單詞c∈'與x進(jìn)行替換,計(jì)算其與之間的語(yǔ)義相似度,過(guò)濾掉語(yǔ)義相似度低于閾值的同義詞;

(2)依次判斷過(guò)濾后的同義詞集'中是否存在能夠改變目標(biāo)分類模型判斷結(jié)果的單詞,若存在,保留語(yǔ)義相似度最高的作為對(duì)抗樣本。若預(yù)測(cè)結(jié)果不變,則保留類別置信度最低的同義詞。按照單詞排序順序,重復(fù)執(zhí)行過(guò)程1~ 2,直到目標(biāo)分類模型判斷結(jié)果發(fā)生改變。

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)設(shè)置

本文在兩個(gè)公開的文本分類任務(wù)數(shù)據(jù)集上驗(yàn)證了提出的方法的有效性:IMDB 數(shù)據(jù)集和Yelp 數(shù)據(jù)集。IMDB 數(shù)據(jù)集是一個(gè)二分類電影評(píng)論數(shù)據(jù)集,其中包括積極和消極兩個(gè)類別,將25 000 條作為訓(xùn)練集,另外25 000 條評(píng)論作為測(cè)試集,評(píng)論的平均長(zhǎng)度為215。Yelp 數(shù)據(jù)集也是一個(gè)二分類數(shù)據(jù)集,將560 000 個(gè)樣本作為訓(xùn)練集,另外38 000 個(gè)樣本作為測(cè)試集,樣本平均長(zhǎng)度為152。

本文將BERT 模型,WordLSTM 模型以及WordCNN 模型作為目標(biāo)模型,即被攻擊模型。與Jin 等人所提出的TextFooler 方法在眾多評(píng)估指標(biāo)上進(jìn)行對(duì)比。與TextFooler方法的實(shí)驗(yàn)設(shè)置一致,從IMDB 和Yelp 的測(cè)試集中分別篩選1 000 條樣本進(jìn)行實(shí)驗(yàn),將同義詞數(shù)量設(shè)為50,語(yǔ)義相似度閾值=0.7。

本文將攻擊后準(zhǔn)確率,目標(biāo)模型的平均訪問(wèn)次數(shù),單詞擾動(dòng)率作為實(shí)驗(yàn)的評(píng)估指標(biāo)。其中攻擊后準(zhǔn)確率(After-attack Accuracy,AAcc)指目標(biāo)模型對(duì)于使用本文方法所生成對(duì)抗樣本的分類準(zhǔn)確率;平均訪問(wèn)次數(shù)(Average number of Queries,Avg-Queries)指原始樣本成功轉(zhuǎn)換為對(duì)抗樣本所需要訪問(wèn)目標(biāo)模型的平均次數(shù);單詞擾動(dòng)率(Perturbed words percentage,Perturbed)用來(lái)衡量原始樣本和對(duì)抗樣本之間的相似度。這三個(gè)評(píng)估指標(biāo)的值都是越低越好。

2.2 實(shí)驗(yàn)結(jié)果

如表1所示,與TextFooler 方法相比較,本文提出的方法在6 組實(shí)驗(yàn)中對(duì)抗攻擊成功率超過(guò)或等于TextFooler 方法,并且本文方法均取得了更低的目標(biāo)模型訪問(wèn)次數(shù),尤其在平均長(zhǎng)度較長(zhǎng)的IMDB 數(shù)據(jù)集上效果更加明顯,同時(shí)也證明了本文方法效率更高。

表1 在IMDB 和Yelp 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對(duì)比

3 結(jié) 論

本文提出了一種通過(guò)訓(xùn)練替代模型計(jì)算單詞重要性分?jǐn)?shù),并結(jié)合語(yǔ)義相似度分層采樣后得到的目標(biāo)模型決策概率差值對(duì)原始輸入中的單詞進(jìn)行排序的方法。該方法對(duì)排序后的單詞依次使用同義詞進(jìn)行替換,直到改變目標(biāo)模型的預(yù)測(cè)結(jié)果,實(shí)驗(yàn)結(jié)果表明,本文方法可以以更少的目標(biāo)模型訪問(wèn)次數(shù)構(gòu)造對(duì)抗樣本,是一種有效的對(duì)抗攻擊方法。

猜你喜歡
排序語(yǔ)義單詞
排序不等式
恐怖排序
語(yǔ)言與語(yǔ)義
單詞連一連
節(jié)日排序
看圖填單詞
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
最難的單詞
主站蜘蛛池模板: 国产永久在线视频| 最新国产高清在线| 99久久精品免费看国产免费软件 | 免费观看无遮挡www的小视频| 在线日韩日本国产亚洲| 91国内在线观看| 麻豆精品久久久久久久99蜜桃| 国产美女在线免费观看| 国产精品刺激对白在线 | 亚洲人网站| 日韩激情成人| 在线观看国产小视频| 欧美全免费aaaaaa特黄在线| 国产超薄肉色丝袜网站| 国产精品99久久久| 午夜国产在线观看| 国产亚洲现在一区二区中文| 91色国产在线| 国产噜噜在线视频观看| 国产精品夜夜嗨视频免费视频| 久久久久久久久18禁秘 | 亚洲日本www| 超清无码一区二区三区| 亚洲三级色| 国产亚洲精品无码专| 国产成人精品第一区二区| 国产成+人+综合+亚洲欧美| 成人av手机在线观看| 久久公开视频| 精品一区二区三区波多野结衣| 亚洲永久精品ww47国产| 国产99视频精品免费视频7| 91午夜福利在线观看| 澳门av无码| 国产福利一区在线| 国产sm重味一区二区三区| 日韩无码视频播放| lhav亚洲精品| 亚洲欧洲自拍拍偷午夜色无码| 久久激情影院| 一级成人欧美一区在线观看 | 国产熟女一级毛片| 国产av一码二码三码无码| 亚洲狼网站狼狼鲁亚洲下载| 国产成人久视频免费| 丁香婷婷激情网| 色综合激情网| 国产亚洲精品资源在线26u| 久草视频中文| 国产丝袜丝视频在线观看| 国产黑丝视频在线观看| 毛片久久网站小视频| 日韩在线视频网站| 91成人在线观看| 国产91久久久久久| 丰满的熟女一区二区三区l| 久久精品国产91久久综合麻豆自制| 制服丝袜亚洲| 国产高清无码麻豆精品| 91久久精品国产| 国产成人福利在线| 亚洲天堂首页| 国产在线八区| 99re精彩视频| 欧美国产精品不卡在线观看| 老汉色老汉首页a亚洲| 亚洲av无码人妻| a天堂视频在线| 国产精品密蕾丝视频| 3D动漫精品啪啪一区二区下载| 99国产精品国产| 亚洲三级成人| 97国产在线视频| 综合色88| 国产尤物jk自慰制服喷水| 91www在线观看| 国产在线观看一区精品| 一边摸一边做爽的视频17国产| 在线观看国产黄色| 久久精品人人做人人综合试看| 一级毛片免费不卡在线| 亚洲成人网在线观看|