999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自動選擇編碼及動態選詞策略的文本隱寫方法

2022-10-09 12:48:58李暉金家立金紓羽馬衛嬌
通信學報 2022年9期
關鍵詞:文本信息模型

李暉,金家立,金紓羽,馬衛嬌

(1.沈陽工業大學信息科學與工程學院,遼寧 沈陽 110870;2.北京猿力未來科技有限公司,北京 100102;3.廣東東軟學院計算機學院,廣東 佛山 528225)

0 引言

大數據時代下的信息安全已成為當今社會的研究熱點之一。信息隱藏(也稱為隱寫術)作為信息安全領域的關鍵技術能夠將秘密信息嵌入公開載體中。圖像[1-2]、視頻[3-4]、音頻[5-6]、文本[7-8]等數字多媒體信號是信息隱藏的常用載體。其中,文本是人們日常生活使用最廣泛的傳輸媒介,為信息隱藏架起一座特殊的“隱蔽橋梁”。文本的低冗余性和高度信息編碼特性使文本隱寫方法具有重大的研究價值和現實意義。

文本隱寫方法主要分為基于修改式和基于生成式兩大類。第一類方法通過修改載體文本的格式或內容來實現信息隱藏[9-12]。例如,改變文本間距[9]、更改字符屬性[10]、同義詞替換[11]、句法轉換[12]等。這類方法最大的缺陷在于安全性低,易被隱寫分析手段檢出。第二類方法則不需要事先準備載體文本,而是在秘密信息的控制下,通過使用生成算法自動生成隱寫文本[7-8,13-20],算法不同,生成的文本內容也不同。該方法具有更強的抗隱寫分析能力和更高的隱藏容量(ER,embedding rate),成為近年來文本隱寫領域的前沿方向。

目前,基于生成式文本隱寫方法的實現過程可歸納如下。首先,使用大規模語料庫訓練文本生成模型,使其能夠很好地捕獲自然語言的統計分布特征;其次,根據語言模型及構建規則確定每一時刻的候選詞并計算相應的條件概率;之后,采用不同的編碼方式對條件概率進行編碼,以確定候選詞與碼字之間的映射關系;最后,根據秘密信息比特流確定每一時刻的輸出,在文本生成的過程中實現信息隱藏。雖然這種方法具有較高的隱藏容量,但也存在以下問題。第一,目前主流的隱寫模型大多采用循環神經網絡(RNN,recurrent neural network)或長短時記憶(LSTM,long short-term memory)網絡,生成的隱寫文本長度有限并缺乏語義相關性。第二,在對候選詞進行編碼時,未能綜合考慮每種編碼方式各自的特點,缺乏編碼靈活性。第三,隨著候選詞的增加,生成的隱寫文本質量逐漸下降,會出現語法錯誤、語義模糊等問題,大大降低了隱寫系統的安全性。

針對語義不相關、編碼靈活性低以及候選詞增加導致的隱寫文本生成質量下降等問題,本文提出了一種基于自動選擇編碼及動態選詞策略的文本隱寫方法。該方法在機器翻譯的背景下完成信息隱藏。通過使用Transformer 模型捕獲文本的高維語義特征,使源語句和隱寫文本之間具有語義相關性。在翻譯的過程中,使用定長編碼和哈夫曼編碼建立候選詞與碼字之間的映射關系,通過引入評分比較機制實現編碼方式的自動選擇。此外,本文還引入了一種自適應選詞策略,當候選詞逐漸增加時,能夠最大限度地減小隱寫文本與正常文本之間的差異。

本文的創新主要包括以下3 個方面。

1) 隱寫模型采用Transformer 模型。相比于RNN、LSTM 等時間序列預測模型,Transformer完全使用自注意力機制建立單詞之間的全局依賴關系。因此,能夠更好地捕獲語義信息,提升模型提取長距離依賴特征的能力,從而生成語義清晰、邏輯相關的隱寫文本。

2) 綜合考慮了定長編碼和哈夫曼編碼各自的特點。候選詞與碼字之間的映射關系建立之后,通過引入評分比較機制實現編碼方式的自動選擇。

3) 為了緩解候選詞的增加對隱寫文本質量的影響,設計了一種基于概率差異百分比的自適應選詞策略。通過設置概率差異閾值動態地選取迭代過程中的詞元。

1 相關工作

基于生成式的文本隱寫方法具有較高的安全性和實用性。早期的方法主要基于語法規則或句子模板[21-22]。這類方法沒有考慮到語義,生成的隱寫文本質量低。針對這一問題,基于統計語言模型的文本隱寫方法應運而生。在統計語言模型中[23],生成第i個詞語的條件概率與前i-1 個詞語有關,當序列長度逐漸增加時,模型的參數空間愈發復雜,數據稀疏現象較為嚴重,因此引入馬爾可夫假設來約束相關詞語的個數。對于序列其概率可以表示為

其中,ωi為序列中的第i個詞語,在每次的迭代過程中,可用極大似然估計來計算條件概率分布,即

馬爾可夫模型是一種經典的統計語言模型,適合于自然文本的建模,因此出現了一些基于馬爾可夫模型的文本隱寫方法[13-15]。該模型具有一定的局限性,生成的隱寫文本質量較低,易受到隱寫分析技術的檢測[24-25]。

隨著神經網絡在自然語言處理領域的廣泛應用,基于神經網絡的文本隱寫方法相繼被提出。例如,Fang 等[16]使用RNN 進行文本生成,將候選詞劃分成不同分組并進行定長編碼,根據秘密信息匹配相應的編碼域并輸出分組中條件概率最大的單詞。Yang等[7]使用LSTM學習自然文本的統計特征,在生成的過程中根據候選詞的概率分布對其進行定長編碼或哈夫曼編碼,隱藏容量和隱寫文本質量均達到最優性能。Ziegler 等[8]使用GPT-2(generative pre-training 2.0)預訓練模型進行文本生成,在生成階段采用算術編碼策略,提高了隱寫文本中單詞的條件概率分布與正常文本之間的相似度。為了能夠生成具有特定語義信息的隱寫文本,Luo 等[17]使用基于RNN的編碼器-解碼器來生成高質量的隱寫詩歌。Tong 等[18]同樣使用該模型在生成中文流行音樂歌詞的過程中隱藏秘密信息。Yang 等[19]將知識圖譜融入文本生成的過程中,通過對圖中路徑進行哈夫曼編碼,實現對語義趨勢的控制,生成高質量且語義可控的隱寫文本。Yang 等[20]使用基于RNN 的編碼器-解碼器和強化學習在實時交互式的問答中隱藏信息,在答復的過程中基于滿二叉樹對候選詞進行定長編碼,根據輸入語句自動生成語義關聯、語法正確的隱寫對話。

機器翻譯保證了源語句與目標語句之間的語義一致性,先后出現了一些基于機器翻譯的文本隱寫方法[26-28]。例如,Grothoff 等[26]使用統計機器翻譯模型傳遞秘密信息。該方法首先對同一源語句使用不同的翻譯系統獲取候選譯文集合;其次,根據候選譯文的分配概率進行哈夫曼編碼;最后,根據待嵌入的秘密信息在集合中選取相應的譯文,實現在翻譯的背景下完成信息隱藏。為了提高隱寫系統的安全性,Stutsman 等[27]只將翻譯之后的結果發送給接收者,避免了攻擊者對源語句的分析。該方法首先使用文獻[26]提出的方式來獲取不同的翻譯結果;其次,基于共享密鑰及哈希函數計算每個翻譯結果的哈希值;最后,根據秘密信息以及哈希值中的最低有效位匹配到相應的隱寫譯文,接收者只需根據獲得的隱寫譯文計算其哈希值即可成功提取出秘密信息。與前2 種方法相比,Meng 等[28]使用一個統計機器翻譯模型來獲得候選語句,提高了候選譯文的相似度,具有更強的穩健性和更大的隱藏容量。

上述基于機器翻譯的文本隱寫方法均使用統計機器翻譯模型,生成的隱寫譯文質量較低。神經網絡的發展掀起了新一輪機器翻譯領域的熱潮,在英-德、英-法等多個機器翻譯任務上均取得了優越的性能[29-30]。神經機器翻譯模型由編碼器-解碼器組成,編碼器將源語句編碼成固定維數的向量,解碼器根據該向量逐步生成目標詞匯。RNN、LSTM或Transformer 均可作為編碼器和解碼器。由于Transformer 具有強大的表征能力且可以并行化計算,因此本文使用基于Transformer 的編碼器-解碼器來生成語義相關的隱寫譯文,以此提高翻譯準確性。在信息嵌入階段,使用集束搜索(Beam Search)算法構建每一時刻的候選詞,并對其進行定長編碼及哈夫曼編碼。通過比較2 種隱寫譯文的評分大小,動態選擇翻譯語句的編碼方式,生成流暢度高、可讀性強的隱寫譯文。通過比較概率差異百分比和閾值的大小,自適應選取每一時刻的輸出,以此降低候選詞的增加對隱寫譯文生成質量的影響。

2 模型原理及架構

2.1 模型原理

Transformer 是由Google 在2017 年提出的一種堆疊的編碼器-解碼器結構模型[31]。編碼器由多頭注意力(multi-head attention)機制和前饋網絡(FFN,feed forward network)兩大子層組成,解碼器由掩碼多頭注意力(masked multi-head attention)機制、多頭注意力機制及FFN 三大子層組成,每個子層后面使用殘差連接和層標準化等方法。

Transformer 不包含循環結構的遞歸、卷積操作,而是使用自注意力機制捕獲詞語的語義特征,因而缺乏位置信息的感知功能。通過使用頻率變化的正弦波引入位置編碼,使模型能夠對每個詞語的位置及其之間的距離進行有效建模,計算過程為

為了提取更豐富的數據特征,Transformer 使用多頭注意力機制將Q、K、V線性映射到多個子空間中,并獨立地計算每個子空間的注意力權重。最終使用輸出權重矩陣將各個結果進行拼接。計算過程為

其中,h為子空間的數量,dv為V的維度,Zi表示某一個子空間的計算結果,其可用式(6)進行計算。

經過多頭注意力機制后,模型可獲取不同角度的語義信息,再將輸出經FFN 做進一步處理,即

解碼器的結構與編碼器大致相同,其不同之處主要體現在掩碼多頭注意力機制上。該機制能夠阻止未來時刻的輸出所產生的影響。解碼器中還包含編碼器-解碼器交互子模塊,其中的K、V來自編碼器,而Q來自解碼器,使模型在解碼的過程中能夠找到與源語句相關性強的詞語。

解碼器的解碼方式包括基于搜索式和基于采樣式兩大類。前者中的Beam Search 是一種基于圖的啟發式搜索算法,廣泛應用于機器翻譯、知識問答、語音識別等領域。其基本思想是在每一步深度擴展的過程中,只選取條件概率最大的前B個解,B為集束大?。˙S,beam size),其余輸出則進行截斷,從而減小了內存消耗,提高了搜索效率。具體流程如下。假設在t-1 時刻,模型得到B個候選序列在t時刻,集束搜索根據已有的B個候選序列Y[t]1-分別與詞表v中的每個詞進行組合,即最終從生成的序列中保留B個條件概率最高的序列作為即,計算過程為

2.2 整體架構

本文提出的文本隱寫方法包括信息隱藏和信息提取兩大部分,隱寫模型整體架構如圖1 所示。在信息隱藏階段,首先使用Transformer 編碼器獲得源語句對應的語義向量,解碼器根據該向量逐步生成目標詞元;其次,使用Beam Search 算法在譯文生成的過程中構建候選詞,選擇相應的隱寫編碼方法對候選詞進行編碼;之后,在秘密信息的控制下,選取候選詞中與之對應的詞元,通過動態選詞策略確定實際的輸出詞元,直至遇到結束標識符<EOS〉或到達序列的最大長度;最后,將輸出的BPE(byte pair encoding)序列[32]分別進行解碼,經評分比較機制實現編碼方式的自動選擇,發送方將最終生成的隱寫譯文和相關介質在公開信道上發送給接收方。秘密信息的提取過程與嵌入過程相反,接收方需使用相同參數的Transformer 模型,并采用相同的方法進行解碼,以便正確提取出秘密信息。

圖1 隱寫模型整體架構

2.3 自動選擇編碼策略

基于滿二叉樹的定長編碼(FLC,fixed-length coding)和基于哈夫曼樹的變長編碼(VLC,variable-length coding)是2 種常見的編碼方式,已被廣泛應用于生成式文本隱寫術中[7,16,19]。在FLC 中,每個內部節點包含2 個子節點,并且所有葉子節點具有相同的深度。在VLC 中,各符號出現的概率對應不同長度的碼字,使概率較大的符號具有較短的碼字,因此VLC 是一種最優前綴碼。在編碼之前,本文使用Beam Search 算法選取前BS 個詞元組成候選詞CP,即在 FLC 中,需滿足,嵌入率bpw 為每詞元可嵌入秘密信息的比特數。而在VLC 中,只需根據候選詞的條件概率構造一棵哈夫曼樹,并對葉子節點進行哈夫曼編碼即可 。因 此,在bpwBS=2的條件 下,,而VLC 充分考慮了每次迭代過程中候選詞的條件概率分布,生成的隱寫文本質量更加優越。由此可見,若注重嵌入率,FLC 更有效;若注重生成的隱寫文本質量,則VLC 更有效。本文旨在通過自動選擇編碼策略實現FLC 和VLC 的自動選擇,以同時具備2 種編碼方式各自的優點。

編碼完成后,根據秘密信息輸出每一時刻候選詞中與之對應的詞元,直至遇到結束條件或到達序列的最大長度。隨后依次組合全部輸出,將BPE 序列解碼后獲得2 種隱寫譯文,并通過評分比較機制實現編碼方式的自動選擇。該機制如圖2 所示。

圖2 評分比較機制

BLEU(bilingual evaluation understudy)是機器翻譯領域常用的評估指標之一[33],用來衡量模型的翻譯結果與實際目標語句之間的相似度。BLEU 越大,生成的文本質量越優越。計算過程為

其中,BP 為懲罰因子,可用式(11)進行計算。

其中,c為模型翻譯的預測句長度,r為參考句的有效長度,N為預測句與參考句在匹配時的n-gram 最大窗口大小為標準化權重。pn為生成的預測句與參考句的匹配精度,即

其中,Candidates 表示候選譯文集合;n-gram 為n元文法,表示語句中連續n個詞所組成的序列;Countdip表示某一個n-gram 的截斷計數。

BLEU 是一種參數化度量,參數的變化也會導致該值發生變化,從而缺乏可比較性。文獻[34]提出了一種度量內部標記化和規范化的方案Sacrebleu,其內部具有一套標準的處理體系,能夠生成可比較的BLEU。本文將Sacrebleu 作為編碼方式的選擇依據,分別計算生成的2 種隱寫譯文Sacrebleu 并比較兩者大小,選取較大者對應的編碼方式作為當前翻譯語句的實際編碼方式,若兩者相等,則選取VLC。上述方法能夠實現編碼方式的自動選擇,自動選擇編碼過程如圖3 所示。

圖3 自動選擇編碼過程

2.4 動態選詞策略

集束搜索需要將上一時刻的B個候選序列與詞庫進行組合,從中輸出B個條件概率最大的擴展并組成序列。在每次迭代的過程中,將生成的詞元后綴作為候選詞,秘密信息的嵌入會造成已有候選序列與生成詞元前后相關性弱的問題,大大降低生成的隱寫譯文質量。為此,本文引入動態選詞策略,如圖4 所示。

圖4 動態選詞策略

3w;反之,則選取輸入前綴w1。依次類推,直至序列生成結束。

序列生成結束后,對其進行反向搜索,最大限度地保證前后詞元的依賴關系。例如,當t=3 時,輸出隱寫詞元w1,其對應的輸入前綴為w4,而t=2時的隱寫詞元為w2,因此也需根據式(13)計算ph。若則t=2 時仍然輸出w2;反之,則輸出w4。經過前向和反向搜索,實現了詞元的動態選擇,有效減小了秘密信息的嵌入對生成隱寫譯文質量的影響。

在進行前向和反向搜索時,候選詞中會出現詞元相同而條件概率不同的情況,假定為t時刻隱寫詞元對應輸入前綴的條件概率,為時刻隱寫詞元的條件概率。當時,,也需計算兩者的概率差異百分比,以解決“同詞不同值”的問題。

2.5 嵌入與提取算法

本文使用Beam Search 算法構建每一時刻的候選詞,并對其中的詞元進行編碼以完成秘密信息的嵌入。圖5 所示為BS=4 時,在生成第2 個詞元的過程中嵌入秘密信息的示意。源語句經編碼器映射為相應的語義向量,對其進行復制擴展并傳送到解碼器中。假設t=2 時的候選序列集合為經過Linear+Softmax 層之后,每個序列分別與詞表v進行組合,獲得4 種概率分布空間,最終根據式(9)選取條件概率最大的前4 個序列組成Y[3],即其中表示將單詞作為序列的后綴進行拼接。本文對生成的4 個后綴進行編碼,根據秘密信息輸出與之對應的詞元,實現了在譯文生成的過程中嵌入秘密信息。

圖5 在生成第2 個詞元的過程中嵌入秘密信息的示意(BS=4)

信息提取與嵌入過程相反。發送者需要使用相同參數的模型,使接收者能夠對源語句進行正確翻譯。在翻譯的過程中,需采用相同的Beam Search算法構建候選詞。為了能夠正確提取出秘密信息,接收者還需共享pi,其主要目的如下。第一,在機器學習的多分類任務中,常用Softmax 函數將模型的輸出結果映射到(0,1)范圍內,為了防止數據下溢,本文采用Beam Search 算法將條件概率轉換成對數形式,使其取值范圍變為(-∞,0) 。因此,接收者可以根據條件概率的2 種表示形式判斷某句隱寫譯文實際采用的編碼方式。例如,編碼方式若采用FLC,則將pi以對數形式返回給接收者,若采用VLC,則將pi以非對數形式返回給接收者,上述過程實現了編碼方式的自動選擇。第二,候選詞中會出現相同的詞元,接收者可以根據pi找到真正攜帶秘密信息詞元,通過讀取其對應的二進制編碼即發送者嵌入的秘密信息。第三,動態選詞策略導致某一時刻未能正確嵌入秘密信息,因此接收者可根據ip查找該時刻正確嵌入的秘密信息。第四,接收者可根據pi判斷某一時刻與之對應的詞元是否在候選詞中,以此來判定當前時刻是否攜帶秘密信息。具體提取算法如算法2 所示。

3 實驗與結果分析

3.1 實驗設置

本文選取WMT 2014 英德翻譯任務中所有可用的并行數據作為訓練集,其中包含Europarl v7數據集(約192 萬個句子對)、Common Crawl 數據集(約240 萬個句子對)以及News Commentary v9 數據集(約20 萬個句子對),并按照以下標準過濾訓練集。

1) 源語句和目標語句及其BPE 編碼的有效長度控制分別控制在(1,80)和(3,150)范圍內。

2) 目標語句BPE 編碼長度與源語句BPE 編碼長度的比值在(0.5,2)范圍內。

3) 去掉空白語句。

按照上述標準過濾后,訓練集大約包含423 萬個句子對,每條英文語句與德文語句的平均分詞長度分別為23 和21。驗證集選擇newstest 2013,測試集選擇newstest 2014,將2 個數據集的有效長度控制在(1,80)范圍內。隨后使用Moses 腳本對過濾之后的訓練集、驗證集和測試集做進一步處理,包括Normalize punctuation、Truecase 等操作。數據集使用BPE 編碼分割成子詞符號,其中包含37 000 個共享源-目標詞匯。將BPE 編碼長度相同的句子對組合在一起,每個訓練批次平均包含大約10 萬個目標詞元。

本文使用Pytorch 1.6.0 仿真平臺,編程語言為Python 3.6.5,基于NVIDIA Tesla V100 32 GB x1 和CUDA 10.1 加快訓練Transformer 模型,對其共訓練16 萬步,累計12 步更新一次梯度。在訓練的過程中,學習率的變化為文獻[31]的2 倍,其余的參數配置與文獻[31]相同,本文通過平均最后5 個檢查點得到最終的翻譯模型。

3.2 自動選擇編碼策略對隱寫算法性能影響

隱寫算法性能的評價指標主要體現在不可感知性和隱藏容量兩大方面。不可感知性主要取決于生成的隱寫文本質量,隱藏容量主要取決于在文本中嵌入的秘密信息量。本文使用Sacrebleu 評估模型的翻譯準確性,該值越大,隱寫文本質量就越高。隱藏容量定義為實際嵌入的比特數除以計算機中所有生成文本所占的比特數,該值越大,模型的嵌入能力就越強。

3.2.1 自動選擇編碼策略對不可感知性影響

嵌入秘密信息前,本文討論了BS 的取值和可調參數α對測試集目標語句Sacrebleu 的影響,結果如表1 所示。嵌入秘密信息后,每一時刻輸出特定的隱寫詞元,α不再影響生成的隱寫譯文質量,bpw 和Sacrebleu 的變化情況如表2 所示。其中,FVLC(fixed-and variable-length coding)是在FLC和VLC 的共同作用下將秘密信息嵌入目標詞元中,自動選擇編碼策略對實驗結果的影響可以直接體現在FVLC上。由于本文提出的編碼方式包含VLC,導致bpw 不確定,因此本文計算了生成的每個詞元所嵌入的平均比特數。

表1 嵌入秘密信息前生成目標語句的Sacrebleu

表2 嵌入秘密信息后生成隱寫譯文的bpw 和Sacrebleu

基于以上結果,可以得出如下結論。嵌入秘密信息前,適當增加波束和α可以提高翻譯質量,Sacrebleu 的最大值為27.41。嵌入秘密信息后,采用3 種方式生成隱寫譯文的Sacrebleu 均隨著BS 的增加而減小,且無論BS 大小如何,采用FVLC 生成隱寫譯文的Sacrebleu 最大。原因是每個詞元可嵌入的比特數隨著BS 的增加而增加,bpw 逐漸增大。在每次迭代的過程中,輸出對象受秘密信息的控制程度逐漸加大,增加了隱寫譯文與實際譯文之間的差異。FVLC 綜合考慮了FLC 和VLC 各自的編碼特性,且以Sacrebleu 的大小作為編碼方式的選擇依據,因此生成的隱寫譯文質量更加優越。

為了進一步驗證自動選擇編碼策略對不可感知性的影響,本文與文獻[35]進行了對比分析,結果如表3 所示。

表3 不同方法BLEU 對比

從表3 可以看出,在未嵌入秘密信息的前提下,Transformer 模型可以生成更高質量的譯文。嵌入秘密信息后,雖然2 種方法的BLEU 均有不同程度的下降,但本文方法仍具有較高的BLEU。

3.2.2 自動選擇編碼策略對隱藏容量影響

隱藏容量是評估隱寫算法性能的重要指標,其描述了在文本中嵌入的秘密信息量。本文將ER 定義為實際嵌入的比特數除以計算機中所有生成文本所占的比特數,即

其中,M為生成的語句總數,Li為第i個語句長度,k為每詞元可嵌入的比特數為第i個語句在計算機中實際占用的比特位數。每個英文字母在計算機中實際占8 位,因此表示第i個語句中的第j個單詞所包含的字母總數。由于秘密信息的嵌入對象為每一時刻的詞元,因此L1為生成序列的平均詞元數。分別為生成隱寫譯文的平均長度和其中每個詞元所包含的平均字符數。不同方法生成隱寫譯文的bpw 和ER 如表4 所示。

表4 不同方法生成隱寫譯文的bpw 和ER

從表4 可知,ER 均隨著BS 的增加而增加,且當BS 取值為4、8、16 和32 時,采用FLC 生成隱寫譯文的ER 最大,次之是FVLC,最小則是VLC。結合之前的實驗結果可以得出,在保證隱藏容量的同時,采用FVLC 可以生成更高質量的隱寫譯文。

為了進一步驗證自動選擇編碼策略對隱藏容量的影響,本文對比了不同方法下的隱藏容量,結果如表5 所示。

表5 不同方法下的隱藏容量對比結果

由表4 和表5 可知,當BS=2 時,自動選擇編碼策略對隱藏容量的影響較小,且本文方法的隱藏容量均大于對比方法。當BS=4 時,雖然隱藏容量處在FLC 和VLC 之間,但也均大于對比方法。

3.3 概率差異閾值hthreshold 對隱寫算法性能的影響

不同的翻譯語句勢必會影響隱寫系統的性能。BS=4 時,不同hthreshold的條件下采用FVLC 生成的隱寫譯文如表6 所示。

表6 不同hthreshold 時采用FVLC 生成的隱寫譯文(BS=4)

從表6 中可以看出,同一源語句在不同閾值下能夠生成流暢度高、可讀性強且具有語義相似性的隱寫譯文。本文在BS=4 的條件下進行實驗,進一步討論了閾值的選取對隱寫譯文質量、bpw 和隱藏容量的影響,結果分別如圖6~圖8 所示。

圖6 不同hthreshold 對模型Sacrebleu 的影響

從圖6 中可以看出,隨著hthreshold的增加,Sacrebleu 均在減小。原因是hthreshold的增加減小了隱寫詞元與其輸入前綴的依賴程度,使每一時刻的輸出越來越受到秘密信息的影響,從而選取條件概率較低的詞元,降低了隱寫文本質量。由于自動選擇編碼策略以Sacrebleu 作為編碼方式的選擇依據,因此FVLC 的Sacrebleu 高于FLC 和VLC。

在討論hthreshold對bpw 的影響時,本文將bpw定義為正確攜帶秘密信息的詞元所嵌入的平均比特數。從圖7 中可以看出,FVLC 和VLC 的bpw均隨著hthreshold的增加逐漸增加。原因是hthreshold的增加減小了正常詞元對隱寫輸出的限制,使正確攜帶秘密信息的詞元數增多。在FLC 中, BS=2bpw始終成立,因此當BS=4 時,FLC 的bpw 始終不變。

圖7 不同hthreshold 對模型bpw 的影響

本文的動態選詞策略不改變秘密信息的嵌入對象,導致某一時刻未能正確嵌入秘密信息。在討論hthreshold對ER 的影響時,將ER 定義為正確嵌入的秘密信息比特數除以計算機中所有生成文本所占的比特數。從圖8 中可以看出,ER 值會隨著hthreshold的增加而增加。原因是hthreshold的增加提高了每一時刻輸出隱寫詞元的概率,在翻譯的過程中增多了正確嵌入的秘密信息比特數,隱藏容量逐漸增加。表7 列出了在不同hthreshold、嵌入方式以及BS 的情況下,bpw、Sacrebleu 和ER 的實驗結果。

圖8 不同hthreshold 對模型ER 的影響

根據表7 可以得出以下結論。1) 當BS 取值分別為4、8、16、32 時,FVLC 和VLC 的bpw,以及不同嵌入方式的ER 均隨著的增加逐漸增加,Sacrebleu 逐漸減小,而FLC 的bpw 保持不變。原因在于差異閾值的提高增加了隱寫詞元的可選擇性,使生成的隱寫譯文包含更多的隱寫詞元,因此隱寫文本質量逐漸降低,正確嵌入秘密信息的比特數逐漸增多。2) 相比于FLC 和VLC,FVLC的bpw 介于兩者之間,并且評分比較機制的引入使FVLC 具有較大的Sacrebleu,生成的隱寫譯文質量更高,在一定程度上提高了系統的不可感知性。3) 在討論對ER 的影響時,實際正確嵌入秘密信息的比特數及計算機中所有生成文本所占的總比特數均會影響ER 的大小。從實驗結果中可以計算出,當BS=8 時,FVLC 和VLC 的ER 平均相差0.032,與FLC 的ER 平均相差0.12,Sacrebleu 分別平均提高了2.442 和3.598。由此可見,FVLC 雖然犧牲了較低的隱藏容量,但卻大幅提升了隱寫文本質量。綜上所述,隨著BS 的增加,通過采用自動選擇編碼策略以及設置合理的概率差異閾值仍能生成高質量的隱寫譯文,在一定程度上提升了隱寫算法的性能。

表7 不同hthreshold、嵌入方式以及BS 對bpw、Sacrebleu 和ER 的影響

4 結束語

本文提出了一種基于自動選擇編碼及動態選詞策略的文本隱寫方法,該方法在機器翻譯的背景下使用Transformer 模型傳遞秘密信息。在翻譯的過程中,通過比較2 種隱寫譯文與實際譯文的Sacrebleu 大小實現FLC 和VLC 的自動選擇,通過計算隱寫詞元與正常詞元的概率差異百分比,實現在譯文生成的過程中根據概率差異閾值自適應選詞。實驗結果表明,評分比較機制的引入能夠生成流暢度高、可讀性強的隱寫譯文,差異閾值的引入能夠緩解候選詞增加導致的隱寫文本生成質量較低的問題。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 香蕉99国内自产自拍视频| 99久久精彩视频| www.国产福利| 亚洲久悠悠色悠在线播放| 97国产成人无码精品久久久| 天堂网国产| 午夜精品福利影院| 国产精品男人的天堂| 2021国产精品自拍| 国产精品大尺度尺度视频| 在线色国产| 97se亚洲| 亚亚洲乱码一二三四区| 久久亚洲精少妇毛片午夜无码| 无码区日韩专区免费系列| 青青久视频| 国产女人在线观看| 免费看的一级毛片| 四虎永久免费地址在线网站| 动漫精品中文字幕无码| 国产精品免费入口视频| 久久国产毛片| 国产啪在线91| 日本亚洲国产一区二区三区| 蜜臀AVWWW国产天堂| 精品综合久久久久久97超人该| 91亚洲视频下载| 久久国产热| 精品国产网站| 51国产偷自视频区视频手机观看 | 中文字幕在线免费看| 精品国产免费观看一区| 色老头综合网| 91网址在线播放| 99久久无色码中文字幕| P尤物久久99国产综合精品| 国产精品第页| 青青热久麻豆精品视频在线观看| 少妇被粗大的猛烈进出免费视频| 久久国产精品电影| 亚洲中文无码h在线观看| 二级特黄绝大片免费视频大片| 国产凹凸视频在线观看| 999国产精品永久免费视频精品久久 | 国产精品毛片一区视频播| 久久久波多野结衣av一区二区| 日韩欧美色综合| 无码专区在线观看| 精品成人一区二区三区电影 | 亚洲精品天堂在线观看| 亚洲第一精品福利| 四虎影院国产| 一本久道久久综合多人| 欧洲欧美人成免费全部视频 | 沈阳少妇高潮在线| 国产成在线观看免费视频| 黄色a一级视频| 亚洲最大情网站在线观看| 中国国产A一级毛片| 美女一级毛片无遮挡内谢| 亚洲AⅤ综合在线欧美一区| 欧美三级视频网站| 国产第一页亚洲| 美女被操黄色视频网站| 色国产视频| 大香网伊人久久综合网2020| 亚洲国产精品无码AV| 欧美日韩国产在线播放| 精品无码一区二区三区在线视频| 欧美一区二区精品久久久| 国外欧美一区另类中文字幕| 欧美激情伊人| 综合五月天网| 亚洲丝袜第一页| 国产一区二区精品福利| 色综合成人| 99re这里只有国产中文精品国产精品| 国产日韩欧美一区二区三区在线 | 97超爽成人免费视频在线播放| 波多野结衣无码AV在线| 欧美日韩另类在线| 日韩在线播放中文字幕|