深度神經網絡模型水印研究進展

2024-05-08 00:00:00譚景軒鐘楠郭鈺生錢振興張新鵬

上海理工大學學報 2024年3期

摘要：隨著深度神經網絡在諸多領域的成功應用，以神經網絡水印為代表的深度模型知識產權保護技術在近年來受到了廣泛關注。對現有的深度神經網絡模型水印方法進行綜述，梳理了目前為了保護模型知識產權而提出的各類水印方案，按照提取水印時所具備的不同條件，將其分為白盒水印、黑盒水印和無盒水印3 類方法，并對各類方法按照水印嵌入機制或適用模型對象的不同進行細分，深入分析了各類方法的主要原理、實現手段和發展趨勢。然后，對模型水印的攻擊方法進行了系統總結和歸類，揭示了神經網絡水印面對的主要威脅和安全問題。在此基礎上，對各類模型水印中的經典方法進行了性能比較和分析，明確了各個方法的優勢和不足，幫助研究者根據實際的應用場景選用合適的水印方法，為后續研究提供基礎。最后，討論了當前深度神經網絡模型水印面臨的挑戰，并展望未來可能的研究方向，旨在為相關的研究提供參考。

關鍵詞：深度神經網絡；知識產權保護；神經網絡水印；白盒水印；黑盒水印；無盒水印；水印攻擊；模型安全

中圖分類號：TP 309.2 文獻標志碼：A

近年來，得益于數據的海量增長和計算能力的快速發展，以深度學習[1] 為代表的人工智能技術在計算機視覺、自然語言處理、語音識別、自動駕駛、智能醫療和金融風控等諸多應用領域取得了令人矚目的成就。作為深度學習的主要模型，深度神經網絡（deep neural network， DNN）通過多層的神經元結構和強大的學習能力，能夠從大量數據中學習和提取關鍵特征，實現高度準確的預測。然而，訓練一個性能優異的神經網絡代價高昂，不僅需要龐大的數據量和計算資源支持，還依賴于專家對模型結構和訓練方法的精心設計。因此，經過精心訓練構建出的高性能神經網絡模型具有極高的商業價值，同時也是模型所有者的腦力勞動產物，必須將其納入其所有者的知識產權（intellectual property，IP）。未經所有者授權的情況下，對模型進行復制、剽竊、分發或篡改等行為都構成了對知識產權的侵害。出于對利益的考慮，深度學習模型版權所有者迫切需要有效的方案解決知識產權保護的問題。

受多媒體水印所啟發，Uchida 等[6] 首次提出了神經網絡模型水印的概念，即向模型中嵌入水印信息，當模型被非法復制后可通過從中提取出水印以證明模型的所有權歸屬。隨后，研究人員對模型水印展開了廣泛的研究，在開發新水印算法的同時也對水印的應用范圍不斷拓展。

除了水印之外，研究人員也提出了一些其他的模型所有權驗證方法。由于水印需要修改模型參數而不可避免地引起一定的性能損失，限制了模型水印在醫療、金融等關鍵領域的應用，模型指紋技術[7] 被提出。該技術可以在不修改模型的前提下利用模型的內在屬性構造一組能夠描述模型決策邊界的特殊樣本，即對抗樣本[8]。由于盜版模型的決策邊界相比于原始模型不會發生明顯變化，可以根據可疑模型能否在這組對抗樣本上產生與原模型一致的預測來檢測盜版模型。同樣是不修改模型，神經網絡模型哈希[9] 則借鑒了傳統多媒體領域中的感知哈希算法，基于模型參數為模型生成一串哈希序列，并且對模型進行一定處理后，哈希序列的變化在可接受的范圍內，可以通過比對哈希序列檢測盜版模型。此外，模型哈希還能夠用于在一個大規模模型庫中檢索一個目標模型。由于模型水印、模型指紋與哈希在本質機理上有所不同，本文僅對模型水印進行綜述。

目前，國內外已有一些綜述[10-16] 對現有的模型水印方法作了一定的梳理和總結。其中，文獻[10-14] 只包含了2021 年及之前的模型水印研究相關的文獻。文獻[15] 是對機器學習模型IP 保護的綜合性調研，描述了較為完整的威脅模型，并系統地總結了模型水印、模型指紋和模型訪問控制3 種不同類型的模型IP 保護技術。文獻[16] 從白盒水印、黑盒水印、無盒水印3 個角度梳理了國內外研究現狀，并對脆弱水印進行了分析和討論。本文的組織結構和文獻[16] 較為類似，同樣從白盒水印、黑盒水印、無盒水印3 個方面展開了綜述，不同之處在于本文對每種類型的水印都進行了更加細致的劃分，并討論了當前備受關注的大語言模型和擴散模型的水印。此外，與現有綜述不同的是，本文還提供了對水印攻擊方法的系統梳理，總結出模型修改、輸入檢測及修改、模型提取和偽造攻擊4 種類型的水印攻擊方法。在此基礎上，分析并比較了典型的神經網絡水印算法，對比了各個方法的優勢和不足，以幫助研究者根據實際的應用場景選用合適的水印方法。

1 神經網絡水印概述

1.1 神經網絡水印定義

神經網絡水印算法涉及水印嵌入過程和水印提取過程，整體框架如圖1 所示。水印嵌入過程將有可鑒別性的信息I嵌入神經網絡模型中作為版權標識，且不影響模型的可用性，嵌入過程中使用密鑰以確保水印僅能夠被合法所有者提取。

含有水印的模型在使用或分發中可能會被盜版者通過某種手段獲取，盜版者甚至會采取一些模型處理方法試圖去除模型中的水印，從模型安全的角度來看，盜版者也被稱為攻擊者。

當模型合法所有者想要驗證一個可疑模型是否盜版于自己的模型時，用嵌入水印時的秘鑰從可疑模型中提取水印信息I′，將I′與原水印信息I比較相似度，當相似度足夠高時水印可以作為所有權證明的有力依據。

1.2 神經網絡水印性能要求

表1 總結了神經網絡水印最常見的性能要求。需要注意的是，表中的術語在現有文獻中并不統一，且對于相同要求也會有一些同義詞，在閱讀具體文獻時需要結合上下文判斷其含義。例如，此處的“完整性”沿用了文獻[11] 中的術語，指代水印驗證過程的虛警率應該盡可能低，而模型的完整性強調的是模型未受到微調、剪枝等篡改。

1.3 神經網絡水印分類

現有的神經網絡模型水印方法可以根據不同的標準進行分類。按照提取水印時對于模型的訪問權限，可以將模型水印分為白盒水印、黑盒水印和無盒水印3 類。如圖2 所示，白盒水印在提取水印時需要訪問目標模型的內部結構和參數；黑盒水印在提取時則不需要掌握目標模型的內部細節，通過模型應用程序接口（application programinterface， API）進行輸入輸出查詢即可驗證所有權；無盒水印則完全不需要訪問模型，水印是從模型的輸出數據中提取的。

除此之外，按照水印的嵌入機制，可以將模型水印大致分為基于參數或結構的、基于觸發集的和基于輸出嵌入的3 類。按照嵌入水印的容量，可以將模型水印劃分為多比特水印和零比特水印。根據水印提取是否需要特定樣本觸發，還可以將模型水印劃分為動態水印和靜態水印；根據模型類型，有分類模型水印、生成式模型水印、自監督學習模型水印等。由于根據提取水印時的場景分類是最普遍的分類方法，本文從白盒水印、黑盒水印和無盒水印3 個角度梳理和總結現有的方法。

1.4 脆弱水印

需要指出的是，上述提到的水印都有魯棒性的要求，即水印在經過攻擊之后依然能夠被正確提取，以驗證模型的所有權。在某些場景下，模型所有者需要對模型的完整性進行校驗，即判斷模型是否被惡意篡改。為此，研究人員提出了脆弱模型水印技術，嵌入水印后，即使模型發生輕微變化也將導致水印被破壞。脆弱模型水印也有黑盒和白盒之分。黑盒脆弱水印[17-20] 的基本思想是設計一組特殊的、緊靠模型決策邊界的樣本，使得模型在經過輕微修改后，預測結果即輕易發生變化。白盒脆弱水印[21-22] 將脆弱水印嵌入到模型參數中，能夠定位到被篡改的參數塊，甚至恢復被篡改的參數。特別地，可逆水印[23] 還能夠實現在提取水印的同時恢復原始模型的參數。本文主要關注魯棒模型水印，對于脆弱水印較為全面的調研可以參考吳漢舟等[16] 的綜述。

2 白盒水印

白盒水印在提取水印時需要把神經網絡模型當做白盒對待。根據水印嵌入的位置，本文將白盒水印劃分為基于內部權重的方法、基于內部結構的方法和其他方法。

2.1 基于內部權重的方法

基于內部權重的方法將水印嵌入在模型權重中。Uchida 等[6] 首次將水印應用于神經網絡模型，并提出了一種基于權重正則化的水印框架，水印的嵌入通過使用如下的損失微調模型來實現：

L（W） = L0（X，Y，W）+λLR （1）

式中：L0表示原始任務的損失函數，例如對于分類任務，L0為交叉熵損失；W為模型參數；X是輸入數據；Y是標簽；LR是權重正則化項；λ是平衡兩項損失的超參數。式（1）為白盒水印提供了一個范式，后續很多算法都采用這種形式嵌入水印，其區別只在于LR的設計不同。

記b∈｛0，１｝L表示待嵌入的長度為L比特的位串；K∈"RL×M是一個偽隨機生成的秘鑰參數矩陣；wl是模型第l層的按卷積核求平均的權重向量；σ表示Sigmoid 激活函數，LR定義為σ（Kwl）與b之間的二元交叉熵損失：

LR = blog （σ（Kwl））+（1- b）log （1-σ（Kwl））（2）

Chen 等[24] 基于抗共謀碼[25] 在每個模型復件中嵌入不同的用戶指紋，當發現未授權的復件時可通過檢索指紋追溯來源，并能夠抵抗共謀攻擊。然而，直接將水印嵌入在模型某一層權重中的方法[6，24] 無法抵抗水印重寫攻擊，在這種攻擊中，攻擊者如果知曉了承載水印的層的位置，可以在相同層嵌入新水印的同時抹除原有的水印。Wang 等[26]的工作表明，根據權重分布差異推導出水印位置并進行重寫攻擊是可行的。為了解決這個問題，Feng 等[27] 提出了具有補償機制的水印方案，先對原始水印擴頻調制，然后將水印分散地嵌入在模型各層偽隨機選擇的權重中，且水印嵌入過程不需要微調，而是對權重進行正交變換后通過二值化方法在系數中嵌入水印，最后再通過微調模型彌補水印嵌入帶來的性能損失。

一些工作[28-29] 則致力于對Uchida 等[6] 方法中的秘鑰參數矩陣進行改進。Wang 等[28] 將參數矩陣替換成一個獨立的神經網絡，它和目標模型一起訓練，使得這個網絡能夠從目標模型中合適的權重中提取出水印。Wang 等[29] 提出的RIGA（robust white-box GAn watermarking）使用一個單獨的提取器網絡從模型權重中提取水印，通過對提取器網絡進行適當設計，不僅可以提取出比特串形式的水印，還支持以Logo 圖像作為水印。該方案還采用對抗學習的思想，引入一個檢測器網絡以區分不含水印的權重和含有水印的權重，目標模型、提取器網絡與檢測器網絡對抗訓練，鼓勵含水印的權重不易被檢測，提升了水印的隱蔽性。同樣以隱蔽性為目標，Kuribayashi 等[30] 則是從模型的全連接層采樣部分權重參數，利用量化索引調制將水印嵌入到權重的頻域系數中，最后微調模型，確保了水印嵌入引起的權重變化足夠小。Chen 等[31] 為語音識別模型設計了一種譜水印方法，將所有權信息通過擴頻方式編碼到模型參數的重要頻域分量中。

使用參數矩陣或神經網絡從模型中提取水印的方法都難以避免偽造攻擊，攻擊者獲取含水印的模型后，可以在不改變模型的情況下構造出新的參數矩陣或神經網絡，使得從中能夠提取出偽造的水印，造成所有權的歧義。針對這個問題，Liu 等[32] 提出了一種不需要顯式的所有權指示器。該方法要嵌入的簽名是一個由RSA 算法對原始的版權聲明進行私鑰加密，再對解碼結果取符號得到的，因此b∈｛-1，1｝L通過hinge 損失將b嵌入到從模型重要參數構造出的殘差向量ψ的符號中，利用式（1）嵌入水印，LR定義為

該損失會鼓勵ψ的符號與b相同，式中的μ是為了擴大不同符號之間的差異而設置的調節參數。為了構造殘差向量ψ，先對某一層的權重Wl平，對其運用一維平均池化，結果變形為γ∈RL×d，對γ的每一行選擇絕對值較大部分的值取平均，構造出殘差向量ψ。該方案的優勢在于具有不可偽造性，且對多種水印去除攻擊的魯棒性較好。

2.2 基于內部結構的方法

基于內部結構的方法利用模型的結構承載水印。Fan 等[33-34] 針對部分白盒水印存在的無法抵御偽造攻擊的不足，提出了一種基于“護照”驗證的方法，在原始網絡中插入特殊的“護照層”，使得在給出合法護照時網絡正常工作，而在給出偽造護照時網絡性能明顯降低，即模型性能依賴于護照的正確性。如圖3 所示，護照層位于卷積層之后，類似于歸一化層，先對卷積后的特征圖歸一化，再進行縮放和平移。不同之處在于，標準的歸一化層中用于縮放和平移的縮放因子γ和偏置項β是兩個可學習的參數，而護照層的γ和β護照計算得到：輸入到第個卷積層的護照與輸入到該層的特征圖尺寸相同，通過對護照卷積并進行平均池化后得到護照層的γ和β。因此，護照決定了網絡的推理性能，加大了攻擊者的偽造難度。

由于批量歸一化（batch normalization， BN）層中的歸一化操作需要計算訓練樣本的滑動平均和滑動方差，Fan 等[33-34] 的方法不適用于帶BN 結構的神經網絡。對此，Zhang 等[35] 提出了一種適用于大多數歸一化層的改進方案，將護照層作為一個額外的分支，其中歸一化操作用到的統計量單獨計算，不影響原始的歸一化層。模型正常推理時不需要護照層，只有當需要進行所有權驗證時才將秘密護照和護照層插入模型。

Zhao 等[36] 提出了一種基于網絡通道剪枝的結構化水印方法，將水印序列劃分為若干比特段，每個比特段量化為剪枝率，再根據剪枝率對模型的卷積層進行通道剪枝。Xie 等[37] 則是在權重的級別進行剪枝，在連接靈敏度較低的模型權重中嵌入水印。

2.3 其他方法

本小節總結除了基于內部權重的方法、基于內部結構的方法以外的其他白盒水印方法。Rouhani 等[38] 提出的Deepsigns 將水印嵌入到網絡中間層的激活圖中，能夠較好地抵抗水印重寫攻擊。DeepSigns 首先任意地從一些目標類T中選擇一些訓練樣本xT，計算這些樣本在某一層的特征圖的均值μ，使用秘鑰參數矩陣K將水印b嵌入其中，使用的正則化項為

其中：第一項類似于式（2），表示σ（Kμ）和b之間的二元交叉熵損失；第二項中的fl表示神經網絡的第l層，μi是第i類樣本激活圖的均值。由于該方法的所有權驗證依賴于一組秘密樣本，類似于黑盒水印中用觸發樣本查詢模型API 的方式，只不過需要獲取的不是模型的預測類別而是中間層的激活圖，樊雪峰等[13] 將其稱為灰盒水印。

Lim 等[39] 將利用激活承載水印的思想拓展到了基于循環網絡的圖像描述模型，該方案利用符號損失將簽名嵌入在循環神經網絡輸出的隱藏層狀態的符號中，使得攻擊者無法使用通道重排列去除水印。大多數水印工作都無法從理論上保證對于水印去除攻擊的魯棒性。對此，Lv 等[40] 提出的HufuNet 通過精心設計一個水印嵌入損失以從理論上保證水印對微調的魯棒性。HufuNet 首先訓練一個用于數據重建的自編碼器，然后將編碼器參數作為水印嵌入到目標模型中，再交替訓練編碼器參數和目標模型，以同時確保原始任務和自編碼器的性能。訓練時所采用的損失能夠保證模型在經歷微調攻擊時，原始任務上的性能下降先于含自編碼器參數的子網絡的性能下降。水印驗證時，將編碼器參數從目標模型取出與解碼器配對，通過組合出的自編碼器的性能驗證所有權。

Li 等[41-42] 推導出了一種針對神經網絡的線性同性能攻擊方式，具體表現為同層神經元順序的重排布，以及神經元輸出的線性放大。這種攻擊不改變模型性能，但改變了神經網絡中參數的分布、排列，使得幾乎所有的白盒水印方法都無法正確提取出所有權信息。為此，Li 等[42] 提出了NeuronMap 框架，它工作在所有權驗證協議層次中，不更改現有白盒水印算法的版權信息生成、嵌入、驗證等步驟，僅在注冊版權信息時要求注冊額外的一組NeuronMap 觸發樣本和中間層響應模式，并在進行實際驗證前利用NeuronMap 觸發樣本進行中間層校準，將神經網絡恢復到遭受攻擊之前的狀態，從而使得白盒水印算法正常運作。

3 黑盒水印

當攻擊者將盜版模型部署到云服務端或嵌入時設備中時，模型的合法所有者無法訪問盜版模型內部，也就無法通過白盒水印驗證所有權。黑盒水印僅需要查詢模型的預測接口就可以提取水印，更加適用于真實的應用場景。

3.1 圖像分類模型的黑盒水印

圖像分類模型是深度學習領域里最基礎的模型之一，現有的大多數黑盒水印研究關注于此，且其思想也能夠很容易地拓展到其他模型中。本文將圖像分類模型的黑盒水印劃分為借助對抗樣本構造觸發集、僅更改標簽構造觸發集、更改圖像和標簽構造觸發集和其他方法4 類。其中，基于觸發集的水印嵌入一般可以用以下損失微調模型實現：

L（W） = LCE（X，Y;W）+λLCE（Xt，Yt;W）（5）

式中，等號右側第一項和第二項分別為訓練集和觸發集上的交叉熵損失。

3.1.1 借助對抗樣本構造觸發集

對抗樣本攻擊[8] 是指在樣本上添加不可察覺的細微擾動使得機器學習模型將其錯誤進行分類。Le Merrer 等[43] 借助對抗樣本，提出了首個以黑盒方式驗證深度學習模型所有權的方法。具體而言，運用對抗攻擊方法向部分樣本添加擾動，將能夠讓模型錯誤分類的樣本稱為真對抗樣本，而添加擾動后分類結果沒有改變的樣本稱為假對抗樣本，再微調模型使得模型對兩種對抗樣本的分類結果都跟原始的分類結果一致，微調后可以認為模型嵌入了零比特水印。在驗證階段，用這些對抗樣本作為觸發集輸入到可疑模型中，無水印的模型很可能錯誤分類對抗樣本，而含有水印的模型則會對其作出正確預測。

Blackmarks 方法[44] 是首個多比特的黑盒水印方法，其思想與Le Merrer 等[43] 類似。先對原始預訓練模型的logits 輸出運用k-means 聚類，從而將所有類標簽劃分為兩組，分別表示比特0 和比特1，從某一組中隨機選擇一些圖像運用有目標對抗攻擊，使得模型將其預測為另一組中的類，得到的對抗樣本作為觸發集。為了嵌入水印，用一個額外的損失微調模型以最小化在觸發集上預測的組對應比特和待嵌入比特之間的誤碼率。

3.1.2 僅更改標簽構造觸發集

模型后門攻擊[45] 是指攻擊者在訓練集中摻入一些帶特殊觸發標記的樣本并錯誤地標注其類別，在推理階段，模型會對攜帶觸發標記的樣本作出錯誤判斷。盡管后門攻擊給模型安全帶來了威脅，但其背后的思想卻啟發了黑盒水印算法的設計，許多黑盒水印中的觸發集都可以看作是一種良性的后門。

最簡單的一種觸發集構造方式是收集一組自然圖像，僅對標簽進行改動。Adi 等[46] 提出了首個基于后門的黑盒水印方法，采用來自互聯網的抽象圖像作為后門觸發集，并為每張圖像隨機選擇一個目標標簽。圖4（a）是觸發集中的一個樣例，其標簽被設定為“飛機”。該方案需要在驗證過程中引入可信第三方以保證嚴格的安全性。

Zhang 等[47] 則提出可以使用與原任務無關的數據作為觸發樣本（也叫秘鑰樣本）。以圖4（b）為例，原任務為CIFAR10 數據集的分類，使用MNIST 數據集中的手寫數字“1”作為觸發樣本。與Adi 等[46] 不同的是，這里的觸發樣本都來自同一類，標簽也是統一指定的。

Namba 等[48] 首先提出了一種針對現有黑盒水印的查詢修改攻擊，用一個自編碼器判斷一個查詢是否是觸發樣本，如果是的話對其用自編碼器進行重構后再輸入到模型，以使水印驗證失效。為了抵抗這種攻擊，Namba 等[48] 從訓練集中隨機選擇一部分圖像，并更改標簽作為觸發集，如圖4（c）所示。由于觸發樣本與訓練分布相同，且不含有特殊標記，所以不易被攻擊者檢測到。為了嵌入水印，設計了一種指數加權方法，識別出對預測有顯著貢獻的權重參數并對其指數增加，提高了水印的魯棒性。

3.1.3 更改圖像和標簽構造觸發集

對圖像作一定的處理后再更改標簽作為觸發集是黑盒水印最普遍的一種設計范式。Zhang 等[47]提出在某一個類中的部分訓練圖像上添加一定的信息，再將其標簽改為另一類作為觸發集。添加信息的方式有兩種：一種是疊加一個有意義的圖像作為觸發標記，疊加的圖像可以是表示版權信息的Logo 圖像；另一種是添加高斯噪聲作為觸發模式。Guo 等[49] 也采用了添加信息的方式構造觸發集，將所有者的比特簽名嵌入圖像中隨機選擇的個像素，再從該圖像所屬的類別以外剩下的類中隨機選一個作為目標標簽。Deepsigns 方法[38] 先生成一些隨機圖像輸入預訓練模型，將激活分布位于離訓練數據較遠區域的隨機圖像保留下來，并分配隨機的標簽作為觸發集。為了降低水印的虛警率，Guo 等[50] 設計了一種進化算法對觸發模式進行優化。

如圖5（a）～（e）所示，之前黑盒水印算法中的觸發集分布與正常分布存在差異，攻擊者可能會采用規避攻擊[48，51]，建立檢測器躲避所有權驗證。為此，Li 等[52] 訓練一個生成對抗網絡構造觸發樣本，其中生成器將所有者指定的Logo 圖像隱藏進訓練圖像，判別器判斷樣本中是否藏有秘密的Logo，提高了觸發樣本與正常樣本的不可區分性。圖5（f）是該算法生成的一個觸發樣本示例。Li 等[53] 則在圖像頻域中嵌入水印以構造觸發集，該方法也具有一定的隱蔽性。

大多數基于觸發集的水印不具備對模型提取攻擊[54] 的魯棒性，在這種攻擊中，攻擊者首先收集或合成一個數據集，用其中的樣本依次查詢受害者模型，將預測結果作為標簽，訓練一個功能與受害者模型相似的替代模型。含水印的模型具有執行原始任務和水印任務的能力，但是攻擊者只會用來自任務分布的數據查詢模型，所以得到的替代模型中不會包含水印。Jia 等[55] 首先分析出這種現象背后的原因在于原始任務和水印任務由不同的神經元學習得到，于是提出了一種糾纏水印嵌入算法，使用軟最近鄰損失（ soft nearestneighbor loss， SNNL）將觸發樣本與正常樣本在特征空間糾纏到一起，確保兩種數據由相同的神經元激活，因此，可以抵抗模型提取攻擊。SNNL 的定義如下：

式中：X為需要被糾纏的數據構成的集合，在這里由觸發樣本和目標類的干凈樣本在網絡中間層的激活構成；Y為它們的類別標簽；T為溫度參數。

該損失表示糾纏度，訓練期間需要對其最大化。觸發樣本的生成方式是首先對目標類中的樣本添加觸發模式，添加的位置位于SNNL 損失梯度最大的區域，再添加對抗擾動以增大交叉熵損失和SNNL 損失。Tan 等[56] 提出了一種基于影子模型的觸發集嵌入方法（ symmetric shadowmodel based watermarking，SSW），使用一個正影子模型模擬攻擊者通過模型提取攻擊得到的替代模型，再用另一個負影子模型模擬不含水印的干凈模型。在嵌入水印的同時，主動優化觸發集中的樣本，使得它們更容易被原始模型和正影子模型預測為目標標簽，而負影子模型中的預測結果與目標標簽不一致。這種主動優化觸發樣本的方法使得水印更容易遷移到替代模型中，并且對包含跨模型結構在內的多種模型提取攻擊都有較好的魯棒性。

Li 等[57] 提出了一種基于嵌入外部特征的所有權驗證方案MOVE（ model ownership verification，MOVE），也能有效抵抗模型提取攻擊。MOVE 利用風格遷移嵌入外部特征，讓模型在原始圖像和一部分經過風格遷移后的變換圖像上學習。然后，將模型在干凈圖像和變換圖像上的預測距離向量作為輸入，訓練一個區分無水印模型和含水印模型的元分類器。發現可疑模型時，根據元分類器的結果基于假設檢驗進行所有權驗證。該方案還包括了一個白盒驗證方法，區別在于使用變換圖像的損失將模型參數的梯度符號作為元分類器的輸入，然而這種方法無法在替代模型結構與原始模型結構不同時使用。

在水印去除攻擊上，如何為基于觸發集的水印魯棒性提供理論性保證一直是一個難題。因此，Bansal 等[58] 借鑒隨機平滑中的理論，提出了一種可驗證的黑盒模型水印方案。該方案使用干凈樣本和觸發樣本交替訓練模型，當用觸發樣本更新模型時，采樣多個高斯噪聲添加到模型參數上，得到多個帶噪聲的模型，對這些模型在觸發集上的損失梯度求平均來更新目標模型的參數。該方案從理論上保證了模型參數在一定l2范數約束下發生改變，水印不會被去除。

3.1.4 其他方法

本節介紹幾種不基于觸發集嵌入的其他黑盒水印方法。針對模型提取攻擊，Szyller 等[59] 設計了一個可添加到目標分類器之后的DAWN 模塊。其原理是對于來自任意某個用戶的查詢，都動態地返回一部分錯誤的輸出結果，這一部分查詢和對應的錯誤結果作為該用戶的水印。該方案假定了攻擊者對模型預測結果沒有任何先驗，即無法區分返回結果是正確還是錯誤的，所以會把模型所有返回結果作為標簽訓練替代模型，水印便可直接遷移到替代模型中。水印與用戶身份是關聯的，當模型所有者發現某個用戶發布了一個可疑模型時，用特定于該用戶的觸發集驗證其中是否包含水印。

Charette 等[60] 考慮了一種更加復雜的模型提取攻擊方式，采用集成蒸餾，用多個教師模型輸出的平均值來訓練一個學生模型，這種攻擊會使基于比較觸發樣本硬標簽的水印失效。為抵抗集成蒸餾，進一步提出了CosWM（ cosine modelwatermarking）算法，將具有不同預設頻率的余弦信號嵌入多個目標教師模型對訓練樣本某一特定類的軟預測中。在對不同頻率的信號相加或相乘后，每個信號的頻率依然可以從合成信號的頻譜中提取出來，因此難以通過對教師模型的輸出取平均以抹除水印。

Li 等[61] 提出了一種不依賴于特定觸發樣本的多比特黑盒水印方法，將模型的Softmax 輸出經過冪函數變換成更平滑的分布，用密鑰對其投影后在結果中承載水印。驗證階段，水印可以從任意輸入在網絡中的輸出中提取。

3.2 其他模型的黑盒水印

本小節介紹針對圖像分類模型以外的模型而設計的黑盒水印方法。盡管目標模型結構和要執行的任務是多樣的，許多算法的思想也都遵從將一組觸發樣本輸入模型，根據預測行為判斷水印的存在。

Quan 等[62] 提出了首個用于圖像處理網絡的黑盒水印算法，對模型微調使得其能夠將觸發圖像映射為驗證圖像，以隨機圖像作為觸發圖像，驗證圖像是用一個與目標模型功能類似的函數對觸發圖像處理后的結果，并在水印嵌入過程中更新驗證圖像。該方法還開發了一個輔助模塊將驗證圖像轉化為有視覺意義的版權圖像，提高驗證的置信度。

Ong 等[63] 提出了一個針對生成對抗網絡（generative neural network，GAN）的知識產權保護框架，也支持白盒和黑盒兩種驗證方式。其中，白盒水印的原理是將簽名嵌入歸一化層的縮放因子符號中，具有較好的魯棒性和不可偽造性。黑盒水印的構造方式如圖6 所示，在原始輸入中添加一個噪聲塊，并強制生成器對這樣的輸入產生一個帶有Logo 圖像的輸出，驗證時，檢測觸發樣本對應的輸出中是否包含Logo 圖像。

EWE 方法[55] 設計了兩種針對語音分類模型的觸發樣本構造方式：一種是用正弦信號重寫音頻樣本的一部分；另一種是在梅爾頻譜的邊緣添加兩個小方塊。針對自動語音識別模型，Chen 等[64]將模型所有者的語音片段傳播到整個輸入音頻上合成觸發音頻，并用文本隱寫術將所有者信息隱藏到目標標簽中。Zhang 等[65] 為聲紋識別模型設計了一種基于后門的水印方案，將密鑰信息嵌入到聲紋的梅爾頻譜圖中，生成難以檢測和去除的觸發樣本。

Yadollahi 等[66] 為文本處理的模型設計了一種黑盒水印框架，其觸發集生成過程如下：首先從訓練集中選擇一些文檔樣本，計算所有文檔中每個單詞的TF-IDF 分數，對每個選擇的文檔，再從其他類中隨機選擇一個文檔交換它們的單詞以生成水印記錄。選擇兩個文檔中TF-IDF 分數最低的單詞進行交換，最后將兩個文檔的標簽交換，插入觸發集。

為了保護圖神經網絡的產權，Zhao 等[67] 隨機生成了一個具有隨機節點特征向量和標簽的Erdos-Renyi 隨機圖作為觸發集，將其與正常樣本一起訓練，有效地將水印嵌入在圖節點的預測中。Lim 等[39]針對圖像描述模型設計了一種觸發集，觸發樣本構造方式為在正常樣本上添加一個小方塊，其標簽修改為一條固定的表示所有權信息的文本。

4 無盒水印

無盒水印是指在水印提取時，不需要訪問深度學習模型內部，也不需要查詢模型預測API 的一類水印方法。無盒水印通常針對以圖像或文本為輸出的模型而設計，使得模型輸出的圖像或文本中包含所有者的水印。當模型被復制后，盜版模型的輸出依然包含水印，因此，可以通過收集可疑模型的輸出數據并試圖從中提取水印以判斷其是否為盜版。

4.1 圖像生成模型的無盒水印

Wu 等[68] 提出了一個以圖像為輸出的模型的水印框架。如圖7 所示，該框架額外地包含一個水印提取網絡和一個可選的判別器網絡，與目標網絡一同訓練。訓練目標為：目標網絡能夠正常執行其原始任務，輸出的圖像中含有不可感知的水印；水印提取網絡能夠在給定含水印圖像和正確秘鑰時提取出預設的水印圖像，而在給定無水印圖像或錯誤密鑰時輸出全空白的圖像；判別器試圖區分含水印圖像和無水印圖像，以進一步提升水印的隱蔽性。訓練結束后只發布目標網絡，水印提取網絡和密鑰則保密，只在驗證水印時使用。

Zhang 等[69-70] 考慮了模型提取攻擊對水印的影響，設計了一種抗提取攻擊的圖像處理模型水印算法。算法包括初始訓練和對抗訓練兩個階段。在初始訓練階段，訓練一個嵌入子網絡將Logo 圖像隱藏進目標模型輸出圖像中，訓練一個提取子網絡從水印圖像中提取出Logo，并確保從無水印圖像中無法提取水印。在對抗訓練階段，使用目標模型的輸入輸出對作為監督來訓練一個替代模型，以模擬攻擊者的替代模型，再用替代模型的輸出微調提取子網絡，使得替代模型輸出的圖像中依然能夠提取水印。對抗訓練的引入提高了水印對替代攻擊的魯棒性。

為了實現GAN 生成的虛假人臉圖像的溯源，Yu 等[71] 預先訓練一個編碼器和解碼器對，分別用來向人臉圖像中嵌入比特序列和提取比特序列。然后用編碼器為訓練集中的所有人臉圖像都嵌入指紋，用含指紋的圖像訓練目標GAN 模型，并通過實驗表明了訓練圖像中的指紋可以遷移到GAN 生成的圖像中，用預訓練的解碼器可以檢測指紋。Fei 等[72] 對該算法進行了改進，在訓練GAN 的階段顯式地引入一個圖像處理層和解碼器，使得圖像經過處理后指紋也能被提取，提高了指紋對于圖像處理操作的魯棒性。Zhao 等[73] 將類似的思想運用到了無條件的以及帶類別條件的擴散模型中，使得水印可以從擴散模型輸出的圖像中被檢測到。在生成模型的訓練數據中嵌入水印的局限性在于，每更換一次指紋代碼都需要重新訓練生成模型。為此，Yu 等[74] 提出了一種用指紋調制生成器參數的方案，僅訓練一次生成模型就可以得到海量的嵌有不同指紋的生成器。

4.2 文本生成模型的無盒水印

Abdelnabi 等[75] 提出了首個端到端的文本水印框架AWT，如圖8 所示。AWT 包含一個隱藏網絡和一個揭示網絡，隱藏網絡將二進制消息嵌入輸入文本中得到含水印文本，揭示網絡從含水印文本中提取出二進制消息。隱藏網絡與揭示網絡在訓練時與一個判別器對抗訓練，以確保含水印文本的統計特性不變，并在訓練后進一步微調以確保語義不變性和語法正確性。文本生成模型的服務提供者可以用這種技術向模型的輸出中添加水印，用隱藏網絡在不同用戶的輸出文本中嵌入不同的水印序列，當生成文本被用來創作虛假文章或不實信息時，可以用揭示網絡從中提取水印，追溯文本來源。

He 等[76] 探索了在模型可能受到提取攻擊的場景下使用水印對文本生成API 進行保護，在目標文本生成模型后添加一個水印模塊，用于對輸出文本添加水印，并將含水印的文本返回給用戶。然而，He 等[77] 發現，這種水印方法可能會改變詞匯分布，攻擊者可以通過統計候選水印詞匯的頻率變化來推斷帶水印的單詞。為了解決這個缺點，He 等開發了一種更隱蔽的水印方法來保護文本生成API，設計了一種優化方法來確定水印規則，該規則可以最大限度地減少整體單詞分布的失真，同時最大限度地增加條件單詞選擇的變化。該方法從理論上證明了攻擊者無法基于統計檢查從大量潛在單詞對中發現用到的水印，且在替代模型結構不匹配和跨域攻擊的情況下依然有效。

最近，大語言模型（以下簡稱大模型）由于其出色的文本生成能力受到了前所未有的關注，其生成的高質量文本已經達到甚至超過了人類的寫作水平。隨著大模型的普及，生成文本被濫用的風險也隨之增加，通過在大模型生成的文本中嵌入水印逐漸成為對大模型生成文本進行檢測和監管的重要途徑。在大模型輸出文本中嵌入水印主要有后處理式和整合式兩種方式：后處理式指的是在模型生成文本后再添加水印；整合式指的是在生成文本的過程中嵌入水印。后處理式[78-79] 往往是借助掩碼語言模型（如BERT 模型、RoBERTa模型）對個別 token 進行同義詞替換，優點是不依賴于大模型，可以作為附加組件插入到任何大模型的輸出后。不足之處在于僅僅是對個別token 進行替換，無法像整合式的方法那樣影響后續整個序列的生成，從而導致帶水印文本的自由度和前后文一致性嚴重受到限制。

整合式水印中最具有代表性的方法由Kirchenbauer 等[80] 提出，其通過改變大模型輸出時的采樣過程來使得文本承載水印。具體而言，當大模型生成當前token 時，它首先基于先前token的哈希值創建一個隨機種子，并以該隨機種子為條件將整個詞匯表拆分為兩部分（即綠色列表和紅色列表），然后，將綠色列表中token 的logits 添加一個小的正值，使綠色列表中的token更有可能被采樣。在水印檢測階段，使用相同的哈希函數來確定文本中紅色列表和綠名列表的token 數量，從而確定文本是否包含水印信息。后續，Kirchenbauer等[81] 對隨機種子的生成方式和檢測方法作了改進，驗證了水印在人工重寫、機器改寫、水印文本混合到手寫文檔中后的魯棒性。Zhao 等[82] 對之前的方法作了簡化，使用固定的綠色和紅色列表，結果表明其對于文本修改的魯棒性有了較大的提升。Christ 等[83] 提出了一種基于密碼學的不可檢測的語言模型水印方法，水印無法被用戶察覺，只有使用密鑰才能檢測到水印的存在性。Wang等[84] 提出了可編碼水印的概念，在文本生成的過程中，通過重新定義每一步的目標函數，能夠使得輸出文本中嵌入多比特信息。

5 水印攻擊方法

神經網絡水印技術在不斷發展的同時，針對神經網絡水印的攻擊算法也應運而生。當獲取一個含水印的模型后，攻擊者的目標是以一定的手段使水印驗證失效，且攻擊行為不影響模型的性能，攻擊的計算代價盡可能低。本節總結了現有的水印攻擊方法，并將其分為模型修改、輸入檢測及修改、模型提取和偽造攻擊4 大類。

5.1 模型修改

模型修改攻擊是指攻擊者通過修改含水印模型的參數或結構以達到抹除其中的水印的目的。本小節將模型修改攻擊進一步分為模型微調、模型壓縮和功能等效攻擊3 類。

5.1.1 模型微調

模型微調允許攻擊者使用少量樣本微調模型，試圖保持模型性能的同時去除水印，是最常見的一種攻擊方式。Adi 等[46] 提出的4 種模型微調方式基本囊括了所有的微調形式，被許多模型水印文獻采用，作為評估水印魯棒性的基本攻擊基準。這4 種攻擊方式包括： a. FTLL（ fine-tunelast layer），微調時僅更新最后一層的參數； b.FTAL（fine-tune all layers），微調時更新所有層的參數；c. RTLL（re-train last layers），重新初始化最后一層后，更新最后一層的參數；d. RTAL（re-trainall layers），重新初始化最后一層后，更新所有層的參數。需要注意的是，RTLL 和RTAL 會對基于觸發集的水印產生較大的影響，這是因為分類器的最后一層對于識別水印觸發模式具有重要的作用，Adi 等[46] 提出的RTLL 和RTAL 微調后的模型，在提取水印時先用原始模型的最后一層替換微調后的最后一層。

水印重寫攻擊本質上也是通過微調來實現的，與普通微調的區別僅在于攻擊者掌握了水印算法，試圖在微調過程中嵌入新的水印以覆蓋原有水印。

攻擊者也可能對盜取的模型采用遷移學習，并通過新的數據集對模型進行微調，構建一個用于新任務的模型。遷移學習通常會使所有者無法在黑盒場景下驗證所有權，例如在圖像分類模型中，遷移學習改變了模型輸出類別，這導致無法在給定觸發樣本時響應預設的觸發預測。

5.1.2 模型壓縮

模型壓縮是一種用來減小模型大小和計算復雜度的技術，便于模型在資源受限的場景下實現高效的推理和部署。攻擊者可能會使用模型壓縮技術破壞模型中的水印。現有的模型水印文獻中常用權重剪枝、權重量化來評估水印的魯棒性。權重剪枝的經典方法是將模型中絕對值較小的部分參數置0，這是因為絕對值較小的參數對模型性能影響較小。權重量化是指將模型參數表示為低精度的格式，如8 位或更低位的整數，從而減小存儲需求。目前的水印算法都顯示出對模型壓縮良好的魯棒性。

5.1.3 功能等效攻擊

功能等效攻擊是最近被研究人員提出來的一種針對白盒水印的攻擊，通過適當調整模型參數或結構，可以在模型性能無損的條件下實現水印消除。這種攻擊簡單高效，不需要訪問數據集，不需要再對模型進行訓練，也不需要知道關于水印算法的任何知識。Lv 等[40] 探索了3 種類型的功能等效攻擊。

Yan 等[85] 提出了一種神經元結構混淆攻擊，通過向模型中插入一組不影響正常推理行為的偽造神經元，阻礙水印信息的正確提取。具體來說，設計了兩種偽造神經元的構造方式：NeuronClique方法通過插入一組輸入參數相同、輸出參數之和為0 的神經元，來抵消它們對該層輸出結果的影響；NeuronSplit 方法則對某個神經元進行拆分，將其替換為功能不變的一組神經元，并保持偽造神經元的參數分布不變。

5.2 輸入檢測及修改

輸入檢測及修改是僅針對基于觸發集的水印的一類攻擊。由于觸發樣本通常與正常樣本有著不同分布，攻擊者可以利用這一特性檢測出觸發樣本，即規避攻擊。Hitaj 等[51] 提出了兩種規避攻擊方式：一種是用多個模型的集成投票結果決定查詢是否包含水印；另一種是在含水印模型的特征提取器之后訓練一個二分類器以檢測觸發樣本。Namba 等[48] 發現帶一定模式的觸發樣本經過自編碼器重構之后的重構誤差比正常樣本的重構誤差大，提出了使用自編碼器來檢測含水印的查詢方法。

輸入修改試圖破壞觸發樣本中的觸發模式，使模型返回與其目標標簽不一致的結果。以模型的輸入是圖像為例，常見的輸入修改操作包括用自編碼器重構圖像、添加噪聲、輸入量化、圖像平滑、翻轉、JPEG 壓縮等[86]。然而，大多數水印方法都顯示出對這些基本圖像處理操作的魯棒性。Wang 等[87] 提出了一種基于添加自然感知擾動的輸入修改攻擊，首先估計既能破壞水印模式，又不影響模型正常功能的目標光照條件，然后再添加陰影進行進一步渲染。該攻擊能夠成功地泛化到多種水印策略，且較好地保持了模型精度。

5.3 模型提取

模型提取攻擊是指通過模擬受害者模型的輸入輸出映射得到一個新的功能近似的模型。模型提取攻擊需要攻擊者有一定的計算資源和數據量，攻擊代價更加高昂，但能夠有效去除多種類型的模型水印。文獻[86] 中指出了包括重新訓練、跨結構重新訓練、蒸餾等多種模型提取方式。

5.4 偽造攻擊

偽造攻擊也叫歧義攻擊，是指攻擊者在不改變模型的前提下偽造出一個新的水印以造成所有權驗證的歧義。Fan 等[34] 對偽造攻擊提供了細致的描述，并提出了一種基于護照的白盒水印方法，聲稱所提方法可抵抗偽造攻擊。然而，一項最近的研究[88] 表明，通過在護照參數前面插入一個精心設計的附件塊，可以成功偽造出新的護照，在偽造護照下模型的性能與合法護照近似。

6 性能分析與比較

根據對現有文獻的調研，經典的白盒水印算法都聲稱滿足保真度要求、對權重剪枝具備魯棒性、滿足完整性和可靠性要求、具備一定的通用性。因此，本文不考慮這些指標，選擇如表2 所示的指標對經典白盒水印算法進行比較。盡管大多數白盒水印算法都能夠從實驗上驗證對微調的魯棒性，Lv 等[40] 的方法是唯一能夠從理論上保證對微調具備魯棒性的工作。此外，由表2 可知，白盒水印面臨的主要威脅為功能等效攻擊和模型提取攻擊。對于功能等效攻擊，Lv 等[40] 和Li 等[42]均提出了解決方案。對于模型提取攻擊，Li 等[57]的方法僅在替代模型和原始模型結構相同時有效，而這一設定通常是不實際的。盡管基于護照的方法[34] 聲稱具有不可偽造性，但最新的工作[88]對其成功實施了偽造攻擊。還需要注意的是，文獻[40，57] 中的方案是為數不多的白盒設定中的零比特水印。

經典的黑盒水印算法也都聲稱滿足保真度要求、對權重剪枝具備魯棒性、滿足完整性和可靠性要求。文獻[86] 經過大量的實驗驗證，發現輸入修改攻擊雖然能夠降低黑盒水印的準確率，但通常無法將水印完全抹除。本文對經典黑盒水印算法的比較如表3 所示，并指出了每個算法適用的受保護模型類型。注意表中的微調指的是基本的微調攻擊，幾乎所有算法在一定程度上都能夠抵抗這種微調。上文介紹了多個更加先進的微調攻擊的變種，其中不乏能夠去除黑盒水印的方法。表中的抗規避攻擊的能力是通過觸發模式的不可感知性來衡量的，因此，使用可見的觸發模式或使用OOD 數據作為觸發集都被考慮為具有較差的抗規避能力。由表3 還可以知道，模型提取攻擊也對黑盒水印帶來了巨大的挑戰，大多數黑盒水印算法都沒有考慮對模型提取的魯棒性。此外，只有少數黑盒水印算法能夠抵抗偽造攻擊。

無盒水印體現為使得模型的輸出圖像或文本中含有不可見的水印，但由于不同算法的具體實現方式不盡相同，在論文中采用的評估標準和協議也有所差異，很難對它們的性能進行公平比較。本文只從優勢和不足兩方面對經典算法作了分析，結果如表4 所示。在圖像生成方面，幾種無盒水印方法都有較好的保真度，含水印的圖像質量較好，但只有Zhang 等[71] 的方法能夠在模型提取攻擊下有效。在文本生成方面，除了表中羅列的優缺點以外，還需要注意這幾種方法都是在文本生成模型API 之后插入一個水印嵌入模塊，這適用于文本溯源或防御提取攻擊。但如果攻擊者復制目標模型本身而不在竊取的模型后添置該模塊，所有者將無法檢測IP 侵權。

7 未來展望

未來可能的研究方向可以從如下幾個方面加以考慮：

a. 提高模型水印的魯棒性。開發魯棒性更好的模型水印算法依然是未來研究的重點方向。在現實場景中，相比于模型本身的復制，模型提取攻擊是針對商用黑盒模型的更常見的攻擊方式，而大多數水印方案對于模型提取攻擊的魯棒性不佳。水印作為一種事后驗證IP 侵權的方式，未來可以考慮與模型提取攻擊的主動防御技術結合，設計出能夠更好地遷移到替代模型中的水印。此外，水印算法也需要考慮組合攻擊、自適應攻擊等更強的攻擊策略。

b. 大模型的知識產權保護。最近，大模型的研究取得了突飛猛進的效果，以ChatGPT 為代表的商用大模型產品已經成功地走入了大眾的生活。未來，大模型很可能會成為AI 的基礎設施，必然也需要進行產權保護。目前，對于大模型水印的研究正處于起步階段，現有研究主要關注為大模型輸出的文本添加水印，這是大模型水印與現有白盒水印和黑盒水印的主要區別。然而，大模型水印依然面臨著許多挑戰。含水印文本可能被用戶有意或無意地修改，將水印文本片段插入到人類撰寫的文本中、部分文本的刪除或替換、機器或人工轉述都可能會對水印造成破壞。如何平衡水印魯棒性、生成文本的質量和流暢度與水印容量，需要多長的文本才能可靠檢測出水印等是學術界需要攻克的難題。

c. 數據集的知識產權保護。數據是深度學習的重要驅動力，訓練一個高性能的深度學習模型必須事先收集大量的高質量數據，并花費巨大的人力和財力標注數據，因此，私有訓練數據同樣是一種需要保護的知識產權。數據集的所有權驗證旨在判斷一個模型是否在一個受保護數據集上訓練過。目前，只有少數工作對數據集的所有權驗證作出了初步探索，研究的模型對象僅局限于圖像分類模型。未來還需要進一步拓展數據集保護的方法，異質的以及多模態的數據集保護也是一個有潛力的研究方向。

8 結束語

神經網絡水印是近年來興起的一種保護深度學習模型知識產權的重要技術。與傳統的多媒體數字水印類似，神經網絡水印同樣有著版權保護和追蹤溯源等作用，能夠在模型盜版行為發生之后提供一種有效的驗證手段。經過一段時間的發展，神經網絡水印的研究已經取得了一定的成果。

本文系統總結了神經網絡水印的研究現狀，將現有的模型水印方法分為白盒水印、黑盒水印、無盒水印3 類進行全面的綜述，并介紹了針對神經網絡水印的攻擊方法。通過對近年來經典水印方法的歸納和對比，本文揭示了目前水印方法的優勢和缺陷，并明確了各類水印算法適用的場景。最后，歸納了當前研究的不足和存在的挑戰，并指出可能的研究方向和思路，為未來研究提供參考，期望能夠推動該領域的發展。

參考文獻：

[1] LECUN Y， BENGIO Y， HINTON G. Deep learning[J].Nature， 2015， 521（7553）： 436?444.

[2]HONSINGER C. Digital watermarking[J]. Journal ofElectronic Imaging， 2002， 11（3）： 414.

[3]BEGUM M， UDDIN M S. Digital image watermarkingtechniques： a review[J]. Information， 2020， 11（2）： 110.

[4]YU X Y， WANG C Y， ZHOU X. A survey on robust videowatermarking algorithms for copyright protection[J].Applied Sciences， 2018， 8（10）： 1891.

[5]HUA G， HUANG J W， SHI Y Q， et al. Twenty years ofdigital audio watermarking —a comprehensive review[J].Signal Processing， 2016， 128： 222?242.

[6]UCHIDA Y， NAGAI Y， SAKAZAWA S， et al. Embeddingwatermarks into deep neural networks[C]//Proceedings ofthe 2017 ACM on International Conference on MultimediaRetrieval. Bucharest： ACM， 2017： 269–277.

[7]CAO X Y， JIA J Y， GONG N Z. IPGuard： Protectingintellectual property of deep neural networks viafingerprinting the classification boundary[C]//Proceedingsof the 2021 ACM Asia Conference on Computer andCommunications Security. Hong Kong： ACM， 2021：14–25.

[8]GOODFELLOW I J， SHLENS J， SZEGEDY C. Explainingand harnessing adversarial examples[C]//Proceedings of the3rd International Conference on Learning Representations.San Diego： ICLR， 2015.

[9]XIONG C， FENG G R， LI X R， et al. Neural networkmodel protection with piracy identification and tamperinglocalization capability[C]//Proceedings of the 30th ACMInternational Conference on Multimedia. Lisboa： ACM，2022： 2881–2889.

[10]BOENISCH F. A systematic review on modelwatermarking for neural networks[J]. Frontiers in Big Data，2021， 4： 729663.

[11]REGAZZONI F， PALMIERI P， SMAILBEGOVIC F， et al.Protecting artificial intelligence IPs： a survey ofwatermarking and fingerprinting for machine learning[J].CAAI Transactions on Intelligence Technology， 2021，6（2）： 180?191.

[12]XUE M F， ZHANG Y S， WANG J， et al. Intellectualproperty protection for deep learning models： Taxonomy，methods， attacks， and evaluations[J]. IEEE Transactions onArtificial Intelligence， 2022， 3（6）： 908?923.

[13]樊雪峰，周曉誼，朱冰冰，等. 深度神經網絡模型版權保護方案綜述[J]. 計算機研究與發展， 2022， 59（5）：953?977.

[14]王馨雅，華光，江昊，等. 深度學習模型的版權保護研究綜述[J]. 網絡與信息安全學報， 2022， 8（2）： 1?14.

[15]LEDERER I， MAYER R， RAUBER A. Identifyingappropriate intellectual property protection mechanisms for machine learning models： a systematization ofwatermarking， fingerprinting， model access， andattacks[J/OL]. IEEE Transactions on Neural Networks andLearning Systems， 2023. https：//ieeexplore.ieee.org/abstract/document/10143370

[16]吳漢舟，張杰，李越，等. 人工智能模型水印研究進展[J].中國圖象圖形學報， 2023， 28（6）： 1792?1810.

[17]HE Z C， ZHANG T W， LEE R. Sensitive-samplefingerprinting of deep neural networks[C]//Proceedings ofthe 2019 IEEE/CVF Conference on Computer Vision andPattern Recognition. Long Beach： IEEE， 2019： 4724–4732.

[18]ARAMOON O， CHEN P Y， QU G. AID： attesting theintegrity of deep neural networks[C]//2021 58thACM/IEEE Design Automation Conference （DAC）. SanFrancisco： IEEE， 2021： 19–24.

[19]ZHU R J， WEI P， LI S， et al. Fragile neural networkwatermarking with trigger image set[C]//Proceedings of the14th Knowledge Science， Engineering and Management.Tokyo： Springer， 2021： 280–293.

[20]YIN Z X， YIN H， ZHANG X P. Neural network fragilewatermarking with no model performancedegradation[C]//2022 IEEE International Conference onImage Processing （ICIP）. Bordeaux： IEEE， 2022：3958–3962.

[21]BOTTA M， CAVAGNINO D， ESPOSITO R. NeuNAC： anovel fragile watermarking algorithm for integrityprotection of neural networks[J]. Information Sciences，2021， 576： 228?241.

[22]ZHAO G J， QIN C， YAO H， et al. DNN self-embeddingwatermarking： towards tampering detection and parameterrecovery for deep neural network[J]. Pattern RecognitionLetters， 2022， 164： 16?22.

[23]GUAN X Q， FENG H M， ZHANG W M， et al. Reversiblewatermarking in deep convolutional neural networks forintegrity authentication[C]//Proceedings of the 28th ACMInternational Conference on Multimedia. Seattle： ACM，2020： 2273–2280.

[24]CHEN H L， ROUHANI B D， FU C， et al. DeepMarks： asecure fingerprinting framework for digital rightsmanagement of deep learning models[C]//Proceedings ofthe 2019 on International Conference on MultimediaRetrieval. Ottawa： ACM， 2019： 105–113.

[25]YU Y S， LU H W， CHEN X S， et al. Group-oriented anticollusionfingerprint based on BIBD code[C]//2010 2ndInternational Conference on E-business and InformationSystem Security. Wuhan： IEEE， 2010： 1–5.

[26]WANG T H， KERSCHBAUM F. Attacks on digitalwatermarks for deep neural networks[C]//ICASSP2019–2019 IEEE International Conference on Acoustics，Speech and Signal Processing （ICASSP）. Brighton： IEEE，2019： 2622–2626.

[27]FENG L， ZHANG X P. Watermarking neural network withcompensation mechanism[C]//Proceedings of the 13thKnowledge Science， Engineering and Management.Hangzhou： Springer， 2020： 363–375.

[28]WANG J F， WU H Z， ZHANG X P， et al. Watermarking indeep neural networks via error back-propagation[J].Electronic Imaging， 2020， 2020（4）： 022-1–022-9.

[29]WANG T H， KERSCHBAUM F. RIGA： Covert and robustwhite-box watermarking of deep neuralnetworks[C]//Proceedings of the Web Conference 2021.Ljubljana： ACM， 2021： 993–1004.

[30]KURIBAYASHI M， TANAKA T， SUZUKI S， et al.White-box watermarking scheme for fully-connected layersin fine-tuning model[C]//Proceedings of the 2021 ACMWorkshop on Information Hiding and Multimedia Security.New York： ACM， 2021： 165–170.

[31]CHEN H L， ROUHANI B D， KOUSHANFAR F.SpecMark： a spectral watermarking framework for IPprotection of speech recognition systems[C]//INTERSPEECH2020， 21st Annual Conference of theInternational Speech Communication Association.Shanghai： ISCA， 2020： 2312–2316.

[32]LIU H W， WENG Z Y， ZHU Y S. Watermarking deepneural networks with greedy residuals[C]//Proceedings ofthe 38th International Conference on Machine Learning.Vienna： ICML， 2021： 6978–6988.

[33]FAN L X， NG K W， CHAN C S. Rethinking deep neuralnetwork ownership verification： embedding passports todefeat ambiguity attacks[C]//Proceedings of the 33rdInternational Conference on Neural Information ProcessingSystems. Vancouver： Curran Associates Inc. ， 2019： 424.

[34]FAN L X， NG K W， CHAN C S， et al. DeepIPR： deepneural network ownership verification with passports[J].IEEE Transactions on Pattern Analysis and MachineIntelligence， 2022， 44（10）： 6122?6139.

[35]ZHANG J， CHEN D D， LIAO J， et al. Passport-awarenormalization for deep model protection[C]//Proceedingsof the 34th International Conference on Neural InformationProcessing Systems. Vancouver： Curran Associates Inc. ，2020： 1896.

[36]ZHAO X Y， YAO Y Z， WU H Z， et al. Structuralwatermarking to deep neural networks via network channelpruning[C]//2021 IEEE International Workshop onInformation Forensics and Security （WIFS）. Montpellier：IEEE， 2021： 1–6.

[37]XIE C Q， YI P， ZHANG B W， et al. DeepMark： embeddingwatermarks into deep neural network using pruning[C]//2021 IEEE 33rd International Conference onTools with Artificial Intelligence （ICTAI）. Washington：IEEE， 2021： 169–175.

[38]ROUHANI B D， CHEN H L， KOUSHANFAR F.DeepSigns： an end-to-end watermarking framework forownership protection of deep neural networks[C]//Proceedings of the Twenty-Fourth International Conferenceon Architectural Support for Programming Languages andOperating Systems. Providence： ACM， 2019： 485–497.

[39]LIM J H， CHAN C S， NG K W， et al. Protect， show， attendand tell： empowering image captioning models withownership protection[J]. Pattern Recognition， 2022， 122：108285.

[40]LV P Z， LI P， ZHANG S Z， et al. A robustness-assuredwhite-box watermark in neural networks[J]. IEEETransactions on Dependable and Secure Computing， 2023，20（6）： 5214?5229.

[41]LI F Q， WANG S L， ZHU Y. Fostering the robustness ofwhite-box deep neural network watermarks by neuronalignment[C]//ICASSP 2022 —2022 IEEE InternationalConference on Acoustics， Speech and Signal Processing（ICASSP）. Singapore： IEEE， 2022： 3049–3053.

[42]LI F Q， WANG S L， LIEW A W C. Linear functionalityequivalence attack against deep neural network watermarksand a defense method by neuron mapping[J]. IEEETransactions on Information Forensics and Security， 2023，18： 1963?1977.

[43]LE MERRER E， PéREZ P， TRéDAN G. Adversarialfrontier stitching for remote neural networkwatermarking[J]. Neural Computing and Applications，2020， 32（13）： 9233?9244.

[44]CHEN H， ROUHANI B D， KOUSHANFAR F.Blackmarks： Blackbox multibit watermarking for deepneural networks[EB/OL]. （2019-03-31） https：//arxiv.longhoe.net/abs/1904.00344

[45]GU T Y， LIU K， DOLAN-GAVITT B， et al. Badnets：Evaluating backdooring attacks on deep neural networks[J].IEEE Access， 2019， 7： 47230?47244.

[46]ADI Y， BAUM C， CISSE M， et al. Turning your weaknessinto a strength： watermarking deep neural networks bybackdooring[C]//Proceedings of the 27th USENIXConference on Security Symposium. Baltimore： USENIXAssociation， 2018： 1615–1631.

[47]ZHANG J L， GU Z S， JANG J， et al. Protecting intellectualproperty of deep neural networks withwatermarking[C]//Proceedings of the 2018 on AsiaConference on Computer and Communications Security.Incheon： ACM， 2018： 159–172.

[48]NAMBA R， SAKUMA J. Robust watermarking of neural network with exponential weighting[C]//Proceedings of the2019 ACM Asia Conference on Computer andCommunications Security. Auckland： ACM， 2019：228–240.

[49]GUO J， POTKONJAK M. Watermarking deep neuralnetworks for embedded systems[C]//2018 IEEE/ACMInternational Conference on Computer-Aided Design（ICCAD）. San Diego： IEEE， 2018： 1–8.

[50]GUO J， POTKONJAK M. Evolutionary trigger setgeneration for DNN black-box watermarking[EB/OL].（2019-06-11）. https：//arxiv.longhoe.net/abs/1906.04411

[51]HITAJ D， MANCINI L V. Have you stolen my model？evasion attacks against deep neural network watermarkingtechniques[EB/OL]. （2018-09-03）. https：//arxiv.longhoe.net/abs/1809.00615

[52]LI Z， HU C Y， ZHANG Y， et al. How to prove your modelbelongs to you： a blind-watermark based framework toprotect intellectual property of DNN[C]//Proceedings of the35th Annual Computer Security Applications Conference.San Juan： ACM， 2019： 126–137.

[53]LI M， ZHONG Q， ZHANG L Y， et al. Protecting theintellectual property of deep neural networks withwatermarking： the frequency domain approach[C]//2020IEEE 19th International Conference on Trust， Security andPrivacy in Computing and Communications （TrustCom）.Guangzhou： IEEE， 2020： 402–409.

[54]TRAMèR F， ZHANG F， JUELS A， et al. Stealing machinelearning models via prediction APIs[C]//Proceedings of the25th USENIX Conference on Security Symposium. Austin：USENIX Association， 2016： 601–618.

[55]JIA H R， CHOQUETTE-CHOO C A， CHANDRASEKARANV， et al. Entangled watermarks as a defenseagainst model extraction[C]//Proceedings of the 30thUSENIX Security Symposium. Vancouver， 2021：1937–1954.

[56]TAN J X， ZHONG N， QIAN Z X， et al. Deep neuralnetwork watermarking against model extractionattack[C]//Proceedings of the 31st ACM InternationalConference on Multimedia. Ottawa： ACM， 2023：1588–1597.

[57]LI Y M， ZHU L H， JIA X J， et al. MOVE： effective andharmless ownership verification via embedded externalfeatures[EB/OL]. （2022-08-04）. https：//arxiv.longhoe.net/abs/2208.02820

[58]BANSAL A， CHIANG P Y， CURRY M J， et al. Certifiedneural network watermarks with randomizedsmoothing[C]//Proceedings of the 39th InternationalConference on Machine Learning. Baltimore： PMLR，2022： 1450–1465.

[59]SZYLLER S， ATLI B G， MARCHAL S， et al. DAWN：Dynamic adversarial watermarking of neuralnetworks[C]//Proceedings of the 29th ACM InternationalConference on Multimedia. Chengdu： ACM， 2021：4417–4425.

[60]CHARETTE L， CHU L Y， CHEN Y Z， et al. Cosine modelwatermarking against ensemble distillation[C]//Proceedingsof the 36th AAAI Conference on Artificial Intelligence.Vancouver： AAAI， 2022： 9512–9520.

[61]LI L， ZHANG W M， BARNI M. Universal BlackMarks：key-image-free blackbox multi-bit watermarking of deepneural networks[J]. IEEE Signal Processing Letters， 2023，30： 36?40.

[62]QUAN Y H， TENG H， CHEN Y X， et al. Watermarkingdeep neural networks in image processing[J]. IEEETransactions on Neural Networks and Learning Systems，2021， 32（5）： 1852?1865.

[63]ONG D S， CHAN C S， NG K W， et al. Protectingintellectual property of generative adversarial networksfrom ambiguity attacks[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.Nashville： IEEE， 2021： 3629–3638.

[64]CHEN H Z， ZHANG W M， LIU K L， et al. Speech patternbased black-box model watermarking for automatic speechrecognition[C]//ICASSP 2022–2022 IEEE InternationalConference on Acoustics， Speech and Signal Processing（ICASSP）. Singapore： IEEE， 2022： 3059–3063.

[65]ZHANG J， DAI L， XU L R， et al. Black-box watermarkingand blockchain for IP protection of voiceprint recognitionmodel[J]. Electronics， 2023， 12（17）： 3697.

[66]YADOLLAHI M M， SHOELEH F， DADKHAH S， et al.Robust black-box watermarking for deep neural networkusing inverse document frequency[C]//2021 IEEE Intl Confon Dependable， Autonomic and Secure Computing， IntlConf on Pervasive Intelligence and Computing， Intl Confon Cloud and Big Data Computing， Intl Conf on CyberScience and Technology Congress （DASC/PiCom/CBDCom/CyberSciTech）. AB： IEEE， 2021： 574–581.

[67]ZHAO X Y， WU H Z， ZHANG X P. Watermarking graphneural networks by random graphs[C]//2021 9thInternational Symposium on Digital Forensics and Security（ISDFS）. Elazig： IEEE， 2021： 1–6.

[68]WU H Z， LIU G， YAO Y W， et al. Watermarking neuralnetworks with watermarked images[J]. IEEE Transactionson Circuits and Systems for Video Technology， 2021，31（7）： 2591?2601.

[69]ZHANG J， CHEN D D， LIAO J， et al. Model watermarkingfor image processing networks[C]//Proceedings of the 34thAAAI conference on artificial intelligence. New York：AAAI， 2020： 12805–12812.

[70]ZHANG J， CHEN D D， LIAO J， et al. Deep modelintellectual property protection via deep watermarking[J].IEEE Transactions on Pattern Analysis and MachineIntelligence， 2022， 44（8）： 4005?4020.

[71]YU N， SKRIPNIUK V， ABDELNABI S， et al. Artificialfingerprinting for generative models： rooting deepfakeattribution in training data[C]//Proceedings of the 2021IEEE/CVF International Conference on Computer Vision.Montreal： IEEE， 2021： 14428–14437.

[72]FEI J W， XIA Z H， TONDI B， et al. Supervised GANwatermarking for intellectual property protection[C]//2022IEEE International Workshop on Information Forensicsand Security （WIFS）. Shanghai： IEEE， 2022： 1–6.

[73]ZHAO Y Q， PANG T Y， DU C， et al. A recipe forwatermarking diffusion models[EB/OL]. （ 2023-03-17） .https：//arxiv.longhoe.net/abs/2303.10137

[74]YU N， SKRIPNIUK V， CHEN D F， et al. Responsibledisclosure of generative models using scalablefingerprinting[C]//The Tenth International Conference onLearning Representations（Virtual）. ICLR， 2022.

[75]ABDELNABI S， FRITZ M. Adversarial watermarkingtransformer： Towards tracing text provenance with datahiding[C]//2021 IEEE Symposium on Security and Privacy（SP）. San Francisco： IEEE， 2021： 121–140.

[76]HE X L， XU Q K， LYU L J， et al. Protecting intellectualproperty of language generation APIs with lexicalwatermark[C]//Proceedings of the 36th AAAI Conferenceon Artificial Intelligence. Vancouver： AAAI， 2022：10758–10766.

[77]HE X L， XU Q K， ZENGT Y， et al. CATER： Intellectualproperty protection on text generation APIs via conditionalwatermarks[C]//Proceedings of the 36th InternationalConference on Neural Information Processing Systems.New Orleans： Curran Associates Inc. ， 2022： 392.

[78]YOO K Y， AHN W， JANG J， et al. Robust multi-bitnatural language watermarking through invariantfeatures[C]//Proceedings of the 61st Annual Meeting of theAssociation for Computational Linguistics （ Volume 1：Long Papers）. Toronto： ACL， 2023： 2092–2115.

[79]YANG X， CHEN K J， ZHANG W M， et al. Watermarking text generated by black-box language models[EB/OL].（2023-05-14）. https：//arxiv.longhoe.net/abs/2305.08883

[80]KIRCHENBAUER J， GEIPING J， WEN Y X， et al. Awatermark for large language models[C]//Proceedings ofthe 40th International Conference on Machine Learning.Honolulu： ICML， 2023： 17061–17084.

[81]KIRCHENBAUER J， GEIPING J， WEN Y X， et al. On thereliability of watermarks for large languagemodels[EB/OL]. （2023-06-07）. https：//arxiv.longhoe.net/abs/2306.04634

[82]ZHAO X D， ANANTH P， LI L， et al. Provable robustwatermarking for AI-generated text[EB/OL]. （2023-06-30）.https：//arxiv.longhoe.net/abs/2306.17439

[83]CHRIST M， GUNN S， ZAMIR O. Undetectablewatermarks for language models[EB/OL]. （2023-05-25）.https：//arxiv.longhoe.net/abs/2306.09194

[84]WANG L A， YANG W K， CHEN D L， et al. Towardscodable watermarking for injecting multi-bits informationto LLMs[EB/OL]. （2023-07-29）. https：//arxiv.longhoe.net/abs/2307.15992

[85]YAN Y F， PAN X D， ZHANG M， et al. Rethinking whiteboxwatermarks on deep learning models under neuralstructural obfuscation[C]//32nd USENIX SecuritySymposium. Anaheim： USENIX Association， 2023：2347–2364.

[86]LUKAS N， JIANG E， LI X D， et al. SoK： How robust isimage classification deep neural networkwatermarking？[C]//2022 IEEE Symposium on Security andPrivacy （SP）. San Francisco： IEEE， 2022： 787–804.

[87]WANG R， LI H X， MU L Z， et al. Rethinking thevulnerability of DNN watermarking： are watermarks robustagainst naturalness-aware perturbations？[C]//Proceedingsof the 30th ACM International Conference on Multimedia.Lisboa： ACM， 2022： 1808–1818.

[88]CHEN Y M， TIAN J Y， CHEN X Y， et al. Effectiveambiguity attack against passport-based DNN intellectualproperty protection schemes through fully connected layersubstitution[C]//Proceedings of the 2023 IEEE/CVFConference on Computer Vision and Pattern Recognition.Vancouver： IEEE， 2023： 8123–8132.

（編輯：丁紅藝）

基金項目：國家自然科學基金資助項目（U20B2051， 62072114， U20A20178， U22B2047）；國家重點研發計劃資助項目（2023YFF0905000）