屈詳顏,于 靜,熊 剛,蓋珂珂
(1.中國科學(xué)院信息工程研究所,北京 100085;2.中國科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100049;3.北京理工大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100081)
在當前生成式人工智能技術(shù)的迅猛發(fā)展推動下,深度學(xué)習(xí)模型的版權(quán)保護問題日益受到關(guān)注。深度學(xué)習(xí)模型,尤其是大規(guī)模和高性能的模型,因其昂貴的訓(xùn)練成本,容易遭受未授權(quán)的復(fù)制或再現(xiàn),導(dǎo)致版權(quán)侵犯和模型所有者的經(jīng)濟損失[1-2]。
傳統(tǒng)的版權(quán)保護方法大多依賴于水印技術(shù)[3-4],通過在模型中嵌入特定的水印來確認所有權(quán)。盡管這類方法可以提供確切的所有權(quán)驗證,但它們對原有模型具有侵入性,可能會影響模型性能或引入新的安全風險;并且這些方法對適應(yīng)性攻擊和新興的模型提取攻擊的魯棒性不足[5-6]。非侵入性的版權(quán)保護方法[7]通過量化比較兩個深度學(xué)習(xí)模型之間的相似性來判斷是否存在版權(quán)侵犯[8-9]。然而,非侵入性版權(quán)保護方法的測試樣本生成過程為確定性算法,效率低下且易被攻擊;其用于相似性判斷的指標大多僅適用于白盒模型。
本文提出了一種基于黑盒測試框架的高效且健壯的版權(quán)保護新方法。通過采用隨機性算法優(yōu)化樣本生成策略,本研究顯著提升了測試的效率,同時降低了對抗攻擊的風險。此外,引入了一系列新的測試指標和算法,增強了黑盒防御的能力,確保評判指標間的正交性,從而提高版權(quán)判斷的準確性和可靠性。值得注意的是,本研究是一種通用的深度學(xué)習(xí)模型版權(quán)保護算法,可以直接遷移到現(xiàn)有的生成式模型中。
傳統(tǒng)的深度學(xué)習(xí)模型版權(quán)保護技術(shù)主要基于水印(watermarking),通過在模型中嵌入特定水印來聲明所有權(quán)[1,3-4,10]。這些方法能夠精確驗證所有權(quán),但它們侵入性強,需要改變訓(xùn)練過程,可能影響模型的實用性或引入新的安全風險;容易受到適應(yīng)性攻擊的影響,這些攻擊試圖移除或替換水印,或故意阻止水印的檢索;并且對新興的模型提取攻擊的魯棒性不強[1,4,10-11]。
近期研究轉(zhuǎn)向非侵入式方法,如模型指紋(fingerprinting)技術(shù),通過提取模型的獨特特征來驗證所有權(quán)。IPGuard[5]利用接近分類邊界的數(shù)據(jù)點來指紋化所有者模型的邊界屬性。如果一個疑似模型對大多數(shù)邊界數(shù)據(jù)點的預(yù)測與所有者模型相同,則判定為盜用的副本。Conferrable Ensemble Method (CEM)[12]指紋技術(shù)是一種可轉(zhuǎn)移的混合方法,通過制作可轉(zhuǎn)移的對抗性示例來指紋化兩個模型決策邊界或?qū)棺涌臻g的重疊部分。雖然上述指紋技術(shù)是非侵入性的,但在對抗多樣化和不斷增長的攻擊場景時顯得不足[7]。
隨后,DEEPJUDGE[7]針對模型微調(diào)、剪枝和提取等典型的版權(quán)侵犯場景進行了廣泛實驗,對模型提取攻擊和適應(yīng)性攻擊相當魯棒。該方法通過定量比較不同模型間的相似性來檢測潛在的版權(quán)侵犯,通過多維度的測試指標和測試用例生成方法[8-9],以支持非入侵式的版權(quán)驗證。然而,非入侵式方法采用確定性的樣本生成算法,容易被攻擊者識破,導(dǎo)致保護效果下降;且種子選取算法作用到整個數(shù)據(jù)集,測試用例生成時間較長。此外,選取的評判指標大多針對白盒場景,且各指標相關(guān)性較強,多個指標之間的區(qū)分度不足,在各指標強相關(guān)的基礎(chǔ)上,容易出現(xiàn)集體誤判的情況。
本研究針對上述問題,通過改進樣本采樣方法和測試指標,顯著提升了在黑盒防御環(huán)境下的檢測效率并降低了對抗攻擊的風險。
版權(quán)威脅模型(Copyright Threat Model)考慮了典型的攻擊-防御情景,包括兩方:受害者和對手。模型所有者(即受害者)使用私有資源訓(xùn)練了一個模型(即受害者模型)。對手嘗試盜取受害者模型的副本,該副本模型模仿其功能,同時不能被輕易識別為副本模型。基于這種設(shè)定,三種常見的對深度學(xué)習(xí)模型版權(quán)的威脅包括模型微調(diào)、模型剪枝、模型提取。圖1所示為三種版權(quán)威脅模型的示意圖。

圖1 常見的三種版權(quán)威脅模型
(1)模型微調(diào)
假設(shè)對手擁有受害者模型的全部知識,包括模型架構(gòu)和參數(shù),并且擁有一小部分數(shù)據(jù)集用于微調(diào)模型。這種情況可能發(fā)生在受害者出于學(xué)術(shù)目的公開了模型,但對手嘗試微調(diào)模型以構(gòu)建商業(yè)產(chǎn)品。
(2)模型剪枝
假設(shè)對手了解受害者模型的架構(gòu)和參數(shù)。模型剪枝的對手首先使用一些剪枝方法剪枝受害者模型,然后使用一小部分數(shù)據(jù)微調(diào)模型。
(3)模型提取
假設(shè)對手只能查詢受害者模型以獲取預(yù)測(即概率向量)。對手可能知道受害者模型的架構(gòu),但不知道訓(xùn)練數(shù)據(jù)或模型參數(shù)。模型提取的目標是通過預(yù)測API準確地竊取受害者模型的功能。對手首先通過查詢受害者模型獲取一組輔助樣本,然后在標注過的數(shù)據(jù)集上訓(xùn)練受害者模型的副本。輔助樣本可以從公開數(shù)據(jù)集中選擇,或者使用某些適應(yīng)性策略合成。
黑盒測試框架如圖2所示,其核心是量化兩個深度學(xué)習(xí)模型之間的相似性。兩個深度學(xué)習(xí)模型分別是受害者模型(victim model)和嫌疑模型(suspect model)。共需經(jīng)過測試用例生成、樣例測試和指標評判三個階段。

圖2 黑盒測試框架
(1)測試用例生成
從數(shù)據(jù)集D中選擇一組種子(Seed selection),這些種子樣本選自受害者模型的訓(xùn)練或測試集,旨在反映模型獨有的特征。選擇一組高置信度的種子樣本,因為這些樣本被受害者模型很好地學(xué)習(xí),所以能夠承載更多關(guān)于受害者模型的獨特特征。
(2)樣例測試
將生成的測試用例同時輸入受害者模型和可疑模型,計算多層次距離指標所定義的距離分數(shù),這些指標作為判斷模型是否被盜用的證據(jù)。
(3)指標評判
最終的評判機制包括設(shè)定閾值和投票兩個步驟。閾值設(shè)定步驟根據(jù)一組負面嫌疑模型的統(tǒng)計數(shù)據(jù)為每個測試指標確定適當?shù)拈撝怠M镀辈襟E則是檢查嫌疑模型針對每個測試指標的表現(xiàn),并在其與受害者模型的距離低于該指標的閾值時給予正面評價(即模型未侵權(quán))。
先前非侵入式模型版權(quán)保護算法的樣本生成算法是確定的,這使得攻擊者更容易發(fā)現(xiàn)并破壞保護機制,從而削弱了其防護效能;同時,其種子選擇算法需要遍歷整個數(shù)據(jù)集,至少要抽取1 000個樣本作為種子,要保證抽樣的效果,則需要的集合更加龐大,導(dǎo)致生成測試用例的過程耗時較多。本研究采用隨機抽樣的方法,并且減少了樣本需求,只需要數(shù)十個樣本。選擇測試樣本的隨機性也為基于該測試方案的對抗攻擊造成困難。
通過重復(fù)引入隨機擾動的方法,測試出樣本點到?jīng)Q策邊界的距離度量,選取邊界點作為測試數(shù)據(jù)。對于一個樣本點,通過均勻分布或高斯分布,可以給其引入一個隨機的噪聲。隨著噪聲的能量逐漸增大,其分類結(jié)果可能產(chǎn)生改變。而引起改變的最小噪聲的能量,可以認為是該樣本點到?jīng)Q策邊界最小的距離。隨機采樣算法具體如下:
輸入:隨機產(chǎn)生的種子集合,受害者模型以及嫌疑模型。
輸出:一組測試數(shù)據(jù),包含種子集合中的樣本沿不同噪聲方向的決策邊界探索的距離度量。
(1)從種子樣本集合中選擇一個初始樣本。
(2)根據(jù)選定樣本的維度,生成一個隨機噪聲向量。
(3)將隨機噪聲疊加到初始樣本上,創(chuàng)建一個干擾樣本。然后將這個干擾樣本分別輸入到受害者模型和嫌疑模型中,并獲取它們的輸出向量。計算兩個輸出向量的Jensen-Shannon(JS)散度,并將結(jié)果記錄下來。
(4)比較受害者模型和嫌疑模型的分類結(jié)果。如果與原始樣本的分類結(jié)果不同,則記錄下分類改變時的模型歸屬和噪聲大小。這將用于衡量模型在該噪聲方向的決策邊界探索距離。
(5)重復(fù)步驟(3)和(4),直到達到預(yù)設(shè)的循環(huán)次數(shù)上限,或者兩個模型都產(chǎn)生了與原始樣本不同的分類結(jié)果。
(6)多次重復(fù)步驟(2)~(5),在不同噪聲方向上獲得兩個模型對同一樣本的決策邊界探索距離度量。
(7)持續(xù)進行上述測試步驟,直到種子樣本集合中的每一個樣本都被測試過。
本文保留了DEEPJUDGE算法的黑盒評判指標,同時,添加了多個正交化的黑盒評價指標,如表1所示,提高黑盒場景下模型版權(quán)判斷的準確性和可靠性。

表1 模型的評價指標
3.3.1 K-S統(tǒng)計
K-S統(tǒng)計(Kolmogorov-Smirnov Statistic,KSS)是用于檢驗兩個分布是否相同的非參數(shù)檢驗統(tǒng)計量。當受害者模型和嫌疑模型預(yù)測分布間的相似程度超過某一閾值,則投票為侵權(quán)模型,具體公式如下所示:
(1)

3.3.2 皮爾遜相關(guān)系數(shù)
皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PSR)用來評估兩個變量線性相關(guān)程度。當受害者模型和嫌疑模型存在線性相關(guān)即投票為侵權(quán)模型。具體公式如下:
(2)

3.3.3 均方根相對誤差
均方根相對誤差(Root Relative Mean Squared Error,RRMSE)用來評價模型預(yù)測值與實際值之間的相對誤差,當RRMSE值小于給定閾值則投票為侵權(quán)模型。具體公式如下:
(3)

3.3.4 余弦相似度
余弦相似度(Cosine Similarity,COS)用來評價兩個向量在方向上的相似度。當兩者夾角小于一定閾值,則投票為侵權(quán)模型,具體公式如下所示:
(4)

3.3.5 詹森-香農(nóng)散度
詹森-香農(nóng)散度(Jensen-Shannon Divergence,JSD)是測量兩個概率分布相似性的指標,是KL散度(Kullback-Leibler Divergence)的對稱版本。當受害者模型和可疑模型的JSD低于一定閾值,則投票為侵權(quán)模型。具體公式如下:
(5)
(6)
其中,P和Q代表受害者模型和嫌疑模型的預(yù)測概率分布,M代表P和Q的平均分布。
采用投票機制判定可疑模型是否侵權(quán)。以單邊t檢驗在顯著性水平等于0.05和0.2的拒絕域作為贊成票的臨界值和懷疑票的臨界值。顯著性水平超過0.05有95%以上的可能性認為侵權(quán),記為1票;顯著性水平超過0.2有80%以上的可能性認為侵權(quán),記為0.5票。如果一個模型得到不小于2.5票,則認為其存在侵權(quán)。
本文提出的深度學(xué)習(xí)模型的版權(quán)保護方法是通用算法,可直接遷移到生成式人工智能模型中。本文選取了基于LeNet5模型的MNIST圖像識別、基于ResNet20的CIFAR10圖像識別和基于LSTM的音頻識別作為基準受害者模型。下面將介紹實驗中測試樣本的選取和侵權(quán)模型的訓(xùn)練方式。
4.1.1 測試樣本的選取
每次實驗均測試60個隨機樣本,從數(shù)據(jù)集中的測試集隨機選取。每個樣本測試10個隨機噪聲,隨機噪聲由標準正態(tài)分布生成。非侵權(quán)或侵權(quán)模型均重復(fù)實驗5次,以說明其數(shù)據(jù)的可靠性。
4.1.2 侵權(quán)模型的訓(xùn)練方式
原模型與非侵權(quán)模型:將整個訓(xùn)練集一分為二,前50%用于訓(xùn)練原始模型,而后50%則用于訓(xùn)練非侵權(quán)模型(NEG)。
模型微調(diào):分為微調(diào)最后一層(FT-LL)、微調(diào)所有層(FT-AL)和重新訓(xùn)練所有層(RT-AL)。
模型剪枝:修剪去除模型中r%的絕對值最小的分支,然后微調(diào)恢復(fù)精度。實驗中r取20和60。
模型提取:模型提取分為兩種策略,一種是從測試集中選取一組數(shù)據(jù)作為種子,輸入原模型得到一組數(shù)據(jù)作為侵權(quán)模型的訓(xùn)練數(shù)據(jù)(JBA方法);另一種則是利用與原數(shù)據(jù)集相似的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)(KOF方法)。
利用三個不同的數(shù)據(jù)集來評估所提出方法在模型版權(quán)保護方面的有效性。實驗結(jié)果如表2、表3和表4所示。結(jié)果表明,方法能夠有效地識別出大多數(shù)的侵權(quán)模型。在對照組(NEG組)中,方法未將任何模型錯誤地識別為侵權(quán),這進一步證明了方法的準確性和可靠性。

表2 MNIST數(shù)據(jù)集上各指標間的相關(guān)性

表3 音頻識別數(shù)據(jù)集上各指標間的相關(guān)性

表4 CIFAR10數(shù)據(jù)集上各指標間的相關(guān)性
表2顯示了在MNIST數(shù)據(jù)集上進行的實驗,各項指標間的相關(guān)性評估結(jié)果表明,絕大多數(shù)情況下,侵權(quán)模型(如FT-AL、FT-LL、RT-AL、pr-20、pr-60和KOF)的指標值均超出了設(shè)定的閾值,表明有很高的剽竊嫌疑。相比之下,NEG(負面控制組)的指標值普遍較低,沒有超出閾值,表明模型很可能是獨立開發(fā)的,而非剽竊。值得注意的是,在JBA設(shè)置下,其竊取模型的準確率僅為87%,顯著低于原始模型,這可能是本文方法失效的原因。
在音頻識別數(shù)據(jù)集的實驗中(表3),結(jié)果顯示了類似的模式。侵權(quán)模型在PSR和COS等指標上的值普遍超出閾值,且普遍得分大于2.5票;而NEG模型的值較低,表明了該模型是原創(chuàng)的。在JBA侵犯模型中未檢測成功,原因可能是其竊取模型的準確率顯著低于受害者模型導(dǎo)致的。
CIFAR10數(shù)據(jù)集的實驗結(jié)果(表4)也證實了上述發(fā)現(xiàn)。例如,pr-20模型在PSR指標上的值為0.87,遠高于0.2的閾值,暗示了高度的剽竊可能性。而NEG模型的值為0.73,雖然接近顯著性水平0.2的閾值,但仍沒有超過,表明其為原創(chuàng)模型。在JBA和KOF設(shè)置下本文方法未成功檢測,這可能是由于侵權(quán)模型準確率本身較低導(dǎo)致的。這表明本文方法在不同數(shù)據(jù)集上具有穩(wěn)定的判定能力,能夠有效識別出潛在的版權(quán)侵犯行為。
本文方法和DEEPJUDGE算法的模型版權(quán)識別平均運行時長如表5所示。可以看出,本文方法的運行時長相較于DEEPJUDGE有顯著降低,這得益于本文提出的基于隨機采樣的測試樣本選擇算法,將從整個數(shù)據(jù)集確定性采樣轉(zhuǎn)變?yōu)殡S機抽取采樣樣本的分類邊界點,極大地提高了模型版權(quán)識別效率。

表5 模型版權(quán)識別的高效性比較
本部分探討了測試指標的正交性。本文在三個數(shù)據(jù)集上對各測試指標之間的相關(guān)性進行了詳細分析,其結(jié)果如表6~表8所示。相關(guān)性分析顯示,除了皮爾遜相關(guān)系數(shù)(PSR)之外,其他測試指標與侵權(quán)可能性主要呈現(xiàn)負相關(guān)關(guān)系。在相關(guān)性熱力圖中,PSR與其他指標的相關(guān)性數(shù)值均為負。通過觀察相關(guān)系數(shù)的絕對值,可發(fā)現(xiàn)高相關(guān)性(大于0.9)的案例明顯減少,同時出現(xiàn)了多個低相關(guān)性(小于0.5)的實例,這進一步證明了指標間的相互獨立性。

表6 MNIST數(shù)據(jù)集上各指標間的相關(guān)性

表7 音頻識別數(shù)據(jù)集上各指標間的相關(guān)性

表8 CIFAR10數(shù)據(jù)集上各指標間的相關(guān)性
實驗數(shù)據(jù)進一步揭示了每個指標的獨特解釋能力,這意味著在版權(quán)判斷過程中每個指標都能發(fā)揮作用,而非冗余。與DEEPJUDGE模型相比,改進后的測試指標不僅保持了其有效性,而且在衡量模型間相似度時提供了更加細致的視角。
本文提出了一種基于黑盒測試框架的深度學(xué)習(xí)模型版權(quán)保護方法,通過引入基于隨機性算法的樣本生成策略,有效提高了測試效率,顯著降低了對抗攻擊的風險。此外,為增強黑盒防御能力,引入了新的測試指標和算法,確保每個指標具有足夠的正交性。實驗驗證表明,所提方法在版權(quán)判斷準確性和可靠性上有高效的表現(xiàn),有效降低了高相關(guān)性指標的數(shù)量。未來的研究將探索此方法擴展到更多類型的生成式人工智能模型中,并進一步優(yōu)化測試效率和準確性。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2023年12期