999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)映射的隱私保護(hù)聚類算法

2025-09-02 00:00:00何麗麗張成林曹明增張磊

關(guān)鍵詞:高維數(shù)據(jù);隱私保護(hù);聚類;隨機(jī)映射;K-means

中圖分類號(hào):TP309 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)08-035-2511-07

doi:10. 19734/j.issn.1001-3695.2024.10.0503

Privacy-preserving algorithm for clustering high-dimensional data based on random mapping

He Lili a,b, c,Zhang Chenglina,b,c,Cao Mingzenga,bc, Zhang Lei a.b,et (aScloffadEeoicogcalboaofuooutellgeeamp;fr cessing,c.JiusiKbotoftelittooamp;qeEeengecsiUJi longjiang 154007,China)

Abstract:Toaddress thechalengeof increasing privacycosts withrisingdata dimensions inclustering privacyprotectionalgorithms,this paper proposed arandom projection-based privacypreserving algorithm(RPPP).RPP selected relevant features usingthesymmetricaluncertaintymethodandgeneratedrandommatricesthroughindependentlyandidenticalldistributed Gaussiansequences.Tostrengthen distance-preservingproperties,itappied Gram-Schmidtorthogonalization toensuretheorthogonalityof therandom matrices.These matriceswere decomposed intomultipleindependentsub-matrices to map thereduced-dimensionalfeatures,andcreatedafeature-matchingdomainandanoise-perturbeddomain.To further enhanceprivacy protectin,thealgorithminjectedrandomnoiseintothenoise-perturbeddomain.ExperimentalresultsdemonstratethatRPPP efectivelydefendsagainstprivacyatacks.TestsconductedontheCancerandDiabetes datasetsshowthatRPPPoutperforms traditional algorithmsinbothprivacyprotectionandclustering eficiency.Specifically,RPPPimproves clustering efficncyby approximately 16.34% , 23.44% ,and 32.94% compared with UPA,GCCG,and AKA algorithms,respectively. Overall,RPPP significatlyehanesprivacyprotectionwhileboostingclustering eficiency,confirming itseffctivenessandpracticalaplicability.

Key Words:high-dimensional data;privacy protection;clustering;random projection;K-means

0 引言

近年來(lái),隨著大數(shù)據(jù)技術(shù)的迅速興起以及信息技術(shù)的飛速發(fā)展[1,諸如醫(yī)療機(jī)構(gòu)和教育機(jī)構(gòu)等組織每天都會(huì)生成大量數(shù)據(jù),這些數(shù)據(jù)涵蓋了廣泛的領(lǐng)域,通過(guò)數(shù)據(jù)挖掘技術(shù)的分析和處理,能夠?qū)⑵滢D(zhuǎn)換為具有實(shí)際應(yīng)用價(jià)值的信息。經(jīng)過(guò)轉(zhuǎn)換后,這些信息不僅能幫助組織優(yōu)化內(nèi)部流程,還為科學(xué)決策[3提供了有力支持,推動(dòng)各行業(yè)在信息驅(qū)動(dòng)下實(shí)現(xiàn)創(chuàng)新與發(fā)展。作為數(shù)據(jù)挖掘中的一種高效算法,聚類技術(shù)4已在多個(gè)領(lǐng)域得到廣泛應(yīng)用。然而,隨著聚類技術(shù)的日益成熟,用戶數(shù)據(jù)所面臨的隱私風(fēng)險(xiǎn)也日益凸顯。例如,在使用網(wǎng)易云音樂(lè)[5]等流媒體平臺(tái)時(shí),平臺(tái)通過(guò)算法對(duì)用戶的多項(xiàng)行為進(jìn)行深入分析,包括用戶的聽(tīng)歌記錄、點(diǎn)贊和收藏的歌曲、播放列表的創(chuàng)建以及用戶間的互動(dòng)行為,如評(píng)論、分享和關(guān)注等。平臺(tái)可以利用這些數(shù)據(jù)構(gòu)建用戶的音樂(lè)偏好模型,提供個(gè)性化推薦,提升用戶體驗(yàn)。此外,這些數(shù)據(jù)還可以用于優(yōu)化內(nèi)容推薦算法、分析用戶行為模式,甚至在某些情況下被用作商業(yè)目的,如定向廣告和市場(chǎng)分析。盡管這種算法分析提升了平臺(tái)服務(wù)的精準(zhǔn)性,但也可能引發(fā)用戶隱私數(shù)據(jù)被過(guò)度收集和使用的風(fēng)險(xiǎn),值得進(jìn)一步關(guān)注。

針對(duì)這一問(wèn)題,許多研究者提出了優(yōu)化的聚類隱私保護(hù)算法,通過(guò)匿名化[或加密[7]等技術(shù)實(shí)現(xiàn)隱私保護(hù)。然而,隨著數(shù)據(jù)維度的增加,這些方法面臨隱私保護(hù)開(kāi)銷顯著增加以及聚類效率下降的雙重挑戰(zhàn)。在此背景下,隨機(jī)映射憑借其理論優(yōu)勢(shì)和實(shí)際效果,成為隱私保護(hù)領(lǐng)域的關(guān)鍵技術(shù)之一。隨機(jī)映射的理論基礎(chǔ)源于Johnson-Lindenstrauss定理[8]。該定理指出,高維數(shù)據(jù)可以通過(guò)隨機(jī)矩陣映射到低維空間,并以高概率保持?jǐn)?shù)據(jù)點(diǎn)之間的距離特性[9]。這一特性確保了降維過(guò)程中數(shù)據(jù)的關(guān)鍵結(jié)構(gòu)信息得以保留,有效降低了計(jì)算復(fù)雜度,同時(shí)保障了聚類分析的準(zhǔn)確性[10]。此外,隨機(jī)映射憑借其高度隨機(jī)性和不可逆性,使得映射后的數(shù)據(jù)與原始數(shù)據(jù)之間不具有直接對(duì)應(yīng)關(guān)系。這種特性不僅能夠有效隱藏原始數(shù)據(jù)的敏感信息,還顯著增強(qiáng)了對(duì)隱私的保護(hù)能力,因而被視為解決高維數(shù)據(jù)隱私保護(hù)問(wèn)題的一種高效方法。然而,傳統(tǒng)的隨機(jī)映射算法在隱私保護(hù)聚類中仍存在一定局限性。例如,隨機(jī)矩陣正交性不足可能導(dǎo)致降維質(zhì)量下降,影響映射后數(shù)據(jù)的完整性;映射結(jié)果的靜態(tài)性可能帶來(lái)模板泄露風(fēng)險(xiǎn),降低隱私保護(hù)效果;此外,對(duì)噪聲注入的依賴性較強(qiáng),可能在某些情況下削弱映射數(shù)據(jù)的實(shí)用性。因此,對(duì)隨機(jī)映射的進(jìn)一步改進(jìn)在隱私保護(hù)聚類算法中具有重要意義。

本文提出了一種基于改進(jìn)隨機(jī)映射的隱私保護(hù)聚類算法。首先,針對(duì)數(shù)據(jù)維度高的問(wèn)題,該算法采用基于對(duì)稱不確定性的特征選擇策略,優(yōu)先篩選出與任務(wù)高度相關(guān)的重要特征。這一過(guò)程有效簡(jiǎn)化了數(shù)據(jù)維度,僅保留對(duì)聚類有顯著影響的關(guān)鍵特征,從而提升了聚類精度和數(shù)據(jù)的可用性。其次,為防止數(shù)據(jù)中屬性間的過(guò)度關(guān)聯(lián)性,算法利用正態(tài)分布函數(shù)刪除低頻數(shù)據(jù),減少噪聲和冗余信息,進(jìn)一步提高了數(shù)據(jù)質(zhì)量和隱私保護(hù)效果。最后,算法通過(guò)改進(jìn)的隨機(jī)映射技術(shù)對(duì)用戶數(shù)據(jù)進(jìn)行轉(zhuǎn)換,確保在聚類分析過(guò)程中能夠有效保護(hù)個(gè)人隱私。隨機(jī)映射減少了對(duì)原始數(shù)據(jù)的依賴,增強(qiáng)了隱私保護(hù)的強(qiáng)度。為驗(yàn)證算法的隱私保護(hù)能力和執(zhí)行效率,本文進(jìn)行了安全性分析,并在真實(shí)數(shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,本文算法在隱私保護(hù)和執(zhí)行效率方面優(yōu)于現(xiàn)有對(duì)比算法。

1相關(guān)工作

Gachanga等人針對(duì)高維數(shù)據(jù)可能面臨屬性集域的大小遠(yuǎn)遠(yuǎn)大于屬性集數(shù)量的問(wèn)題,提出了一種基于特征選擇的數(shù)據(jù)匿名化算法。該算法旨在通過(guò)信息增益和排序來(lái)選擇相關(guān)特征,并且刪除數(shù)據(jù)集中不相關(guān)的特征提高數(shù)據(jù)的可用性;該算法利用匿名集創(chuàng)建分類器,將特征選擇和特征切片相結(jié)合,有效降低了數(shù)據(jù)集中重要特征的數(shù)據(jù)失真量,從而提高匿名化數(shù)據(jù)集的價(jià)值。Majeed[1]則針對(duì)電子醫(yī)療技術(shù)中的隱私威脅設(shè)計(jì)了一種匿名化系統(tǒng)。與文獻(xiàn)[2]相比,該算法建立在入侵者擁有較高的背景知識(shí)上,因此可以更好地保護(hù)患者的個(gè)人隱私;在此基礎(chǔ)上,該算法還將數(shù)據(jù)傳輸?shù)揭粋€(gè)固定的區(qū)間,實(shí)現(xiàn)了數(shù)據(jù)的隱私保護(hù)和共享,并用平均值進(jìn)一步改變?cè)贾?,最后通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性。與上述算法不同,Bian等人[12]提出了快速搜索和發(fā)現(xiàn)密度峰值的差分隱私聚類算法。該算法通過(guò)添加隨機(jī)噪聲來(lái)扭曲數(shù)據(jù),以及針對(duì)密度峰值快速查找聚類算法在均勻數(shù)據(jù)分布上的性能較差,優(yōu)化了聚類過(guò)程,且對(duì)噪聲產(chǎn)生的有偏差的中心點(diǎn)進(jìn)行校正,以連接到正確的中心點(diǎn)。該算法減少了對(duì)中心數(shù)量的依賴和噪聲對(duì)聚類的干擾,提高了穩(wěn)定性,并且在密度計(jì)算中調(diào)用高斯核函數(shù),根據(jù)差分隱私機(jī)制添加拉普拉斯噪聲,可以很好地保護(hù)用戶的隱私。雖然該算法可以根據(jù)差分隱私機(jī)制添加拉普拉斯噪聲,且在不同形狀或密度分布不均勻的數(shù)據(jù)集上表現(xiàn)良好,遺憾的是其在聚類過(guò)程中點(diǎn)的密度可能暴露數(shù)據(jù)集的分布。

與上述算法不同,Piao等人[13]針對(duì)共享數(shù)據(jù)中存在隱私風(fēng)險(xiǎn),提出了一種基于聚類的匿名表數(shù)據(jù)共享隱私保護(hù)算法。為克服共享數(shù)據(jù)時(shí)泄露公民敏感信息,首先,該算法利用正態(tài)分布刪除低頻率數(shù)據(jù)來(lái)保證數(shù)據(jù)的質(zhì)量以及聚類的質(zhì)量;其次,利用K-medioids聚類算法,根據(jù)屬性之間的關(guān)聯(lián)度將數(shù)據(jù)表劃分為多個(gè)表。通過(guò)實(shí)驗(yàn)分析,將所提算法與現(xiàn)有隱身算法進(jìn)行了比較,結(jié)果表明所提算法在最小化信息丟失和保持?jǐn)?shù)據(jù)質(zhì)量方面發(fā)揮了有效的作用。有研究者認(rèn)為在特征選擇技術(shù)下使用單一聚類算法進(jìn)行聚類時(shí)存在安全性不足的問(wèn)題,Wang等人[4]提出一種匿名化方案進(jìn)行隱私保護(hù)。該算法針對(duì)高維數(shù)據(jù)隱私保護(hù)和分類進(jìn)行分析,指出難點(diǎn)在于如何從隱私模型的角度降低數(shù)據(jù)維度,同時(shí)保留盡可能多的信息用于分類。因此提出使用垂直分割的思想將原始數(shù)據(jù)垂直分割成不同的更小維度的分離子集,并且劃分指標(biāo)既考慮屬性之間的相關(guān)性,也考慮每個(gè)子集中屬性的比例,然后對(duì)每個(gè)子集分別采用基于局部編碼的概化方法。遺憾的是該算法只能找到局部近似最優(yōu)解,無(wú)法找到最優(yōu)解,效率較低。且因?yàn)閿?shù)據(jù)發(fā)布者無(wú)法準(zhǔn)確預(yù)測(cè)數(shù)據(jù)接收者需要哪些屬性以及如何分析這些屬性,這項(xiàng)技術(shù)可能無(wú)法直接應(yīng)用于數(shù)據(jù)發(fā)布場(chǎng)景。

盡管研究人員已針對(duì)高維聚類算法中存在的一些問(wèn)題進(jìn)行了深入研究和改進(jìn),但隨著數(shù)據(jù)維度的增加,隱私保護(hù)的成本也隨之上升,并且攻擊者可以將更多屬性與先驗(yàn)知識(shí)結(jié)合以便更容易地識(shí)別目標(biāo)受害者等問(wèn)題仍然存在,需進(jìn)一步進(jìn)行改進(jìn)。本文提出了一種基于隨機(jī)映射的隱私保護(hù)聚類算法。通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行降維處理,有效降低了數(shù)據(jù)的維度,從而使攻擊者更難從中提取敏感信息;在降維過(guò)程中,采用了對(duì)稱不確定性方法,以剔除不重要的特征數(shù)據(jù),進(jìn)一步提高了隱私保護(hù)的效率;最后,結(jié)合改進(jìn)的K-means聚類算法對(duì)降維后的數(shù)據(jù)進(jìn)行聚類,從而實(shí)現(xiàn)了在保持?jǐn)?shù)據(jù)隱私的同時(shí)提升聚類效果的目標(biāo)。

2 預(yù)備知識(shí)

2.1 隨機(jī)映射

隨機(jī)映射是一種將特征從 n 維空間 Rn 向 m 維空間 Rm 通過(guò)隨機(jī)矩陣進(jìn)行線性映射的過(guò)程( n?m )。其主要思想來(lái)源于Johnson-Lindenstrauss定理,即對(duì)于一個(gè)正整數(shù) N ,任意的 m(m? m0-2logN) ,存在 Rn 空間的矢量 u1,u2,…,un 到 Rm 空間的矢量 ν1,ν2,…,νn 的映射 f:Rn?Rm ,對(duì)于所有的 u,ν 和 i,j 都有

此公式說(shuō)明了從 Rn 空間到 Rm 維空間映射時(shí),兩點(diǎn)之間的距離以極高的概率 (1±ε) 接近于原始數(shù)據(jù),從而實(shí)現(xiàn)了距離保持特性,證明可以通過(guò)隨機(jī)正交矩陣實(shí)現(xiàn)這樣的映射,實(shí)現(xiàn)過(guò)程如下:生成 m×n 維的隨機(jī)矩陣,進(jìn)行Gram-Schmidt正交化后得到矩陣 R ,對(duì)原始特征利用式(2)進(jìn)行隨機(jī)映射,得到變換特征。

其中: y∈Rm ,通常 m=n ,當(dāng) m 近似于單位矩陣,從而實(shí)現(xiàn)特征變換前后對(duì)歐氏距離的保持特性。

隨機(jī)映射的隱私保護(hù)優(yōu)勢(shì)主要體現(xiàn)在數(shù)據(jù)不可逆性、距離保持特性、噪聲注入保護(hù)機(jī)制及動(dòng)態(tài)映射模板的生成[15]上。首先,隨機(jī)映射通過(guò)隨機(jī)矩陣將高維數(shù)據(jù)投影到低維空間,映射后的數(shù)據(jù)與原始數(shù)據(jù)之間不存在直接的映射關(guān)系,從而保證了數(shù)據(jù)的不可逆性,即使攻擊者獲取到映射結(jié)果也難以還原原始數(shù)據(jù)。其次,根據(jù)Johnson-Lindenstrauss定理[16,隨機(jī)映射在降維過(guò)程中能夠以高概率保持?jǐn)?shù)據(jù)點(diǎn)之間的歐氏距離特性,從而在保護(hù)數(shù)據(jù)隱私的同時(shí)保留其結(jié)構(gòu)信息和分析價(jià)值。

2.2 K-means算法

K-means聚類算法[17]是較流行的聚類算法之一,其優(yōu)點(diǎn)是實(shí)現(xiàn)難度較低,聚類效果較好。K-means聚類算法的基本思想是通過(guò)迭代將數(shù)據(jù)集劃分為 k 個(gè)簇,使得相同簇中數(shù)據(jù)之間的相似性較大,不同簇中數(shù)據(jù)之間的相似性較小,是一種經(jīng)典的無(wú)監(jiān)督學(xué)習(xí)聚類算法,可以將數(shù)據(jù)集劃分為多個(gè)類簇,類簇具有簇內(nèi)相似度最大、簇間相似度最小的特征[18]。其主要思想是將數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn)分配到距離其最近的類簇中,然后計(jì)算每個(gè)類簇的中心,并將中心作為新的質(zhì)心。不斷優(yōu)化質(zhì)心的位置,直到質(zhì)心不再變化或者達(dá)到預(yù)設(shè)的迭代次數(shù)。優(yōu)化的目標(biāo)函數(shù)形式為

其中: k 為聚類中心數(shù); Ci 表示第 i 個(gè)簇樣本集; x 表示樣本; xi 表示第 i 個(gè)簇的中心點(diǎn); dist(x,xi) 表示 x?xi 之間的歐氏距離。具體實(shí)現(xiàn)步驟如下:

a)從數(shù)據(jù)集中抽取 k 個(gè)樣本點(diǎn)作為質(zhì)心。b)計(jì)算數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)到質(zhì)心的歐氏距離,同時(shí)把數(shù)據(jù)點(diǎn)劃分到距離最小的質(zhì)心所在的類簇之中。c)對(duì)分好的類簇,計(jì)算每個(gè)類簇的均值,并選取所對(duì)應(yīng)的點(diǎn)作為新的質(zhì)心。d)轉(zhuǎn)到步驟b)直到質(zhì)心不變或達(dá)到預(yù)設(shè)條件,算法結(jié)束。

3基于隨機(jī)映射的隱私保護(hù)聚類算法

3.1算法總體流程

本文采用改進(jìn)的隨機(jī)映射和加噪聲方法對(duì)數(shù)據(jù)進(jìn)行匿名化,使信息損失降低。該方案如圖1所示,總共分為兩個(gè)階段,在第一階段,特征選擇過(guò)程是在相似性的基礎(chǔ)上完成的。采用對(duì)稱不確定性技術(shù),用于執(zhí)行選擇相關(guān)特征的過(guò)程,選擇相關(guān)特征后,使用正態(tài)分布函數(shù)去除低頻數(shù)據(jù)從而提高匿名數(shù)據(jù)的質(zhì)量。

在第二階段,借助這些選定的特征,使用改進(jìn)隨機(jī)映射的高維數(shù)據(jù)的聚類隱私保護(hù)算法實(shí)現(xiàn)隱私保護(hù)數(shù)據(jù)。首先,生成隨機(jī)映射矩陣,對(duì)其進(jìn)行加噪;然后,使用該模板(加噪后的隨機(jī)映射矩陣)對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換;最后使用改進(jìn)層次聚類對(duì)該數(shù)據(jù)進(jìn)行聚類。

3.2基于對(duì)稱不確定性的特征選擇算法

本節(jié)著重介紹基于對(duì)稱不確定性(symmetricuncertainty,SU)的特征選擇算法,在衡量?jī)蓚€(gè)隨機(jī)變量之間的相關(guān)性時(shí),采用了對(duì)稱不確定性作為主要度量標(biāo)準(zhǔn)。執(zhí)行SU后,特征值的范圍處于0~1。具體公式如下所示:

其中: I(X∣Y) 表示變量 Y 與 X 之間存在的兩兩信息增益;G(X) 表示變量 X 的信息熵; G(Y) 表示變量 Y 的信息熵; X 和 Y 分別表示類標(biāo)號(hào)和特征; I(X∣Y) 是求 X 包含的關(guān)于 Y 的信息,則 X 和 Y 之間存在的互信息可計(jì)算如下:

其中: :x,y 表示 X,Y 可能取到的值, 分別表示 x,y 的分布函數(shù)以及 X,Y 的聯(lián)合分布函數(shù),以此篩選出合適的特征。

在完成特征篩選后,為進(jìn)一步提升聚類后數(shù)據(jù)的整體質(zhì)量,本文算法引入正態(tài)分布函數(shù)對(duì)數(shù)據(jù)進(jìn)行篩選,重點(diǎn)針對(duì)頻率較低的屬性進(jìn)行深入過(guò)濾,以避免異常數(shù)據(jù)對(duì)聚類結(jié)果產(chǎn)生誤導(dǎo)。通過(guò)逐一評(píng)估各數(shù)據(jù)的出現(xiàn)頻率,利用正態(tài)分布函數(shù)去除頻率較低的屬性數(shù)據(jù);低頻數(shù)據(jù)剔除后,剩余數(shù)據(jù)將經(jīng)過(guò)進(jìn)一步的過(guò)濾、歸一化與計(jì)算處理,以確保數(shù)據(jù)在整個(gè)處理流程中的一致性與準(zhǔn)確性。此外在預(yù)處理階段,算法首先對(duì)原始數(shù)據(jù)進(jìn)行歸一化,并為數(shù)據(jù)集中每一列繪制正態(tài)分布曲線,以詳細(xì)評(píng)估數(shù)據(jù)的偏差情況。在此基礎(chǔ)上,采用不同的策略對(duì)敏感數(shù)據(jù)進(jìn)行有針對(duì)性的刪除,即適度模式(moderation)和嚴(yán)格模式(strict)。在適度模式下,當(dāng)偏差超過(guò)兩倍標(biāo)準(zhǔn)差時(shí)即執(zhí)行刪除;在嚴(yán)格模式下,凡偏差達(dá)到或超過(guò)一個(gè)標(biāo)準(zhǔn)差的記錄均被視為敏感數(shù)據(jù)予以刪除。最終,該方法在正態(tài)分布驗(yàn)證的基礎(chǔ)上,結(jié)合最大信息指數(shù)進(jìn)一步優(yōu)化數(shù)據(jù)特征,剔除冗余信息,確保處理后的數(shù)據(jù)具備更高的代表性,為后續(xù)分析和應(yīng)用奠定堅(jiān)實(shí)的基礎(chǔ)。

算法1基于對(duì)稱不確定性的特征選擇算法

輸入:高維數(shù)據(jù)集 QIS={A1,A2,…,Am} ;保留 δ 個(gè)特征。

輸出:篩選后的features特征集。

初始化features 特征集合;

while特征id i=SU(i,j) :

end while

for i,ji,i 數(shù)據(jù)進(jìn)行排序,按閾值去除后 n-δ 個(gè)特征;將 δ 個(gè)特征添加到features集合;

end for

3.3基于加噪的隨機(jī)映射算法

本節(jié)提出了一種改進(jìn)的隨機(jī)映射算法,旨在提升隨機(jī)映射矩陣的質(zhì)量。該方法通過(guò)將映射矩陣拆分為特征變化矩陣和特征干擾矩陣,從而增強(qiáng)對(duì)原始數(shù)據(jù)的保護(hù)。首先,生成一個(gè)n×n 維的獨(dú)立同分布高斯隨機(jī)矩陣 R ,其中每個(gè)元素 rij 為獨(dú)立同分布的高斯隨機(jī)變量,即 。隨后,為了最大程度保持映射后的向量與原始向量的相似性,對(duì)矩陣R 進(jìn)行Gram-Schmidt正交化,并將其分解為兩個(gè)相互獨(dú)立的子隨機(jī)映射矩陣 R1 和 R2 。在此基礎(chǔ)上,對(duì)經(jīng)對(duì)稱不確定性降維算法處理后的特征進(jìn)行隨機(jī)映射,得到映射后的特征 ,并將其劃分為特征匹配域 y1 和加噪干擾域 y2,y1 和 y2 均為 m×n 維特征。在 y2 域中加人隨機(jī)均勻分布的 m×n 維噪聲 Ns ,從而得到加入噪聲的 y2s=y2+Ns 。最后,通過(guò)子隨機(jī)映射矩陣R1 和 R2 的交叉融合對(duì)變換后的特征進(jìn)行融合,生成融合特征yε=R2y1+R1y ,并將其保存為新的隨機(jī)映射矩陣 T ,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,以實(shí)現(xiàn)對(duì)數(shù)據(jù)隱私的保護(hù)和映射效果的優(yōu)化。

改進(jìn)后的算法在隱私保護(hù)和數(shù)據(jù)可用性之間實(shí)現(xiàn)了良好的平衡。通過(guò)SU方法篩選關(guān)鍵特征有效提升了特征保留率,確保數(shù)據(jù)轉(zhuǎn)換后具備更高的分析價(jià)值和適應(yīng)性。同時(shí),采用Gram-Schmidt正交化對(duì)隨機(jī)矩陣進(jìn)行優(yōu)化,顯著增強(qiáng)了降維過(guò)程中數(shù)據(jù)間的距離保持特性,保證映射后的數(shù)據(jù)在幾何結(jié)構(gòu)上與原始數(shù)據(jù)高度一致,從而保留了聚類分析所需的核心信息。這一設(shè)計(jì)使得數(shù)據(jù)在低維空間中依然能夠支持高效的聚類分析,充分驗(yàn)證了其高可用性。總體而言,該改進(jìn)算法不僅增強(qiáng)了隱私保護(hù)能力,還在特征篩選、距離保持和數(shù)據(jù)適應(yīng)性方面表現(xiàn)出色,充分保障了數(shù)據(jù)分析的質(zhì)量。

算法2基于加噪的隨機(jī)映射

算法輸入:算法1的

輸出特征矩陣 x? 0輸出:隨機(jī)映射模板 T

生成獨(dú)立同高斯分布的 n×n 維的隨機(jī)矩陣 R ,其中

1)/n ),利用式(2)對(duì)矩陣 R 進(jìn)行Gram-schmdit正交化;將矩陣 R 劃分為 R1,R2 兩個(gè)矩陣,其中 R1=[x1,x2,…,xm]

R2=[xm+1,xm+2,…,xn] 對(duì)矩陣 x 進(jìn)行隨機(jī)映射得到變化特征矩陣 y ,即 y=RTx 劃分 為特征匹配域 y1 和加噪干擾域 y2 ,其中 y1=R1Tx,y2=Rx;在 y2 域添加隨機(jī)均勻分布的 n×m 維噪聲得到 Ns ;交叉融合隨機(jī)映射矩陣 R1?2 得到模板 T 即 T=R2y1+R1Ns 。

3.4基于層次結(jié)構(gòu)的K-means聚類算法

層次K-means算法旨在提升聚類效果,通過(guò)改進(jìn)K-means算法中隨機(jī)選擇初始中心點(diǎn)的策略來(lái)實(shí)現(xiàn)這一目標(biāo)。該算法綜合考慮樣本點(diǎn)的數(shù)據(jù)密集程度與中心點(diǎn)之間的距離,具體而言,它首先計(jì)算與每個(gè)樣本點(diǎn)距離小于平均距離 d 的樣本數(shù)量;隨后,算法判斷當(dāng)前樣本點(diǎn)與已選定中心點(diǎn)的距離是否大于 2d ,以決定是否將該樣本點(diǎn)作為下一個(gè)初始中心點(diǎn)。這一方法旨在優(yōu)化初始中心點(diǎn)的選擇策略,從而提高聚類的準(zhǔn)確性和效率。層次結(jié)構(gòu)的 K -means聚類算法分為以下幾步:

a)計(jì)算數(shù)據(jù)集中任意兩個(gè)樣本點(diǎn)之間的歐氏距離 d

b)根據(jù)公式 dist(xi,xj)計(jì)算數(shù)據(jù)集之間的距離,并確保每個(gè)樣本點(diǎn)周圍距離小于 2d 的其他樣本點(diǎn)個(gè)數(shù)。

c)根據(jù)樣本點(diǎn)的密度對(duì)其進(jìn)行降序排序,得到排序后的集合為 C={c1,c2,…,cn} 。

d)選取密度最大的點(diǎn)作為第一個(gè)初始中心點(diǎn),加人初始中心點(diǎn)集合 M 中。

e)依次取出集合 c 中的元素,判斷其對(duì)于任意的 ci∈C 有dist(xi,xj)gt;2d ,如果是,則將該樣本點(diǎn)加人集合 M 中,作為下一個(gè)聚類中心;否則,繼續(xù)判斷 c 中的下一個(gè)元素。

f)判斷集合 c 中的元素是否全部被訪問(wèn)完畢,若是,則集合 M 中的元素就是該聚類的初始中心點(diǎn),否則重復(fù)步驟e),直到全都被訪問(wèn)一遍。

算法3層次結(jié)構(gòu)K-means聚類算法

輸入:數(shù)據(jù)集 D ;聚類個(gè)數(shù) k

輸出:聚類中心 C={c1,c2,…,cn} 。

for i=2,k (20for j=1,C //遍歷集合 M if C[j] in M //如果該點(diǎn)是聚類中心continue;//如果是聚類中心,則跳過(guò)flag=true ;//判斷是否滿足條件for c in M if list(C[j],c)lt;2d/* 如果存在距離大于 2d 聚類中心,則不滿足條件 ?/ flag τ=τ 1;break;end for證 flag=true //滿足條件則將該點(diǎn)加人聚類中心

M.add(C[j]) :break;end forend for

改進(jìn)的隨機(jī)映射算法在特征選擇、隨機(jī)映射和聚類三個(gè)階段中均表現(xiàn)出計(jì)算效率的顯著提升。在特征選擇階段,利用SU計(jì)算特征與目標(biāo)變量的相關(guān)性,其復(fù)雜度為 O(n?m) ,其中n 為樣本數(shù), m 為特征數(shù)。這一階段通過(guò)降低數(shù)據(jù)維度優(yōu)化了后續(xù)計(jì)算任務(wù)的復(fù)雜性。在隨機(jī)映射階段,生成高斯隨機(jī)矩陣的復(fù)雜度為 O(n?d) ,其中 d 為降維后的特征數(shù);隨后對(duì)隨機(jī)矩陣進(jìn)行Gram-Schmidt正交化處理以確保距離保持特性,復(fù)雜度為 O(d) ;特征映射與噪聲注人的計(jì)算總復(fù)雜度為O(n?m?d) 。通過(guò)有效的降維操作,該階段大幅減少了處理高維數(shù)據(jù)所需的計(jì)算開(kāi)銷。在聚類階段,初始中心點(diǎn)的選擇基于樣本密度計(jì)算,復(fù)雜度為 O(n2) 。在每次迭代中,計(jì)算所有數(shù)據(jù)點(diǎn)到聚類中心距離的復(fù)雜度為 O(t?k?n?d) ,其中 χt 表示迭代次數(shù), k 表示聚類簇?cái)?shù)。該階段通過(guò)優(yōu)化迭代過(guò)程提高了聚類任務(wù)的效率。綜合三個(gè)階段的復(fù)雜度,改進(jìn)算法的總復(fù)雜度為 O(n?m+m2+n?m?d+d+n2+t?k?n?d) 。由于降維后的特征維度 d

4安全性分析

本文提出了一種基于隨機(jī)映射的隱私保護(hù)聚類算法,該算法不僅對(duì)隨機(jī)映射矩陣進(jìn)行了加噪保護(hù),還對(duì)其生成過(guò)程利用子隨機(jī)映射矩陣的交叉融合對(duì)原映射矩陣進(jìn)行改進(jìn)。以下針對(duì)常見(jiàn)的攻擊類型對(duì)本文算法進(jìn)行安全性分析。

首先,隨機(jī)映射矩陣 R 的生成方法是傳統(tǒng)方案的重要環(huán)節(jié)。通常,隨機(jī)映射矩陣是通過(guò)隨機(jī)算法直接生成的,這樣的矩陣在一定程度上可以確保數(shù)據(jù)的安全性,然而,直接生成的隨機(jī)映射矩陣在傳輸過(guò)程中容易被截獲或破解。為了進(jìn)一步提高安全性,本文算法引入了子隨機(jī)映射矩陣的概念。具體地,首先生成多個(gè)子隨機(jī)映射矩陣,然后通過(guò)特定的交叉融合方法,將這些子矩陣組合成最終的隨機(jī)映射矩陣 R 。這樣一來(lái),即使某個(gè)子矩陣泄露,也無(wú)法從中直接推斷出最終的隨機(jī)映射矩陣,因?yàn)樘卣髌ヅ溥^(guò)程利用子隨機(jī)映射矩陣 R2 ,該矩陣可以提取與原始隨機(jī)映射算法相同的特征y=√m Rx,使匹配特征具有距離保持特性,從而顯著提高了數(shù)據(jù)的安全性。由于 R1…R2 具有正交性,可得 R1R2=l(l 為 m 維矩陣),故保存模板 T 中利用子隨機(jī)映射矩陣 R2 通過(guò)式(2)提取特征,得到特征 如下:

其中 y12e 分別為隨機(jī)映射子矩陣。由此可見(jiàn),利用 R2 能提取出與原始隨機(jī)映射算法一致的匹配特征,具有距離保持特性而對(duì)準(zhǔn)確性影響較小。

此外,本文進(jìn)一步分析了在模板和矩陣泄露的情況下,攻擊者恢復(fù)原始數(shù)據(jù)的難度。即便假設(shè)攻擊者能夠獲取模板和矩陣的信息,其所掌握的也僅限于部分信息,無(wú)法完整還原原始數(shù)據(jù)。由于本文改進(jìn)了隨機(jī)映射矩陣生成方法,即使攻擊者獲取了矩陣信息,也難以輕易推斷出矩陣的具體內(nèi)容。具體來(lái)說(shuō),從矩陣 R2 推測(cè)矩陣 R1 的計(jì)算復(fù)雜度為 O(2m2l) ( ξl 為字節(jié)長(zhǎng)度),這意味著在實(shí)際操作中,攻擊者幾乎不可能通過(guò) R2 恢復(fù)出原始的高維特征信息。這一特性在保護(hù)數(shù)據(jù)隱私方面具有重要意義。高維特征信息是許多算法的重要基礎(chǔ),如果這些特征信息被攻擊者掌握,可能會(huì)導(dǎo)致嚴(yán)重的安全問(wèn)題。因此,通過(guò)本文提出的加密保護(hù)方案和隨機(jī)映射矩陣的改進(jìn)生成方法,即使模板 T 和矩陣 R2 泄露,攻擊者也難以獲取有價(jià)值的原始信息,從而有效地保護(hù)了數(shù)據(jù)的隱私性和安全性。

在本文算法中,隨機(jī)映射矩陣 R 是每個(gè)用戶都有其獨(dú)特特征的映射矩陣,這個(gè)設(shè)計(jì)目的是為了提供更高的安全性。每個(gè)數(shù)據(jù)對(duì)應(yīng)的隨機(jī)映射矩陣可以表示為 Rs,1,Rs,2,…,Rs,m 。不同用戶之間使用不同的隨機(jī)映射矩陣 R 來(lái)對(duì)其數(shù)據(jù)進(jìn)行保護(hù),這一特性確保了數(shù)據(jù)的個(gè)性化加密保護(hù),使得即使某一用戶的映射矩陣泄露,也不會(huì)影響其他用戶的數(shù)據(jù)安全。

在本文算法中,映射特征生成方式為 yε=R2y1+R1y ,其中 y=y2+Ns(Ns 為隨機(jī)生成噪聲)。因此,基于同一用戶,攻擊者攔截的多次映射特征可表示為

則有

qi,j∈Q,qi,j=ri,1n1,j+ri,2n2,j+ri,3n3,j+…+ri,mnm,j

針對(duì)隨機(jī)噪聲 Ns,2 可表示為 (ni,ji,j) ,則 Q=R1Ns,2 的元素 qi,j

由此可見(jiàn),噪聲矩陣經(jīng)隨機(jī)映射變化后,可擴(kuò)散分布到變化矩陣的每個(gè)元素中。因此,基于同一用戶,每次生成的映射特征均具有動(dòng)態(tài)變化性,使攻擊者無(wú)法基于特征的相似性分析用戶的信息,從而抵抗攻擊。

5 實(shí)驗(yàn)分析與驗(yàn)證

5.1 實(shí)驗(yàn)設(shè)置

為進(jìn)一步評(píng)估RPPP算法在隱私保護(hù)、執(zhí)行效率以及聚類效果等方面的效果,與其他類似算法進(jìn)行了比較。本文使用的Diabetes和Breast_Cancer數(shù)據(jù)集來(lái)自于UCI機(jī)器學(xué)習(xí)庫(kù),數(shù)據(jù)集分別包括了15和8個(gè)屬性,其中用0表示惡性乳腺癌,用1表示良性乳腺癌。所有實(shí)驗(yàn)都是在一臺(tái)搭載英特爾酷睿i7處理器、16GB內(nèi)存和Windows1064位操作系統(tǒng)的電腦上實(shí)現(xiàn)的,并以Python3.8作為算法實(shí)現(xiàn)的工具。本文的具體過(guò)程如下:首先,將處理后的數(shù)據(jù)作為改進(jìn)隨機(jī)映射算法的輸入,并且在SU的幫助下選擇必要的特征;隨后將基于本文提出的SU算法以及現(xiàn)有算法如主成分分析(principalcomponentanalysis,PCA)線性判別分析(lineardiscriminantanalysis,LDA)處理的屬性排序,結(jié)果如表1所示。可以看出,SU降維后特征重要性比LDA與PCA算法較低,這是因?yàn)镾U算法刪除了非重要的特征,留下的都是比較重要的特征。并且,本文將該方案與GCCG[19] AKA[20] 與UPA[21]進(jìn)行對(duì)比。

5.2 聚類效果評(píng)估

評(píng)估聚類的有效性一般用Calinski-Harbaszscore(CH)值進(jìn)行評(píng)估,其計(jì)算公式如式(2)所示。

其中:子集 Ci 是數(shù)據(jù)集 D 的一個(gè)子聚類; Ni 是子聚類 Ci 的記錄數(shù); c 是數(shù)據(jù)集 D 的中心點(diǎn); ci 是子聚類 Ci 的中心點(diǎn); d(x, y) 表示 x,y 之間距離。由式(12)可知,CH值通過(guò)計(jì)算點(diǎn)與聚類中心之間的距離的平方和,以及聚類的中心點(diǎn)與數(shù)據(jù)集之間的距離的平方和來(lái)測(cè)量聚類內(nèi)的緊密度,以測(cè)量數(shù)據(jù)集的分離度。因此,CH值越大,表示聚類效果越好;相反,CH值越小則表明聚類效果較差。由于CH指標(biāo)的數(shù)值范圍較大,為便于分析和比較,對(duì)其數(shù)據(jù)進(jìn)行了歸一化處理,將CH值映射到[0,1],以提高其可解釋性和實(shí)用性。

5.3 實(shí)驗(yàn)評(píng)估

在進(jìn)行實(shí)驗(yàn)之前先對(duì)使用的數(shù)據(jù)集使用歸一化操作,設(shè)隱私變量 k 為RPPP算法中噪聲干擾矩陣的強(qiáng)度( k 越大加入的噪聲越強(qiáng)),且取值在[1,5]。

5.3.1降維效果評(píng)估

本節(jié)對(duì)SU算法、PCA以及LDA算法在Diabetes和Breast_Cancer數(shù)據(jù)集進(jìn)行降維效果評(píng)估,該數(shù)據(jù)集由敏感屬性和類屬性組成,分為陽(yáng)性和陰性兩類。首先,將數(shù)據(jù)集作為SU算法的輸入,借助對(duì)稱不確定性選擇必要的特征,以消除冗余特征?;诒疚乃惴ㄒ约艾F(xiàn)有的主成分分析、線性判別分析等算法的屬性排序結(jié)果如表1所示。

表1降維效果對(duì)比 Tab.1Comparison of dimensionalityreduction effects

從表1可以看出,clumpthickness在SU算法中的得分為0.4441,明顯高于其他特征,表明該特征在區(qū)分不同類別方面具有較強(qiáng)的辨識(shí)能力,因此將其評(píng)為最重要的特征。相比之下,uniformityofcell size和uniformityofcell shape的得分較低,分別為0.1892和0.0952,表明這些特征對(duì)目標(biāo)變量的分類貢獻(xiàn)較小,因此SU算法將其視為不重要的特征,從而有效去除了冗余信息。在三種算法中,SU算法展現(xiàn)出更強(qiáng)的特征選擇能力,能夠有效識(shí)別與目標(biāo)變量之間高度相關(guān)的特征,同時(shí)在去除冗余特征方面表現(xiàn)突出。此外,SU算法還能夠識(shí)別一些冗余特征,如blandchromatin和barenuclei,它們的得分分別為0.0218和0.0417,均較低,表明它們與目標(biāo)變量之間的相關(guān)性較弱,對(duì)任務(wù)的貢獻(xiàn)也較小。因此SU算法在降維過(guò)程中能夠有效剔除這些冗余特征,從而減少數(shù)據(jù)維度,提高模型的計(jì)算效率和分類精度。與PCA和LDA等傳統(tǒng)降維方法相比,SU算法不僅關(guān)注特征間的差異,更注重特征與目標(biāo)變量之間的直接關(guān)系,這使得SU算法在特征選擇和降維過(guò)程中展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。由此可知,SU算法通過(guò)評(píng)估每個(gè)特征與目標(biāo)變量的相關(guān)性,能夠準(zhǔn)確篩選出最具信息量和區(qū)分力的特征,同時(shí)去除對(duì)分類任務(wù)貢獻(xiàn)較小的冗余特征。這一過(guò)程為后續(xù)的聚類任務(wù)提供了更加精簡(jiǎn)且具有高區(qū)分度的特征集合。

5.3.2信息損失

本文將RPPP與UPA、GCCG和AKA算法進(jìn)行比較,結(jié)果如圖2、3所示,分別為在Diabets和Breast_Cancer數(shù)據(jù)集下的結(jié)果。在多條記錄8個(gè)屬性的數(shù)據(jù)集上的實(shí)驗(yàn),通過(guò)增加值來(lái)評(píng)估算法的有用性。在Diabets數(shù)據(jù)集中可以觀察到,隨著k 值的增加,AKA的信息損失率升高,在較小的 k 值下,AKA具有更好的性能。相比于GCCG和AKA,UPA的信息損失率更低,這歸因于其使用特征選擇算法從數(shù)據(jù)中篩選出更優(yōu)的特征。在moderate模式下,RPPP的性能優(yōu)于GCCG,而在strict模式下,其信息損失率為所有算法中最低。在Breast_Cancer數(shù)據(jù)集中,針對(duì)不同的k進(jìn)行實(shí)驗(yàn),結(jié)果顯示,當(dāng) k 增加時(shí),聚類效果逐漸降低,從而導(dǎo)致所有算法的信息損失率上升。

圖2不同噪聲下信息損失對(duì)比(Diabetes)Fig.2Comparison of information loss under different noise(Diabetes)

圖3不同噪聲下信息損失對(duì)比(Breast_Cancer) Fig.3Comparison of information lossunder different noise(Breast_Cancer)

5.3.3運(yùn)行時(shí)間對(duì)比

表2、3展示了在不同的數(shù)據(jù)集和 k 值(1,2,3,4)下算法的執(zhí)行時(shí)間值比較。實(shí)驗(yàn)表明,在Diabetes和Breast_Cancer數(shù)據(jù)集上的運(yùn)行時(shí)間對(duì)比中,各算法表現(xiàn)出顯著差異。strict模式下的運(yùn)行時(shí)間均為最短,尤其在較小的聚類數(shù)量( k=1,2 下,其優(yōu)勢(shì)尤為明顯,體現(xiàn)了嚴(yán)格劃分策略的高效性。moderate模式緊隨其后,其運(yùn)行時(shí)間略高于嚴(yán)格模式,但增長(zhǎng)趨勢(shì)較為平緩,表現(xiàn)出較高的時(shí)間效率和穩(wěn)定性。相比之下,AKA和GC-CG的運(yùn)行時(shí)間相對(duì)較長(zhǎng),尤其在 k=3,4 時(shí),隨著聚類數(shù)量的增加,這些算法的運(yùn)行時(shí)間增長(zhǎng)更為顯著。此外,UPA的運(yùn)行時(shí)間位于中間水平,其增長(zhǎng)趨勢(shì)較為平穩(wěn),但在高聚類數(shù)量的情況下略遜于中等模式。原因在于RPPP引入了Gram-Schmidt正交化和隨機(jī)映射等復(fù)雜操作,增加了計(jì)算量,但通過(guò)特征劃分和加噪處理有效減少了匹配域的計(jì)算規(guī)模,從而提升了整體效率。相比之下,UPA簡(jiǎn)化了特征處理過(guò)程,計(jì)算效率更高,而GCCG和AKA則因缺乏對(duì)特征域的優(yōu)化和冗余計(jì)算,運(yùn)行時(shí)間顯著增加。

表2每個(gè)方案運(yùn)行時(shí)間的比較(Diabetes)Tab.2Comparison on running time of each scheme(Diabetes)

表3每個(gè)方案運(yùn)行時(shí)間的比較(Breast_Cancer)Tab.3Comparison on running time of each scheme(Breast_Cancer

5.3.4聚類效果驗(yàn)證

為驗(yàn)證本文算法對(duì)聚類效果的提升,在Breast_Cancer和Diabetes兩個(gè)不同規(guī)模的數(shù)據(jù)集上,將本文RPPP與UPA、AKA以及GCCG算法進(jìn)行實(shí)驗(yàn)比較,并利用CH指標(biāo)作為實(shí)驗(yàn)效果的衡量標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如圖4、5所示。

圖4不同程度噪聲下聚類效果對(duì)比(Diabetes)Fig.4Comparison ofclustering effectsunder different noise(Diabetes)

圖5不同程度噪聲下聚類效果對(duì)比(Breast_Cancer) Fig.5Comparison ofclustering effects under different noise(Breast_Cancer)

在Diabetes和Breast_Cancer數(shù)據(jù)集上,RPPP整體上表現(xiàn)出比AKA和GCCG更高的穩(wěn)定性。這主要得益于RPPP使用正態(tài)分布函數(shù)去除了低頻率數(shù)據(jù),從而提升了數(shù)據(jù)的可用性,進(jìn)而優(yōu)化了聚類效果。此外,在strict模式下,RPPP通過(guò)刪除低頻率數(shù)據(jù)有效避免了K-means算法陷入局部最優(yōu)。根據(jù)圖5的結(jié)果,RPPP在Diabetes數(shù)據(jù)集上的CH值范圍為[0.4,0.9],而在Breast_Cancer數(shù)據(jù)集上為[O.5,0.9]。盡管隨著數(shù)據(jù)規(guī)模的增加,算法性能有所下降,但其表現(xiàn)依然優(yōu)于AKA和GCCG,表明RPPP在大規(guī)模數(shù)據(jù)集上同樣具有良好的適應(yīng)性。相比之下,UPA通過(guò)特征選擇機(jī)制優(yōu)化了特征集,提高了聚類的效果,在moderate模式下,其聚類效果與RPPP相當(dāng)。然而,由于UPA在處理復(fù)雜數(shù)據(jù)分布時(shí)的策略較為簡(jiǎn)單,其性能在面對(duì)更復(fù)雜的數(shù)據(jù)集時(shí)略遜于嚴(yán)格模式下的RPPP。總體而言,RPPP的嚴(yán)格模式在穩(wěn)定性、適應(yīng)性和聚類效果方面均表現(xiàn)出色,尤其在高維或大規(guī)模數(shù)據(jù)場(chǎng)景中,其性能明顯優(yōu)于AKA和GCCG,且相比于UPA在嚴(yán)格模式下更具優(yōu)勢(shì)。

最后,當(dāng)隱私參數(shù) k 為5時(shí),即添加噪聲極大時(shí),RPPP的聚類結(jié)果可用性仍然遠(yuǎn)優(yōu)于其他兩個(gè)算法。與UPA相比,本文算法通過(guò)改進(jìn)的隨機(jī)映射機(jī)制和特征處理方法進(jìn)一步降低了信息損失率,使得在高噪聲條件下的聚類效果仍然穩(wěn)定,而UPA在噪聲強(qiáng)度增加時(shí),性能下降幅度更為明顯。

綜上所述,本文提出的基于改進(jìn)隨機(jī)映射的聚類算法相較于GCCG和UPA,能夠在較大程度上優(yōu)化初始質(zhì)心的選擇,并改進(jìn)了噪聲強(qiáng)度的動(dòng)態(tài)決策方法,從而顯著提升了聚類效果的質(zhì)量和穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,本文RPPP相較于AKA、GCCG和UPA,在保證數(shù)據(jù)隱私的情況下,在聚類過(guò)程中展現(xiàn)出更低的信息損失率和更優(yōu)的聚類結(jié)果可用性,并在大規(guī)模數(shù)據(jù)集和高維數(shù)據(jù)的場(chǎng)景下仍具有良好的適應(yīng)性和優(yōu)勢(shì)。

6結(jié)束語(yǔ)

在互聯(lián)網(wǎng)技術(shù)迅速的發(fā)展背景下,高維數(shù)據(jù)的聚類隱私保護(hù)方法日益受到關(guān)注。然而,在對(duì)高維數(shù)據(jù)聚類進(jìn)行隱私保護(hù)的過(guò)程中,由于維度太大,隱私保護(hù)需要花費(fèi)較大代價(jià),仍面臨許多攻擊與挑戰(zhàn)。本文算法減少了高維數(shù)據(jù)特征之間的聯(lián)系,增強(qiáng)了背景知識(shí)攻擊的防御能力。未來(lái)研究可以探索如何優(yōu)化生成映射矩陣模型,以提升整體計(jì)算效率,具體可以研究分布式計(jì)算資源的有效分配和管理,以及如何利用云計(jì)算和邊緣計(jì)算技術(shù)來(lái)支持?jǐn)?shù)據(jù)處理和分析。

參考文獻(xiàn):

[1]夏雪薇,張磊,李晶,等.基于烏鴉搜索的隱私保護(hù)聚類算法[J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(12):3778-3783.(Xia Xuewei,Zhang Lei,Li Jing,et al.Privacy preserving clustering algorithm based on crow search[J].Application Research of Computers,2023,40 (12) :3778-3783.)

[2]GachangaE,KimweleM,NderuL.Featurebased dataanonymization for high dimensional data[J].Journal of Information Engineering andApplications,2019,9(2) :12-21.

[3]王圣節(jié),張慶紅.基于密度權(quán)重的隱私聚類和改進(jìn)相似度的推薦 算法[J].科學(xué)技術(shù)與工程,2024,24(29):12623-12630.(Wang Shengjie,Zhang Qinghong. Density weight based privacy clustering andimproved similarity recommendation algorithms[J].Science Technology and Engineering,2024,24(29) :12623-12630.)

[4]王建芳,柴廣文,陳藝卿,等.融合模糊聚類和自適應(yīng)去噪的推薦 遺忘學(xué)習(xí)算法[J].計(jì)算機(jī)科學(xué)與探索,2024,18(11):2969-2979. (Wang Jianfang,Chai Guangwen,Chen Yiqing,etal.Recommendation unlearning algorithm combining fuzzy clustering and adaptive denoising[J].Journal of Frontiers of Computer Science and Technology,2024,18(11) :2969-2979.)

[5]WangHua.Analysis of teaching mode of music major students based onpersonalized recommendation algorithm[J/OL].International Journal of High Speed Electronics and Systems.(2024).https://doi.org/10.1142/S0129156425401275.

[6]Gangarde R,Sharma A,Pawar A.Enhanced clustering based OSN privacy preservation to ensure k -anonymity,t-closeness,l-diversity,and balanced privacyutility[J].Computers,Materialsamp;Continua, 2023,75(1) :2171-2190.

[7]Majhi M,Mallick A K.Random projection and hashing based privacy preserving for image retrieval paradigm using invariant and clustered feature[J].Journal of King Saud University-Computerand InformationSciences,2022,34(9):6829-6846.

[8]Ghalib A,Jessup T D,Johnson J,et al. Clustering and classification to evaluate data reduction via Johnson-Lindenstrauss transform[C]// Advances in Information and Communication.Cham:Springer,2020: 190-209.

[9]Shan Wangweiyi,Li Dong,Liu Shulin,et al.A random feature mapping method based on the AdaBoost algorithm and results fusion for enhancing classification performance [J].Expert Systemswith Applications,2024,256:124902.

[10]Guo Hengliang,Wang Jinyang,Zhang Dujuan,et al. Mapping surface soil organic carbon density of cultivated land using machine learning in Zhengzhou[J]. Environmental Geochemistry and Health, 2024,47(1) :1.

[11] Majeed A. Atribute-centric anonymization scheme for improving user privacy and utilityof publishing e-health data[J]. Journal of King Saud University-Computer and Information Sciences,2019, 31(4) :426-435.

[12]Bian Jin,Li Shuyu. Research on a privacy preserving clustering method for social network[C]//Proc of the 4th IEEE International Conference on Cloud Computing and Big Data Analysis. Piscataway,NJ: IEEE Press,2019:29-33.

[13]Piao Chunhui,Liu Liping,ShiYajuan,etal. Clustering-based privacy preserving anonymity approach for table data sharing[J]. International Joumal of System Assurance Engineering and Management,2020,11(4) :768-773.

[14] Wang Rong,Zhu Yan,Chang C C,et al. Privacy-preserving highdimensional data publishing for classification[J]. Computers amp; Security,2020,93:101785.

[15] Chen Yun,Du Yunlan,Cao Xiaomei.Density peak clustering algorithmbased on differential privacy preserving[M]//Liu Feng,Xu Jia, Xu Shouhuai,et al. Science of Cyber Security. Cham:Springer,2019: 20-32.

[16]Arya S,Boissonnat JD,Dutta K,et al.Dimensionality reduction for kdistance applied to persistent homology[J]. Journal of Applied and Computational Topology,2021,5(4) :671-691.

[17]Yu Mei,Zhang Jie,Wang Jianrong,et al. Internet of Things security and privacy-preserving method through nodes differentiation,concrete cluster centers,multi-signature,and blockchain [J]. International Joumal ofDistributed Sensor Networks,2018,14(12): 155014771881584.

[18]Ghetas M,Iss M.Extracting optimal fuel cellparametersusingdynamic Fick’s law algorithm with cooperative learning strategy and k meansclustering[J].Expert Systems with Applications,2025, 262;125601.

[19]Ni Sang,Xie Mengbo,Qian Quan.Clustering based k -anonymityalgorithm for privacy preservation[J].International Journal of Network Security,2021,19(6) :1062-1071.

[20] Arava K,Lingamgunta S. Adaptive k -anonymityapproach forprivacy preserving in cloud[J].Arabian Journal for Science and Engineering,2020,45(4):2425-2432.

[21]Srijayanthi S,Sethukarasi T.Design of privacy preserving model based on clustering involved anonymization along with feature selection[J]. Computersamp; Security,2023,126:103027.

收稿日期:2024-10-29;修回日期:2024-12-18基金項(xiàng)目:黑龍江省哲學(xué)社會(huì)科學(xué)研究規(guī)劃資助項(xiàng)目(23GLD033);黑龍江省自然科學(xué)基金聯(lián)合引導(dǎo)項(xiàng)目(LH2021F054);黑龍江省省屬高等學(xué)?;究蒲袠I(yè)務(wù)費(fèi)優(yōu)秀創(chuàng)新團(tuán)隊(duì)建設(shè)項(xiàng)目(2022-KYYWF-0654);黑龍江省自主智能與信息處理重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(ZXC202302);佳木斯大學(xué)國(guó)家基金培育項(xiàng)目(JMSUGPZR2022-014);黑龍江省高等教育教學(xué)改革研究項(xiàng)目(SJGY20210873)

作者簡(jiǎn)介:何麗麗(1979—),女,黑龍江佳木斯人,副教授,博士,CCF會(huì)員,主要研究方向?yàn)樾畔踩腿斯ぶ悄懿牧?張成林(1998—),男,陜西西安人,碩士研究生,主要研究方向?yàn)殡[私保護(hù)、數(shù)據(jù)挖掘;曹明增(199—),男,安徽六安人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)閰^(qū)塊鏈、隱私保護(hù);張磊(1982—),男(通信作者),黑龍江綏化人,教授,碩導(dǎo),博士,CCF會(huì)員,主要研究方向?yàn)樾畔踩㈦[私保護(hù)(8213662 @ 163.com) .

主站蜘蛛池模板: 亚洲精品第一页不卡| 国产精品无码AV片在线观看播放| 亚洲人成网站日本片| 亚洲另类国产欧美一区二区| 99热这里只有精品免费| 国产拍揄自揄精品视频网站| 欧美色视频日本| 国产视频大全| 国产精品亚洲精品爽爽| 久久婷婷六月| 三级视频中文字幕| 国产成人精品视频一区视频二区| 视频国产精品丝袜第一页| 制服无码网站| 在线看AV天堂| 国产成人精品午夜视频'| 国产精品3p视频| 女同久久精品国产99国| 国产一在线观看| 97视频免费在线观看| 国产精品私拍99pans大尺度 | a级毛片视频免费观看| 国产美女人喷水在线观看| A级毛片无码久久精品免费| 丁香婷婷综合激情| 国产黑人在线| 无码网站免费观看| 911亚洲精品| 2020国产免费久久精品99| 香蕉国产精品视频| 亚洲日产2021三区在线| 成人欧美在线观看| 五月天婷婷网亚洲综合在线| 日韩经典精品无码一区二区| 国产无码网站在线观看| 五月综合色婷婷| 亚洲 成人国产| 狂欢视频在线观看不卡| 亚洲日韩精品欧美中文字幕| 永久免费精品视频| 中文字幕 91| v天堂中文在线| 71pao成人国产永久免费视频| 国产精品99久久久久久董美香| 国产69精品久久久久妇女| 久久久久久高潮白浆| 亚洲成人黄色在线| 亚洲,国产,日韩,综合一区| 高清视频一区| 亚洲区视频在线观看| 91精品免费久久久| 亚洲精品视频免费| 香蕉视频在线观看www| 亚洲精品视频免费| 久久国产V一级毛多内射| 亚洲一区二区成人| 极品私人尤物在线精品首页| 精品无码一区二区三区电影| 综合久久五月天| 久久香蕉国产线看观看亚洲片| 999福利激情视频| 亚洲一级毛片在线观播放| 国产在线专区| 欧美日韩高清| 精品少妇三级亚洲| 伊人精品视频免费在线| 亚洲婷婷在线视频| 亚洲男人天堂久久| 2021无码专区人妻系列日韩| 国产午夜无码专区喷水| 制服丝袜亚洲| 亚洲天堂区| 国产一区二区网站| 日韩欧美中文字幕在线精品| www.av男人.com| 热99精品视频| 欧美日本在线| 日本福利视频网站| 久久亚洲日本不卡一区二区| 国产乱子伦视频在线播放| 91高清在线视频| 91无码人妻精品一区二区蜜桃|