999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于屬性熵的隱私匿名信息保護(hù)研究與應(yīng)用

2019-08-02 03:08:32賈步忠
微型電腦應(yīng)用 2019年7期
關(guān)鍵詞:分類(lèi)信息

賈步忠

(陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院 會(huì)計(jì)二系, 咸陽(yáng) 712000)

0 引言

隨著現(xiàn)代化智能技術(shù)的高速發(fā)展,各類(lèi)智能系統(tǒng)在給人們的生活帶來(lái)便利的同時(shí),也給人們隱私信息的安全性造成了極大的威脅。目前,大部分企業(yè)為了適應(yīng)市場(chǎng)需求的變化,紛紛開(kāi)始對(duì)用戶(hù)數(shù)據(jù)進(jìn)行深入挖掘,以此獲取對(duì)其更加有利的信息。然而,這些被各企業(yè)深入挖掘出的信息并不具備安全性,其中大多包含一些人們不愿泄露的隱私及敏感信息。許多不法分子為了謀取利益,試圖通過(guò)攻擊各企業(yè)數(shù)據(jù)庫(kù)的方式來(lái)獲取人們身份信息。人們身份信息一旦泄露,將會(huì)對(duì)人身安全及財(cái)產(chǎn)安全造成極大的威脅,嚴(yán)重影響人們的正常生活與工作。

在隱私信息保護(hù)研究領(lǐng)域中,已存在許多隱私敏感信息保護(hù)方法。如王超(2015)一種軌跡特征及動(dòng)態(tài)鄰近性信息保護(hù)方法,從而通過(guò)最小化鄰域扭曲密度的方式來(lái)解決信息損失的問(wèn)題[1];馬飛等[2-7]采用文獻(xiàn)綜述的方式,對(duì)當(dāng)前匿名信息保護(hù)的研究進(jìn)展進(jìn)行了綜述,分別比較了基于k-匿名、Markov鏈、聚類(lèi)、隨機(jī)化等匿名保護(hù)方法的優(yōu)缺點(diǎn);這些方法雖然能夠?qū)θ藗冸[私信息起到一定的保護(hù)作用,但保護(hù)的同時(shí),很多方法都會(huì)對(duì)原數(shù)據(jù)的完整性造成不同程度的破壞。因此,如何在保護(hù)隱私信息不被泄露的同時(shí),又能保障原數(shù)據(jù)的完整性成為隱私信息保護(hù)領(lǐng)域研究的首要難題。當(dāng)前,大部分隱私匿名法在對(duì)隱私信息進(jìn)行保護(hù)時(shí),主要是對(duì)準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性進(jìn)行保護(hù),卻并未對(duì)不同準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性之間的影響進(jìn)行考慮,從而使部分攻擊者通過(guò)鏈接攻擊以及同質(zhì)攻擊就可輕易獲得用戶(hù)隱私信息?;诖?,本文提出一種基于權(quán)重屬性熵的分類(lèi)匿名法,應(yīng)并將其應(yīng)用到隱私信息保護(hù)領(lǐng)域中,并對(duì)其可行性進(jìn)行驗(yàn)證。

1 基于權(quán)重屬性熵分類(lèi)匿名模型

1.1 模型構(gòu)建思路

對(duì)該模型的構(gòu)建,首先以信息熵作為參考,對(duì)準(zhǔn)標(biāo)識(shí)符屬性對(duì)于敏感屬性分類(lèi)的重要性進(jìn)行估量;然后,對(duì)隱私數(shù)據(jù)損失度知道屬性匿名丟失情況進(jìn)行構(gòu)建;最后,以分類(lèi)匿名保護(hù)度的變化為基礎(chǔ),對(duì)分類(lèi)重要性及隱私匿名算是標(biāo)準(zhǔn)的最優(yōu)平衡進(jìn)行確定,以此賦予數(shù)據(jù)分類(lèi)準(zhǔn)確性及隱私性。

1.2 權(quán)重屬性熵的度量

站在PPCM中匿名分類(lèi)方法的角度[8-10],假設(shè)屬性QI具備的不確定性較小,則代表屬性QI具備較高的純凈度,那么屬性QI將具備較佳的分類(lèi)準(zhǔn)確性效果。在屬性不確定性衡量方面,熵屬于一種衡量屬性不確定性的分裂方法。通常情況下,熵主要通過(guò)Top-down方式對(duì)屬性進(jìn)行分裂。

假設(shè)E(x)為某一隨機(jī)變量X的熵,那么E(x)的定義為式(1)。

(1)

假設(shè)設(shè)定的樣本數(shù)據(jù)表D當(dāng)中具備類(lèi)別屬性{C1,C2,…,Ck},其中包含k個(gè)類(lèi)別屬性,樣本數(shù)據(jù)表D中具備Si(i=1,2,…,k)個(gè)屬于類(lèi)Ci的元組。那么,此時(shí)可將給定D中數(shù)據(jù)分類(lèi)信息熵E(S)定義為式(2)。

(2)

假設(shè)屬性Q中具備v個(gè)不同的值{q1,q2,…,qv},數(shù)據(jù)表D被Q劃分成為v個(gè)子分區(qū){D1,D2,…,Dv},其中Dj(j=1,2,…,v)包含D中屬于Q屬性值為qj的所有元組,屬性Q在對(duì)D的分類(lèi)區(qū)域進(jìn)行劃分時(shí),正是需要權(quán)重全屬性這一分類(lèi)量。由此,權(quán)重屬性熵E(Q)可表示為[11]式(3)。

(3)

權(quán)重屬性熵增量ΔE即為E(S)與E(Q)之間產(chǎn)生的增量,因此ΔE可表示為式(4)。

ΔE=E(S)-E(Q)=E(S1,S2,…,Sk)-E(Q)

(4)

根據(jù)上式可得出結(jié)論:E(Q)值越小則分類(lèi)效果越優(yōu),即權(quán)重屬性熵增量ΔE影響分類(lèi)效果的優(yōu)劣,其值越大則分類(lèi)效果越優(yōu)。

權(quán)重屬性熵增量ΔE適用于數(shù)據(jù)表D數(shù)內(nèi)Q出現(xiàn)較多的情況。但是,在通過(guò)權(quán)重屬性熵增量ΔE對(duì)分類(lèi)準(zhǔn)確性進(jìn)行分析時(shí),無(wú)法避免偏重問(wèn)題。針對(duì)這一問(wèn)題,可以通過(guò)權(quán)重屬性熵增量比率ΔE′來(lái)解決。ΔE′為ΔE與屬性Q的信息熵的比值,可表示為式(5)、式(6)。

ΔE′=ΔE/E(Q)′

(5)

其中,E(Q)′即屬性Q的信息熵:

(6)

根據(jù)式3與式5可以得出結(jié)論:權(quán)重屬性熵增量比率越大,則分類(lèi)的準(zhǔn)確性則越優(yōu)。

1.3 隱私數(shù)據(jù)損失的度量

屬性QI包含了分類(lèi)屬性與數(shù)值屬性,在進(jìn)行隱私保護(hù)的過(guò)程中會(huì)導(dǎo)致屬性信息損失。對(duì)此,采取加權(quán)確定性代價(jià)的方式,在獲取屬性QI隱私屬性的過(guò)程中進(jìn)行匿名損失信息度量[12-15]。

(1) 分類(lèi)型屬性匿名損失

對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2},其分類(lèi)屬性為QCj(j=1,2,…,m1),對(duì)應(yīng)的分類(lèi)樹(shù)為T(mén)j(j=1,2,…,m1)。對(duì)于任意元組t中的任意某一分類(lèi)屬性,將其值vj匿名泛化后得到先祖節(jié)點(diǎn)值pj,由此可將分類(lèi)屬性的匿名損失表示為式(7)。

(7)

其中,k為S值的數(shù)量,wj為QCj(j=1,2…,m1)的分類(lèi)權(quán)重,|pj|為pj內(nèi)的葉節(jié)點(diǎn)數(shù)量,|Tj|為T(mén)j內(nèi)的葉子節(jié)點(diǎn)數(shù)量。

匿名泛化后,分類(lèi)屬性匿名損失為式(8)。

(8)

(2) 數(shù)值型屬性匿名損失

對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2},其數(shù)值屬性為QNj(j=1,2,…,m2),對(duì)應(yīng)的取值域?yàn)镼Dj(j=1,2,…,m2)。對(duì)于任意元組t中的任意某一數(shù)值型屬性,將其值bj泛化后得到對(duì)應(yīng)區(qū)間[aj,cj](aj≤bj≤cj),由此可將數(shù)值型屬性的匿名損失表示為式(9)。

(9)

其中,k為S值的數(shù)量,wj為QNj(j=1,2…,m1)的分類(lèi)權(quán)重,|QDj|=max(QNj)-min(QNj)。

匿名泛化后,數(shù)值型屬性匿名損失為式(10)。

(10)

(3) 所有元組匿名損失

對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2},其分類(lèi)屬性為QCj(j=1,2,…,m1),對(duì)應(yīng)的分類(lèi)樹(shù)為T(mén)j(j=1,2,…,m1),其數(shù)值屬性為QNj(j=1,2,…,m2),對(duì)應(yīng)的取值域?yàn)镼Dj(j=1,2,…,m2)。元組t匿名泛化后元組匿名損失為式(11)。

PL(t)=PLQCj(t)+PLQNj(t)

(11)

由于D的PL(D)為數(shù)據(jù)表內(nèi)各PL(t)的和,因此D的匿名損失為式(12)。

(12)

1.4 分類(lèi)匿名保護(hù)的度量

分類(lèi)匿名保護(hù)度cap為ΔE′與PL(D)的比值,表示為[16]式(13)。

(13)

分類(lèi)匿名保護(hù)度cap越大,則分類(lèi)效果越優(yōu)。根據(jù)式13可知,ΔE′越大則分類(lèi)匿名保護(hù)度cap越大,PL(D)越大則分類(lèi)匿名保護(hù)度cap越小。

1.5 基于權(quán)重屬性熵的分類(lèi)匿名模型構(gòu)建

針對(duì)各種準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)影響問(wèn)題,為了滿(mǎn)足數(shù)據(jù)分類(lèi)應(yīng)用的匿名要求,采用了一種基于權(quán)重屬性熵的分類(lèi)匿名算法。該算法基于分類(lèi)熵概念,通過(guò)匿名方式來(lái)完成數(shù)據(jù)集的等價(jià)分類(lèi),并以分類(lèi)匿名保護(hù)條件來(lái)解決分類(lèi)效果與隱私信息損失之間的問(wèn)題。具體核心步驟為:

(1) 對(duì)于給定的樣本數(shù)據(jù)表D,通過(guò)計(jì)算敏感屬性S的信息熵E(S1,S2,…,Sk),得到QI對(duì)敏感屬性S的熵值,以此來(lái)直觀地展現(xiàn)分類(lèi)信息;

(2) 計(jì)算ΔE與屬性Q的信息熵的比值ΔE′,以此判定各屬性Q對(duì)敏感屬性S的分類(lèi)重要程度,并且通過(guò)將分類(lèi)權(quán)重熵增量比ΔE′值進(jìn)行排序,有效選擇分裂結(jié)點(diǎn);

(3) 將max ΔE′的屬性QI作為分裂節(jié)點(diǎn),并通過(guò)分類(lèi)匿名保護(hù)度cap判定分類(lèi)效果與隱私信息損失之間的平衡,然后根據(jù)分類(lèi)能力對(duì)分裂屬性進(jìn)行等價(jià)劃分并保存;

(4) 對(duì)上述進(jìn)行遞歸操作,遍歷分類(lèi)樹(shù)后對(duì)余下葉子結(jié)點(diǎn)進(jìn)行匿名操作,將其等價(jià)分類(lèi),直至滿(mǎn)足匿名要求后,輸出匿名后的結(jié)果。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)可用性分析

對(duì)于數(shù)據(jù)可用性,主要采用數(shù)據(jù)分類(lèi)準(zhǔn)確性進(jìn)行分析檢驗(yàn),具體方法是通過(guò)分類(lèi)樹(shù)C4.5分類(lèi)模型以及貝葉斯分類(lèi)模型,將本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法與原始數(shù)據(jù)集、Top-down算法以及IACK算法進(jìn)行對(duì)比,以此分析驗(yàn)證分類(lèi)準(zhǔn)確性。

將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8,參數(shù)值K={2,4,6,8,10}。原始數(shù)據(jù)oridi-data與各算法在分類(lèi)樹(shù)C4.5分類(lèi)模型上的分類(lèi)精度情況如圖1所示。

圖1 分類(lèi)樹(shù)C4.5分類(lèi)模型上的分類(lèi)精度

原始數(shù)據(jù)oridi-data與各算法在貝葉斯分類(lèi)模型上的分類(lèi)精度情況如圖2所示。

從圖1與圖2所示的對(duì)比情況可以看到:原始數(shù)據(jù)oridi-data未經(jīng)過(guò)匿名處理,因此其分類(lèi)準(zhǔn)確性并沒(méi)有隨K值的變化而變化;三種算法則由于隱私處理過(guò)程中的匿名泛化操作而導(dǎo)致屬性信息損失,因此三種算法的分類(lèi)準(zhǔn)確性隨著K值的持續(xù)增大而不斷降低。相較而言,本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的分類(lèi)精度,其最低值為77%,在整體上高于其他兩種算法的分類(lèi)精度。由此可知,基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)具有較高的分類(lèi)可用性。

圖2 貝葉斯分類(lèi)模型上的分類(lèi)精度

2.2 匿名信息損失分析

對(duì)于匿名信息損失,主要采用隱私數(shù)據(jù)損失衡量進(jìn)行分析檢驗(yàn),具體方法是將基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)與Top-down算法以及IACK算法在不同K值下的匿名信息損失進(jìn)行對(duì)比,以此進(jìn)行分析驗(yàn)證。

將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8,參數(shù)值K={2,4,6,8,10},三種算法在不同K值下的匿名信息損失對(duì)比情況如圖3所示。

圖3 不同K值下的匿名信息損失

如圖3所示,三種算法的隱私匿名損失隨K值增加而相應(yīng)增加。分析其原因,是因?yàn)榈葍r(jià)類(lèi)中元組數(shù)量隨著K值的增加而增加,導(dǎo)致三種算法的準(zhǔn)標(biāo)識(shí)符屬性泛化程度提高。相較而言,IACK算法的匿名信息損失最大,而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的目標(biāo)為分類(lèi)匿名保護(hù)度最高,通過(guò)分類(lèi)匿名保護(hù)度cap判定分類(lèi)效果與隱私信息損失之間的平衡,因此其匿名信息損失則相對(duì)較小,平均約為18%。

將參數(shù)值K設(shè)為K=6,準(zhǔn)標(biāo)識(shí)符屬性QI設(shè)為|QI|={2,4,6,8}。三種算法在不同QI值下的匿名信息損失對(duì)比情況如圖4所示。

圖4 不同QI值下的匿名損失

如圖4所示,三種算法的隱私匿名損失隨準(zhǔn)標(biāo)識(shí)符屬性QI增加而相應(yīng)增加。分析其原因,是因?yàn)榈葍r(jià)類(lèi)中需泛化的屬性數(shù)量隨準(zhǔn)標(biāo)識(shí)符屬性QI的增加而增加,導(dǎo)致三種算法的隱私匿名損失增加。相較而言,IACK算法由于采用互信息熵進(jìn)行屬性泛化,篩除了所有不滿(mǎn)足匿名要求的信息,因此其匿名信息損失最大,而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的匿名信息損失則相對(duì)較小。

2.4 執(zhí)行時(shí)間分析

對(duì)于執(zhí)行時(shí)間,本文主要是在準(zhǔn)標(biāo)識(shí)符屬性恒定而K值不斷變化的情況下,對(duì)基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)、Top-down以及IACK等三種算法的執(zhí)行時(shí)間進(jìn)行對(duì)比分析。

將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8,參數(shù)值K={2,4,6,8,10},三種算法在不同K值下的執(zhí)行時(shí)間對(duì)比情況如圖5所示。

圖5 不同K值下的執(zhí)行時(shí)間

從圖5中可以看到,基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)、Top-down以及IACK等三種算法的執(zhí)行時(shí)間均隨著K值的增加而增加,而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的執(zhí)行時(shí)間略高于其他兩種算法。分析WECA算法執(zhí)行時(shí)間略高的原因,是因?yàn)樵撍惴榱似胶怆[私保護(hù)與數(shù)據(jù)可用性,在其分類(lèi)過(guò)程中需要同時(shí)考慮敏感屬性的信息熵以及不同準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)重要程度,因此該算法執(zhí)行時(shí)間略高是可以接受的。

以上實(shí)驗(yàn)綜合可以得出,以上結(jié)論主要是對(duì)面向分類(lèi)屬性熵的隱私匿名方法進(jìn)行研究,從而得出一種基于權(quán)重性熵的分類(lèi)匿名算法分析,以上實(shí)驗(yàn)首先是引入問(wèn)題,解析了目前大多數(shù)匿名模型和算法在保證數(shù)據(jù)隱私和可用性二者之間的一個(gè)平衡問(wèn)題上單獨(dú)的考慮了敏感屬性的敏感度量對(duì)原始數(shù)據(jù)進(jìn)行匿名的方法,并沒(méi)有考慮到不同的標(biāo)準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性之間的重要程度的研究現(xiàn)狀,然后引入了匿名要就及泛化層次,并且分析了隱私匿名數(shù)據(jù)損失度量,之后又重點(diǎn)分析并提出了權(quán)重屬性熵分類(lèi)匿名算法,引入了信息熵,通過(guò)對(duì)不同的標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)重要程度的大小來(lái)構(gòu)建分類(lèi)匿名模型,接著構(gòu)建了隱私分類(lèi)匿名保護(hù)度量來(lái)獲得更高數(shù)據(jù)的可用性和隱私安全性。最后證實(shí)了實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集。

3 總結(jié)

綜合上述幾項(xiàng)實(shí)驗(yàn)的驗(yàn)證結(jié)果可知,相較于Top-down算法與IACK算法,本文所提出的本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)雖然執(zhí)行時(shí)間略高,但是能夠在保護(hù)數(shù)據(jù)隱私性的同時(shí),兼顧分類(lèi)精度問(wèn)題,使數(shù)據(jù)可用性達(dá)到較高的水平。由此得出本文構(gòu)建的隱私保護(hù)模型,在保護(hù)隱私安全的情況下,可提高數(shù)據(jù)的可用性,具有一定的借鑒價(jià)值。

猜你喜歡
分類(lèi)信息
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類(lèi)吧
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 色婷婷电影网| 成人午夜天| 欧美三级自拍| 国产打屁股免费区网站| 黄色三级网站免费| 亚洲色欲色欲www在线观看| 亚洲中文在线视频| 午夜啪啪网| 黄色三级网站免费| 亚洲欧美不卡| 国产Av无码精品色午夜| 亚洲国产精品美女| 91人人妻人人做人人爽男同 | 国产精品护士| 国产网站免费| 亚洲 欧美 日韩综合一区| 亚洲欧美日韩精品专区| 欧美一区二区三区不卡免费| 996免费视频国产在线播放| 真人高潮娇喘嗯啊在线观看| 日韩国产无码一区| 国产亚洲高清在线精品99| 999国产精品永久免费视频精品久久| 国产激爽大片高清在线观看| 久99久热只有精品国产15| www亚洲精品| 精品久久高清| 国产成人久久综合777777麻豆| 全裸无码专区| 国产午夜精品鲁丝片| 欧美天堂在线| 久久成人国产精品免费软件| 国产欧美日韩va另类在线播放| 亚洲欧美日韩综合二区三区| 亚洲天堂成人在线观看| 伊人久久大香线蕉影院| 永久天堂网Av| 国产一二三区视频| yjizz国产在线视频网| 乱人伦99久久| 国产欧美一区二区三区视频在线观看| 久久精品波多野结衣| 欧美a在线看| 亚洲人成人无码www| 免费一级毛片不卡在线播放| 国产精品入口麻豆| 国产精品偷伦视频免费观看国产| 97视频精品全国在线观看| 成人韩免费网站| 久久国产乱子| 美女一级免费毛片| 中文字幕中文字字幕码一二区| 天天综合色网| 国产玖玖视频| 国产一级毛片高清完整视频版| 中文无码伦av中文字幕| 亚洲国产精品日韩欧美一区| 国产精品一区在线麻豆| 毛片久久网站小视频| 伦精品一区二区三区视频| 美美女高清毛片视频免费观看| 一级毛片在线播放| 精品视频第一页| 无码精品国产dvd在线观看9久 | 一区二区理伦视频| 欧美性猛交一区二区三区| 99久久精彩视频| 亚洲色中色| 精品国产www| 手机永久AV在线播放| 亚欧乱色视频网站大全| 国产精品大尺度尺度视频| 手机在线看片不卡中文字幕| 精品无码一区二区在线观看| 超清无码一区二区三区| 亚洲国产欧美国产综合久久 | 亚洲自拍另类| 91福利国产成人精品导航| 2021国产精品自产拍在线观看| 国产精品林美惠子在线播放| 91小视频在线观看| 国产香蕉在线|