基于屬性熵的隱私匿名信息保護(hù)研究與應(yīng)用

2019-08-02 03:08:32賈步忠

微型電腦應(yīng)用 2019年7期

賈步忠

(陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院會(huì)計(jì)二系, 咸陽(yáng) 712000)

0 引言

隨著現(xiàn)代化智能技術(shù)的高速發(fā)展，各類(lèi)智能系統(tǒng)在給人們的生活帶來(lái)便利的同時(shí)，也給人們隱私信息的安全性造成了極大的威脅。目前，大部分企業(yè)為了適應(yīng)市場(chǎng)需求的變化，紛紛開(kāi)始對(duì)用戶(hù)數(shù)據(jù)進(jìn)行深入挖掘，以此獲取對(duì)其更加有利的信息。然而，這些被各企業(yè)深入挖掘出的信息并不具備安全性，其中大多包含一些人們不愿泄露的隱私及敏感信息。許多不法分子為了謀取利益，試圖通過(guò)攻擊各企業(yè)數(shù)據(jù)庫(kù)的方式來(lái)獲取人們身份信息。人們身份信息一旦泄露，將會(huì)對(duì)人身安全及財(cái)產(chǎn)安全造成極大的威脅，嚴(yán)重影響人們的正常生活與工作。

在隱私信息保護(hù)研究領(lǐng)域中，已存在許多隱私敏感信息保護(hù)方法。如王超(2015)一種軌跡特征及動(dòng)態(tài)鄰近性信息保護(hù)方法，從而通過(guò)最小化鄰域扭曲密度的方式來(lái)解決信息損失的問(wèn)題[1]；馬飛等[2-7]采用文獻(xiàn)綜述的方式，對(duì)當(dāng)前匿名信息保護(hù)的研究進(jìn)展進(jìn)行了綜述，分別比較了基于k-匿名、Markov鏈、聚類(lèi)、隨機(jī)化等匿名保護(hù)方法的優(yōu)缺點(diǎn)；這些方法雖然能夠?qū)θ藗冸[私信息起到一定的保護(hù)作用，但保護(hù)的同時(shí)，很多方法都會(huì)對(duì)原數(shù)據(jù)的完整性造成不同程度的破壞。因此，如何在保護(hù)隱私信息不被泄露的同時(shí)，又能保障原數(shù)據(jù)的完整性成為隱私信息保護(hù)領(lǐng)域研究的首要難題。當(dāng)前，大部分隱私匿名法在對(duì)隱私信息進(jìn)行保護(hù)時(shí)，主要是對(duì)準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性進(jìn)行保護(hù)，卻并未對(duì)不同準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性之間的影響進(jìn)行考慮，從而使部分攻擊者通過(guò)鏈接攻擊以及同質(zhì)攻擊就可輕易獲得用戶(hù)隱私信息?；诖?，本文提出一種基于權(quán)重屬性熵的分類(lèi)匿名法，應(yīng)并將其應(yīng)用到隱私信息保護(hù)領(lǐng)域中，并對(duì)其可行性進(jìn)行驗(yàn)證。

1 基于權(quán)重屬性熵分類(lèi)匿名模型

1.1 模型構(gòu)建思路

對(duì)該模型的構(gòu)建，首先以信息熵作為參考，對(duì)準(zhǔn)標(biāo)識(shí)符屬性對(duì)于敏感屬性分類(lèi)的重要性進(jìn)行估量；然后，對(duì)隱私數(shù)據(jù)損失度知道屬性匿名丟失情況進(jìn)行構(gòu)建；最后，以分類(lèi)匿名保護(hù)度的變化為基礎(chǔ)，對(duì)分類(lèi)重要性及隱私匿名算是標(biāo)準(zhǔn)的最優(yōu)平衡進(jìn)行確定，以此賦予數(shù)據(jù)分類(lèi)準(zhǔn)確性及隱私性。

1.2 權(quán)重屬性熵的度量

站在PPCM中匿名分類(lèi)方法的角度[8-10]，假設(shè)屬性QI具備的不確定性較小，則代表屬性QI具備較高的純凈度，那么屬性QI將具備較佳的分類(lèi)準(zhǔn)確性效果。在屬性不確定性衡量方面，熵屬于一種衡量屬性不確定性的分裂方法。通常情況下，熵主要通過(guò)Top-down方式對(duì)屬性進(jìn)行分裂。

假設(shè)E(x)為某一隨機(jī)變量X的熵，那么E(x)的定義為式(1)。

(1)

假設(shè)設(shè)定的樣本數(shù)據(jù)表D當(dāng)中具備類(lèi)別屬性{C1,C2,…,Ck}，其中包含k個(gè)類(lèi)別屬性，樣本數(shù)據(jù)表D中具備Si(i=1,2,…,k)個(gè)屬于類(lèi)Ci的元組。那么，此時(shí)可將給定D中數(shù)據(jù)分類(lèi)信息熵E(S)定義為式(2)。

(2)

假設(shè)屬性Q中具備v個(gè)不同的值{q1,q2,…,qv}，數(shù)據(jù)表D被Q劃分成為v個(gè)子分區(qū){D1,D2,…,Dv}，其中Dj(j=1,2,…,v)包含D中屬于Q屬性值為qj的所有元組，屬性Q在對(duì)D的分類(lèi)區(qū)域進(jìn)行劃分時(shí)，正是需要權(quán)重全屬性這一分類(lèi)量。由此，權(quán)重屬性熵E(Q)可表示為[11]式(3)。

(3)

權(quán)重屬性熵增量ΔE即為E(S)與E(Q)之間產(chǎn)生的增量，因此ΔE可表示為式(4)。

ΔE=E(S)-E(Q)=E(S1,S2,…,Sk)-E(Q)

(4)

根據(jù)上式可得出結(jié)論：E(Q)值越小則分類(lèi)效果越優(yōu)，即權(quán)重屬性熵增量ΔE影響分類(lèi)效果的優(yōu)劣，其值越大則分類(lèi)效果越優(yōu)。

權(quán)重屬性熵增量ΔE適用于數(shù)據(jù)表D數(shù)內(nèi)Q出現(xiàn)較多的情況。但是，在通過(guò)權(quán)重屬性熵增量ΔE對(duì)分類(lèi)準(zhǔn)確性進(jìn)行分析時(shí)，無(wú)法避免偏重問(wèn)題。針對(duì)這一問(wèn)題，可以通過(guò)權(quán)重屬性熵增量比率ΔE′來(lái)解決。ΔE′為ΔE與屬性Q的信息熵的比值，可表示為式(5)、式(6)。

ΔE′=ΔE/E(Q)′

(5)

其中,E(Q)′即屬性Q的信息熵:

(6)

根據(jù)式3與式5可以得出結(jié)論：權(quán)重屬性熵增量比率越大，則分類(lèi)的準(zhǔn)確性則越優(yōu)。

1.3 隱私數(shù)據(jù)損失的度量

屬性QI包含了分類(lèi)屬性與數(shù)值屬性，在進(jìn)行隱私保護(hù)的過(guò)程中會(huì)導(dǎo)致屬性信息損失。對(duì)此，采取加權(quán)確定性代價(jià)的方式，在獲取屬性QI隱私屬性的過(guò)程中進(jìn)行匿名損失信息度量[12-15]。

(1) 分類(lèi)型屬性匿名損失

對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2}，其分類(lèi)屬性為QCj(j=1,2,…,m1)，對(duì)應(yīng)的分類(lèi)樹(shù)為T(mén)j(j=1,2,…,m1)。對(duì)于任意元組t中的任意某一分類(lèi)屬性，將其值vj匿名泛化后得到先祖節(jié)點(diǎn)值pj，由此可將分類(lèi)屬性的匿名損失表示為式(7)。

(7)

其中，k為S值的數(shù)量，wj為QCj(j=1,2…,m1)的分類(lèi)權(quán)重，|pj|為pj內(nèi)的葉節(jié)點(diǎn)數(shù)量，|Tj|為T(mén)j內(nèi)的葉子節(jié)點(diǎn)數(shù)量。

匿名泛化后，分類(lèi)屬性匿名損失為式(8)。

(8)

(2) 數(shù)值型屬性匿名損失

對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2}，其數(shù)值屬性為QNj(j=1,2,…,m2)，對(duì)應(yīng)的取值域?yàn)镼Dj(j=1,2,…,m2)。對(duì)于任意元組t中的任意某一數(shù)值型屬性，將其值bj泛化后得到對(duì)應(yīng)區(qū)間[aj,cj](aj≤bj≤cj)，由此可將數(shù)值型屬性的匿名損失表示為式(9)。

(9)

其中，k為S值的數(shù)量，wj為QNj(j=1,2…,m1)的分類(lèi)權(quán)重，|QDj|=max(QNj)-min(QNj)。

匿名泛化后，數(shù)值型屬性匿名損失為式(10)。

(10)

(3) 所有元組匿名損失

對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2}，其分類(lèi)屬性為QCj(j=1,2,…,m1)，對(duì)應(yīng)的分類(lèi)樹(shù)為T(mén)j(j=1,2,…,m1)，其數(shù)值屬性為QNj(j=1,2,…,m2)，對(duì)應(yīng)的取值域?yàn)镼Dj(j=1,2,…,m2)。元組t匿名泛化后元組匿名損失為式(11)。

PL(t)=PLQCj(t)+PLQNj(t)

(11)

由于D的PL(D)為數(shù)據(jù)表內(nèi)各PL(t)的和，因此D的匿名損失為式(12)。

(12)

1.4 分類(lèi)匿名保護(hù)的度量

分類(lèi)匿名保護(hù)度cap為ΔE′與PL(D)的比值，表示為[16]式(13)。

(13)

分類(lèi)匿名保護(hù)度cap越大，則分類(lèi)效果越優(yōu)。根據(jù)式13可知，ΔE′越大則分類(lèi)匿名保護(hù)度cap越大，PL(D)越大則分類(lèi)匿名保護(hù)度cap越小。

1.5 基于權(quán)重屬性熵的分類(lèi)匿名模型構(gòu)建

針對(duì)各種準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)影響問(wèn)題，為了滿(mǎn)足數(shù)據(jù)分類(lèi)應(yīng)用的匿名要求，采用了一種基于權(quán)重屬性熵的分類(lèi)匿名算法。該算法基于分類(lèi)熵概念，通過(guò)匿名方式來(lái)完成數(shù)據(jù)集的等價(jià)分類(lèi)，并以分類(lèi)匿名保護(hù)條件來(lái)解決分類(lèi)效果與隱私信息損失之間的問(wèn)題。具體核心步驟為：

(1) 對(duì)于給定的樣本數(shù)據(jù)表D,通過(guò)計(jì)算敏感屬性S的信息熵E(S1,S2,…,Sk)，得到QI對(duì)敏感屬性S的熵值，以此來(lái)直觀地展現(xiàn)分類(lèi)信息；

(2) 計(jì)算ΔE與屬性Q的信息熵的比值ΔE′，以此判定各屬性Q對(duì)敏感屬性S的分類(lèi)重要程度，并且通過(guò)將分類(lèi)權(quán)重熵增量比ΔE′值進(jìn)行排序，有效選擇分裂結(jié)點(diǎn)；

(3) 將max ΔE′的屬性QI作為分裂節(jié)點(diǎn)，并通過(guò)分類(lèi)匿名保護(hù)度cap判定分類(lèi)效果與隱私信息損失之間的平衡，然后根據(jù)分類(lèi)能力對(duì)分裂屬性進(jìn)行等價(jià)劃分并保存；

(4) 對(duì)上述進(jìn)行遞歸操作，遍歷分類(lèi)樹(shù)后對(duì)余下葉子結(jié)點(diǎn)進(jìn)行匿名操作，將其等價(jià)分類(lèi)，直至滿(mǎn)足匿名要求后，輸出匿名后的結(jié)果。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)可用性分析

對(duì)于數(shù)據(jù)可用性，主要采用數(shù)據(jù)分類(lèi)準(zhǔn)確性進(jìn)行分析檢驗(yàn)，具體方法是通過(guò)分類(lèi)樹(shù)C4.5分類(lèi)模型以及貝葉斯分類(lèi)模型，將本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法與原始數(shù)據(jù)集、Top-down算法以及IACK算法進(jìn)行對(duì)比，以此分析驗(yàn)證分類(lèi)準(zhǔn)確性。

將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8，參數(shù)值K={2,4,6,8,10}。原始數(shù)據(jù)oridi-data與各算法在分類(lèi)樹(shù)C4.5分類(lèi)模型上的分類(lèi)精度情況如圖1所示。

圖1 分類(lèi)樹(shù)C4.5分類(lèi)模型上的分類(lèi)精度

原始數(shù)據(jù)oridi-data與各算法在貝葉斯分類(lèi)模型上的分類(lèi)精度情況如圖2所示。

從圖1與圖2所示的對(duì)比情況可以看到：原始數(shù)據(jù)oridi-data未經(jīng)過(guò)匿名處理，因此其分類(lèi)準(zhǔn)確性并沒(méi)有隨K值的變化而變化；三種算法則由于隱私處理過(guò)程中的匿名泛化操作而導(dǎo)致屬性信息損失，因此三種算法的分類(lèi)準(zhǔn)確性隨著K值的持續(xù)增大而不斷降低。相較而言，本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的分類(lèi)精度，其最低值為77%，在整體上高于其他兩種算法的分類(lèi)精度。由此可知，基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)具有較高的分類(lèi)可用性。

圖2 貝葉斯分類(lèi)模型上的分類(lèi)精度

2.2 匿名信息損失分析

對(duì)于匿名信息損失，主要采用隱私數(shù)據(jù)損失衡量進(jìn)行分析檢驗(yàn)，具體方法是將基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)與Top-down算法以及IACK算法在不同K值下的匿名信息損失進(jìn)行對(duì)比，以此進(jìn)行分析驗(yàn)證。

將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8，參數(shù)值K={2,4,6,8,10}，三種算法在不同K值下的匿名信息損失對(duì)比情況如圖3所示。

圖3 不同K值下的匿名信息損失

如圖3所示，三種算法的隱私匿名損失隨K值增加而相應(yīng)增加。分析其原因，是因?yàn)榈葍r(jià)類(lèi)中元組數(shù)量隨著K值的增加而增加，導(dǎo)致三種算法的準(zhǔn)標(biāo)識(shí)符屬性泛化程度提高。相較而言，IACK算法的匿名信息損失最大，而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的目標(biāo)為分類(lèi)匿名保護(hù)度最高，通過(guò)分類(lèi)匿名保護(hù)度cap判定分類(lèi)效果與隱私信息損失之間的平衡，因此其匿名信息損失則相對(duì)較小，平均約為18%。

將參數(shù)值K設(shè)為K=6，準(zhǔn)標(biāo)識(shí)符屬性QI設(shè)為|QI|={2,4,6,8}。三種算法在不同QI值下的匿名信息損失對(duì)比情況如圖4所示。

圖4 不同QI值下的匿名損失

如圖4所示，三種算法的隱私匿名損失隨準(zhǔn)標(biāo)識(shí)符屬性QI增加而相應(yīng)增加。分析其原因，是因?yàn)榈葍r(jià)類(lèi)中需泛化的屬性數(shù)量隨準(zhǔn)標(biāo)識(shí)符屬性QI的增加而增加，導(dǎo)致三種算法的隱私匿名損失增加。相較而言，IACK算法由于采用互信息熵進(jìn)行屬性泛化，篩除了所有不滿(mǎn)足匿名要求的信息，因此其匿名信息損失最大，而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的匿名信息損失則相對(duì)較小。

2.4 執(zhí)行時(shí)間分析

對(duì)于執(zhí)行時(shí)間，本文主要是在準(zhǔn)標(biāo)識(shí)符屬性恒定而K值不斷變化的情況下，對(duì)基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)、Top-down以及IACK等三種算法的執(zhí)行時(shí)間進(jìn)行對(duì)比分析。

將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8，參數(shù)值K={2,4,6,8,10}，三種算法在不同K值下的執(zhí)行時(shí)間對(duì)比情況如圖5所示。

圖5 不同K值下的執(zhí)行時(shí)間

從圖5中可以看到，基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)、Top-down以及IACK等三種算法的執(zhí)行時(shí)間均隨著K值的增加而增加，而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的執(zhí)行時(shí)間略高于其他兩種算法。分析WECA算法執(zhí)行時(shí)間略高的原因，是因?yàn)樵撍惴榱似胶怆[私保護(hù)與數(shù)據(jù)可用性，在其分類(lèi)過(guò)程中需要同時(shí)考慮敏感屬性的信息熵以及不同準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)重要程度，因此該算法執(zhí)行時(shí)間略高是可以接受的。

以上實(shí)驗(yàn)綜合可以得出，以上結(jié)論主要是對(duì)面向分類(lèi)屬性熵的隱私匿名方法進(jìn)行研究，從而得出一種基于權(quán)重性熵的分類(lèi)匿名算法分析，以上實(shí)驗(yàn)首先是引入問(wèn)題，解析了目前大多數(shù)匿名模型和算法在保證數(shù)據(jù)隱私和可用性二者之間的一個(gè)平衡問(wèn)題上單獨(dú)的考慮了敏感屬性的敏感度量對(duì)原始數(shù)據(jù)進(jìn)行匿名的方法，并沒(méi)有考慮到不同的標(biāo)準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性之間的重要程度的研究現(xiàn)狀，然后引入了匿名要就及泛化層次，并且分析了隱私匿名數(shù)據(jù)損失度量，之后又重點(diǎn)分析并提出了權(quán)重屬性熵分類(lèi)匿名算法，引入了信息熵，通過(guò)對(duì)不同的標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)重要程度的大小來(lái)構(gòu)建分類(lèi)匿名模型，接著構(gòu)建了隱私分類(lèi)匿名保護(hù)度量來(lái)獲得更高數(shù)據(jù)的可用性和隱私安全性。最后證實(shí)了實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集。

3 總結(jié)

綜合上述幾項(xiàng)實(shí)驗(yàn)的驗(yàn)證結(jié)果可知，相較于Top-down算法與IACK算法，本文所提出的本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)雖然執(zhí)行時(shí)間略高，但是能夠在保護(hù)數(shù)據(jù)隱私性的同時(shí)，兼顧分類(lèi)精度問(wèn)題，使數(shù)據(jù)可用性達(dá)到較高的水平。由此得出本文構(gòu)建的隱私保護(hù)模型，在保護(hù)隱私安全的情況下，可提高數(shù)據(jù)的可用性，具有一定的借鑒價(jià)值。