賈步忠
(陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院 會(huì)計(jì)二系, 咸陽(yáng) 712000)
隨著現(xiàn)代化智能技術(shù)的高速發(fā)展,各類(lèi)智能系統(tǒng)在給人們的生活帶來(lái)便利的同時(shí),也給人們隱私信息的安全性造成了極大的威脅。目前,大部分企業(yè)為了適應(yīng)市場(chǎng)需求的變化,紛紛開(kāi)始對(duì)用戶(hù)數(shù)據(jù)進(jìn)行深入挖掘,以此獲取對(duì)其更加有利的信息。然而,這些被各企業(yè)深入挖掘出的信息并不具備安全性,其中大多包含一些人們不愿泄露的隱私及敏感信息。許多不法分子為了謀取利益,試圖通過(guò)攻擊各企業(yè)數(shù)據(jù)庫(kù)的方式來(lái)獲取人們身份信息。人們身份信息一旦泄露,將會(huì)對(duì)人身安全及財(cái)產(chǎn)安全造成極大的威脅,嚴(yán)重影響人們的正常生活與工作。
在隱私信息保護(hù)研究領(lǐng)域中,已存在許多隱私敏感信息保護(hù)方法。如王超(2015)一種軌跡特征及動(dòng)態(tài)鄰近性信息保護(hù)方法,從而通過(guò)最小化鄰域扭曲密度的方式來(lái)解決信息損失的問(wèn)題[1];馬飛等[2-7]采用文獻(xiàn)綜述的方式,對(duì)當(dāng)前匿名信息保護(hù)的研究進(jìn)展進(jìn)行了綜述,分別比較了基于k-匿名、Markov鏈、聚類(lèi)、隨機(jī)化等匿名保護(hù)方法的優(yōu)缺點(diǎn);這些方法雖然能夠?qū)θ藗冸[私信息起到一定的保護(hù)作用,但保護(hù)的同時(shí),很多方法都會(huì)對(duì)原數(shù)據(jù)的完整性造成不同程度的破壞。因此,如何在保護(hù)隱私信息不被泄露的同時(shí),又能保障原數(shù)據(jù)的完整性成為隱私信息保護(hù)領(lǐng)域研究的首要難題。當(dāng)前,大部分隱私匿名法在對(duì)隱私信息進(jìn)行保護(hù)時(shí),主要是對(duì)準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性進(jìn)行保護(hù),卻并未對(duì)不同準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性之間的影響進(jìn)行考慮,從而使部分攻擊者通過(guò)鏈接攻擊以及同質(zhì)攻擊就可輕易獲得用戶(hù)隱私信息?;诖?,本文提出一種基于權(quán)重屬性熵的分類(lèi)匿名法,應(yīng)并將其應(yīng)用到隱私信息保護(hù)領(lǐng)域中,并對(duì)其可行性進(jìn)行驗(yàn)證。
對(duì)該模型的構(gòu)建,首先以信息熵作為參考,對(duì)準(zhǔn)標(biāo)識(shí)符屬性對(duì)于敏感屬性分類(lèi)的重要性進(jìn)行估量;然后,對(duì)隱私數(shù)據(jù)損失度知道屬性匿名丟失情況進(jìn)行構(gòu)建;最后,以分類(lèi)匿名保護(hù)度的變化為基礎(chǔ),對(duì)分類(lèi)重要性及隱私匿名算是標(biāo)準(zhǔn)的最優(yōu)平衡進(jìn)行確定,以此賦予數(shù)據(jù)分類(lèi)準(zhǔn)確性及隱私性。
站在PPCM中匿名分類(lèi)方法的角度[8-10],假設(shè)屬性QI具備的不確定性較小,則代表屬性QI具備較高的純凈度,那么屬性QI將具備較佳的分類(lèi)準(zhǔn)確性效果。在屬性不確定性衡量方面,熵屬于一種衡量屬性不確定性的分裂方法。通常情況下,熵主要通過(guò)Top-down方式對(duì)屬性進(jìn)行分裂。
假設(shè)E(x)為某一隨機(jī)變量X的熵,那么E(x)的定義為式(1)。
(1)

假設(shè)設(shè)定的樣本數(shù)據(jù)表D當(dāng)中具備類(lèi)別屬性{C1,C2,…,Ck},其中包含k個(gè)類(lèi)別屬性,樣本數(shù)據(jù)表D中具備Si(i=1,2,…,k)個(gè)屬于類(lèi)Ci的元組。那么,此時(shí)可將給定D中數(shù)據(jù)分類(lèi)信息熵E(S)定義為式(2)。
(2)
假設(shè)屬性Q中具備v個(gè)不同的值{q1,q2,…,qv},數(shù)據(jù)表D被Q劃分成為v個(gè)子分區(qū){D1,D2,…,Dv},其中Dj(j=1,2,…,v)包含D中屬于Q屬性值為qj的所有元組,屬性Q在對(duì)D的分類(lèi)區(qū)域進(jìn)行劃分時(shí),正是需要權(quán)重全屬性這一分類(lèi)量。由此,權(quán)重屬性熵E(Q)可表示為[11]式(3)。
(3)
權(quán)重屬性熵增量ΔE即為E(S)與E(Q)之間產(chǎn)生的增量,因此ΔE可表示為式(4)。
ΔE=E(S)-E(Q)=E(S1,S2,…,Sk)-E(Q)
(4)
根據(jù)上式可得出結(jié)論:E(Q)值越小則分類(lèi)效果越優(yōu),即權(quán)重屬性熵增量ΔE影響分類(lèi)效果的優(yōu)劣,其值越大則分類(lèi)效果越優(yōu)。
權(quán)重屬性熵增量ΔE適用于數(shù)據(jù)表D數(shù)內(nèi)Q出現(xiàn)較多的情況。但是,在通過(guò)權(quán)重屬性熵增量ΔE對(duì)分類(lèi)準(zhǔn)確性進(jìn)行分析時(shí),無(wú)法避免偏重問(wèn)題。針對(duì)這一問(wèn)題,可以通過(guò)權(quán)重屬性熵增量比率ΔE′來(lái)解決。ΔE′為ΔE與屬性Q的信息熵的比值,可表示為式(5)、式(6)。
ΔE′=ΔE/E(Q)′
(5)
其中,E(Q)′即屬性Q的信息熵:
(6)
根據(jù)式3與式5可以得出結(jié)論:權(quán)重屬性熵增量比率越大,則分類(lèi)的準(zhǔn)確性則越優(yōu)。
屬性QI包含了分類(lèi)屬性與數(shù)值屬性,在進(jìn)行隱私保護(hù)的過(guò)程中會(huì)導(dǎo)致屬性信息損失。對(duì)此,采取加權(quán)確定性代價(jià)的方式,在獲取屬性QI隱私屬性的過(guò)程中進(jìn)行匿名損失信息度量[12-15]。
(1) 分類(lèi)型屬性匿名損失
對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2},其分類(lèi)屬性為QCj(j=1,2,…,m1),對(duì)應(yīng)的分類(lèi)樹(shù)為T(mén)j(j=1,2,…,m1)。對(duì)于任意元組t中的任意某一分類(lèi)屬性,將其值vj匿名泛化后得到先祖節(jié)點(diǎn)值pj,由此可將分類(lèi)屬性的匿名損失表示為式(7)。
(7)
其中,k為S值的數(shù)量,wj為QCj(j=1,2…,m1)的分類(lèi)權(quán)重,|pj|為pj內(nèi)的葉節(jié)點(diǎn)數(shù)量,|Tj|為T(mén)j內(nèi)的葉子節(jié)點(diǎn)數(shù)量。
匿名泛化后,分類(lèi)屬性匿名損失為式(8)。
(8)
(2) 數(shù)值型屬性匿名損失
對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2},其數(shù)值屬性為QNj(j=1,2,…,m2),對(duì)應(yīng)的取值域?yàn)镼Dj(j=1,2,…,m2)。對(duì)于任意元組t中的任意某一數(shù)值型屬性,將其值bj泛化后得到對(duì)應(yīng)區(qū)間[aj,cj](aj≤bj≤cj),由此可將數(shù)值型屬性的匿名損失表示為式(9)。
(9)
其中,k為S值的數(shù)量,wj為QNj(j=1,2…,m1)的分類(lèi)權(quán)重,|QDj|=max(QNj)-min(QNj)。
匿名泛化后,數(shù)值型屬性匿名損失為式(10)。
(10)
(3) 所有元組匿名損失
對(duì)于給定屬性QI={QC1,QC2,…,QCm1,QN1,QN2,…,QNm2},其分類(lèi)屬性為QCj(j=1,2,…,m1),對(duì)應(yīng)的分類(lèi)樹(shù)為T(mén)j(j=1,2,…,m1),其數(shù)值屬性為QNj(j=1,2,…,m2),對(duì)應(yīng)的取值域?yàn)镼Dj(j=1,2,…,m2)。元組t匿名泛化后元組匿名損失為式(11)。
PL(t)=PLQCj(t)+PLQNj(t)
(11)
由于D的PL(D)為數(shù)據(jù)表內(nèi)各PL(t)的和,因此D的匿名損失為式(12)。

(12)
分類(lèi)匿名保護(hù)度cap為ΔE′與PL(D)的比值,表示為[16]式(13)。
(13)
分類(lèi)匿名保護(hù)度cap越大,則分類(lèi)效果越優(yōu)。根據(jù)式13可知,ΔE′越大則分類(lèi)匿名保護(hù)度cap越大,PL(D)越大則分類(lèi)匿名保護(hù)度cap越小。
針對(duì)各種準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)影響問(wèn)題,為了滿(mǎn)足數(shù)據(jù)分類(lèi)應(yīng)用的匿名要求,采用了一種基于權(quán)重屬性熵的分類(lèi)匿名算法。該算法基于分類(lèi)熵概念,通過(guò)匿名方式來(lái)完成數(shù)據(jù)集的等價(jià)分類(lèi),并以分類(lèi)匿名保護(hù)條件來(lái)解決分類(lèi)效果與隱私信息損失之間的問(wèn)題。具體核心步驟為:
(1) 對(duì)于給定的樣本數(shù)據(jù)表D,通過(guò)計(jì)算敏感屬性S的信息熵E(S1,S2,…,Sk),得到QI對(duì)敏感屬性S的熵值,以此來(lái)直觀地展現(xiàn)分類(lèi)信息;
(2) 計(jì)算ΔE與屬性Q的信息熵的比值ΔE′,以此判定各屬性Q對(duì)敏感屬性S的分類(lèi)重要程度,并且通過(guò)將分類(lèi)權(quán)重熵增量比ΔE′值進(jìn)行排序,有效選擇分裂結(jié)點(diǎn);
(3) 將max ΔE′的屬性QI作為分裂節(jié)點(diǎn),并通過(guò)分類(lèi)匿名保護(hù)度cap判定分類(lèi)效果與隱私信息損失之間的平衡,然后根據(jù)分類(lèi)能力對(duì)分裂屬性進(jìn)行等價(jià)劃分并保存;
(4) 對(duì)上述進(jìn)行遞歸操作,遍歷分類(lèi)樹(shù)后對(duì)余下葉子結(jié)點(diǎn)進(jìn)行匿名操作,將其等價(jià)分類(lèi),直至滿(mǎn)足匿名要求后,輸出匿名后的結(jié)果。
對(duì)于數(shù)據(jù)可用性,主要采用數(shù)據(jù)分類(lèi)準(zhǔn)確性進(jìn)行分析檢驗(yàn),具體方法是通過(guò)分類(lèi)樹(shù)C4.5分類(lèi)模型以及貝葉斯分類(lèi)模型,將本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法與原始數(shù)據(jù)集、Top-down算法以及IACK算法進(jìn)行對(duì)比,以此分析驗(yàn)證分類(lèi)準(zhǔn)確性。
將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8,參數(shù)值K={2,4,6,8,10}。原始數(shù)據(jù)oridi-data與各算法在分類(lèi)樹(shù)C4.5分類(lèi)模型上的分類(lèi)精度情況如圖1所示。

圖1 分類(lèi)樹(shù)C4.5分類(lèi)模型上的分類(lèi)精度
原始數(shù)據(jù)oridi-data與各算法在貝葉斯分類(lèi)模型上的分類(lèi)精度情況如圖2所示。
從圖1與圖2所示的對(duì)比情況可以看到:原始數(shù)據(jù)oridi-data未經(jīng)過(guò)匿名處理,因此其分類(lèi)準(zhǔn)確性并沒(méi)有隨K值的變化而變化;三種算法則由于隱私處理過(guò)程中的匿名泛化操作而導(dǎo)致屬性信息損失,因此三種算法的分類(lèi)準(zhǔn)確性隨著K值的持續(xù)增大而不斷降低。相較而言,本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的分類(lèi)精度,其最低值為77%,在整體上高于其他兩種算法的分類(lèi)精度。由此可知,基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)具有較高的分類(lèi)可用性。

圖2 貝葉斯分類(lèi)模型上的分類(lèi)精度
對(duì)于匿名信息損失,主要采用隱私數(shù)據(jù)損失衡量進(jìn)行分析檢驗(yàn),具體方法是將基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)與Top-down算法以及IACK算法在不同K值下的匿名信息損失進(jìn)行對(duì)比,以此進(jìn)行分析驗(yàn)證。
將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8,參數(shù)值K={2,4,6,8,10},三種算法在不同K值下的匿名信息損失對(duì)比情況如圖3所示。

圖3 不同K值下的匿名信息損失
如圖3所示,三種算法的隱私匿名損失隨K值增加而相應(yīng)增加。分析其原因,是因?yàn)榈葍r(jià)類(lèi)中元組數(shù)量隨著K值的增加而增加,導(dǎo)致三種算法的準(zhǔn)標(biāo)識(shí)符屬性泛化程度提高。相較而言,IACK算法的匿名信息損失最大,而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的目標(biāo)為分類(lèi)匿名保護(hù)度最高,通過(guò)分類(lèi)匿名保護(hù)度cap判定分類(lèi)效果與隱私信息損失之間的平衡,因此其匿名信息損失則相對(duì)較小,平均約為18%。
將參數(shù)值K設(shè)為K=6,準(zhǔn)標(biāo)識(shí)符屬性QI設(shè)為|QI|={2,4,6,8}。三種算法在不同QI值下的匿名信息損失對(duì)比情況如圖4所示。

圖4 不同QI值下的匿名損失
如圖4所示,三種算法的隱私匿名損失隨準(zhǔn)標(biāo)識(shí)符屬性QI增加而相應(yīng)增加。分析其原因,是因?yàn)榈葍r(jià)類(lèi)中需泛化的屬性數(shù)量隨準(zhǔn)標(biāo)識(shí)符屬性QI的增加而增加,導(dǎo)致三種算法的隱私匿名損失增加。相較而言,IACK算法由于采用互信息熵進(jìn)行屬性泛化,篩除了所有不滿(mǎn)足匿名要求的信息,因此其匿名信息損失最大,而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的匿名信息損失則相對(duì)較小。
對(duì)于執(zhí)行時(shí)間,本文主要是在準(zhǔn)標(biāo)識(shí)符屬性恒定而K值不斷變化的情況下,對(duì)基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)、Top-down以及IACK等三種算法的執(zhí)行時(shí)間進(jìn)行對(duì)比分析。
將準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)設(shè)為8,參數(shù)值K={2,4,6,8,10},三種算法在不同K值下的執(zhí)行時(shí)間對(duì)比情況如圖5所示。

圖5 不同K值下的執(zhí)行時(shí)間
從圖5中可以看到,基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)、Top-down以及IACK等三種算法的執(zhí)行時(shí)間均隨著K值的增加而增加,而基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)的執(zhí)行時(shí)間略高于其他兩種算法。分析WECA算法執(zhí)行時(shí)間略高的原因,是因?yàn)樵撍惴榱似胶怆[私保護(hù)與數(shù)據(jù)可用性,在其分類(lèi)過(guò)程中需要同時(shí)考慮敏感屬性的信息熵以及不同準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)重要程度,因此該算法執(zhí)行時(shí)間略高是可以接受的。
以上實(shí)驗(yàn)綜合可以得出,以上結(jié)論主要是對(duì)面向分類(lèi)屬性熵的隱私匿名方法進(jìn)行研究,從而得出一種基于權(quán)重性熵的分類(lèi)匿名算法分析,以上實(shí)驗(yàn)首先是引入問(wèn)題,解析了目前大多數(shù)匿名模型和算法在保證數(shù)據(jù)隱私和可用性二者之間的一個(gè)平衡問(wèn)題上單獨(dú)的考慮了敏感屬性的敏感度量對(duì)原始數(shù)據(jù)進(jìn)行匿名的方法,并沒(méi)有考慮到不同的標(biāo)準(zhǔn)標(biāo)識(shí)符屬性對(duì)敏感屬性之間的重要程度的研究現(xiàn)狀,然后引入了匿名要就及泛化層次,并且分析了隱私匿名數(shù)據(jù)損失度量,之后又重點(diǎn)分析并提出了權(quán)重屬性熵分類(lèi)匿名算法,引入了信息熵,通過(guò)對(duì)不同的標(biāo)識(shí)符屬性對(duì)敏感屬性的分類(lèi)重要程度的大小來(lái)構(gòu)建分類(lèi)匿名模型,接著構(gòu)建了隱私分類(lèi)匿名保護(hù)度量來(lái)獲得更高數(shù)據(jù)的可用性和隱私安全性。最后證實(shí)了實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集。
綜合上述幾項(xiàng)實(shí)驗(yàn)的驗(yàn)證結(jié)果可知,相較于Top-down算法與IACK算法,本文所提出的本文所提出的基于權(quán)重屬性熵的分類(lèi)匿名算法(WECA)雖然執(zhí)行時(shí)間略高,但是能夠在保護(hù)數(shù)據(jù)隱私性的同時(shí),兼顧分類(lèi)精度問(wèn)題,使數(shù)據(jù)可用性達(dá)到較高的水平。由此得出本文構(gòu)建的隱私保護(hù)模型,在保護(hù)隱私安全的情況下,可提高數(shù)據(jù)的可用性,具有一定的借鑒價(jià)值。