999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多敏感屬性K-匿名模型的實現?

2017-08-01 13:49:54王靜閆仁武劉亞梅
計算機與數字工程 2017年7期
關鍵詞:信息模型

王靜 閆仁武 劉亞梅

(江蘇科技大學計算機科學與工程學院鎮江212003)

多敏感屬性K-匿名模型的實現?

王靜 閆仁武 劉亞梅

(江蘇科技大學計算機科學與工程學院鎮江212003)

L-MDAV算法結合L-多樣性模型和MDAV微聚集算法來實現K-匿名模型,但是L-MDAV算法只考慮了單一敏感屬性下的約束,而在實際發布的數據中不可能只有一個敏感屬性,論文在該算法的基礎上提出了基于多敏感屬性的MDAV算法,文中僅以兩種敏感屬性為例,因此算法命名為(L1,L2)-MDAV算法。論文在根據用戶不同敏感屬性的不同保護需求下為用戶個性化定義敏感屬性的敏感度。實驗結果表明,論文提出的算法相比于L-MDAV算法能夠更好地保護隱私數據安全。

多敏感屬性;K-匿名;L-多樣性;微聚集算法

Class NumberTP3-05

1 引言

在享受信息技術快速發展所帶來的便捷的同時,我們暴露了大量與個體相關的數據。這些數據被各個部門或者研究機構收集并且發布,這一趨勢所帶來的危害是更多的個人隱私數據得不到保護,造成大量的隱私泄露。

為了保護數據發布過程中隱私數據的安全,研究者們提出了數據匿名發布技術,先后出現了K-匿名模型[1]、L-多樣性模型[2]、T-接近模型[3]等匿名隱私保護模型。

上述幾種模型通常采用泛化[4]技術來實現,然而通過泛化技術得到的數據質量無法得到保證,往往失真度較高,且算法的時間復雜度較大。因此,微聚集算法應用于隱私保護模型得到大量研究[5]。

考慮到實際應用中發布的數據不可能只有一個敏感屬性,因此本文在實現單敏感屬性L-多樣性的L-MDAV算法[6]的基礎上提出了基于多敏感屬性[7]的L-多樣性的MDAV算法。本文的算法適合多敏感屬性,但是為了更好地描述,文中以兩個敏感屬性為例,因此算法命名為(L1,L2)-MDAV算法。

2 相關概念

定義1(準標識符)給定一個表T,當通過一組屬性集合與外部表鏈接可以獲得識別個體的元組信息,則稱該屬性集合為表T的準標識符。

定義2(K-匿名)給定表T中的一個元組,如果表中有至少K-1個元組與該元組存在相同的準標識符,則稱該元組滿足K-匿名。

定義3(K-劃分)給定一個表T,將該表基于準標識符劃分成g個類,其中每個類的元組個數要大于等于K,稱滿足這類劃分的表為K-劃分。

定義4(聚集)將給定的表基于該表的準標識符進行K-劃分為g個類,用每個類的質心來代替給定數據表每個類的所有元素稱為聚集。

定義5(L-多樣性)對于給定的表T,若該表的等價類中至少含有L個“表現良好“[8]的敏感屬性,則稱該等價類滿足L-多樣性模型。

表1 原始數據表

表1所示為原始的發布數據,name是顯式標識符,{age,sex,zipcode}是準標識符,disease是敏感屬性。表2是表1的2-多樣性表。

表2 多樣化后的數據表

3 度量空間

對于給定的表T,其屬性又分為連續型和分類型屬性,本文重點以連續型屬性為例來實現K-匿名模型。

3.1 數據標準化

考慮到不同的連續型屬性會有不同的單位以及不同的取值范圍,比如年齡通常取值是兩位數,而郵編如45000,這樣兩個取值范圍差距較大的不同屬性值往往會對結果造成較大的差異,導致不能準確地衡量兩個元組之間的實際距離。本文首先對數據進行預處理,去除異常值,然后用式(1)對預處理后的數據進行標準化來提高實驗結果的可靠性。本文選擇用極差法[9]將全部屬性值映射到[0,1]區間,公式如下:

其中X為新數據,x為原數據,Xmin是屬性X取值的最小值,Xmax是屬性X取值的最大值。

3.2 距離度量

假設元組i和元組j經過數據標準化處理后表示為Xi=(xi1,xi2,…,xip),Xj=(xj1,xj2,…,xjp)元組為p維向量,則元組Xi和元組Xj之間的距離用歐幾里得距離公式表示為

3.3 微聚集算法的評價標準

3.3.1 數據的信息損失

本文采用EM4ADOM模型[10]來計算數據信息損失量。本文主要描述連續型數據,分類型數據的距離和信息損失度量見文獻[11]。

類的同質性測度SSE如式(3)所示:

其中g為類的個數,ni為第i類的元組個數,

數據表同質性測度SST如式(4)所示:

給定一個數據表,該表的同質性測度SST是不會變的,但是對于不同的算法或者不同的參數值所劃分的表SSE是不同的。因此信息損失量IL用式(5)計算

3.3.2 數據泄密風險

本文用基于距離的記錄鏈接(DLD)模型[12]來衡量匿名表中數據泄密風險。

定義6(鏈接成功)從匿名表中任意選擇一個元組r,計算出原始表中所有的元組到r的距離,把最近的元組記為r(1),第二近的元組記為r(2),如果r是由若r(1)(或者r(2))匿名化得到的,則稱r鏈接成功。

設匿名表共有M條記錄,其中有N條鏈接成功的記錄,則DLD模型的泄密風險值用式(6)計算:

4 基于多敏感屬性的(L1,L2)-MDAV算法

4.1 多敏感屬性匿名模型的發布方法

基于多敏感屬性的(L1,L2)-MDAV算法,本文說明僅以兩個敏感屬性為例,多個敏感屬性方法以此類推。首先為兩個敏感屬性定義敏感度,不同的用戶所要保護的敏感屬性的級別是不同的,因此,用戶可以根據自身需求定義不同敏感屬性的敏感度,再根據不同的L值對敏感數據實行不同的級別約束,以滿足用戶的個性化需求。表3以兩個敏感屬性disease和occupation為例,將disease定義更高的敏感度。

表3 敏感屬性的敏感度以及l值

表4 原始數據表

表4中{age,zipcode}為準標識符,disease和oc-cupation為敏感屬性。表5是表4的(3,2)-多樣性表。

表5 多樣化后的數據表

4.2 (L1,L2)-MDAV算法

輸入:待發布數據表T,兩個不同敏感屬性的多樣性參數L1,L2

輸出:滿足多敏感屬性(L1,L2)-多樣性約束的匿名表T′

步驟:

1)T′=T;

2)計算數據表T中所有記錄的中心xˉ;

3)找出數據表中離中心xˉ最遠的記錄r;

4)在表T′以r為中心,找出離r最近的K-1條記錄與r組成一個類,并且要求類中第一敏感屬性和第二敏感屬性分別滿足L1-多樣性和L2-多樣性;

5)從表T中刪除這些記錄;

6)若表T中剩下記錄第一敏感值的多樣性大于2L1且第二敏感屬性值的多樣性大于2L2,則執行步驟2);

7)若表T中剩下的記錄第一敏感屬性值多樣性在[L1,2L1-1]或者第二敏感屬性值多樣性在[L2,2L2-1]中,則剩下的記錄歸為一類;

8)否則,將表T中剩下的記錄分別計算到所有類中心的距離,選擇距離最小的類進行插入;

9)輸出滿足多敏感屬性(L1,L2)-多樣性約束的匿名表T′。

5 實驗結果與分析

本文實驗平臺為Core2.2GHz/4GB,Windows7,涉及的代碼使用Matlab實現。采用census微數據[13]集作為測試數據,實現了MDAV,L-MDAV以及本文提出的(L1,L2)-MDAV三種算法在該數據集下的信息損失量與數據泄密風險的比較。

5.1 信息損失量比較

5.1.1 L值不變,隨K值的變化情況

圖1各算法信息損失量隨k變化情況

信息損失量采用式(5)計算,由圖1可以看出K值變大,三種算法的信息損失均會變大,這是因為類越大,類的同質性會越大,因此信息損失量會變大。固定K值,三種算法的信息損失量由小到大依次是MDAV、L-MDAV、(L1,L2)-MDAV,這是因為三種算法的約束性是越來越強,類的平均大小會有所增加,因此數據的信息損失也會增加。

5.1.2 K值不變,隨L值的變化情況

圖2固定K值與約束L2的值,通過一個敏感屬性的多樣性參數的變化來比較L-MDAV和(L1,L2)-MDAV兩種算法的信息損失。可以看出,L值變大,信息損失量也會變大,并且(L1,L2)-MDAV算法的信息損失量較L-MDAV大,因為(L1,L2)-MDAV的約束更強。

圖2各算法信息損失量隨L變化情況

5.2 泄密風險評估

5.2.1 L值不變,隨K值的變化情況

泄密風險采用式(6)計算,圖3表明,隨著K值的增大,三種算法的泄密風險均變小,且本文提出的(L1,L2)-MDAV算法泄密風險最小,因為該算法是對多敏感屬性進行約束,約束性較前兩個算法都強,從而使得鏈接成功的元組數會變少,因此泄密風險減小。可以看出,(L1,L2)-MDAV算法不僅能滿足用戶對不同敏感屬性的個性化保護需求,還能減小發布數據的泄密風險。

圖3各算法泄密風險隨K變化情況

5.2.2 K值不變,隨L值變化情況

圖4固定K值和約束L2的值,該圖表明兩個算法隨著L值的增大泄密風險變小,并且(L1,L2)-MDAV算法的泄密風險較L-MDAV算法更小,這是因為增加了第二敏感屬性的約束,使得算法約束性更強,從而減小了數據泄密的風險。

圖4各算法泄密風險隨l變化情況

6 結語

(L1,L2)-MDAV算法在L-MDAV算法的基礎上增加了多敏感約束條件。從安全性上看,(L1,L2)-MDAV算法的約束條件更強,因此能達到更好的數據保密效果;從信息損失量上看,(L1,L2)-MDAV算法由于約束性較強,使得數據失真度較高,但是從算法的實驗結果來看,該算法與其他兩個算法的信息損失量差別不大;從實際出發,在數據發布的過程中,數據不可能只有一個敏感屬性,本文提出多敏感屬性個性化微聚集算法具有一定的實用價值。總之,本文提出的算法能更好地實現用戶的個性化需求,并能保證數據更小的泄密風險,獲得更安全的匿名表。

本文選擇的微聚集算法是定長微聚集算法MDAV算法,而變長微聚集算法如TFRP[14]、MST[15]等具有聚類質量高的優點,因此論文的下一步工作是研究基于滿足多敏感屬性多樣性的變長微聚集算法,以期得到更高質量的匿名表。

[1]Sweeney L.k-ANONYMITY:A MODEL FOR PROTECT?ING PRIVACY 1[J].International J-ournal of Uncertain?ty,Fuzziness and Knowledge-Based Systems,2008,10(5):557-570.

[2]Machanavajjhala A,Gehrke J,Kifer D,et al.L-diversi?ty:privacy beyond k-anonymity[J].A-cm Transactions on Knowledge Discovery from Data,2006,1(1):24-24.

[3]張健沛,謝靜,楊靜,等.基于敏感屬性值語義桶分組的t-closeness隱私模型[J].計算機研究與發展,2014,51(1):126-137. ZHANG Jianpei,XIE Jing,YANG Jing.A t-c-loseness Privacy Model Based on Sensitive A-ttribute Values Se?mantics Bucketization[J].Journal of Computer Research and Development,2014,51(1):126-137.

[4]劉樂偉.面向多敏感屬性的隱私保護方法研究[D].北京:北京工業大學,2013. LIU Lewei.Research of privacy preserving methods for multiple seneitive attributes[D].Beijing:Beijing Universi?ty of Technology,2013.

[5]程亮,蔣凡.基于微聚集的a-多樣性k-匿名大數據隱私保護[J].信息網絡安全,2015(3):19-22. CHENG Liang,JIANG Fan.a-diversity and k-anonymity Big Data Pri-vacy Preservation Based on Micro-aggrega?tion[J].Netinfo Security,2015(3):19-22.

[6]王茜,張剛景.實現單敏感屬性多樣性的微聚集算法[J].計算機工程與應用,2015(11):72-75. WANG Qian,ZHANG Gangjing.Microaggregation algo?rithm for single sensitive attribute diversely[J].Computer Engineering and Applications,2015(11):72-75.

[7]唐印滸,鐘誠.基于變長聚類的多敏感屬性概率k-匿名算法[J].計算機工程與設計,2014(8):2660-2665. TANG Yinhu,ZHONG Cheng.Probabilistic k-anonymity algo-rithm with multi-sensitive attributes based on variab len-gth clustering[J].Computer Engineering and Design,2014(8):2660-2665.

[8]Domingo-Ferrer J,Mateo-Sanz J M,Torra V.Comparing SDC Methods for Microdata on the Basis of Information LossandDisclosure[C]//ProceedingsofETK-NTTS 2001,Luxemburg:Eurostat,2001.

[9]Chang C C,Li Y C,Huang W H.TFRP:An efficient mi?croaggregation algorithm for statistical disclosure control[J].Journal of Systems&Software,2007,80(11):1866-1878.

[10]陳建明,韓建民.面向微聚集技術的k-匿名數據質量評估模型[J].計算機應用研究,2010,27(6):2344-2347. CHEN Jianming,HAN Jianmin.valuation model for q-uality of k-anonymity data oriented to microa-ggre?gat-ion[J].Application Research of Computers,2010,27(6):2344-2347.

[11]Domingo-Ferrer J,Mateo-Sanz J M.Practical data-ori?ented microaggregation for statistical disclosure control[J].IEEE Transactions on Knowledge&Data Engineer?ing,2002,14(1):189-201.

[12]王茜,甘榮慶.一種高效的微聚集k-匿名算法[J].世界科技研究與發展,2013,35(1):38-40. WANG Qian,GANRongqing.An Efficient Micro-aggre?gation Algorithm f-or K-Anonymity[J].World Sci-tech R&D,2013,35(1):38-40.

[13]Domingo-Ferrer J,Sebé F,Solanas A.A polynomial t-ime approximation to optimal multivariate microag?gr-egation[J].Computers&Mat-hematics with Applica?ti-ons,2008,55(4):714-732.

[14]Laszlo M,Mukherjee S.Minimum Spanning Tree Parti?tioning Algorithm for Microaggregat-ion[J].IEEE Trans?actions on Knowledge&Data Engineering,2010,17(7):902-911.

[15]楊靜,王超,張健沛.基于敏感屬性熵的微聚集算法[J].電子學報,2014,42(7):1327-1337. YANG Jing,WANG Chao,ZHANG Jianpei.Micro-Ag?gregation Algorithm Based on Sensitive Attribute Entropy[J].Acta Electronica Sinica,2014,42(7):1327-1337.

Implementation of K-anonymous Model with Multi-sensitive Attributes

WANG JingYAN RenwuLIU Yamei
(School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang212003)

L-MDAV algorithm combined with L-diversity model and MDAV algorithm to implement the K-anonymous mod?el,but L-MDAV algorithm only considers the single sensitive attribute,in the actual,released data may not have only one sensitive attribute,so,on the basis of the algorithm the article propose a MDAV algorithm with multi-sensitive attributes.In this paper,with only two sensitive attributes as an example,so the algorithm named(L1,L2)-MDAV algorithm.According to user's protection for dif?ferent sensitive attributes have different requirements to define the different values of L.As the experimental results show,the pro?posed algorithm can protect the privacy of privacy data perfectly compared with L-MDAV algorithm.

multi-sensitive,attributes,K-anonymous,L-diversity,microaggregation algorithm

TP3-05

10.3969/j.issn.1672-9722.2017.07.029

2017年1月7日,

2017年2月23日

王靜,女,碩士研究生,研究方向:信息安全,數據挖掘。閆仁武,男,副教授,碩士生導師。劉亞梅,女,碩士研究生,研究方向:數據挖掘。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产拍在线| 99热这里只有精品久久免费| 亚洲三级网站| 91福利免费| 亚洲国产成人久久77| 2021国产乱人伦在线播放| jijzzizz老师出水喷水喷出| www.youjizz.com久久| 毛片在线看网站| 婷婷色在线视频| 国产精品人成在线播放| 亚洲福利视频一区二区| 欧美一区二区三区香蕉视| 午夜限制老子影院888| 在线精品亚洲国产| 亚洲a级毛片| 中文字幕乱码二三区免费| 国产免费福利网站| 综合亚洲色图| 欧美、日韩、国产综合一区| 亚洲中文久久精品无玛| 毛片免费观看视频| 国产精品福利导航| 亚洲精品无码久久久久苍井空| 中文字幕无线码一区| 国产极品粉嫩小泬免费看| 成人午夜精品一级毛片| 国产日韩AV高潮在线| 色成人亚洲| 青草视频免费在线观看| 91精品在线视频观看| 香蕉在线视频网站| 女人18毛片水真多国产| 久久精品人妻中文视频| 青青草原国产| 日本一区二区不卡视频| 国产精品毛片一区| 色丁丁毛片在线观看| 国产精品自拍合集| 亚洲福利视频一区二区| 久久精品只有这里有| 美女啪啪无遮挡| 国产特级毛片aaaaaaa高清| 亚洲中文无码h在线观看| 国产第八页| 欧美另类一区| 无码AV日韩一二三区| 91精品国产91久久久久久三级| 亚洲精品国产综合99| 成人福利一区二区视频在线| 又猛又黄又爽无遮挡的视频网站| 91麻豆精品国产高清在线| 国产成人综合网在线观看| 99久久国产综合精品2023| 最新国产你懂的在线网址| 中文精品久久久久国产网址 | 性激烈欧美三级在线播放| 久久99国产综合精品1| 成年女人a毛片免费视频| 日韩成人高清无码| 四虎永久在线精品影院| 91精品国产一区自在线拍| 久久久久久久久亚洲精品| 一本久道久久综合多人| 婷婷色丁香综合激情| 99re免费视频| 欧美视频在线观看第一页| 国产裸舞福利在线视频合集| 午夜精品国产自在| 国产白浆在线| 又爽又黄又无遮挡网站| 国产一区二区网站| 国产综合精品一区二区| 九九这里只有精品视频| 日韩国产综合精选| 免费看美女自慰的网站| 日本黄色不卡视频| 国产精品视频久| 青青国产成人免费精品视频| 国产在线高清一级毛片| 国产地址二永久伊甸园| 久久精品最新免费国产成人|