999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合K- means 與指數機制的直方圖發布算法

2022-07-24 08:41:38張國興趙俊杰
科學技術創新 2022年21期
關鍵詞:實驗

張國興 趙俊杰 楊 杰

(中南民族大學計算機科學學院,湖北 武漢 430074)

1 概述

直方圖是一種常用的統計學工具,其通過桶計數來表達數據的統計特征。直方圖在數據共享、數據發布領域有著廣泛的應用。企業可以將用戶數據采集,匯總成為直方圖發布給第三方進行數據挖掘,從而獲取數據中有價值的信息。在數據發布的過程中,攻擊者通過獲取足夠多的背景知識,可以結合直方圖推斷出用戶信息,導致用戶的隱私信息泄露。例如,圖1 是某疾控中心發布的患病人數統計直方圖。若攻擊者已知Bob 存在于該直方圖中,并且掌握了除Bob 以外的其他患者所有信息,攻擊者可以通過查詢對比Bob 加入之前與之后的直方圖變化信息,從而推斷出Bob 所患的疾病。

圖1 患病人數統計直方圖

因此,為了保護數據的隱私。Dwork[1]等人提出了一種新型的隱私保護方案-差分隱私。差分隱私[1]作為一種較為流行的隱私保護技術,是一種嚴謹的數學模型,能夠為隱私保護提供可以量化的保證。其被廣泛應用于直方圖數據發布領域。但差分隱私存在一個明顯的缺點:在對數據進行隱私保護時,會使得數據的可用性下降。因此,如何在對直方圖進行隱私保護的同時,盡可能的保證數據的可用性,是該領域的研究重點。

本文主要貢獻如下:(1) 提出了一種融合K-means 與指數機制的直方圖發布算法 (Histogram publishing algorithm integrating K -means and Exponential mechanism;IKEM)。算法首先利用指數機制結合輪盤賭抽樣選取聚類中心點,使各中心點在數據中分布盡量離散;然后利用選取好的中心點對直方圖進行全局聚類分組;最后對分組添加噪聲并發布。(2)理論分析了IKEM 滿足ε-差分隱私。(3)通過實驗分析,表明了該算法在滿足隱私性的同時,可用性優于同類算法AHP[2]和IHP[3]。

2 背景知識

差分隱私要求相鄰數據庫中無論一條記錄是否在數據庫中,對算法的輸出結果都不會產生顯著的影響。

定義1 差分隱私定義[1]。對于相鄰數據集D1與D2,range(M)表示隨機算法M 的所有輸出的集合。Q 為range(M)的子集,若算法M 滿足:

3 融合K-means 與指數機制的直方圖發布算法

本文采用k-means 算法對直方圖數據進行分組聚類,但初始中心點的選取直接決定了分組的效果,若K個初始中心點屬于同一個簇,則會降低分組的準確性,因此要求聚類中心點選取盡量離散。

3.1 算法介紹

3.2 算法描述

本節對IKEM 算法描述包括:聚類中心點選取算法CPSA、k-means 聚類分組、分組求均值和添加拉普拉斯噪聲,具體過程描述如下:

由(4)式結合全局敏感度的定義可知,打分函數在相鄰數據集的直方圖上的的最大變化范圍為1,因此△u=1將(4)式代入(3)式中可以看出,待抽取的桶與已有各中心點間的最短距離越大,適應度函數值就越大,得到的抽樣概率也越大。

4 隱私性分析

5 可用性分析

5.1 評價標準

實驗主要采用均方誤差(MSE)作為算法可用性評估標準度量,表達式如下:

MSE 表示在查詢范圍Q 內,算法在原始直方圖與加噪直方圖之間產生的絕對誤差平方和的均值。實驗中,在相同的查詢范圍和隱私預算下,MSE 越小,發布直方圖數據可用性越高。

5.2 實驗環境

本文進行實驗的顯卡為AMD Ryzen 5 3600-6-Core Processor 3.60GHz;16G 內存;實驗平臺為windows10 系統;實驗所采用的方法為IKEM 算法、AHP 算法和IHP算法;通過對比實驗結果來對算法進行分析。實驗所用的數據集來自直方圖發布研究常用數據集socialnetwork;socialnetwork 包含了一個在線網站的65536 條人際關系的記錄。

5.3 實驗分析

實驗采用Java 語言實現IKEM、AHP 和IHP 算法。

分別以三種算法對上述socialnetwork 數據集處理30次,隱私預算分別取ln2、1 和1.5,最后取其平均值為最終處理結果,查詢范圍100~1000。實驗結果如圖2 所示。

從圖2 中的實驗結果中可以得出結論:三種算法的MSE 隨著隱私預算 的增大而減小,對應的隱私保護程度也隨之降低。固定查詢范圍和隱私預算可以看出,IHP算法利用層次劃分原理對直方圖進行分組劃分,在離散數值過多的數據集上,其劃分精度較低,查詢誤差也較大;AHP 算法由于是對添加噪聲之后的中間直方圖進行排序,其排序過程引入了額外的噪聲,導致查詢誤差較大,從而降低了數據的可用性;本文的IKEM 算法首先利用聚類中心點選取算法進行聚類中心點的選取,使中心點在數據中的分布盡量離散;然后對數據進行聚類劃分;最后對分組劃分添加噪聲,通過合理選取中心點提升了分組的準確性,進而提升了發布數據的可用性。

圖2 socialnetwork 數據集下算法對比結果

6 結論

針對直方圖數據發布中存在的數據可用性較差問題,本文提出了一種融合K-means 與指數機制的直方圖發布算法。該算法利用最短距離結合指數機制對抽樣出直方圖的聚類中心點,使聚類中心點在直方圖數據中的分布盡量離散,在保證數據隱私性的前提下,有效降低了分組誤差精度,提升了數據的可用性。下一步工作考慮算法優化,并將算法應用在動態數據流直方圖發布領域的研究。

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 精品亚洲欧美中文字幕在线看| 亚洲无码高清一区二区| 国产日本欧美在线观看| 日韩大乳视频中文字幕| 国产精品女人呻吟在线观看| 亚洲侵犯无码网址在线观看| 毛片一级在线| 亚洲天堂精品在线观看| 波多野结衣第一页| 久久精品这里只有精99品| 国产视频久久久久| 婷婷六月激情综合一区| 亚洲日本中文字幕乱码中文 | 91色在线观看| 手机精品福利在线观看| 久操中文在线| 国产一区在线观看无码| 伊大人香蕉久久网欧美| 九色国产在线| 波多野结衣一区二区三区AV| 日韩麻豆小视频| 亚洲热线99精品视频| 国产微拍精品| av色爱 天堂网| 日本精品中文字幕在线不卡| 国产一二三区视频| 亚洲国产成人无码AV在线影院L| 看你懂的巨臀中文字幕一区二区 | 国产三级视频网站| 国产精品思思热在线| 欧美另类第一页| 亚洲视屏在线观看| 国产成人盗摄精品| 国产精品天干天干在线观看| 不卡国产视频第一页| 91小视频在线观看| 五月婷婷伊人网| 色婷婷久久| 欧美特级AAAAAA视频免费观看| 伊人网址在线| 青青操国产视频| av天堂最新版在线| 91蜜芽尤物福利在线观看| 日本影院一区| 一本一道波多野结衣av黑人在线| 精品国产成人a在线观看| 欧美高清三区| 青草免费在线观看| 午夜国产在线观看| 午夜视频日本| 欧美精品亚洲二区| 热久久这里是精品6免费观看| 另类欧美日韩| 毛片大全免费观看| 午夜精品区| 色有码无码视频| 国产玖玖玖精品视频| 亚洲综合久久成人AV| 免费观看精品视频999| 22sihu国产精品视频影视资讯| 亚洲天堂精品视频| 91精品啪在线观看国产| 午夜小视频在线| 一区二区三区四区日韩| 第一页亚洲| 99伊人精品| 欧美伦理一区| 成人va亚洲va欧美天堂| 中文字幕va| 国产麻豆va精品视频| 亚洲资源站av无码网址| 蜜芽国产尤物av尤物在线看| 伊人成色综合网| 国产成+人+综合+亚洲欧美| 中文成人在线视频| 久久香蕉国产线看观看亚洲片| 国产麻豆aⅴ精品无码| 亚洲视频色图| 亚洲天堂成人在线观看| 婷婷午夜影院| 在线亚洲精品福利网址导航| 一级毛片在线播放|