999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means 方法的MapReduce 模型社交網絡隱私保護研究

2022-12-28 07:53:18張娛嘉張景璐
無線互聯科技 2022年20期
關鍵詞:數據挖掘信息

張娛嘉,張景璐

(1.智己汽車科技有限公司,上海 201210;2.北京電子科技職業學院,北京 100176)

0 引言

使用各種軟件工具和算法對大量數據進行抓取和處理是現代常見的獲取信息途徑。 其中聚類分析是一門重要技術,把相似的對象通過靜態分類的方法分成多種組別和子集,每種子集具有相似的特征和屬性,作為一種非監督性學習,聚類分析可以有效處理數據挖掘、模式識別,圖像分析、網絡入侵檢測、大規模定位和市場細分等領域的問題。

針對內容的聚類分析和數據挖掘等技術的應用中,存在兩個問題,首先是信息的收集與處理需要考慮到隱私保護問題,包括個人的重要身份信息,利用這些信息可能直接或者間接追溯到具體的個人,另外數據挖掘提供有價值信息的同時還可能泄露團體的行為等敏感信息,要在發布信息時確切保護好用戶個人權益,就需要用差分隱私保護。

其次是龐大數據量帶來的效率問題,對海量混雜的大數據進行相關性查找和模式分析時,單個計算機難以保證時間和效率,可以用并行的分布式計算。

聚類分析將未標記的數據集劃分為簇,最廣為使用的算法即是Lloyd’s algorithm,也稱為K-means,Kmeans 需要選擇的參數較少,只需要選擇的參數是K,也就是所需要的簇數和速度,使用分布式計算的MapReduce 框架來實現K-means[1]。 本文提出一種基于MapReduce 的K-means 差分隱私保護法,應對多種背景下的惡意分析。

1 差分隱私保護

定義相鄰兩個數據集,若存在兩個數據庫名為D和D’,在兩個數據庫中,有n條數據,狀態為1 或者0(ai= 1 或者0),這些數據形成一個集合{a1,a2,a3,...,an},這兩個集合就是相鄰集合。 定義一個隨機算法A,對同樣的輸入,該算法的輸出不是固定值,而是服從某一個分布,這個算法分別作用于上述兩個相鄰數據集,得到的兩個輸出分布會變得難以區分,所以差分隱私形式化的定義為:

Pr{A(D)=O} ≤e?Pr{A(D')=O}

當算法A 作用相鄰數據集后,最終得到輸出O 的概率相差較小時,可以認為這個算法能達到差分隱私的效果,這樣觀察者僅僅通過觀察數據處理結果,很難找出具體某條數據的變化,從而保護數據集的隱私問題。

從兩個數據集的拉普拉斯隨機分布圖看,在lamda為0.5,數據集A 值為-5,5,數據集B 為-4,5 的情況下,兩個laplace 分布呈現如圖1 所示的結果,保護隱私的目的需要使兩個分布盡可能接近。

圖1 數據集的Laplace 分布

Pr{A(D)=O}≤e?·Pr{A(D')=O}+δ,δ是一個較小的常數,使用高斯噪聲(Gaussian noise)就可以。新的常數加入,最終結果不可避免會不準確,在數據量較大時噪聲的影響比較小,否則就會導致結果偏離準確值,需要將δ設置成較小數值。 目標是在更少的隱私預算下得到相同的噪聲尺度。

2 MapReduce 框架下的DP K-means 算法

K-means 每次迭代分為兩個階段,第一是去計算最接近均值μi的點的集合Si,第二是將這些新均值作為這些集合的質心,這兩個階段分別是MapReduce 算法的Map 和Reduce 階段。 Map 階段對數據集中的每個點x 進行操作。 最小化這個給定的x 的距離,計算x和每個平均值之間的平方距離,找到最后的平均值μi,發出一個鍵值對,索引i 作為鍵,值是(x, 1)。 函數是:

如圖2 所示,假如相鄰數據A 與數據集B 的數據差分是數據n,對兩個數據集完成一系列查詢操作后,獲得結果1 和結果2,那么比對相鄰數據集A 和B 的差分和兩個結果1 和2 之間的差分,就可以明確得知研究對象n的具體數據,如果有外部觀察者試圖破解結果,只能知道數據集B 與數據集A 相差n 條記錄,收集結果進行分析后,分析者也無法得到單個記錄的信息。 所以MapReduce 框架下的K-means 算法,可以有效防止攻擊者因為簡單的查詢操作而獲得新的信息[4]。

圖2 差分隱私算法應對的攻擊模式

3 算法設計

4 可用性實驗

為了驗證新的Map-Reduce 模型進行保護差分隱私的有效性,選擇“Blood”和“Gramma”數據庫來進行驗證,關注的兩個標準是召回率和精確率。 F-measure可以整合召回率和精確率,用F-measure 來證明集群可用性。 F-measure 越大,兩個聚類結果的相似性越強,添加噪聲的算法對聚類的影響很小[8]。 將f 方法和標準數據集之間的相似性寫為 F1,去對比方法和作為F2之間的相似性[9]。 運行過程中,增加的噪聲服從拉普拉斯隨機分布,結果具有隨機性。

5 結語

本文利用基于MapReduce 的K-means 方法來實現差分隱私保護,在MapReduce 的框架下,并行計算聚類,最終利用Laplace 的機制實現差分隱私保護,同時提高了這個算法的效率和隱私性。

猜你喜歡
數據挖掘信息
探討人工智能與數據挖掘發展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产微拍一区二区三区四区| 欧美成a人片在线观看| 美女裸体18禁网站| 亚洲h视频在线| 国产激情无码一区二区APP| 欧美一级在线| 国产一区免费在线观看| Jizz国产色系免费| www.av男人.com| 人妻无码AⅤ中文字| 91久久青青草原精品国产| 亚洲av无码专区久久蜜芽| 伊人91视频| 九九香蕉视频| 欧美日韩另类国产| 国产真实乱人视频| 国产免费网址| 欧美在线一级片| 欧美一级视频免费| 亚洲中文字幕23页在线| 亚洲天堂网在线视频| 97人人模人人爽人人喊小说| 麻豆精品久久久久久久99蜜桃| 亚洲乱强伦| 人人爱天天做夜夜爽| 精品综合久久久久久97超人| 欧美成人午夜影院| 欧美翘臀一区二区三区| 国产高清无码麻豆精品| 欧美www在线观看| 老司机午夜精品视频你懂的| 国产精品偷伦在线观看| 精品国产一二三区| 免费国产黄线在线观看| 国内老司机精品视频在线播出| 精品無碼一區在線觀看 | 国产精品嫩草影院av| 久久精品嫩草研究院| 91精品久久久久久无码人妻| 欧美va亚洲va香蕉在线| 在线观看免费黄色网址| 高清不卡一区二区三区香蕉| 幺女国产一级毛片| 在线免费观看AV| 国产精品福利在线观看无码卡| 久久婷婷六月| 91麻豆精品视频| 成年人国产视频| 精品国产Av电影无码久久久| 国产一在线| 在线看国产精品| 中国黄色一级视频| 亚洲 日韩 激情 无码 中出| 国产永久在线观看| 亚洲国产欧美中日韩成人综合视频| 欧美福利在线播放| 最新国产在线| 国产拍在线| 极品av一区二区| 99色亚洲国产精品11p| 在线a视频免费观看| 成人在线欧美| 91福利免费| 亚洲swag精品自拍一区| 国产网站免费| 玖玖精品视频在线观看| 在线欧美日韩| 国产精品极品美女自在线看免费一区二区 | AV熟女乱| 免费国产高清精品一区在线| 久久久久88色偷偷| 尤物国产在线| 日韩精品欧美国产在线| 日韩成人在线网站| 久久永久免费人妻精品| 极品国产一区二区三区| 婷婷六月综合网| 一级香蕉人体视频| 自拍偷拍欧美| 亚洲v日韩v欧美在线观看| 日本高清免费一本在线观看| 国产丝袜第一页|