999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Spark框架下保護數據差分隱私的遺傳聚類算法

2019-05-24 14:11:40張玉婷
電腦知識與技術 2019年4期
關鍵詞:數據分析

張玉婷

摘要:針對分布式計算框架下海量數據聚類分析過程中的數據隱私泄露問題,提出了一種Spark下支持差分隱私保護的遺傳k-means聚類算法。首先利用遺傳算法實現對k-means聚類方案的全局尋優,提高算法的準確率;并采用種群遷移策略將遺傳k-means算法部署于Spark框架中,實現基于內存讀寫的分布式聚類;然后利用差分隱私保護的Laplace機制在Spark每輪迭代的mapvalues算子中,對各聚簇中記錄數量num和聚簇中各記錄之和sum上添加隨機噪聲。根據差分隱私保護的性質,通過理論分析證明了算法達到ε-差分隱私保護要求。最后實驗分析表明了算法在Spark框架下的時效性高于MapReduce框架,其運行時間主要受迭代次數的影響,并且得出了使算法隱私性和準確性達到平衡的最優隱私保護預算取值。

關鍵詞:數據分析;k-means聚類;Spark框架;差分隱私;遺傳算法

中圖分類號:TP309.7 文獻標識碼:A 文章編號:1009-3044(2019)04-0198-03

1 引言

在大數據時代,數據挖掘技術得到了廣泛的應用,聚類分析作為一種常用的無監督數據挖掘技術,可以將相近的數據劃分到同一個類簇中,在網絡入侵檢測、目標識別等領域應用十分廣泛。k-means算法由于運算速度較快,實現原理簡單,所以成為應用領域最廣泛的聚類分析算法之一[1]。

本文提出一種Spark框架下滿足差分隱私保護的遺傳k-means算法(IGKM,Improved Genetic K-Means),利用遺傳算法解決k-means算法容易陷入局部最優的問題,利用基于內存計算的Spark分布式框架,利用Laplace機制實現差分隱私保護,為應對任意背景知識惡意分析的高效聚類分析提供了一種解決方案。

2 差分隱私保護基礎

差分隱私方法能夠解決任意背景知識下非法分析的問題[2]。

3 Spark框架下的DP-IGKM算法

Spark下的DP-IGKM算法實現目的是在Spark分布式框架下,當數據中的某一條記錄改變時,聚簇的中心點和記錄總數的變化情況不會暴露數據隱私。

3.1 IGKM算法設計

Step1:種群初始化:用聚簇中心的特征取值對染色體編碼。具體方法如圖1。

NK為聚簇數量,vki為第k個聚簇中心點的第i個特征取值(k[∈][1, NK])。隨機選擇樣本集中的樣本作為聚簇中心,重復M次,使用于進化的種群規模達到M。

Step2:k-means聚類

k-means聚類具體分為兩個步驟:①計算各條記錄與聚簇中心點間的距離關系,將各記錄分配到具體它最近的中心點所在的聚簇中;②對于新形成的聚簇,計算聚簇中各記錄中各維特征的平均值,形成新的聚簇中心。

Step3:遺傳操作

遺傳操作包括選擇操作、雜交操作和變異操作。

Step4:循環終止準則設定

當算法當前的循環次數為預先設定的最高次數時,循環終止。否則,重復Step1~Step3。

3.2 Spark框架下的IGKM算法設計

采用基于內存的分布式計算框架Spark。在基于Spark的IGKM算法中,本質是利用RDD中的各Partition存儲子種群,然后在子種群內進行染色體的更新。

Spark框架下的IGKM算法流程如圖2所示。

圖2中各算子所實現的具體操作如下。

(1)textFile算子:從分布式存儲框架HDFS中讀取編碼后的染色體數據文件,每個染色體代表一個聚類方案。

(2)partitionBy算子:將RDD中的數據重新分區成QS個新的Partition,每個Partition存放一個子種群中的染色體數據。

(3)mapValues算子:對各Partition中的染色體數據逐條進行操作。

(4)groupBy算子:用key作為染色體所屬于的子種群標識,形成P個新的Partition。

(5)mapPartitions算子:完成選擇、雜交和變異等遺傳操作。

(6)cache算子:將數據緩存到內存,供迭代運算使用。

(7)reduceByKeyLocally算子:選出適應度最高的染色體。

3.3 Spark框架下的DP-IGKM算法設計

Spark中的mapValues算子的操作如下:

(1)在第一輪迭代中,在染色體內部進行聚類中心初始化。

將NR條記錄u1,…,uNR平均分成NK個子集G1,…,GNK,集合Gk中的記錄數|Gk|≤ceil(NR/NK),ceil()為向上取整函數。計算Gk中記錄的數量num0k和Gk中各記錄的特征向量之和sum0k,分別對num0k和sum0k加入隨機噪聲得到num0k' 和sum0k',計算v0k'=sum0k' / num0k',v0k'即為初始聚類中心點。

(2)在后續的迭代中,通過均值聚類完成聚類中心的更新。

3.4 算法隱私性分析

5 結語

本文在Spark分布式平臺上設計了滿足差分隱私保護的遺傳k-means算法,利用染色體表示一種聚類方案,將多條染色體劃分到Spark框架下的各個分布式資源中分別進行進化,并利用種群遷移策略實現遺傳聚類的全局優化,最后通過隨機噪聲添加使算法滿足差分隱私保護。

參考文獻:

[1] 唐成華,劉鵬程,湯申生,等.基于特征選擇的模糊聚類異常入侵行為檢測[J].計算機研究與發展,2015,52(3):718-728.

[2] Sarat K C,Bhogeswar B.On analysis of time-series data with preserved privacy[J].Innovations in Systems and Software Engineering,2015,11(3):155-165.

[3] 鄧詩卓,姚繼濤,王波濤,等.PCPIR-V:基于Spark的并行隱私保護近鄰查詢算法[J].網絡與信息安全學報,2016,2(5):64-76.

[4] 宋健,許國艷,夭榮朋.基于差分隱私的數據匿名化隱私保護方法[J].計算機應用,2016,36(10):2753-2757.

[5] 何賢芒,王曉陽,陳華輝,等.差分隱私保護參數ε的選取研究[J].通信學報,2015,36(12):124-130.

【通聯編輯:代影】

猜你喜歡
數據分析
電子物證檢驗的數據分析與信息應用研究
基于matlab曲線擬合的數據預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 中文字幕乱码二三区免费| 精品久久久无码专区中文字幕| 欧美另类图片视频无弹跳第一页| 国产高清色视频免费看的网址| 又猛又黄又爽无遮挡的视频网站| 青青草国产免费国产| 免费无码AV片在线观看国产| 成人无码一区二区三区视频在线观看 | 成人第一页| 欧美色99| 中国黄色一级视频| 欧美人在线一区二区三区| 亚洲啪啪网| a免费毛片在线播放| 99在线观看视频免费| 国产欧美视频综合二区| 国产一级视频久久| 久久国产香蕉| 欧美亚洲欧美区| 欧美成人精品在线| www.狠狠| 久久美女精品| 人妻少妇乱子伦精品无码专区毛片| 日韩午夜福利在线观看| 欧美成人a∨视频免费观看| 国产成人综合亚洲网址| 91蝌蚪视频在线观看| 91精品人妻一区二区| 国产精品区网红主播在线观看| 久久久无码人妻精品无码| 九九这里只有精品视频| 国产精品自在在线午夜区app| 日韩成人免费网站| 97青草最新免费精品视频| 三级视频中文字幕| 久久中文无码精品| 久久这里只有精品66| 高清欧美性猛交XXXX黑人猛交| 亚洲性网站| 老司机久久精品视频| 一级在线毛片| 99视频免费观看| 韩日无码在线不卡| 亚洲国产系列| 五月婷婷精品| 国产成人夜色91| 三级毛片在线播放| 亚洲色图另类| 无码精品国产dvd在线观看9久| 操操操综合网| 久久无码免费束人妻| 精品一区二区三区无码视频无码| 亚洲人成电影在线播放| 亚洲午夜福利精品无码不卡| 国产正在播放| 中文字幕无线码一区| 波多野结衣中文字幕久久| 手机永久AV在线播放| 久久久噜噜噜久久中文字幕色伊伊 | 国产亚洲欧美另类一区二区| 五月天在线网站| 国产免费怡红院视频| 亚洲无码91视频| 五月婷婷亚洲综合| 91视频国产高清| 免费在线观看av| 欧美黄网在线| 色妞永久免费视频| 国产视频资源在线观看| 无码有码中文字幕| 国产成人高清精品免费软件| 幺女国产一级毛片| 欧美日韩福利| 国产黄在线免费观看| 日本国产精品| 日本不卡在线播放| 四虎免费视频网站| 精品国产成人高清在线| 波多野结衣一区二区三区四区| 少妇人妻无码首页| 欧美成人一级| 日韩中文字幕亚洲无线码|