999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探索基于大數據的分布式隱私保護聚類挖掘算法

2021-03-22 16:36:05趙峰
電腦知識與技術 2021年4期
關鍵詞:數據挖掘大數據

趙峰

摘要:近些年來,全世界范圍內的移動互聯網以及云計算技術都得到了飛速發展,網絡上隨時隨地都會出現諸多的各方面數據,在這大數據時代背景下,有必要加強對于分布式隱私保護聚類挖掘算法展開深入分析。本文簡略介紹了大數據挖掘安全技術以及隱私數據保護技術,并對基于大數據的分布式隱私保護聚類挖掘算法展開了全面探索,旨在提升數據隱私保護水平的同時,還能達到高精確度的大數據聚類挖掘效果。

關鍵詞:大數據;隱私保護;數據挖掘;分布式環境

中圖分類號:TP393? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)04-0201-03

在當今時代下,大數據已經成為高校分析以及處理網絡中海量數據的重要環節。經過調查發現,我國在挖掘算法方面已經取得了較為良好的研究成果,但事實上仍存在諸多不利因素對于數據安全以及隱私保護效率的提升起到了一定的制約作用。因此,有必要加強對該方面技術的重視,并在實踐過程中對其進行逐漸地優化與完善。

1相關技術

1.1大數據挖掘安全技術

大數據挖掘主要指的是不斷提取以及挖掘在當下不規則并且海量數據中的各類知識,當各個站點開展挖掘大數據任務的過程中,應著重考慮各站點所普遍存在地數據隱私泄露問題。從目前來看,對于隱私保護的數據挖掘算法包含著諸多種研究類別,分別為序列模式、聚類和分類以及關聯規則數據挖掘算法。與此同時,應及時采取相關措施,強化對于各站點的規范和約束管理,此舉能夠切實保障在開展大數據挖掘的同時,盡量降低泄露數據隱私的概率[1]。

近些年,全世界范圍內對于上述研究已經取得了一定的成果,例如:部分學者在半誠實模型和惡意模型的基礎條件下,針對挖掘數據算法過程中隱私保護的數據挖掘隱私保護安全性以及執行效率展開了詳細研究。除此以外,還對于在隱私保護以及數據安全基礎上的序列數據挖掘技術進行了深入探究,設計出了一種能夠高效實現重要序列屬性隱藏的數據挖掘算法,這對于高效落實對于數據挖掘的隱私保護起到了重要意義。還有部分學者以分布式環境為基礎,對基于隱私保護的數據額挖掘算法進行了科學系統的設計,這有助于緩解當前在進行數據挖掘過程中普遍存在的數據安全以及隱私泄露等問題。

1.2隱私數據保護技術

在進行大數據挖掘時,其所涉及的是包含諸多同個人隱私相關的隱私數據,例如個人社交動態資料、工作資料、財產和病歷信息資料以及個人基本資料等,大數據挖掘隱私保護不僅要確保能夠在保護隱私數據不竊取其他站點隱私數據的基礎上進行各個站點的數據挖掘工作,同時,還要在充分考慮的其數據挖掘所達到的相關效果,確保其能夠同相關預期效果相符合。從上述研究中可以看出,一般來說,研究大多會將數據加密的隱私保護技術應用于數據挖掘典型算法之中,通過使用全同態加密技術,開展針對原始數據的加密處理,便可以直接在挖掘數據的過程中直接處理加密密文,不僅能夠確保隱私數據自身的安全性與穩定性,還可以提升數據挖掘的實際效率。同態加密技術的應用,并不會對原始數據進行解密,而是會通過大數據挖掘算法的應用,直接開展針對加密數據地復雜計算操作,并且可以得到同數據加密之前同樣地結果。部分學者在該方面進行了深入的研究,其對全同態加密技術展開了探索,同時,對在全同態加密算法運行效率基礎上的改進方案進行了研發設計,也得到了較為豐碩的研究成果。除此以外,部分學者在對全同態加密技術進行研究地基礎上,提出了一種新型的全同態加密方法,這使得流行的外包計算以及云計算都能夠再實現對于全同臺加密技術的應用。

此文中的觀點為,針對加法和乘法來說,任何一種加密算法都具有能夠與之相適應的同態操作:

基于此便可以將其看作是全同態加密算法。

2分布式數據挖掘概述

2.1水平劃分的數據

水平劃分的數據是分布式數據挖掘的重要組成部分,其主要指的是在各個不同的站點中對擁有相同屬性的信息進行搜集。但事實上其實體存在一定的差異性,例如:不同超市所搜集的雜貨店信息。以具有不同的信用卡信息的兩個數據庫為例,其全局數據庫所搜集的信息具有不同的實體,但擁有者相同的屬性[2]。

2.2垂直劃分的數據

除了水平劃分的數據以外,垂直劃分的數據也是分布式數據挖掘的重要組成部分,其主要指的是不同站點對于各類相同實體集合信息的收集,但其屬性的集合存在差異,具體可以從以下角度出發進行理解。例如在某個數據庫中,其中一個為相同實體使用手機的信息,另一個則為人的醫療信息。從數據庫中可以看出,相關工作人員可以通過采用相關挖掘方法對全局數據庫進行分析,以便于充分獲取患者的實際情況。該模式的描述如下所示:有k個集合P1.P2.…,Pk,n個事務,基于此需要對n個與事物有關的信息進行相應的信息搜集工作。

2.3任意劃分的數據

任意劃分的數據是分布式數據挖掘的重要組成部分,其主要指的是搜集各不同站點中屬性也不相同的相關信息。以兩方參與方為例,分為A.B兩方,二者各自所擁有的數據能夠形成一個整體的數據庫,該數據庫中包含n個對象,可以采用m個屬性來表示對每個對象金鑫表示,參與方A對于每個對象d來說都有著部分屬性集,與此同時,參與方B則會擁有剩下的。通常情況下來說,可以將從水平劃分以及垂直劃分的角度來看,可以將其數據當作是進行任一分布的特殊形式。

3基于大數據的分布式隱私保護聚類挖掘算法

在當前分布式環境之下,若是基于大數據開展數據挖掘工作,有必要將各站點聯合起來進行對于聚類結果的計算,有可能會導致數據安全及隱私泄露的問題。聚類挖掘主要指的是一種機器學習算法,其本身具有無指導的特點,數據要在其原有的實際特征的基礎上經過多次迭代,進而形成各不相同的族群。在實際操作過程中可以通過多種方式實現聚類挖掘,包括基于模型的聚類、層次聚類、基于密度的聚類、劃分聚類以及基于神經網絡的聚類等等。筆者在文中主要將會針對K-means算法進行詳細講述,該算法本身是劃分聚類的一種數據挖掘算法,文中主要使用的是同態加密技術以及公鑰加密技術創新提出了一PPDK-means,其是在水平劃分基礎上的一種聚類挖掘方法[3]。

各參與方在分布式的環境中應先展開針對相關數據的同態加密工作,然后再充分利用安全信道,實現對于原有數據高效共享的目的,接下來便需要展開對于加密數據的進一步精密計算,然后便需要在某個參與方中通過同態加密技術的應用高質量地完成對于計算結果的加密。開展相應的解密工作,然后向全體參與方廣播最終的實際計算結果,相關工作人員應當注意,實際所要開展的計算工作應當在經過加密的數據基礎上進行,在加密后的數據中,準誠信第三方需要開展相應的聚類挖掘工作,這樣一來便可以切實降低出現對于用戶明文數據進行直接使用實踐出現的概率,切實保障好數據本身的安全性以及穩定性,以免出現半程新的參與方直接獲取相關其他參與方的隱私數據,進而達到對隱私進行高質量的保護的目的。

經過相關的實驗證明以及理論分析發現,該算法可以既可以保障好數據隱私,還能夠獲取精確地聚類結果,有著較強的應用價值。

3.1問題描述

3.1.1分布式環境中的聚類算法

在以往所使用的數據儲存方法中,主要是在一個數據倉庫中實現對于全部數據的存儲,然后在需要使用的時候,直接在其中進行相應的聚類分析,進而將有益的知識以及規律提取出來,該模式應用的最大優勢便在于能夠高效實現對于存儲空間的利用,減少冗長繁雜的數據,同時還要從全面的眼光看待問題,進而采取相應的措施開展針對數據的保護工作。但從目前來看,全世界范圍內的信息技術整體發展較為迅速,在當下的信息社會中已經有著越來越多傳統行業的融入,從政治以及商業利益角度出發,未來的主流模式必定是多中心分布式的數據存儲格局。分布式環境這一概念與集中式環境是對立的,上文對其劃分進行了詳細分析,下面不再贅述,在本文中,筆者將會對水平劃分數據環境中的聚類挖掘算法進行精細化的探索。

加設分布式系統中存在n個站點Si(i=1,…,n,n≥3),每個站點的數據集為Di(i=1,…,n,n≥3),在每個數據集Di(i=1,…,n,n≥3)中所包含的對象個數為mi(i=1,…,n,n≥3),則聯合數據集[D=i=1nDi(i=1,…,n,n≥3)]。

在針對聯合數據集D開展相應的聚類挖掘的過程中,務必要確保各個站點Si的數據集D的數據安全,這主要指的是其他站點無法在經過結果推斷之后將原本的數據集Di推導出來,同時還要對聯合數據D所挖掘出的知識進行掌控。確保其是真實有效的,同直接挖掘Di所得出的結果完全符合[4]。

在分布式的數據存儲環境中,分布式聚類挖掘算法能夠有效實現聚類過程,在本文中,筆者先對于數據挖掘的環境進行假設,若是其為水平分割數據集,那么將由以下幾方面內容入手展開對于分布式聚類算法的理解。首先,應在系統中選用兩級架構。其次局部站點Si(i=1,…,n,n≥3)要從主站點發來的聚類中心出發,高質量地完成對于本地聚簇數據的計算工作,并將其直接向相應的中心站點進行發送。接下來中心站點便要接收那些從局部站點所發來的聚簇結構,并進行全局計算,判斷其是否能夠同相應的受立案條件相符合,若是可以符合便要立即停止迭代進程,然后輸出相應的聚類結果。如果其并未滿足收斂條件,便要繼續進行迭代,直至其能夠相符合。

3.1.2分布式數據挖掘中的隱私安全問題

分布式環境相比其他環境來說具有一定的特殊性,數據在其中的存儲有著較為分散的特性,主要是存儲于各個邏輯隔離站點以及物理隔離站點之中,每個站點其所具備的功能基本上同相關資質單元相似,基于此,各個站點中的數據便有一定程度的私有特點。在開展數據挖掘工作的過程中,應聯合各個參與方對聚類結果以及分類模型展開共同計算,在該過程中極有可能會出現泄露隱私的現象。本文主要從局部站點以及中心站點兩級結構入手展開數據挖掘,在進行數值計算以及結果共享的過程中,是數據隱私最容易被侵犯的兩個環節,所以有必要加強對以下幾方面內容的認識強化保護數據隱私。首先,加強對于各個站點自身隱私數據安全性的保障,以免出現其他參與方直接獲取他方數據的情況。其次,應當確保傳輸過程中數據的安全性,以免數據被其他半誠信以及被惡意的攻擊者截獲。最后,要加強對于聚類挖掘過程的重視,注重對于該過程中隱私數據安全的保護,降低在進行合作計算時,出現數據隱私泄露現象的可能性。

3.2分布式k-means聚類挖掘算法

標準的分布式k-means聚類算法。

K-means算法本身屬于一種聚類挖掘算法,其是在距離基礎上實現的,在對于相似度的評級方面,將距離看作是相應的評級指標,深入分析各聚簇對象的實際距離以及均值計算相似度,相似度會隨著距離的減小而逐漸增加。采用K-means算法的最基本的目的便是對聚簇內相似度最低以及最高的聚類結果進行獲取,通常情況下,可以通過使用歐幾里得距離、閔可夫斯基距離以及曼哈頓距離三種方法進行距離度量,這三種算法之間都是衡量個體之間的差異的。其中,在運用歐幾里得距離度量方法的過程中,其最終的結果會收到各指標不同單位可讀的影響,所以在實際運用中應注重對其進行標準化,若是其距離越大,便會使得其個體之間產生較大的差異性。除此以外,其他二者同歐幾里得距離基本上相似。

標準的歐式距離公式如下所示:

3.3正確性與安全性分析

3.3.1正確性

針對從站點的計算結果,筆者主要從同態加密系統以及RSA公鑰加密系統兩方面出發進行加密,以此確保各個參與挖掘的各方數據在半誠信的環境當中不會出現被泄露的問題。因為同態加密系統的加密操作并不會對最終的聚類結果產生影響,而RSK公鑰加密系統則只能應用于對密鑰的加密,所以在本文所提出的算法可以實現對于挖掘結果的精確獲得。因為存在相應的解密過程,所以該算法有著較高的時間復雜度,RSA公鑰加密的過程是最為耗時的,但是其智慧應用在特定的部分進行加密,并非是整個明文,所以可以在一定程度上減少指數運算,在這樣的條件下便會適當增多所要執行相關挖掘操作的時間。在實際開展挖掘工作的過程中,如果其中心站點中的計算過程過于繁雜,那么便可以將其整體的計算過程輸送至云端進行,這樣便可以減少其復雜程度,提高計算效率。

3.3.2安全性

在安全性方面,該算法主要分為三個層次對數據隱私進行保護:

相關工作人員在面對局部聚類結果的過程中應靈活使用通態加密技術開展相應的加密工作。因為R本身是一個隨機數,所以在實踐過程中可以僅將其看作是拒不保存的聚類結果,中心站的具體職能在于對于相關已經完成好加密工作的局部數據的獲取,根據其實際應用的各個方面來看,中心站無法實現對于其他與局部數據有關任何信息的獲取。當中心站點做好計算工作之后,便會直接發送中間結果至局部站點處。接下來開展對其的解密工作,然后再將其反送至中心站點,以便于開展后續的運算工作,此舉能夠避免中心站點解密相關參與方隱私數據的問題,對于隱私數據的安全性有著較強的保障作用。所以本文中所提出的算法具有一定的安全性。

4結論

綜上所述,從當下的時代背景來看,信息科技在飛速地發展以及進步中使得各個領域都在實踐過程中積累了越來越多地數據,而數據挖掘技術的應用能夠開展針對數據的二次利用以及分類管理工作。從目前來看,當下最為重要的數據存儲模式便是分布式,過去的相關數據挖掘技術正在逐漸由原本的環境向當下分布式的環境中進行遷移。這使其逐漸出現了諸多安全問題。與此同時,在進行數據挖掘時,部分持有者并不愿意披露數據,而保護隱私數據的挖掘算法則能夠有效緩解該類問題。

參考文獻:

[1] 鄧甜甜,熊蔭喬,何賢浩.一種基于時序性告警的新型聚類算法[J].計算機科學,2020,47(S1):440-443,473.

[2] 楊濤,張紅梅,王家樂,等.大數據下數據流聚類挖掘算法的優化分析[J].物聯網技術,2019,9(8):58-60,64.

[3] 左國才.基于大數據的分布式隱私保護聚類挖掘算法研究[J].智能計算機與應用,2018,8(6):57-60.

[4] 徐東,李賢,張子迎,等.面向聚類挖掘的個性化隱私保護算法[J].哈爾濱工程大學學報,2018,39(11):1779-1785.

[5] 姚禹丞,宋玲,鄂馳.同態加密的分布式K均值聚類算法研究[J].計算機技術與發展,2017,27(2):81-85.

【通聯編輯:光文玲】

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 欧美www在线观看| 91九色国产porny| 国产成人久久777777| 国产精品自在在线午夜| 欧美日韩另类国产| 美女内射视频WWW网站午夜 | 九九视频免费在线观看| 男女性色大片免费网站| 欧美色伊人| 免费99精品国产自在现线| 亚洲一区二区无码视频| 亚卅精品无码久久毛片乌克兰| 国产激情在线视频| 一级毛片视频免费| 成人精品区| 91久久偷偷做嫩草影院精品| 欧美成人区| www.狠狠| 天堂中文在线资源| 国产伦片中文免费观看| 91小视频在线播放| 特级精品毛片免费观看| 国产精品hd在线播放| 欧美.成人.综合在线| 91久久国产综合精品女同我| 午夜小视频在线| 8090午夜无码专区| 国产一级α片| 丁香五月亚洲综合在线| 永久在线精品免费视频观看| 三级视频中文字幕| 久久频这里精品99香蕉久网址| 国产xxxxx免费视频| 天堂成人av| 久久这里只有精品国产99| 亚洲第一极品精品无码| 久久人体视频| 伊大人香蕉久久网欧美| 99这里只有精品在线| 国产精品内射视频| 成人在线亚洲| 67194成是人免费无码| 国产va在线| 国产精选自拍| 91久久偷偷做嫩草影院精品| 国产成人免费观看在线视频| 日韩AV无码免费一二三区| 91精品国产无线乱码在线| 亚洲国产成人久久77| 久久精品中文字幕免费| 日日摸夜夜爽无码| 五月激情婷婷综合| 中日无码在线观看| 亚洲愉拍一区二区精品| 制服丝袜一区| 亚洲首页在线观看| 91福利免费视频| 中文字幕人成人乱码亚洲电影| 亚洲欧美色中文字幕| 亚洲免费毛片| 国产精品蜜芽在线观看| 青青操视频免费观看| 国产欧美日韩一区二区视频在线| 99久久精品免费观看国产| 色婷婷亚洲综合五月| 国产成人AV综合久久| 4虎影视国产在线观看精品| 四虎影视无码永久免费观看| 九九九久久国产精品| 午夜人性色福利无码视频在线观看| 无码国产偷倩在线播放老年人| 国产老女人精品免费视频| 亚洲午夜福利在线| 91精品国产一区自在线拍| 91精品福利自产拍在线观看| 色有码无码视频| 2021国产精品自拍| 欧美精品v欧洲精品| 无码视频国产精品一区二区| 国产精品网址在线观看你懂的| 亚洲人成网线在线播放va| 精品午夜国产福利观看|