王姣,范科峰,王勇
(1.桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.中國電子技術(shù)標(biāo)準(zhǔn)化研究院,北京 100007;3.桂林電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 5410004)
面向數(shù)據(jù)發(fā)布和挖掘的隱私保護(hù)研究進(jìn)展
王姣1,范科峰2,王勇3
(1.桂林電子科技大學(xué)電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.中國電子技術(shù)標(biāo)準(zhǔn)化研究院,北京 100007;3.桂林電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 5410004)
隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,數(shù)據(jù)越來越多,為了從這些大量數(shù)據(jù)中獲取有用信息,需要對(duì)其進(jìn)行挖掘,然而,在此過程中不免會(huì)造成數(shù)據(jù)相關(guān)者隱私的泄露,如何提高數(shù)據(jù)的安全性、保護(hù)有用信息不被外泄變得尤為重要。分析了在數(shù)據(jù)發(fā)布和挖掘過程中若干現(xiàn)有數(shù)據(jù)隱私保護(hù)技術(shù)的方法,簡述了JTC1制定的隱私保護(hù)相關(guān)國際標(biāo)準(zhǔn),并根據(jù)其不同應(yīng)用領(lǐng)域提出了未來可能的研究方向。為信息安全領(lǐng)域相關(guān)的人員提供了一定參考基礎(chǔ)。
隱私保護(hù);大數(shù)據(jù);數(shù)據(jù)挖掘;標(biāo)準(zhǔn)
數(shù)據(jù)大多涉及到個(gè)人隱私,如病人的病情、用戶的信用卡收支記錄、顧客的花費(fèi)記錄等,通常由于某些原因,人們并不希望自己的信息被他人知曉。在保護(hù)隱私的前提下得到數(shù)據(jù)分析的有用結(jié)果變得至關(guān)重要,然而這不僅需要技術(shù)的不斷進(jìn)步,還需要法律法規(guī)和相關(guān)標(biāo)準(zhǔn)的完善。這對(duì)很多企業(yè)來說既是機(jī)遇也是挑戰(zhàn),他們投入巨大的資金希望得到更及時(shí)和有用的信息來滿足增長和盈利需求,例如,作為大數(shù)據(jù)分析的探路者和領(lǐng)導(dǎo)者,IBM自2005年至2012年,投資160億美元進(jìn)行了30次與大數(shù)據(jù)有關(guān)的收購[1],在2014年初,IBM又投入10億美元組建獨(dú)立的Watson部門,率先于業(yè)界開展前瞻認(rèn)知計(jì)算實(shí)踐[4]。
隱私是伴隨著人類社會(huì)的形成而產(chǎn)生的,對(duì)于不同國家、地域和對(duì)象,概念也會(huì)有所不同。因此,隱私權(quán)也作為一項(xiàng)有關(guān)隱私的基本人權(quán),逐漸在各個(gè)國家的法律和相關(guān)政策條款中出現(xiàn)。最早涉及隱私權(quán)的法律政策文件源于1890年Warren和Brandeis的“The right to privacy”[5],其中提出“隱私權(quán)是個(gè)人獨(dú)處的權(quán)利,此權(quán)利是憲法規(guī)定的人所共享的自由權(quán)利的重要組成部分”。隨著信息技術(shù)不斷推動(dòng)人類社會(huì)的發(fā)展,一些數(shù)據(jù)信息被悄無聲息地保存在不同的地方,并且被不正當(dāng)?shù)厥褂?,進(jìn)而產(chǎn)生了隱私和安全問題,人們對(duì)隱私保護(hù)的呼聲越來越高,除了相關(guān)政策的出臺(tái),越來越多的人致力于技術(shù)層面的研究,從而產(chǎn)生了大量的方法,隱私保護(hù)技術(shù)的發(fā)展也逐漸趨于多元化。
多年前就有不少人致力于對(duì)隱私保護(hù)技術(shù)的研究。1989年Adam等提出了擾動(dòng)方法[6];2000年,Agrawal等提出了隨機(jī)化方法[7];2002年,Clifton等提出了安全多方計(jì)算(SMC,Secure multi-party computation)技術(shù)[8];2004年,F(xiàn)ienberg提出了交換方法[9];隨后基于博弈論[10]的隱私保護(hù)方法的提出也為其注入了新鮮的血液。
目前,在數(shù)據(jù)發(fā)布過程中,對(duì)原始數(shù)據(jù)采用失真、匿名、加密等技術(shù),以實(shí)現(xiàn)隱私保護(hù);在數(shù)據(jù)挖掘過程中,針對(duì)關(guān)聯(lián)規(guī)則、分類、聚類等,研究高效的隱私保護(hù)的挖掘算法來減少由挖掘所帶來的隱私風(fēng)險(xiǎn)[11]。基于以上兩個(gè)層面,本節(jié)主要介紹數(shù)據(jù)隱私保護(hù)的關(guān)鍵技術(shù)。
2.1失真技術(shù)
數(shù)據(jù)失真技術(shù),就是對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng),基本思想是隱藏真實(shí)數(shù)據(jù),只呈現(xiàn)出數(shù)據(jù)的統(tǒng)計(jì)學(xué)特征[12]。失真后的數(shù)據(jù)仍然保持原本的某些特性不變,但攻擊者是不能根據(jù)發(fā)布的失真數(shù)據(jù)重構(gòu)出真實(shí)的原始數(shù)據(jù)的。失真技術(shù)主要包括隨機(jī)化、阻塞、變形、交換等,以此來隱藏關(guān)聯(lián)規(guī)則。
2.1.1隨機(jī)化
隨機(jī)化技術(shù)是在原始數(shù)據(jù)中加入隨機(jī)噪聲,從而保護(hù)敏感數(shù)據(jù)不被發(fā)現(xiàn)。例如,在原始數(shù)據(jù)中注入大量偽項(xiàng),隱藏頻繁項(xiàng)集。然而任意地對(duì)數(shù)據(jù)進(jìn)行隨機(jī)化,并不能保證數(shù)據(jù)和隱私的安全,文獻(xiàn)[13]為此提供了一種基于隨機(jī)矩陣的數(shù)據(jù)過濾技術(shù)。同時(shí),文獻(xiàn)[14]也提出了一種新的數(shù)據(jù)隨機(jī)處理方法,即部分隱藏的隨機(jī)化回答方法,此方法是將數(shù)據(jù)干擾和查詢限制相結(jié)合對(duì)原始數(shù)據(jù)進(jìn)行變換和隱藏。
隨機(jī)化擾動(dòng)技術(shù)可以在不暴露原始數(shù)據(jù)的情況下進(jìn)行多種數(shù)據(jù)挖掘,比如,在隨機(jī)擾動(dòng)后的數(shù)據(jù)上估計(jì)項(xiàng)集支持度,從而發(fā)現(xiàn)規(guī)則[15];或者通過對(duì)隨機(jī)干擾數(shù)據(jù)的重構(gòu),設(shè)計(jì)高效的分類挖掘算法,利用重構(gòu)數(shù)據(jù)的分布進(jìn)行決策樹分類器訓(xùn)練,最終得到的決策樹可以很好地對(duì)數(shù)據(jù)進(jìn)行分類[16]。
2.1.2阻塞
阻塞對(duì)于原始數(shù)據(jù)的修改并不引入虛假的噪聲數(shù)據(jù),而是對(duì)其進(jìn)行泛化模糊處理[17]?;驹硎牵簩?shù)據(jù)表中的某些特定數(shù)值換成“?”,使支持度或置信度處于某個(gè)區(qū)間范圍內(nèi),當(dāng)此區(qū)間范圍的下界取值小于設(shè)定的閾值時(shí),即可實(shí)現(xiàn)關(guān)聯(lián)規(guī)則的隱藏。文獻(xiàn)[18]提出了通過使用未知值來代替部分敏感的原始數(shù)據(jù),文獻(xiàn)[19]也提出了針對(duì)特定的敏感規(guī)則對(duì)原始數(shù)據(jù)進(jìn)行隱藏。阻塞雖然可以使一部分敏感信息得到很好的保護(hù),但由于所提供的所有數(shù)據(jù)都是真實(shí)的原始數(shù)據(jù),所以對(duì)整個(gè)數(shù)據(jù)集的隱私保護(hù)程度并不是很高。
2.1.3變形
變形類似于阻塞,不同的是用布爾矩陣表示數(shù)據(jù)庫中的數(shù)據(jù),將敏感事務(wù)對(duì)應(yīng)的數(shù)值進(jìn)行取反操作,同時(shí)修改和過濾原有事務(wù)的屬性,使敏感規(guī)則的支持度和置信度低于設(shè)定的閾值,從而達(dá)到關(guān)聯(lián)規(guī)則的隱藏。
但是一個(gè)無法避免的問題是,對(duì)原始數(shù)據(jù)進(jìn)行阻塞和變形之后,都需要重建數(shù)據(jù)的分布,它們必須針對(duì)不同的應(yīng)用需要設(shè)計(jì)特定的算法來對(duì)轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行處理。對(duì)此,文獻(xiàn)[20]提出了一種凝聚技術(shù),將原始數(shù)據(jù)記錄分成組,每組有k條記錄產(chǎn)生的統(tǒng)計(jì)信息,同一組內(nèi)的k條記錄是兩兩不可區(qū)分的,因此重構(gòu)后的記錄并不會(huì)泄露原始數(shù)據(jù)的隱私。
2.1.4交換
交換是在記錄之間交換數(shù)據(jù)值來平衡隱私和數(shù)據(jù)挖掘的一種技術(shù)[21],其核心是:在原始數(shù)據(jù)中,交換不同記錄的某些屬性值,但前提必須要保證不改變其統(tǒng)計(jì)特征,最后發(fā)布交換后的數(shù)據(jù),這樣便能提高數(shù)據(jù)的不確定性。在文獻(xiàn)[22]中,為了有效訪問以加密形式存儲(chǔ)的數(shù)據(jù),使用3個(gè)獨(dú)立的服務(wù)器來管理數(shù)據(jù),不斷對(duì)所訪問的數(shù)據(jù)進(jìn)行重寫和重加密。文中數(shù)據(jù)交換意味著通過3個(gè)服務(wù)器間的信息交換來改變所訪問的數(shù)據(jù)的物理地址,并闡明了如何將交換技術(shù)應(yīng)用于3個(gè)服務(wù)器中來保護(hù)隱私。
2.2匿名技術(shù)
數(shù)據(jù)匿名化的兩種主要方法是抑制和泛化[17],顧名思義,抑制是不發(fā)布某些數(shù)據(jù)項(xiàng),泛化是對(duì)數(shù)據(jù)進(jìn)行概括與抽象描述。對(duì)于數(shù)據(jù)匿名化,其研究的重難點(diǎn)在于,如何在既能保護(hù)隱私又具有較大價(jià)值的前提下設(shè)計(jì)更好的匿名化原則和算法。
2.2.1k-匿名
k-匿名隱私保護(hù)模型由L.Sweeney在1998年首次正式提出[23],他在文獻(xiàn)[24]中提出了k-匿名原則,即保證所發(fā)布數(shù)據(jù)集中的每一條記錄與其他k-1條記錄不能區(qū)分,因此數(shù)據(jù)挖掘者不能辨別出隱私信息所屬的具體個(gè)體,從而起到隱私保護(hù)的作用,k值越大,隱私保護(hù)效果越好,然而數(shù)據(jù)丟失也越為嚴(yán)重。k-匿名數(shù)據(jù)是不確定數(shù)據(jù)中的一種,有效解決了鏈接攻擊[18]問題,但其主要是針對(duì)單一約束條件進(jìn)行處理,而在實(shí)際應(yīng)用中,會(huì)涉及到大量約束條件,對(duì)此,文獻(xiàn)[25]提出了多約束k-匿名方法Classfly+,此算法的核心是先將約束集劃分為M個(gè)獨(dú)立的約束子集,然后再將獨(dú)立約束子集中的約束按照匿名度低優(yōu)先原則進(jìn)行排序,若獨(dú)立約束子集含一個(gè)約束,則采用Classfly算法進(jìn)行匿名化處理,若含多個(gè)約束,則采用多約束概括過濾進(jìn)行匿名化處理。
2.2.2l-多樣性
l-多樣化模型[26]是對(duì)k-匿名的擴(kuò)展,此模型要求每個(gè)等價(jià)類的敏感屬性至少有l(wèi)個(gè)不同的值,增加了敏感值與所屬個(gè)體的連接難度,防止了k-匿名易受同質(zhì)性攻擊和重標(biāo)志攻擊的缺陷。然而不同個(gè)體對(duì)隱私保護(hù)有不同的需求,對(duì)此,文獻(xiàn)[27]通過設(shè)置敏感屬性的保護(hù)屬性來實(shí)現(xiàn)個(gè)體與敏感值之間關(guān)聯(lián)關(guān)系的個(gè)性化保護(hù)需求,提出了一種面向個(gè)體的個(gè)性化擴(kuò)展l-多樣性隱私匿名模型,與此同時(shí),為實(shí)現(xiàn)該模型,還提出了一種個(gè)性化擴(kuò)展l-多樣性逆聚類(PELI-clustering)的算法,此算法首先從數(shù)據(jù)集中任意選取一個(gè)元組作為聚類質(zhì)心,根據(jù)其敏感屬性集得到該質(zhì)心相應(yīng)的匿聚類候選集,再形成滿足擴(kuò)展l-多樣性的匿聚類等價(jià)類,重新計(jì)算質(zhì)心,并將離此質(zhì)心最遠(yuǎn)的元組作為下一個(gè)聚類的質(zhì)心,重復(fù)此過程直到全部元組歸入相應(yīng)的匿聚類等價(jià)類或不滿足聚類的條件為止。
2.2.3t-閉合
上述提到的l-多樣性存在兩個(gè)問題,一是當(dāng)l值較小,數(shù)據(jù)記錄值過大時(shí),等價(jià)類數(shù)量會(huì)相當(dāng)龐大;二是對(duì)單個(gè)敏感屬性而言,如果兩個(gè)敏感屬性值差異過大,很難確定敏感屬性值的敏感度[28]。對(duì)此,在k-匿名和l-多樣性基礎(chǔ)上,文獻(xiàn)[29]提出了t-閉合方法,此方法要求所有等價(jià)類的敏感屬性值分布與該屬性的總體分布差異小于t,文中給出了等價(jià)類和表滿足t-閉合的條件,若一個(gè)等價(jià)類的敏感屬性值分布和整個(gè)表的屬性值分布差異不超過閾值t,則這個(gè)等價(jià)類符合t-閉合條件,若一個(gè)表中的所有等價(jià)類都符合t-閉合,則整個(gè)表符合t-閉合。
2.3加密技術(shù)
加密技術(shù)多用于分布式數(shù)據(jù)應(yīng)用之中,通過對(duì)原始數(shù)據(jù)進(jìn)行加密以實(shí)現(xiàn)隱私保護(hù)。任何一種普通的計(jì)算都可轉(zhuǎn)化為無可信第三方參與的安全多方計(jì)算(SMC,secure multi-party computation)的框架[30],SMC主要用于兩個(gè)或多個(gè)互不信任的參與方之間進(jìn)行隱私保護(hù)的協(xié)同計(jì)算。
2.3.1安全多方計(jì)算
安全多方計(jì)算的概念最初是由Yao在1982年提出的[31],確保輸入的獨(dú)立性、計(jì)算的正確性,同時(shí)不能向參與計(jì)算的其他成員泄露輸入值。一個(gè)SMC模型主要由參與方、安全性定義、通信網(wǎng)模型、信息論安全與密碼學(xué)安全4個(gè)方面組成,其應(yīng)用領(lǐng)域涉及到電子選舉、投票、拍賣等。雖然安全多方計(jì)算相對(duì)來說比較安全和準(zhǔn)確,但涉及到的加密技術(shù)計(jì)算開銷、通信開銷也較高,因此SMC是以犧牲費(fèi)用為前提提高隱私保護(hù)度的。目前,對(duì)于安全多方計(jì)算的研究主要集中于降低計(jì)算開銷、優(yōu)化分布式計(jì)算協(xié)議等[12]。
2.3.2同態(tài)加密技術(shù)
同態(tài)加密(homomorphic encryption)作為SMC的核心技術(shù)之一,其概念最初由Rivest等在1978年提出[32],是一種允許直接對(duì)密文進(jìn)行操作的加密變換技術(shù)[33],它既能實(shí)現(xiàn)基本的加密操作,也能實(shí)現(xiàn)密文間的多種計(jì)算功能。同態(tài)加密算法包括能實(shí)現(xiàn)一種同態(tài)性的半同態(tài)加密算法和可以滿足所有同態(tài)性質(zhì)的全同態(tài)加密算法[34],不過由于全同態(tài)加密算法的計(jì)算復(fù)雜性,目前還沒得到廣泛的應(yīng)用。
滿足乘法同態(tài)性的RSA算法[35],設(shè)p,q是兩大素?cái)?shù),由于大整數(shù)分解較為困難,因此n=pq難以在有限時(shí)間內(nèi)進(jìn)行分解。RSA算法也存在一些問題。一是在公私鑰生成之后,同一個(gè)明文加密后的密文總相同,這就對(duì)其安全性提出了挑戰(zhàn),對(duì)此,文獻(xiàn)[36]提出了滿足加法同態(tài)性的Paillier算法,因同一明文兩次加密會(huì)產(chǎn)生不同密文,相對(duì)RSA算法提高了方案的安全性。二是倘若攻擊者嘗試所有可能的密鑰進(jìn)行蠻力攻擊或?qū)Υ髷?shù)因式分解進(jìn)行數(shù)字攻擊,RSA算法的安全性也會(huì)受到威脅,為此,文獻(xiàn)[37]提出了一種改進(jìn)型的RSA算法(MREA,modified RSA encryption algorithm),MREA是一種非對(duì)稱密鑰密碼體系,公鑰只用來加密,私鑰只用來解密,因此通過加密簽名是不能識(shí)別身份的。文獻(xiàn)[38]詳細(xì)介紹了兩成員和多成員情況下同態(tài)加密技術(shù)的過程,并分別對(duì)其正確性、復(fù)雜度和隱私性進(jìn)行了分析。此外,還出現(xiàn)了一類異或同態(tài)加密算法,文獻(xiàn)[39]采用概率編碼方法和一個(gè)同態(tài)按位異或計(jì)算的密碼系統(tǒng),構(gòu)造了兩種安全協(xié)議,這不同于以往基于安全算術(shù)和的運(yùn)算,而是基于安全的按位異或運(yùn)算。
同態(tài)加密技術(shù)的優(yōu)點(diǎn)如下:1)可以先對(duì)多個(gè)密文進(jìn)行計(jì)算后再解密,減少計(jì)算代價(jià);2)可以實(shí)現(xiàn)無密鑰方對(duì)密文的計(jì)算,密文計(jì)算無須經(jīng)過密鑰方,減少通信代價(jià);3)可以實(shí)現(xiàn)讓解密方只能獲知最后的結(jié)果,而無法獲得每一個(gè)密文的消息,可以保證信息的安全性[40]。近年來,同態(tài)加密技術(shù)的突破性進(jìn)展為云計(jì)算的安全保護(hù)提供了新的契機(jī),研究高效、實(shí)用的全同態(tài)加密方案[41],并將其應(yīng)用到云計(jì)算服務(wù)上,具有重要的現(xiàn)實(shí)意義。
2.3.3數(shù)字信封技術(shù)
數(shù)字信封技術(shù)使用兩層加密體系,結(jié)合了對(duì)稱加密和非對(duì)稱加密的優(yōu)點(diǎn),保障信息傳輸安全。對(duì)稱加密,即加密和解密的密鑰相同;非對(duì)稱加密,即加密密鑰和解密密鑰不同。數(shù)字信封技術(shù)過程如下:
1)發(fā)送方用對(duì)稱密鑰加密信息,并用接收方的公開密鑰將此對(duì)稱密鑰加密(這部分稱為數(shù)字信封),形成消息密文和密鑰密文,將二者發(fā)送給接收方;
2)接收方用相應(yīng)的私有密鑰打開數(shù)字信封,得到對(duì)稱密鑰,然后用此對(duì)稱密鑰打開加密信息。
數(shù)字信封技術(shù)可滿足數(shù)據(jù)交換的高保密性要求,應(yīng)用較為廣泛。例如,將同態(tài)加密技術(shù)和數(shù)字信封技術(shù)相結(jié)合,并應(yīng)用于數(shù)據(jù)挖掘決策樹分類[42]的隱私保護(hù)之中。
2.3.4Shamir秘密共享技術(shù)
秘密共享是一種將秘密分割存儲(chǔ)的密碼技術(shù),但其關(guān)鍵是如何設(shè)計(jì)更好的分割和恢復(fù)。Shamir秘密共享技術(shù)可以有效預(yù)防共謀攻擊并且可以在不違背隱私保護(hù)的前提下進(jìn)行多方計(jì)算[43],其基本思想是將一個(gè)密鑰分解成n個(gè)部分,只有知道了其中的至少k(kn≤)個(gè)部分才能恢復(fù)出原來的秘密信息。
假定sυ是隱私信息,P是分配隱私信息的P1,P1,…,Pn組成的集合,k是重建隱私信息至少需要的股份數(shù)。Shamir秘密共享算法簡述如下:
2)選擇m個(gè)不同公開的隨機(jī)數(shù)1x,2x,…,其中
因?yàn)槎囗?xiàng)式 q( x)中有k個(gè)未知量,為了得到隱私信息υs,至少需要構(gòu)建k個(gè)方程。因此即便有k-1個(gè)隱私分配者串通也不能得到這個(gè)隱私的任何信息。
文獻(xiàn)[43]詳細(xì)分析了此算法的正確性、復(fù)雜度和安全性。通過分析方程組的形式,得知k個(gè)部分參與的計(jì)算即使有k-1個(gè)部分勾結(jié)也不能計(jì)算出這個(gè)隱私信息,因此該方法可以達(dá)到隱私保護(hù)的目的。秘密共享技術(shù)有諸多優(yōu)點(diǎn),例如保證密鑰的安全性和完整性,防止權(quán)力過分集中被濫用,增加系統(tǒng)的可靠性等。因此,將其與數(shù)字簽名、身份認(rèn)證等技術(shù)結(jié)合可形成具有廣泛應(yīng)用價(jià)值的密碼學(xué)算法和安全協(xié)議。
2.4基于聚類算法的隱私保護(hù)技術(shù)
聚類是根據(jù)數(shù)據(jù)間不同和相似的特性,將數(shù)據(jù)分成不同的類別,最后使同一聚簇中的個(gè)體差別盡可能小,而不同聚簇之間個(gè)體差異盡可能大。聚類是一個(gè)無監(jiān)督的分類,它沒有任何先驗(yàn)知識(shí)可用[44]。在此,主要介紹基于EM和K-means聚類算法的隱私保護(hù)技術(shù)。
2.4.1基于EM算法聚類的隱私保護(hù)
EM算法( expectation maximization algorithm),即最大期望算法,是一種迭代算法,主要用于計(jì)算不完全數(shù)據(jù)的極大似然估計(jì),大大降低了極大似然估計(jì)的計(jì)算復(fù)雜度。EM算法的每一步迭代中包括一個(gè)E步(expectation step)即期望步和一個(gè)M步(maximum likelihood step)即極大似然步,如此迭代下去,直至滿足某個(gè)收斂條件為止。由于EM算法收斂的優(yōu)劣很大程度上取決于其初始參數(shù),因此如何初始化EM參數(shù)[45,46]是一個(gè)關(guān)鍵的問題,一般采用隨機(jī)中心、層次聚類、K-means和Binning等方法。
雖然人們?cè)诓粩嗟馗倪M(jìn)EM算法,但基于隱私保護(hù)的安全聚類協(xié)議并不是很多。對(duì)于水平分布的數(shù)據(jù),文獻(xiàn)[47]給出了一種EM混合模型下的安全算法,基本思想是在每次迭代中,每個(gè)參與者只從數(shù)據(jù)對(duì)象中生成一個(gè)局部模型,并根據(jù)上次迭代結(jié)果計(jì)算全局信息,然后將自己的局部模型和其他參與者的局部模型合并成全局模型。但這種方法至少需要3個(gè)參與方,因?yàn)樘热糁挥袃煞降脑?,便可以根?jù)全局模型和自己的局部模型得到另一方的局部模型。針對(duì)這種情況,文獻(xiàn)[48]提出了一種只有兩個(gè)參與者的基于EM聚類的隱私保護(hù)算法,討論了在高斯混合模型(GMM,Gaussian mixture model)里,如何在不共享各自信息的同時(shí)安全計(jì)算高斯分布的期望 μi、協(xié)方差矩陣類i的概率 πi。
2.4.2K-means聚類的隱私保護(hù)算法
K-means算法也是基于聚類算法中的一個(gè)典型算法,同樣也是一種迭代算法。其基本思想是找出K個(gè)聚類中心,使每個(gè)數(shù)據(jù)點(diǎn)與其最近的聚類中心的平方距離和最小。基本過程如下:
1)從n個(gè)點(diǎn)中隨機(jī)選取k個(gè)點(diǎn)作為中心;
2)分別測(cè)量其他每個(gè)點(diǎn)到k個(gè)中心的距離,并將其歸到最近的中心,得到k個(gè)類;
3)重新計(jì)算k個(gè)類的中心點(diǎn);
4)若新中心點(diǎn)和原中心點(diǎn)相同或小于提前設(shè)定的閾值,則算法結(jié)束,否則繼續(xù)步驟2)和步驟3)。
對(duì)于K-means聚類的隱私保護(hù),關(guān)鍵是對(duì)聚類均值的隱私保護(hù),但是在算法的每一步迭代中,參與方是知道均值的[49]。為了解決這一問題,文獻(xiàn)[48]提出了一個(gè)協(xié)議,即在不揭露聚類均值的前提下允許每個(gè)參與方計(jì)算到聚類中心點(diǎn)的距離。對(duì)于垂直分布的數(shù)據(jù)聚類,既要得到劃分的效果,又達(dá)到不能泄露各方對(duì)象屬性的個(gè)數(shù)和各方類的平均值的隱私保護(hù)目的,文獻(xiàn)[50]在K-means算法基礎(chǔ)上,結(jié)合安全多方計(jì)算和同態(tài)加密算法,提出了一種對(duì)于K-means聚類的隱私保護(hù)方案,假定有r個(gè)參與方,n個(gè)公共實(shí)體,每個(gè)參與方對(duì)于同一實(shí)體集有不同的屬性,最后的結(jié)果是每個(gè)參與方只知道對(duì)應(yīng)于他們自己屬性的均值以及實(shí)體的劃分。
國際標(biāo)準(zhǔn)化組織/國際電工委員會(huì)(ISO/IEC,InternationalOrganization forStandardization/ International Electrotechnical Commission)的第一聯(lián)合技術(shù)委員會(huì)(JTC1)是一個(gè)信息技術(shù)領(lǐng)域的國際標(biāo)準(zhǔn)化委員會(huì),它推進(jìn)了國際信息技術(shù)標(biāo)準(zhǔn)化的進(jìn)程。SC27是JTC1下屬的專門負(fù)責(zé)信息安全技術(shù)領(lǐng)域的分技術(shù)委員會(huì),SC27下設(shè)5個(gè)工作組,其中第五工作組WG5主要負(fù)責(zé)研究和制定身份管理與隱私保護(hù)領(lǐng)域的信息安全國際標(biāo)準(zhǔn)。鑒于隱私保護(hù)相關(guān)的標(biāo)準(zhǔn)涉及范圍很廣,本節(jié)主要介紹SC27 WG5制定的與隱私保護(hù)相關(guān)的國際標(biāo)準(zhǔn)。
3.1ISO/IEC 29100《信息技術(shù) 安全技術(shù) 隱私框架》
ISO/IEC 29100《信息技術(shù) 安全技術(shù) 隱私框架》[51]為信息與通信技術(shù)(ICT,information and communication technology)系統(tǒng)內(nèi)個(gè)人可識(shí)別信息(PII,personally identifiable information)提供了一個(gè)高層次的框架。此框架定義了一個(gè)通用的隱私術(shù)語;介紹了處理PII過程中的成員和它們各自的角色;描述了隱私保護(hù)需考慮的事項(xiàng);并且根據(jù)現(xiàn)有的隱私規(guī)則提供了一些參考規(guī)則。該標(biāo)準(zhǔn)提供的隱私框架可以作為制定其他隱私標(biāo)準(zhǔn)的基礎(chǔ)。
3.2ISO/IEC 27018《信息技術(shù) 安全技術(shù) 在公有云中PII處理者的PII實(shí)用規(guī)則》
ISO/IEC 27018這一標(biāo)準(zhǔn)[52]根據(jù) ISO/IEC 29100中的隱私規(guī)則建立了通用的可接受的控制對(duì)象、措施和指南,使得在公有云計(jì)算環(huán)境下保護(hù)PII。該標(biāo)準(zhǔn)幫助公有云服務(wù)提供商作為PII處理者時(shí)履行適用的義務(wù);使公有云PII處理者在相關(guān)方面淺顯易懂,因此云服務(wù)消費(fèi)者可以選擇較好的基于云管理的PII處理服務(wù);幫助云服務(wù)消費(fèi)者和公有云PII處理者達(dá)成合約共識(shí);在物理和邏輯網(wǎng)絡(luò)安全風(fēng)險(xiǎn)增高的情況下,為云服務(wù)消費(fèi)者提供一個(gè)執(zhí)行審計(jì)、合法權(quán)利和責(zé)任的機(jī)制。
3.3ISO/IEC 29190《信息技術(shù) 安全技術(shù) 隱私保護(hù)能力評(píng)估模型》
ISO/IEC 29190標(biāo)準(zhǔn)[53]試圖向組織提供一個(gè)關(guān)于如何評(píng)估其隱私保護(hù)能力水平的高層次指南。特別地,它規(guī)定了評(píng)定隱私能力的評(píng)估步驟;設(shè)定了隱私能力評(píng)估級(jí)別;在隱私能力評(píng)估的關(guān)鍵功能區(qū)域提供了指南;提供了執(zhí)行評(píng)估過程的指南,并且提供了如何將隱私能力評(píng)估融入到組織運(yùn)作中的指南。
3.4ISO/IEC 29134《信息技術(shù) 安全技術(shù) 隱私影響評(píng)估 方法學(xué)》
ISO/IEC 29134標(biāo)準(zhǔn)[54]為隱私影響評(píng)估(PIA,privacy impact assessment)的進(jìn)行提供了指導(dǎo)方針,并給出了一個(gè)隱私保護(hù)框架和具體的隱私影響評(píng)估方法,解釋了如何管理在PII處理過程中產(chǎn)生的隱私風(fēng)險(xiǎn)。此外,該標(biāo)準(zhǔn)還描述了PIA報(bào)告的結(jié)構(gòu)和內(nèi)容,PIA是一種用來評(píng)估在某個(gè)項(xiàng)目、技術(shù)和服務(wù)等方面隱私影響的工具,并與利益相關(guān)者協(xié)商采取補(bǔ)救措施來避免或減小不利影響。
本節(jié)主要介紹的是SC27 WG5制定的與隱私保護(hù)相關(guān)的國標(biāo)。然而由于不同國家的管理機(jī)制和理念各不相同,不同實(shí)體涉及到的隱私方面的差異也較大,應(yīng)根據(jù)我國實(shí)際情況,通過研究和跟進(jìn)國際國外相應(yīng)標(biāo)準(zhǔn)及其發(fā)展趨勢(shì),不斷推進(jìn)和深化我國的隱私保護(hù)標(biāo)準(zhǔn)。
目前,數(shù)據(jù)量呈指數(shù)式增長,數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)格式日趨復(fù)雜化,安全與隱私已成為大數(shù)據(jù)時(shí)代各行各業(yè)關(guān)注的焦點(diǎn)。無論是在技術(shù)層面還是標(biāo)準(zhǔn)制定層面,都需要進(jìn)行進(jìn)一步研究和完善。
隨著無線傳感器網(wǎng)絡(luò)、移動(dòng)社交網(wǎng)絡(luò)以及云計(jì)算相關(guān)應(yīng)用的逐步展開,其安全問題也備受關(guān)注。如何將隱私保護(hù)技術(shù)和它們進(jìn)一步結(jié)合,設(shè)計(jì)具有針對(duì)性且性能良好的算法,提高保護(hù)度和結(jié)果精確度,降低算法復(fù)雜度以及減少能量消耗等都需要進(jìn)行深入研究。
在無線傳感器網(wǎng)絡(luò)中,研究主要集中于數(shù)據(jù)聚集、查詢和訪問控制過程中的隱私保護(hù),由于這是資源受限的分布式自組織多跳網(wǎng)絡(luò),前面介紹的隱私保護(hù)關(guān)鍵技術(shù)并不能直接應(yīng)用于此網(wǎng)絡(luò)。在隱私保護(hù)數(shù)據(jù)聚集中,可以使用逐跳加密機(jī)制、端到端加密機(jī)制、非加密策略等。逐跳加密機(jī)制是聚集節(jié)點(diǎn)將子節(jié)點(diǎn)上傳來的加密數(shù)據(jù)解密后進(jìn)行聚類,然后加密上傳給父節(jié)點(diǎn),由于中間節(jié)點(diǎn)都需進(jìn)行加解密,因此計(jì)算代價(jià)較高;而端到端加密機(jī)制,聚集節(jié)點(diǎn)不解密只加密的方法減少了加解密的計(jì)算代價(jià);非加密策略就是在不加密的情況下,加入與真實(shí)數(shù)據(jù)不可區(qū)分的偽裝數(shù)據(jù)以實(shí)現(xiàn)隱私保護(hù),此方法可支持非線性聚類,但其隱私保護(hù)能力較弱。在隱私保護(hù)數(shù)據(jù)查詢中,目前大多采用范圍查詢、Top-k查詢、基于類型的查詢等方法:范圍查詢可通過桶模式和加密技術(shù)實(shí)現(xiàn),再添加驗(yàn)證編碼進(jìn)行正確性和完整性驗(yàn)證;Top-k查詢是采用擾動(dòng)和安全比較等技術(shù)實(shí)現(xiàn)隱私保護(hù);在基于類型的查詢中,傳感器節(jié)點(diǎn)采集特定類型的數(shù)據(jù),使用橢圓曲線多項(xiàng)式技術(shù)將敏感數(shù)據(jù)的類型和內(nèi)容隱藏,應(yīng)對(duì)共謀攻擊。在隱私保護(hù)訪問控制中,盲簽名技術(shù)隱私保護(hù)度較強(qiáng),但通信代價(jià)較高,環(huán)簽名技術(shù)則與其相反。如何根據(jù)其特點(diǎn),優(yōu)化數(shù)據(jù)管理,設(shè)計(jì)保護(hù)協(xié)議,將隱私保護(hù)技術(shù)和傳感器網(wǎng)絡(luò)技術(shù)有效結(jié)合是這一領(lǐng)域需要進(jìn)一步研究的方向。
在移動(dòng)社交網(wǎng)絡(luò)中,各種移動(dòng)定位設(shè)備的涌現(xiàn)產(chǎn)生了大量的位置和軌跡數(shù)據(jù),對(duì)其如何保護(hù)是迫切需要解決的問題,目前,社交網(wǎng)絡(luò)隱私保護(hù)技術(shù)主要集中于基于k-匿名、Markov鏈、聚類、隨機(jī)化等思想,軌跡隱私保護(hù)技術(shù)主要集中于假數(shù)據(jù)、泛化和抑制等,除了對(duì)發(fā)布的數(shù)據(jù)進(jìn)行一定的處理外,還要考慮數(shù)據(jù)發(fā)布時(shí)間之間的聯(lián)系,此外,即便用戶可以控制自己發(fā)布的內(nèi)容,也無法控制朋友發(fā)布涉及自己的內(nèi)容,這也給相關(guān)人員帶來了巨大的挑戰(zhàn),如何降低隱私泄露程度并且提高數(shù)據(jù)可用性成為了研究的重點(diǎn)。因此,需要設(shè)計(jì)多樣化的社會(huì)網(wǎng)絡(luò)隱私保護(hù)模型,目前已初步嘗試將關(guān)系數(shù)據(jù)中的差分隱私應(yīng)用到其中,不過由于大數(shù)據(jù)的規(guī)模和結(jié)點(diǎn)之間高度的相關(guān)性,可能導(dǎo)致數(shù)據(jù)差分隱私的復(fù)雜度較高。
在云計(jì)算相關(guān)應(yīng)用中,各種大量資源都鏈接在一起,形成一個(gè)巨大的虛擬資源共享池,它以便利、經(jīng)濟(jì)、高可擴(kuò)展性等一系列優(yōu)勢(shì)吸引了越來越多的企業(yè)和公司,然而其安全問題是制約云計(jì)算發(fā)展的關(guān)鍵因素。近年來,研究者不斷致力于對(duì)虛擬機(jī)安全、數(shù)據(jù)外包安全、可信計(jì)算環(huán)境等相關(guān)方面的研究,為保護(hù)用戶數(shù)據(jù)的隱私,用戶在對(duì)數(shù)據(jù)加密后交給云服務(wù)器存儲(chǔ),當(dāng)用戶進(jìn)行查詢時(shí),也需對(duì)查詢條件進(jìn)行加密,這對(duì)云服務(wù)器的要求很高,必須能夠根據(jù)加密的查詢條件在加密的數(shù)據(jù)上進(jìn)行查詢,如何真正實(shí)現(xiàn)相關(guān)技術(shù)應(yīng)用于云計(jì)算中,形成支撐云計(jì)算安全的技術(shù)體系,為用戶提供安全可靠的保障是未來需要解決的實(shí)質(zhì)性問題。目前,基于ORAM的可搜索加密技術(shù)能達(dá)到較高的安全保障,但需付出很大的計(jì)算代價(jià);基于對(duì)稱加密的可搜索技術(shù)是一種無交互密文搜索方法,但較易遭受統(tǒng)計(jì)攻擊;較為符合云計(jì)算環(huán)境下隱私保護(hù)實(shí)際需求的方法是安全排名查詢,此方法是系統(tǒng)根據(jù)某種準(zhǔn)則進(jìn)行查詢將結(jié)果返回給用戶,系統(tǒng)適用性較強(qiáng),不過仍需進(jìn)一步研究。
除了隱私保護(hù)相關(guān)領(lǐng)域技術(shù)層面的研究,還需要通過法律法規(guī)和標(biāo)準(zhǔn)對(duì)其進(jìn)行規(guī)范。然而由于各國情況不同,實(shí)際應(yīng)用和管理需求不同,必須結(jié)合實(shí)際情況進(jìn)行法律法規(guī)和標(biāo)準(zhǔn)的制定。我國尚缺乏一部專門用于信息通信技術(shù)(ICT,information communication technology)系統(tǒng)的隱私保護(hù)法律,可參考國際國外的相關(guān)法規(guī)和標(biāo)準(zhǔn),結(jié)合我國實(shí)際情況,盡快出臺(tái)相關(guān)政策。
本文從數(shù)據(jù)發(fā)布和挖掘的角度出發(fā),介紹了幾種典型的隱私保護(hù)技術(shù)方法,以及JTC1制定的與隱私保護(hù)相關(guān)的標(biāo)準(zhǔn),并分析了其未來可能的發(fā)展方向??傮w上說,對(duì)于隱私保護(hù)的相關(guān)研究,還需要進(jìn)一步努力,制定合理的政策法規(guī),并在此基礎(chǔ)上加強(qiáng)技術(shù)方面的探索,才能更好地讓數(shù)據(jù)為我所用,使隱私更好地得以保護(hù)。
[1]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域—大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6).LI G J,CHENG X Q.Big data study:a major strategic area-the research status of big data and scientific reflection[J].Bulletin of ChineseAcademy of Sciences,2012,27(6).
[2]CLIFFORD L.Big data[J].Nature,2008,455(7209):1-136.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.MENG X F,CI X.Big data management:conception,technology and challenge[J].Computer Research and Development,2013,50(1): 146-169.
[4]官思發(fā),朝樂門.大數(shù)據(jù)時(shí)代信息分析的關(guān)鍵問題、挑戰(zhàn)與對(duì)策[J].圖書情報(bào)工作,2015,59(3):12-18.GUAN S F,CHAO L M.The problem,challenge and countermeasure of the big data information analysis[J].Library and Information Service,2015,59(3):12-18.
[5]WARREN S D,BRANDEIS L D.The right to privacy[J].Harvad Law Review,1973,4(6):193-220.
[6]ADAM N R,WORTMANNJ C.Security control methods for statistical databases:a comparative study[J].ACM Computing Surveys,1989,21(4):515-556.
[7]AGRAWAL R,SRIKANT R.Privacy-preserving data mining[J].Sigmod Record,2000,29(2):439-450.
[8]CLIFTYON C,KANTARCIOGLU M,VAIDYA J,et al.Tools for privacy preserving distributed data mining[J].ACM SIGKDD Explorations,2003,4(2).
[9]MCINTYRE S E,MCLNTYRE J.Data swapping:variations on a theme by dalenius and reiss[J].Lecture Notes in Computer Science, 2004:14-29.
[10]KARGUPTA H,DAS K,LIU K.Multi-party,privacy-preserving distributed data mining using a game theoretic framework[C]//The 11st European conference on Principles and Practice of Knowledge Discovery in Databases.Berlin Heidelberg:Springer-Verlag,c2007: 523-531.
[11]XU L,JIANG C X,WANG J,et al.Information security in big data: privacy and data mining[J].IEEE Access,2014,2:1-28.
[12]李曉曄,孫振龍,鄧佳賓,等.隱私保護(hù)技術(shù)研究綜述[J].計(jì)算機(jī)科學(xué),2013,40:199-202.LI X H,SUN Z L,DENG J B,et al.Review of privacy protection[J].Computer Science,2013,40:199-202.
[13]KARGUPTA H,DATTA S,WANG Q,et al.On the privacy preserving properties of random data perturbation techniques[C] //IEEE International Conference on Data Mining.c2003:99.
[14]張鵬,童云海,唐世渭,等.一種有效的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘方法[J].軟件學(xué)報(bào),2006,17(8):1764-1774.ZHANG P,TONG Y H,TANG S W,et,al.An effective method of digging privacy protection assotionation rule[J].Journal Software, 17(8):1764-1774.
[15]ELMAGARMID A K,VERYKIOS V S,SAYGIN Y.Privacy preserving association rule mining[C]//Twelfth International Workshop Research Issuesin Data Engineering:Engineering E-Commercr/E-Business Systems.c2002:151-158
[16]AGRAWAL R,SRIKANT R.Privacy preserving data mining[J].ACM Sigmod Record,2000,29(2):439-450.
[17]張海濤,黃慧慧,徐亮,等.隱私保護(hù)數(shù)據(jù)挖掘研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2013,30(12):3529-3535.ZHANG H T,HANG H H,XU L,et al.Progress of private protection data mining[J].Application Research of Computers,2013,30(12): 3529-3535.
[18]SAYGM Y I,VERYKIOS V S,CLIFTON C.Using unknowns to prevent discovery of association rules[J].ACM Sigmod Record, 2001,30(4):45-54.
[19]OLIVEIRA S R M,ANE O.Privacy preserving frequent itemset mining[C]//IEEE International Conference on Privacy,Security and Data Mining.c2002:43-54.
[20]AGGARWAL C C,YU P S,et al.A condensation approach to privacy preserving data mining[M]//9th International Conference on Extending Ratakase Technology,Heraklion,Crete.Berlin Heidelberg:Springer,c2004:183-199.
[21]ESTIVILL V,BRANKOVIC L.Data swapping:balancing privacy against precision in mining for logic rules[J].Lecture Notes in Computer Science,1999:389-398.
[22]FORESTI S,PARABOSCHI S,PELOSI G,et al.Protecting access confidentiality with data distribution and swapping[C]//Big Data and Cloud Computing.c2014:167-174.
[23]SAMARATI P,SWEENEY L.Protecting privacy when disclosing information: K-anonymity and its enforcement through generalization and suppression[C]//IEEE Symposium on Research in Security and Privacy,Chicago.c1998.
[24]SWEENEY L.K-anoymity:a model for protecting privacy[J].International Journal of Uncertainty Fuzziness&Knowledge Based Systems,2002,10(5):557-570.
[25]楊曉春,劉向宇,王斌,等.支持多約束的K-匿名化方法[J].軟件學(xué)報(bào),2006,17(5):1222-1231.YANG X C,LIU X Y,WANG B,et al.K-anonymous method of multiple constrains supported[J].Journals of Software,2006,17(5): 1222-1231.
[26]MACHANAVAJJHALA A,GEHRKE J,KIFER D,et al.L-diversity:privacy beyond k-anonymity[C]//IEEE International Conference on Data Engineering.c2006:24.
[27]王波,楊靜.一種基于逆聚類的個(gè)性化隱私匿名方法[J].電子學(xué)報(bào),2012,40(5):883-890.WANG B,YANG J.An anonymity privacy method based on invese clustering[J].Acta Electronica Sinica,2012,40(5):883-890.
[28]劉英華,楊炳儒,馬楠,等.分布式隱私保護(hù)數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)應(yīng)用研究,2011,28(10):3606-3610.LIU Y H,TANG B R,MA N,et al.Study of distributed privacy protection[J].Application Research of Computers,2011,28(10): 3606-3610.
[29]LI N,LI T,VENKATASUBRAMANIAN S.T-closeness:privacy beyond k-anonymity and l-diversity[C]//IEEE International Conference on Data Engineering.c2007:106-115.
[30]湯琳,何豐.隱私保護(hù)的數(shù)據(jù)挖掘方法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21:156-159.TANG L,HE F.Study of data mining method based on privacy protection[J].Computer technology and Development,2011,21: 156-159.
[31]YAO A C.How to generate and exchange secrets[C]//IEEE Symposium on Foundations of Computer Science.c1986:162-167.
[32]RIVEST R L,ADLEMAN L,DERTOUZOS M L.On data banks and privacy homomorphisms[J].Foundations of SecureComputations,1978:169-179.
[33]錢萍,吳蒙.同態(tài)加密隱私保護(hù)數(shù)據(jù)挖掘方法綜述[J].計(jì)算機(jī)應(yīng)用研究,2011,28(5):1614-1617.QIAN P,WU M.Review of privacy protection data mining based on homomorphic encryption[J].Application Research of Computers,2011,28(5):1614-1617.
[34]GENTRY C.Fully homomorphic encryption using ideal lattices[C]//Annual ACM Symposium on Theory of Computing.c2009:169-178.
[35]RIVST R L,SHAMIR A,ADLEMAN L.A method for obtaining digital signatures and public-key cryptosystems[J].Communications of the ACM,1978,21:120-126.
[36]PAILLER P.Public-key cryptosystems based on composite degree residuosity classes[J].Advances in Cryptology-Eurocrypt,1999, 547(1):223-238.
[37]DHAKAR R S,GUPTAAK,SHARMAP.Modified RSAencryption algorithm(MREA)[C]//IEEE International Conference on Advanced Computing and CommunicationTechnologies,c2012:426-429.
[38]ZHAN J,MATWIN S,CHANG L.Privacy-preserving collaborative association rule mining[J].Journal of Network& ComputerApplications,2007,30(3):1216-1227.
[39]ZHANG Y,CHEN Q,ZHONG S.Efficient and privacy-preserving min and k-th min computations in mobile sensing systems[J].IEEE Transactions on Dependable&Secure Computing,2015:1.
[40]夏超.同態(tài)加密技術(shù)及其應(yīng)用研究[D].合肥:安徽大學(xué),2013.XIA C.Studyofhomomorphicencryption technologyand application[D].Hefei:Anhui University,2013.
[41]陳智罡,王箭,宋新霞.全同態(tài)加密研究[J].計(jì)算機(jī)應(yīng)用研究, 2014,31(6):1624-1630.CHEN ZZ,WANG J,SONG X X.Studyofhomomorphic encryption[J].Application Research of Computers,2014, 31(6):1624-1630.
[42]ZHAN J.Using homomorphic encryption for privacy-preserving collaborative decision tree classification[C]//Computational Intelligence and Data Mining.c2007:637-645.
[43]GE X,YAN L,ZHU J,et al.Privacy-preserving distributed association rule mining based on the secret sharingtechnique[C]//The 2nd International Conference on IEEE Software Engineering and Data Mining.c2010:345-350.
[44]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008, 19(1):48-61.SUN J G,LIU J,ZHAO L Y.Study of clustering algorithrm[J].Journals of Software,2008,19(1):48-61.
[45]BIERNACKI C.Initializing EM using the properties of its trajectories in Gaussian mixtures[J].Statistics&Computing,2004, 14(3):267-279.
[46]BIERNACI C,CELEUX G,GOVAERT G.Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models[J].Computational Statistics& Data Analysis,2003,41(3/4):561-575.
[47]LIN X,CLIFTON C,ZHU M.2005.Privacy-preserving clustering with distributed EM mixture modeling[J].Knowledge & Information Systems,2005,8(1):68-81.
[48]DUNG L T,BAO H T.Privacy preserving EM-based clustering[C]//International Conference on IEEE Computing and Communication Technologies.2009:1-7.
[49]JHA S,KRUGER L,MCDANIEL P.Privacy Preserving Clustering[C]//10th European Symposium on Research in Computer Security, Milan.Berlin Heidelberg: Springer, 2005:397-417.
[50]VAIDYA J,CLIFTON C.Privacy-preserving k-means clustering over vertically partitioned data[C]//Ninth ACM Sigkdd International Conference on Knowledge Discovery&Data Mining.c2003:206-215.
[51]ISO/IEC JTC1/SC27.Information technology-security techniquesprivacy framework[S].
[52]ISO/IEC JTC1/SC27.Information technology-security techniquescode of practice for PII protection in public clouds acting as PII processors[S].
[53]ISO/IEC JTC1/SC27.Information technology-security techniques-Privacy capability assessment model[S].
[54]ISO/IEC JTC1/SC27.Information technology-security techniquesprivacy impact assessment-methodology[S].
Progress of research on privacy protection for data publication and data mining
WANG Jiao1,FAN Ke-feng2,WANG Yong3
(1.School of Electronic Engineering andAutomation,Guilin University of Electronic Technology,Guilin 541004,China; 2.China Electronics Standardization Institute,Beijing 100007,China; 3.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin 541004,China)
With the rapid development of the computer technology,there are more and more data in the society.In order to acquire knowledge from the large amounts of data,collecting and data mining is necessary.However,the privacy information will inevitably be disclosed during the process.So it is particularly important to improve the security of data and protect the useful data to avoid being disclosed.Several methods of data privacy preserving technology were analyzed when data was processed and briefly discussed the international standards which were made by JTC1 about privacy protection.According to its different application fields,the possible future research directions was proposed.Certain reference foundation could be provided for people who were in the field of information security.
privacy protection,big data,data mining,standard
隨著社會(huì)的進(jìn)步和信息通信技術(shù)的迅猛發(fā)展,數(shù)據(jù)量越來越多,Google公司每月處理的數(shù)據(jù)量超過400 PB;百度每天大約要處理幾十PB數(shù)據(jù);Facebook每天生成300 TB以上的日志數(shù)據(jù)[1]。在信息化時(shí)代的今天,數(shù)據(jù)除了呈現(xiàn)上述海量性之外,類型也變得繁多起來,以Web2.0技術(shù)為基礎(chǔ)的新型社交網(wǎng)絡(luò),以及云計(jì)算、物聯(lián)網(wǎng)的興起,使得越來越多的數(shù)據(jù)呈現(xiàn)半結(jié)構(gòu)化,甚至非結(jié)構(gòu)化特性,信息社會(huì)已然步入大數(shù)據(jù)(big data)[2]時(shí)代,大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在多源異構(gòu)、分布廣泛、動(dòng)態(tài)增長等特點(diǎn)[3],這些數(shù)據(jù)價(jià)值量大,但價(jià)值密度低,在對(duì)其進(jìn)行有效分析過程中,在得到想要結(jié)果時(shí),人們普遍將關(guān)注點(diǎn)集中在如何保證自己的信息不被泄露上。
The National Natural Science Foundation of China(No.61172053)
TP309
A
10.11959/j.issn.2096-109x.2016.00021
2015-10-27;
2016-01-08。通信作者:范科峰,kefengfan@163.com
國家自然科學(xué)基金資助項(xiàng)目(No.61172053)

王姣(1990-),女,河北石家莊人,桂林電子科技大學(xué)碩士生,主要研究方向?yàn)楣I(yè)大數(shù)據(jù)的安全測(cè)評(píng)。

范科峰(1978-),男,陜西禮泉人,中國電子技術(shù)標(biāo)準(zhǔn)化研究院信息安全研究中心副主任、高級(jí)工程師,主要研究方向?yàn)樾畔⒓夹g(shù)、信息安全領(lǐng)域關(guān)鍵技術(shù)及標(biāo)準(zhǔn)化。

王勇(1964-),男,四川閬中人,博士,桂林電子科技大學(xué)教授,主要研究方向?yàn)樾畔踩?/p>