999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

具備隱私信息保護能力的學習器研究

2016-09-23 06:22:06蔣慣樟王士同
網絡與信息安全學報 2016年6期
關鍵詞:數據挖掘分類信息

蔣慣樟,王士同

(江南大學數字媒體學院,江蘇 無錫 214122)

具備隱私信息保護能力的學習器研究

蔣慣樟,王士同

(江南大學數字媒體學院,江蘇 無錫 214122)

隨著數據挖掘技術在現實生活的日益發展,對信息數據的共享提出了更高的要求,隱私泄露問題變得日趨嚴重。設計具有隱私信息保護能力的學習器成為數據挖掘中的一個重要的問題。在已有研究成果的基礎上,簡要回顧了隱私保護學習器的發展現狀,對隱私保護關鍵技術及學習器模型進行了分析概述,針對近年來國內外關于隱私保護學習器的研究成果進行了歸納總結。

隱私保護;數據挖掘;學習器

1 引言

隨著信息時代大數據的飛速發展,數據挖掘技術應運而生。當今社會,信息數據的高度共享為各領域的合作交流、學術研究提供了有利的條件,但同時容易導致用戶隱私數據或者敏感信息的泄露。因此,如何在進行數據挖掘的同時確保用戶的敏感信息不泄露,具有非常重要的研究價值。在1995年的第一屆KDD大會上,基于隱私保護技術的數據挖掘第一次被正式提為模式識別領域專門研究的課題,引起了全世界的廣泛關注和重視。隨后,Agrawal等又在 1999年召開的KDD會議上進一步將隱私保護數據挖掘這一主題描述為未來幾年的重點研究課題。此后,隱私保護數據挖掘迅速成為新興的研究熱點。目前,雖然國內的科研院校、組織機構,如復旦大學、中國農業大學以及江南大學等關于這一課題都開展了大量的研究工作并取得了一些進展。但總的來說,關于隱私保護的數據挖掘在國內仍然處于起步階段,還存在非常大的研究空間。

從數據挖掘算法的角度,常用的隱私保護數據挖掘算法包括貝葉斯、決策樹、支持向量機、k-近鄰以及Boosting等分類法。近年來,SVM憑借其在分類問題上較好的頑健性和準確性在數據挖掘領域得到廣泛的應用。SVM是基于統計學習VC維理論和結構風險最小原理的線性分類器的一種推廣[1]。同時,為了解決高維非線性數據集的分類問題,通過將核函數引入支持向量機,實現線性分類器到非線性的擴展。隨著支持向量機在數據挖掘領域的飛速發展及隱私數據泄露問題的日益嚴重,具有隱私信息保護功能的支持向量機越來越受到重視,在學術界引起了廣泛的研究和深入的探討。

當前,基于隱私保護的學習機研究成果層出不窮,現有的隱私保護技術大致可以分為數據失真技術[2~14]、密碼學技術[15~25]及限制發布技術[17~36]等。通常情況下,從數據的分布方式來看,具有隱私信息保護能力的支持向量機又可分為集中式和分布式數據2種。然而,隨著當今時代信息技術的發展,具有隱私保護能力的支持向量機研究主要集中在分布式的情況下[37]。目前,從針對分布式數據的隱私保護支持向量機已取得的研究成果來看,大都集中在數據水平分布和垂直分布2個方向。兩者的不同在于,前者是根據數據的記錄形式將數據分別分布到不同的站點,后者是根據數據的屬性將數據分布到不同的站點。因此,在水平分布的情況下,所有站點只存儲了部分記錄,在垂直分布的情況下,所有站點都只存儲了所有記錄的部分屬性[38]。

本文在對隱私保護關鍵技術及典型支持向量機模型進行簡要概括的基礎上,對基于隱私保護的支持向量機算法中存在的問題及具有代表性的解決思路進行歸納總結,這對具有隱私保護能力的學習器研究具有重要意義。

2 隱私保護中的關鍵技術

表1 隱私保護技術的性能評估

表2 隱私保護技術的對比分析

隱私保護技術主要是指在各種數據庫應用中保護隱私數據或敏感信息不泄露所采用的具體技術。現實生活中,不同的實際需求決定了不同的隱私保護技術,每類隱私保護技術都有各自不同的特點,因此,只局限于一種技術的隱私保護無法滿足所有的應用需求。目前,關于隱私保護中的關鍵技術研究大致集中在數據失真技術、加密技術以及限制發布技術3個方面。針對不同的實際問題,幾種關鍵技術的保護能力、使用范圍也不完全相同,表1和表2分別針對不同情況給出了比較全面的比較分析。

2.1基于數據失真的技術

數據失真技術是一種重要的具有隱私保護能力的技術,主要是利用一定的隱私策略對原始數據進行干擾處理,從而實現既隱藏了敏感信息又保持原始數據中的一些信息或屬性不變。具體方法包括隨機化[6,12~14]、數據交換[7]、凝聚[3]、阻塞[4,5,10]等。通過數據失真技術獲得的數據必須符合以下幾個條件:1)不良參與者無法利用獲取到的失真數據推算出其他參與方的真實信息;2)原始數據中的某些屬性在失真數據中仍然保持不變,從后者獲取到的信息等價于從前者獲取的信息;3)通過失真數據可以盡可能準確地推算出隱藏在原始數據中的知識或規則[39]。

隨機化技術包括隨機擾動(random perturbation)和隨機化應答(randomized response)2類。隨機擾動技術[6,13,14,39]主要是在隨機化過程中,在原始數據中引入遵循一定分布的噪聲來實現對敏感信息的隱藏,對外不發布原始數據,只發布擾動后的數據,從而達到保護真實數據隱私的目的。與隨機擾動直接發布失真數據不同,隨機化應答[6,13,14,39]是將敏感數據間接地發布給外界,并借助一種應答特定問題的方式來實現。這樣,利用隨機化應答技術可以在一定程度上降低不良參與方推算出原始數據是否隱藏某些敏感信息或假信息的概率。雖然通過隨機應答技術發布的并不是真實的原始數據,但在發布數據量比較大的情況下,攻擊者仍然可以比較準確地推算出原始數據的統計信息和匯聚信息。

應用需求的不同導致隨機化技術必須設計特定的算法對轉換后的數據重建數據分布。凝聚技術[3,39]的出現較好地彌補了隨機化技術中的缺點。它將原始數據劃分成不同的組,存儲每個屬性的均值、協方差等統計信息,然后用通用的重構算法進行處理。由于每組內存儲的記錄相互之間是不可區分的,通過凝聚技術重構后的數據可以較好地隱藏原始數據中的隱私或敏感信息。當面對某些需要針對真實數據進行研究的應用時,隨機化和凝聚技術都無法實現這個功能,而阻塞技術[4,5,10]則可較好地解決這個問題。阻塞技術對外不發布某些特定的數據,而是將這些特定的數據用一個不確定的符號代替,因此,在一定程度上保護了布爾關聯和分類規則的不泄露,達到保護隱私的目的。

通常情況下,當進行數據發掘時,如果數據擁有者不想共享真實數據,可以預先將真實數據利用數據失真技術進行處理后再進行發布,以保護敏感信息不泄露。基于數據失真的隱私保護技術雖然有較高的效率,但由于通過處理后獲得的數據是失真數據,容易造成部分信息的丟失。

2.2基于密碼學的技術

當前,數據通信的安全性是分布式環境下實現隱私保護面臨的一個重要問題,基于此,加密技術應運而生,可以較好地緩解這個問題。在分布式環境下,基于密碼學的隱私保護技術的實際應用大都依賴于數據的存儲方式、站點的可信度及其行為。

采用密碼學技術進行數據加密的方法大都用在分布式環境中,主要以安全多方計算(SMC)[17,24]為代表。為了解決互不信任的多用戶之間進行協作計算的問題,Yao于1982年通過構造多方安全協議提出多方安全計算[17]。

以多方安全計算為代表的隱私保護技術不僅能保證原始數據的安全性,而且能確保用戶之間獲取到數據的準確性。然而,由于該技術復雜度比較高,在數據參與方較多的條件下,容易導致較大的計算開銷,大大降低其性能。因此,當前關于密碼學的隱私保護技術研究主要集中在如何降低開銷、優化協議等方面[19, 39]。

2.3基于限制發布的技術

與以上提到的2種技術不同,基于限制發布的技術可以根據實際需求自主決定發布或不發布原始數據,或者發布范化的敏感數據,從而達到保護原始數據隱私的目的。目前,基于限制發布技術的隱私保護主要以數據匿名化為代表,即在隱私泄露和數據精度之間做了一個折中處理,確保把隱私泄露的風險把握在可控范圍。該技術主要是根據實際情況對外界選擇性地發布原始數據或可能暴露敏感數據的信息。數據匿名化的經典算法包括:k-匿名[26,27,29,33~44]、l-diversity[45,46]、t-closeness[47]等。

k-匿名原則是一項只針對非敏感屬性項的隱私保護技術。它要求所發布的數據表中的每一條記錄都存在其他k-1條記錄不能相互區分,這些不能相互區分的 k條記錄被稱為一個等價類(equivalence class)。通常情況下,隱私保護效果受k值大小的影響,k值越大,保護效果就越好,但造成信息丟失的也越多[26,39]。k-匿名原則如表3和表4所示。表3中的“姓名”和“HIV+”為隱私數據,即敏感屬性,表4中標灰的數據為個體的非敏感屬性,滿足2-匿名的原則。即等價類中的任意一條數據都無法和另一條數據相互區分。由于k-匿名原則對隱私數據缺乏約束,惡意參與方可以通過一致性攻擊和背景知識攻擊來確認隱私數據與用戶的之間的關系[45],從而容易導致用戶敏感信息的泄露。

表3 原始數據

表4 匿名化后的結果

l-diversity的保護原則是確保每一個等價類內的敏感屬性至少擁有l個不同的值[37]。這樣就可以將攻擊者確認的某個體敏感信息的概率提高至[39,45,46]。同樣參考表3和表4,HIV+是個體的敏感特征,記錄中任意一個等價類中至少包含 2個不同的敏感特征值,同樣滿足2-diversity。

t-closeness與l-diversity原則兩者的不同之處在于,后者在前者的基礎上,進一步研究了原始數據中敏感屬性的分布情況。在t-closeness原則中,需要確保等價類中任意一條記錄的敏感特征值的分布盡可能地與它在全部數據中的分布情況相似[39,47]。

為了更形象地說明數據匿名化技術,圖1給出了實際應用中的數據匿名化場景。從圖1可以看到,數據匿名化是一個復雜的過程,其在對外發布數據且確保用戶敏感信息不泄露的同時,要綜合考慮原始數據、背景知識、匿名化技術以及攻擊狀況等多種因素。數據匿名化技術雖然具有處理各種類型數據的能力,但由于其采用的是泛化技術,因此,在提高數據真實性的同時,降低了數據的精度和利用率。

3 隱私保護學習器模型研究

目前,隨著支持向量機技術在大數據應用上的快速發展,隱私泄露問題也變得日趨嚴重。因此,具有隱私信息保護能力的支持向量機具有重要的研究價值,得到了學術界的廣泛關注和重視,并取得了一定的研究進展[48~63]。近年來,具有隱私保護能力的支持向量機研究大都集中在分布式數據,主要包括垂直分布數據、水平分布數據以及任意分布數據。本文在已取得的研究成果基礎上,對這些算法研究進行歸納概括,結果如圖 2所示。

圖1 數據匿名化場景

圖2 隱私保護學習器模型

3.1支持向量機模型

支持向量機的基本原理是尋找一個最優分化超平面,使不同類別的訓練樣本點由低維空間映射到高維特征空間后達到線性可分。支持向量機最初主要被用來處理線性分類問題,之后隨著實際需求的發展,逐漸向非線性等問題推廣。

3.1.1線性支持向量機

為了進一步說明支持向量機的主要原理,圖3給出了在二維線性可分條件下的最優分化超平面的實例。圖3中的方形和原點標記分別表示正負2類樣本點,中間的黑色實線H表示分化超平面,虛線Hl和虛線H2表示支撐超平面,前者為經過離分化超平面H最近的正類樣本點的支撐超平面,后者為經過離分劃超平面最近的負類樣本點的支撐超平面。2個支撐超平面Hl和H2間的距離定義為分類間隔(margin),它們上面的訓練樣本點為支持向量。從數學角度出發,最大化等價于最小化因此,在訓練樣本滿足線性可分或近似線性可分的情況下,最優分化超平面即使最小的分化超平面。

圖3 二維線性可分情況下的最優分化超平面

同樣,還可以將基于SVM的分類問題用數學語言描述如下[39]。

因此,在線性可分情況下,構建最優分化超平面,可以轉化為以下二次規劃問題

進而,引入Lagrangian函數,引用Wolfe對偶定理,式(1)可轉化為其對偶問題

優決策超平面為

然而,在現實生活中,樣本容易受多種因素的干擾,導致獲取到的訓練集都是有噪聲的。為了緩解這個問題,Comes和Vapnik引入松弛因子進而式(2)中的對偶問題可以轉化為其中,C表示懲罰參數,滿足C>0。式(4)的對偶問題的具體形式為

3.1.2非線性支持向量機

以上是在線性可分情況下進行的分析,下面考慮非線性分類問題。非線性支持向量機的基本思想是將在低維空間線性不可分的訓練樣本點,通過某種非線性映射Φ(?),將其轉化為高維特征空間中的線性可分問題。由于在高維的特征空間只需要考慮內積運算,因此,為了減少高維計算開銷,可以用原空間中的函數來代替這種內積運算[39]。泛函的相關理論表明,在不知道Φ(?)具體表達形式的情況下,可以通過使用滿足Mercer條件[51]的核函數來代替高維空間的內積運算。因此,對偶問題可以表示為進而可以得到最優分化超平面為

從以上分析可以看出,核函數在非線性支持向量機模型中有舉足輕重的作用,支持向量機的實際應用性能與不同定義的核函數密切相關。當前,在非線性支持向量機研究中比較常用的核函數如下。

2)多項式核函數

3)高斯徑向基(RBF)核函數

4)Sigmoid核函數(多層感知器)

3.2垂直分布數據的隱私保護支持向量機

針對垂直分布數據構造具有隱私信息保護能力的支持向量機這一課題,Yu等展開了相關研究工作[37,52~55]。2006年,他們在文獻[52]中指出全局核函數的求解是垂直分布數據的隱私保護支持向量機的關鍵技術。基于此,提出可以將全局核矩陣的求解分解成求局部核矩陣和的問題,并通過在求解過程中運用安全多方計算中的安全求和,這樣,在求得核函數后,可在不泄露原始信息的情況下建立支持向量機模型并進行分類預測,既確保了敏感數據的安全性,也提高了模型分類的準確性。但不足之處在于該方法中涉及了多次閉環的串行交互,導致在實際應用中實施起來比較困難,效率不高。

針對垂直分布數據的隱私保護問題,以Mangasarian為代表的研究小組也做了大量的研究工作,其中,比較有代表性的思想是將完全隨機核引入到1-范數隱私保護支持向量機。該方法提出將約簡支持向量機(RSVM)[53,54]運用到具有隱私保護能力的支持向量機研究中。在基于完全隨機核的1-范數隱私保護支持向量機中,所有參與者通過計算自己的隨機矩陣來構造各自的局部核矩陣,然后將所有這些參與方的局部核矩陣求和,即可構建全局約簡核矩陣,進而得到隱私保護支持向量機模型。

近年來,Sun[37]在垂直分布數據的隱私保護支持向量機已取得的研究成果基礎上,進一步將研究方向擴展到有監督分類和半監督分類問題的隱私保護中心支持向量機上(P3SVM),分別提出了帶有擾動的P3SVM、基于JL變換的P3SVM (P3SVM-JLT)、保持垂直分布的 P3SVM-JLT (VP3SVM-JLT)以及半監督隱私保護中心支持向量機(P3S3VM)模型。

一方面,1-范數隱私保護支持向量機中采用的是完全隨機核的思想,導致其穩定性較低;另一方面,1-范數 PPSVM的訓練速度會隨著被處理數據集規模的逐漸增大變得越來越慢。為了彌補以上這些不足,Sun在1-范數PPSVM的基礎上進行了改進和推廣,提出了帶有擾動的P3SVM。該方法在RSVM的基礎上,引入帶有擾動的全局約簡核,采用具有速度優勢的中心支持向量機模型代替原有的1-范數隱私保護支持向量機模型,進而構建全局分類器。因此,該方法不僅充分利用了中心支持向量機訓練速度快的優點,而且在充分提高支持向量機分類準確度的同時保證了訓練和預測的速度,發揮了約簡核的優勢。

為了解決以往研究中只有實驗驗證,缺少相關理論支持的不足,Sun在 P3SVM的研究基礎上進一步引入JL變換理論,提出了P3SVM-JLT算法。在該算法中,Sun繼續采用PSVM為原型,每一個參與者分別采用各自滿足 JL性質的隨機矩陣構造自己的局部安全核,進而求得全局安全核,最后構建具有隱私保護能力的中心支持向量機,從而達到了隱私保護的目的。因此,P3SVM-JLT 不僅保護了原始數據,提高了隱私保護能力和分類的準確度,且在理論支撐上也更有說服力。

此后,Sun又針對P3SVM-JLT中存在的相同維數限制問題,仍從JL變換理論出發,提出了VP3SVM-JLT算法。與P3SVM-JLT方法不同,VP3SVM-JLT從保持數據垂直分布形式的角度出發,重構了一種新的全局安全核,而且還提供了相關理論支持。VP3SVM-JLT解決了P3SVM-JLT中受相同維數限制的問題,具有更高的靈活性。

以往的研究方法大都是基于監督的隱私保護分類,但是針對現實生活中遇到的標簽不一致或沒有標簽的情況,通過以上方法則無法解決分類問題。因此Sun針對半監督的隱私保護支持向量機分類問題又進行了研究,提出一種半監督隱私保護中心支持向量機(P3S3VM)。該方法在構建P3S3VM 模型的過程中引入協同訓練的Tri-training思想,在訓練階段,同時采用有標簽和沒有標簽的樣本一起訓練。P3S3VM可以在半監督學習過程中,將無標簽樣本潛在的有效數據傳遞到最終的分類器中,具有良好的分類效果。

3.3水平分布數據的隱私保護支持向量機

在針對水平分布數據進行研究具有隱私信息保護能力的SVM課題上Yu等也做了很多的工作,并取得了一定的進展,其中,比較典型的是針對布爾數據的隱私保護支持向量機。與以往方法不同,Yu等利用散列函數的單向計算性質和加密技術的可交換性質,提出用計算集合交集代替以往支持向量機中的求布爾向量的內積問題,最后構建全局的具有隱私保護能力的支持向量機。由于 Yu研究的算法主要是針對水平分布的布爾型數據,因此其實際應用范圍較少。

2007年,Mangasarian等[56]針對以上課題也做了一些研究。同樣,他們將RSVM引入具有隱私保護能力的SVM,與基于完全隨機核的1-范數隱私保護支持向量機不同,在水平分布數據中,每個參與者都產生相同的隨機矩陣并分別求得各自的局部核矩陣,然后,將所有這些參與方的局部核矩陣求和就構成所有數據的簡約核矩陣,進而得到所要的隱私保護支持向量機模型。雖然該方法可以在保護原始信息的前提下,取得比較準確的分類結果,但其在訓練過程中采用的是完全隨機矩陣,無法保證算法的穩定性,并缺少相關理論支撐。

一般情況下,局部信息中容易隱藏個體的敏感信息,而整體信息中則沒有這些敏感數據。而且,從樣本的局部信息容易重構整體信息,但相反過程則無法實現。因此,整體信息的泄露不會影響樣本的敏感信息。基于此,一些學者們提出將樣本的整體信息和局部信息同時引入到支持向量機模型中,通過兩者之間的相互協作以提高分類的準確性。

受以上思想啟發,Zhang[57]提出一種新的按標簽劃分的協作式隱私保護分類機LP2M。LP2M中參與分類的2類樣本分別計算各自的均值和協方差,并將這些數據作為樣本的整體信息,同時參與的雙方可以相互共享各自的整體信息,這樣每個個體都可以使用自己的隱私數據和對方的整體信息分別訓練獲得一個具有隱私保護能力的分類器,最后由參與雙方訓練所得的2個分類器相互協作重構最終的分類器。由于該方法在訓練過程中沒有采用任何的機密技術,因此通信開銷較小。同時,Zhang針對測試過程的隱私保護也做了相關研究,在文獻[57]中,利用Paillier同態加密和Goethals安全內積計算協議技術,設計了一種安全測試算法,該技術可以同時保護待測樣本和分類規則的安全性和隱私性。另一方面,可以通過借助核技巧和Vaidya等提出的算法計算內積矩陣來實現LP2M非線性識別的擴展,這樣,在訓練的過程中,LP2M非核化的線性模型就可以不利用任何第三方和加密技術來實現保護隱私的功能。通過這種技巧,既能夠保證參與雙方數據元的隱私,又可以確保不泄露數據元的數量信息。同樣,將此技巧拓展到測試過程也能夠保護待測試樣本的隱私,同時能夠保護分類規則不泄露。

LP2M 主要是針對在樣本按照標簽劃分的情況下提出的,僅適用于一些比較特殊的場合。為了拓展應用領域,Zhang在LP2M的研究基礎上,進一步提出一種針對水平劃分數據的協作式隱私保護分類機制HP2M。與LP2M一樣,為了保護待測數據的隱私和分類規則的不泄露,HP2M中引入安全內積協議和同態加密算法,可以比較準確地估算出隱藏個體真實信息的整體信息。且HP2M 在訓練階段沒有引入任何的加密技術,具有更好的數據適應性。

通常情況下,支持向量機的分類效率在一定程度上容易受支持向量個數的制約,向量個數越多,分類速度越慢。因此,為了同時解決支持向量機中的隱私保護問題和分類速度問題,Hu基于最小包含球球心在原始空間中的代理原像,提出一種隱私保護的快速SVM分類方法(FCA-SVMWPP),而且,Hu等在文獻[58,59]中分別設計了QP解法和直接解法的新方法,旨在通過這2種解法實現代理球心原像的求解。在實際應用中,FCA-SVMWPP不僅具有良好的隱私保護能力,且在保證較高分類準確率的條件下,實現了具有隱私保護能力SVM的快速分類。

3.4任意分布的隱私保護支持向量機

針對任意分布的數據,Vaidya等[60]于 2008年提出一種具有隱私保護能力的支持向量機方法。與以往方法不同,該方法在采用同態加密的安全多方計算協議前提下,通過半可信的第三方完成保護敏感信息的內積矩陣計算,并由這個第三方采用 SVM算法進行分類的訓練,從而實現對任意分布數據的隱私保護和分類。由于這種方法可以在不泄露原始數據的情況下得到全局核矩陣,因此,具有較高的隱私保護能力,但由于該方法中采用的是安全多方計算技術,當參與方增多時,容易導致較大的計算開銷和通信開銷。

4 結束語

研究具備隱私信息保護能力的學習器是數據挖掘領域面臨的挑戰之一。同時,它也是支持向量機在隱私保護方面遇到的新問題,旨在保護用戶數據中敏感信息的同時提高分類算法的準確度。隨著信息時代大數據的飛速發展,無論是理論上還是實際應用中,進一步深入探討具備隱私信息保護技術的學習器有非常大的研究價值與研究空間。目前,雖然在學術界關于具備隱私信息保護能力的支持向量機研究已取得了一定的進展,但總體上針對該課題的研究還處于發展階段,值得進一步深入的研究。

[1]劉忠寶, 王士同. 面向大規模數據的隱私保護學習機[J]. 電子科技大學學報, 2013, 42(2): 272-276. LIU Z B, WANG S T. Privacy preserving learning machine for large scale datasets[J]. Journal of University of Electronic Science and Technology of China, 2013, 42(2): 272-276.

[2]AGRAWAL R, SRIKANT R. Privacy-preserving data mining[J]. ACM Sigmod Record, 2000, 29(2): 439-450.

[3]AGGARWAL C C, PHILIP S Y. A condensation approach to privacy preserving data mining[M]//Advances in Database Technology. Berlin Heidelberg:Springer, 2004:183-199.

[4]MOSKOWITZ L, CHANG I S. A decision theoretical based system for information downgrading[C]//The 5th Joint Conference on Information Sciences. c2000.

[5]CHANG L W, MOSKOWITZ I S. An integrated framework for database privacy protection[C]//The 14th Working Conference on Database Security: Data and Application Security, Development and Directions. c2000:161-172.

[6]GREENBERG B G, KUEBLER R R J, ABERNATHY J R, et al. Application of the randomized response technique in obtaining quantitative data[J]. Journal of the American Statistical Association,1971,66(334): 243-250.

[7]GOMATAM S, KARR A F, SANIL A P. Data swapping as a decision problem[J]. Journal of Official Statistics, 2005, 21(4): 635-655.

[8]RIZVI S J, HARITSA J R. Maintaining data privacy in association rule mining[C]//The 28th VLDB Conference. c2002:682-693.

[9]KARGUPTA H, DATTA S, WANG Q, et al. On the privacy preserving properties of random data perturbation techniques[C]//IEEE International Conference on Data Mining, IEEE. c2003:99-106.

[10]SAYGIN Y, VERYKIOS V S, ELMAGARMID A K. Privacy preserving association rule mining[C]//ACM Siggraph Symposium on Geometry Processing. c2002:97-115.

[11]CHEN K, LIU L. Privacy preserving data classification with rotation perturbation[C]// The 5th IEEE International Conference on Data Mining (ICDM'OS). c2005:589-592.

[12]EVFIMIEVSKI A, SRIKANT R, AGRAWAL R, et al. Privacy preserving mining of association rules[J]. Information Systems,2004, 29(4): 343-364.

[13]WARNER S L. Randomized response: a survey technique for eliminating evasive answer bias[J]. Journal of the American Statis-tical Association, 1965, 60(309): 63-69.

[14]DU W, ZHAN Z. Using randomized response techniques for privacy-preserving data mining[C]//The 9th ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. c2003: 505-510.

[15]DU W, ZHAN Z. Building decision tree classifier on private data[C]//IEEE International Conference on Privacy, Security and Data Mining. c2002:1-8.

[16]PINKAS B. Cryptographic techniques for privacy-preserving data mining[J]. ACM Sigkdd Explorations Newsletter, 2002, 4(2):12-19.

[17]YAO C C. How to generate and exchange secrets[C]//Annual Symposium on Foundations of Computer Science. c1986:162-167. [18]CHAUM D, CREPEAU C, DAMGARD I. Multiparty unconditionally secure protocols[M]. Berlin Heidelberg: Springer, 1988:462-462.

[19]GOETHALS B, LAUR S, LIPMAA H, et al.On private scalar product computation for privacy-preserving data mining[C]// International Conference in Information Security & Cryptology. c2004:104-120.

[20]VAIDYA J, CLIFTON C. Privacy-preserving k-means clustering over vertically partitioned data[C]// The 9th ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. c2003:206-215.

[21]YAO A C. Protocols for secure computations[C]//Annual Symposium on Foundations of Computer Science. c1982:160-164.

[22]LINDELL Y, PINKAS B. Secure multiparty computation for privacy-preserving data mining[J]. Journal of Privacy and Confidentiality, 2009, 1(1):59-98.

[23]FEIGENBAUM J, ISHAI Y, MALKIN T, et al. Secure multiparty computation of approximations[J]. Lecture Notes in Computer Science, 2002, 2(3):927-938.

[24]CLIFTON C, KANTARCIOGLU M, VAIDYA J, et al. Tools for privacy preserving distributed data mining[J]. ACM SIGKDD Explorations Newsletter, 2002, 4(2):28-34.

[25]LIU Y H, WEI Z J. Private-preserving naive bayesian classification[J]. Journal of Information Engineering University, 2003,4(1):86-89.

[26]SWEENEY L. K-anonymity: a model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge-based Systems, 2012, 10(5): 557-570.

[27]SWEENEY L. Achieving k-anonymity privacy protection using generalization and suppression[J]. International Journal of Uncertainty, Fuzziness and Knowledge-based Systems, 2012, 10(5):571-588.

[28]MIKLAU G, SUCIU D. A formal analysis of information disclosure in data exchange[C]// ACM Sigmod International Conference on Management of Data. c2004:575-586.

[29]YAO C, WANG X S, JAJODIA S. Checking for k-anonymity violation by views[C]//The 31th International Conference on Very Large Data Bases. c2005:910-921.

[30]XIAO X, TAO Y. Dynamic anonymization: accurate statistical analysis with privacy preservation[C]//The ACM Sigmod International Conference on Management of Data. c2008:107-120.

[31]MACHANAVAJJHALA A, KIFER D, ABOWD J, et al. Privacy:theory meets practice on the map[C]//IEEE 29th International Conference on Data Engineering (ICDE). c2008: 277-286.

[32]DALVI N, SUCIU D. Answering queries from statistics and probabilistic views[C]// The 31th International Conference on Very large Data Bases. c2005:805-816.

[33]WONG R C, LI J, FU A W, et al. (a, k)-anonymity: an enhanced k-anonymity model for privacy preserving data publishing[C]//The 12th ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. c2006:754-759.

[34]LI J, WONG R, FU A, et al. Achieving k-anonymity by clustering in attribute hierarchical structures[M]// Data Warehousing and Knowledge Discovery. Berlin Heidelberg:Springer, 2006:405-416. [35]AGGARWAL G, FEDER T, KENTHAPADI K, et al. Approximation algorithms for k-anonymity[C]//The 8th Latin American Conference on Theoretical Informatics. c2010:81-93.

[36]LEFEVRE K, DEWITT D J, RAMAKRISHNAN R. Incognito:efficient full-domain k-anonymity[C]// ACM Sigmod International Conference on Management of Data. c2005:49-60.

[37]孫立.基于隱私保護技術的支持向量機研究[D]. 北京:中國農業大學, 2014. SUN L. Research on privacy-preserving support vector machine[D]. Beijing: China Agricultural University, 2014.

[38]張戰成. 基于統計學習的協作分類與隱私保護方法及應用研究[D]. 無錫:江南大學,2011. ZHANG Z C. Collaborative classification based on statistical learning and its application toprivacy-preserving[D]. Wuxi: Jiangnan University, 2011.

[39]周水庚, 李電, 陶宇飛, 等. 面向數據庫應用的隱私保護研究綜述[J].計算機學報, 2009, 32(5): 847-861. ZHOU S G, LI F, TAO Y F, et al. Privacy preservation in database applications: a survey[J]. Chinese Journal of Computers, 2009,32(5): 847-861.

[40]PEI J, XU J, WANG Z, et al. Maintaining k-anonymity against incremental updates [C]//International Conference on Scientific and Statistical Database Management. IEEE Computer Society. c2007:5.

[41]AGGARWAL C C. On k-anonymity and the curse of dimensionality[C]//International Conference on Very Large Data Bases. c2005:901-909.

[42]DU Y, XIA T, TAO Y, et al. On multidimensional k-anonymity with local recoding generalization[C]//IEEE International Conference on Data Engineering. c2007:1422-1424.

[43]MEYERSON A, WILLIAMS R. On the complexity of optimal k-anonymity[C]//The 23th ACM Sigmod-sigact-sigart Symposium on Principles of Database Systems. c2004:223-228.

[44]EMAM K E, DANKAR F K. Protecting privacy using k-anonymity[J]. Journal of the American Medical Informatics Association, 2008,15(5): 627-637.

[45]MACHANAVAJJHALA A, KIFER D, GEHRKE J, et al. L-diversity:privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007, 1(1): 3.

[46]ZHOU B, PEI J. The k-anonymity and l-diversity approaches for privacy preservation in social networks against neighborhood attacks[J]. Knowledge and Information Systems, 2011, 28(1): 47-77.

[47]LI N, LI T, VENKATASUBRAMANIAN S. T-closeness: privacy beyond k-anonymity and l-diversity[C]//The 23th International Conference on Data Engineering (ICDE). c2007:106-115.

[48]劉曉紅. 隱私保護支持向量機算法研究[D].山東:山東科技大學,2011. LIU X H. Study on the algorithms of privacy preserving support vector machine[D]. Shandong: Shandong University of Science and Technology, 2011.

[49]李光. 分類挖掘中的隱私保護問題研究[D].哈爾濱:哈爾濱工業大學, 2011. LI G. Research on the privacy protection in classification mining[D]. Harbin: Harbin Institute of Technology, 2011.

[50]王健. 基于隱私保護的數據挖掘若干關鍵技術研究[D].上海:東華大學,2011. WANG J. Study of several key issues on data mining based on privacy-preserving technology [D].Shanghai: Donghua University, 2011.

[51]鄧乃揚, 田英杰. 支持向量機:理論、算法與拓展[M]. 北京:科學出版社, 2009. DENG N Y, TIAN Y J. New method in data mining: support vector machine [M].Beijing: China Science Press, 2004:5-16.

[52]YU H, VAIDYA J, JIANG X Q. Privacy-preserving SVM classification on vertically partitioneddata[J]. Journal of Jiamusi University(Natural Science Edition), 2011(3):647-656.

[53]LEE Y J, MANGASARIAN O L. RSVM: reduced support vector machines[C]//The 1st SIAM International Conference on Data Mining. c2001:57-64.

[54]LIN K M, LIN C J. A study on reduced support vector machines[J]. IEEE Transactions on Neural Network, 2003, 45(2): 199-204.

[55]YU H, JIANG X Q, VAIDYA J. Privacy-preserving SVM using nonlinear kernels horizontally partitioned data[C]//The ACM Symposium on Applied Computing. c2006: 603-610.

[56]MANGASARIAN O L, WILD E W.Privacy-preservingclassificationofhorizontally partitioned data via random kernels[C]// The International Conference on Data Mining . c2008: 473-479.

[57]張戰成, 王士同, 鐘富禮. 具有隱私保護功能的協作式分類機制[J]. 計算機研究與發展, 2011,48(6),1018-1028. ZHANG Z C, WANG S T, CHUNG F L. Collaborative classification mechanism for privacy-preserving[J]. Journal of Computer Research and Development, 2011,48(6):1018-1028.

[58]胡文軍. 關于模式識別中大樣本分類技術的幾個關鍵問題研究[D]. 無錫: 江南大學, 2012 HU W J. The study of several key issues on large data sets classification techniques in pattern recognition[D].Wuxi: Jiangnan University, 2012.

[59]胡文軍,王士同.隱私保護的 SVM 快速分類方法[J].電子學報,2012,40(2),280-286 HU W J, WANG S T. Fast classification approach of support vector machine with privacy preservation [J]. Acta Electronica Sinica,2012, 40(2):280-286.

[60]VAIDYA J, YU H, JIANG X. Privacy-preserving SVM classification[J]. Knowledge and Information Systems, 2008, 14(2): 161-178.

[61]張學工. 關于統計學習理論與支持向量機[J]. 自動化學報, 2000,26(1): 32-42. ZHANG X G. Introduction to statistical learning theory and support vector machines [J]. Acta Automatica Sinica, 2000,26(1):32-42.

[62]劉向東, 陳兆乾. 一種快速支持向量機分類算法的研究[J]. 計算機研究與發展, 2004, 41(8): 1327-1332. LIU X D, CHEN Z Q. A fast classification algorithm of support vector machines[J]. Journal of Computer Research and Development, 2004,41(8):1327-1332.

[63]湯琳, 何豐. 隱私保護的數據挖掘方法的研究[J]. 計算機技術與發展, 2011, 21(4): 156-159. TANG L, HE F. Research on privacy-preserving data mining method[J]. Computer Technology and Development, 2011,21(4):156-159.

Research on privacy-preserving learning machines

JIANG Yi-zhang, WANG Shi-tong

(School of Digital Media, Jiangnan University, Wuxi 214122, China)

With the increasing development of data mining, more and more data mining methods need to be carried out on the privacy data, which leads to the serious problem of privacy disclosure. Therefore, Study of privacy-preserving learning machines is becoming a key data mining topic. Current privacy-preserving learning machines were surveyed and analyzed, including their basic ideas and their learning models.

privacy preservation, data mining, learning machine

TP181

A

10.11959/j.issn.2096-109x.2016.00062

2016-05-07;

2016-06-02。通信作者:蔣亦樟,jyz0512@163.com

國家自然科學基金資助項目(No.61300151, No.61572236);江蘇省自然科學基金資助項目(No.BK20130155);江蘇省產學研前瞻性聯合研究基金資助項目(No.BY2013015-02);中央高校基本科研業務費專項基金資助項目(No.JUSRP51614A)

Foundation Items: The National Natural Science Foundation of China (No.61300151, No.61572236), The Natural Science Foundation of Jiangsu Province (No.BK20130155), The R&D Frontier Grant of Jiangsu Province (No.BY2013015-02), The Fundamental Research Funds for the Central Universities (No.JUSRP51614A)

蔣亦樟(1988-),男,江蘇無錫人,博士,江南大學講師,主要研究方向為軟計算、計算智能與信息安全。

王士同(1964-),男,江蘇揚州人,江南大學教授、博士生導師,主要研究方向為人工智能和模式識別。

猜你喜歡
數據挖掘分類信息
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 女人爽到高潮免费视频大全| 久久毛片网| 亚洲天堂精品在线| 在线五月婷婷| 婷婷亚洲最大| 成人av专区精品无码国产| 亚洲va欧美ⅴa国产va影院| 亚洲婷婷六月| 久久黄色免费电影| 国产v精品成人免费视频71pao| 青青草原国产一区二区| 国产精品尤物在线| 国产日韩精品欧美一区灰| 日韩在线中文| 国产熟睡乱子伦视频网站| 一本无码在线观看| 亚洲成人一区二区| 99免费在线观看视频| 青青草久久伊人| 亚洲中文字幕在线一区播放| 99国产精品免费观看视频| 一级毛片免费高清视频| 一级做a爰片久久毛片毛片| 国产SUV精品一区二区| jizz国产在线| 在线亚洲精品自拍| 国产第一页第二页| 精品久久久久久中文字幕女| 欧美成人精品一区二区| 午夜精品久久久久久久无码软件| 天天操天天噜| 2048国产精品原创综合在线| 狠狠色婷婷丁香综合久久韩国| 美臀人妻中出中文字幕在线| 999在线免费视频| 国产主播在线一区| 无码中文AⅤ在线观看| 国产精选自拍| 亚洲精品爱草草视频在线| 高清无码不卡视频| 久久精品视频一| 大陆国产精品视频| 久久久噜噜噜| 亚洲五月激情网| 国产成人精品一区二区三区| 深爱婷婷激情网| 在线播放国产99re| 毛片在线播放网址| 狠狠色综合网| 久久 午夜福利 张柏芝| 欧美亚洲一区二区三区导航 | 国产一级一级毛片永久| 四虎国产永久在线观看| 呦女亚洲一区精品| 在线观看欧美国产| 国模私拍一区二区| 91视频区| 久久黄色毛片| 国产日韩精品一区在线不卡| 欧日韩在线不卡视频| 亚洲成在人线av品善网好看| 亚卅精品无码久久毛片乌克兰| 午夜综合网| 国产一级精品毛片基地| 国产乱子伦一区二区=| 永久天堂网Av| 婷婷中文在线| 国产亚洲视频免费播放| 99久久国产精品无码| 亚洲日韩精品无码专区97| 高清大学生毛片一级| 日韩高清中文字幕| 国产成人av一区二区三区| 国产精品一区二区无码免费看片| 亚洲第一黄片大全| 精品一区二区三区无码视频无码| 视频二区中文无码| 国产精品成人久久| 一本色道久久88综合日韩精品| 欧美综合中文字幕久久| 国产精品一线天| 99re精彩视频|