999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據安全及其評估

2016-05-09 07:07:30陳文捷蔡立志
計算機應用與軟件 2016年4期
關鍵詞:數據挖掘

陳文捷 蔡立志

大數據安全及其評估

陳文捷 蔡立志

(上海市計算機軟件評測重點實驗室 上海 201112)

大數據的安全問題是影響大數據應用的關鍵因素之一,而評估大數據應用的安全性成為業界關注的課題。針對大數據應用安全性的評估問題,在梳理大數據安全研究現狀的基礎上,從數據和計算兩個層面上分析大數據所面臨的安全問題,綜述目前主要的解決大數據安全問題的研究成果,包括分布式計算的安全技術、數據溯源技術、隱私保護的數據挖掘技術等。最后從數據的可信性、隱私保護程度等方面提出一些大數據安全性的評估指標。

大數據 安全 隱私保護 隱私保護的數據挖掘 安全評估

0 引 言

近幾年,隨著移動終端以及互聯網的發展,數據呈現出爆發式增長,“大數據”成為IT領域關注的熱點。2013年英特爾公司的一組調查數據顯示:一分鐘之內全球每分鐘傳輸的數據幾乎可以達到640 000 GB[1]。對于大數據的定義目前還不統一,不同的公司和機構有著不同角度的詮釋,但基本都提到了大數據是一種無法通過人力和主流軟件在短時間內處理的海量數據。隨著大數據時代的到來,大數據的應用和技術已經開始逐漸滲透到社會的各個領域,大數據分析也成為一門新興學科。

盡管大數據的涌現為人們提供了前所未有的寶貴機遇,但同時也提出了重大的挑戰。其中的一個重大挑戰是大數據的安全問題。隨著各種數據挖掘手段的推進,人們可以從大數據中挖掘出大量有價值的信息,有些甚至涉及到企業機密甚至國家機密,因而吸引了黑客的各種攻擊行為,例如數據竊取和篡改、隱私挖掘等。人們越來越覺得自己的隱私有被泄露的危險。近年來,關于大數據的安全事件不斷發生,例如斯諾登“棱鏡門”事件、MongoHQ數據泄露事件等,使得人們越來越關注大數據的信息安全。

大數據安全是一個綜合性的課題,涉及的技術包括密碼學、數據挖掘等許多學科。產業界和學術界也積極關注大數據的安全問題。云安全聯盟CSA(Cloud Security Alliance)在2012年4月組建了大數據工作組BDWG(Big Data Working Group),旨在尋找大數據面臨的主要安全問題及其解決方案。國內外也有一些學術文獻對大數據環境下的風險、安全問題進行過探討[2,3]。本文在梳理大數據安全研究現狀的基礎上,分析了大數據所面臨的安全問題,闡述了目前主要的解決大數據安全問題的研究成果。最后針對大數據安全性的評估提出了一些評估指標。

1 大數據的安全問題

大數據由于其分布式、數據量大、蘊含知識等特性,產生了很多新的安全問題,這些安全問題涉及大數據處理流程的各個環節。圖1是大數據處理的典型流程,數據源中的數據進行抽取和集成后存入數據存儲設備中。然后對存儲的數據進行分布式計算或者數據挖掘等分析手段,最后將分析結果提交給具體的應用。

圖1 大數據處理流程

在這整個過程中,大數據的安全問題會出現在數據源、數據存儲、數據分析以及數據傳輸的各個環節中。主要可以分為三類安全問題:數據安全、分布式計算安全和數據挖掘的安全。其中數據安全是指數據的來源、存儲和傳輸過程中面臨的安全問題,分布式計算安全和數據挖掘安全是指對大量數據進行計算和挖掘時產生的安全問題。

1.1 數據安全問題

(1) 數據來源安全。大數據處理的第一步是數據采集,對于采集得到的數據,有些數據可能是不可信的。因此需要對數據的來源進行仔細的甄別,否則通過分析這些數據得到的結果可能是不準確的甚至是錯誤的。

攻擊者可能通過修改數據采集軟件、篡改數據本身或ID克隆攻擊等手段來刻意偽造數據。或者修改數據中的一些關鍵屬性信息(如數據大小、創建時間等),使得分析者對這些數據分析后得出錯誤的結論,從而達到攻擊者的目的。由于大數據的低信息密度的特性,從大量信息中鑒別出虛假信息往往非常困難。

(2) 數據存儲安全。大數據是一種超大規模和高并發的非結構化數據,無法用傳統的關系型數據庫存儲,因此往往被存儲在非關系型的數據庫中,如Google的BigTable、Apache的HBase等。然而相對于較成熟的關系型數據庫,非關系型數據庫的發展剛剛起步,其安全性還有待完善。一方面,驗證和鑒權機制較為薄弱,使得數據庫容易遭受暴力破解和來自內部的攻擊,攻擊者可能竊取或篡改數據,造成敏感數據被泄露。另一方面,非關系數據庫也易受各類注入攻擊,如JSON注入、REST注入、schema注入等,攻擊者可以利用這些注入手段向數據庫中添加垃圾數據。

另外,大數據的存儲是一種分布式的存儲,其事務處理的一致性較弱。根據CAP理論,一個分布式系統無法同時滿足一致性、可用性和分區容錯性,而且一致性和可用性是一對矛盾,所以分布式存儲可能無法在任何時刻都提供一致的數據查詢結果。

(3) 數據傳輸安全。數據在傳播過程中可能失真或被破壞[2]。原因之一是某些數據采集的過程需要人工干預,其中可能引入誤差。原因之二是早期采集的數據由于現實情況發生了變化而已經變得過時。原因之三是攻擊者可能通過執行中間人攻擊MITM(Man In The Middle)或者重放攻擊等手段,在數據傳輸過程中破壞數據。

數據在傳輸過程中也可能被攔截和泄露[3]。客戶與服務器之間的數據傳輸沒有加解密處理,攻擊者就可以在傳輸的過程中竊取數據。例如,配備GPS定位跟蹤裝置的移動電話可能泄露用戶的位置信息。泄露的數據還往往會被多方利用。而用戶無法知道自己的數據是在哪個環節被泄露,以及是誰泄露的,從而加大了用戶的擔憂。

1.2 分布式計算安全問題

大數據由于其數據量巨大,需要用分布式的方式來處理。比如MapReduce[4]就是業界常用的一個分布式計算框架,它能夠處理大數據量問題,被應用在許多行業和科研領域中。但是在應用環境中,分布式計算并非是安全可靠的,實際中存在一些不安全因素。

分布式處理的函數可能被黑客修改或偽造,用于一些不可告人的目的。比如對云架構實施攻擊、監聽請求、篡改計算結果、發送虛假數據或改變工作流程,使得最終的數據分析結論不符合事實,或造成用戶數據的泄漏。也可能集群中的一個工作節點發生某種故障而導致錯誤的計算結果。而在大量的工作節點中很難找出有問題的節點,從而對安全隱患的探測造成更大的困難。

分布式處理的工作集群缺乏完善的安全認證機制和訪問控制機制,使得黑客可以冒充他人,并非法訪問集群,惡意提交作業,或者隨意地篡改數據節點上的數據,甚至可以任意修改或殺掉任何其他用戶的作業,造成安全隱患。

1.3 數據挖掘安全

大數據的核心是數據挖掘技術,從數據中挖掘出信息,為企業所用,是大數據價值的體現。然而使用數據挖掘技術,為企業創造價值的同時,隨之產生的就是隱私泄露的問題。

數據挖掘技術使得人們能夠從大量數據中抽取有用的知識和規則。然而,這些知識和規則中可能包含一些敏感的隱私信息,數據分析人員往往可以利用數據挖掘算法,找出非隱私信息和隱私信息之間的關聯。從個人的非隱私信息推理出他的隱私信息,從而造成用戶隱私信息的泄露。一個典型的例子是某零售商通過分析銷售記錄,推斷出一名年輕女子已經懷孕,并向其推送相關廣告信息,而這名女子的家長甚至還不知道這一事實[5]。雖然可以采用數據加密、數據匿名等方法在數據挖掘時保護隱私信息,但是一方面分析、處理大規模的加密數據變得困難,影響了數據挖掘的性能;另一方面,僅通過匿名技術并不能很好達到隱私保護目標。例如,AOL公司曾將部分搜索歷史中的個人相關信息匿名化,并將之公布供研究人員分析。即使如此,還是有分析人員通過數據挖掘技術識別出其中一位用戶的詳細信息[6]。這位用戶是一位62歲婦女,編號為4417749,家里養了三條狗,患有某種疾病等等。

2 大數據安全防范的關鍵技術

針對大數據所面臨的數據安全、分布式計算安全、數據挖掘安全問題,國內外學者開展了許多關鍵技術研究。這些安全技術從不同方面解決大數據的安全問題。在數據自身的安全防范技術中,主要有數據溯源和數據擾亂技術來保證數據的可信性和隱私性。安全計算框架的開發是基于計算框架的安全防范技術。隱私保護的數據挖掘技術保證了數據挖掘時不泄露隱私。本節分別選取其中的一些主要技術予以介紹。

2.1 數據自身的安全防范技術

(1) 數據溯源。面對大數據應用中數據被篡改的危險,可引入數據溯源技術保證數據的可信性。數據溯源是一種記錄從原始數據到目標數據演變過程的技術,用于評估數據來源的可信性,或在災難發生后對數據進行恢復。在大數據前期處理過程中,如果將數據溯源技術用于大數據處理中,則能為后期的數據處理提供驗證和清理的支持。數據溯源的主要方法是標記法[10-12],即對數據進行標注,記錄原始數據的出處、演算過程等。此方法又可細分為why、where、who等類別,分別記錄數據的演算過程、出處、相關使用者等。除此之外,數據溯源技術還可用于流數據與不確定數據[13]。

Muniswamy-Reddy等人在數據溯源技術的基礎上,提出了一種在統一環境下追蹤數據起源的感知起源存儲系統PASS(Provenance Aware Storage System)[14],它能自動收集、存儲、管理并查詢文件的起源信息。PASS利用修改過的Linux內核,在操作系統層對起源信息進行收集,并對讀寫操作記錄詳細的信息流和工作流描述。

(2) 數據擾亂。為了降低數據泄露隱私風險,一種較常用的方法是對原始數據進行一定的處理,隱去其中的敏感數據。數據擾亂技術是對數據本身進行一些修改,以刪除或弱化其中隱私敏感的部分。數據擾亂有多種方式,比如數據亂序、數據交換[16]、數據扭曲[17-22]、數據清洗[23,24]、數據匿名[25,26]、數據屏蔽[27,28]、數據泛化[29,30]等。即將原始數據重新排列、對多條記錄的某些屬性值進行交換、在原始數據上疊加一個噪聲、刪除或修改某些記錄、對某些記錄的關鍵屬性作刪除或泛化、將某些屬性值用概率分析法修正、將屬性值替換為一個更抽象的值(比如“北京人”、“南京人”替換成“中國人”)。

數據擾亂技術雖然能夠一定程度保護隱私,但同時由于數據本身被修改,會對數據挖掘結果造成影響,因此使用數據擾亂技術需要在隱私保護程度和數據挖掘精度上作一個權衡。

2.2 基于計算框架的安全防范技術

如1.2節所述,分布式計算框架的安全隱患主要在于不可信的計算節點及認證授權機制。因此解決計算框架安全問題的主要途徑是建立安全的認證授權機制和減少不可信計算節點的影響。

德克薩斯大學的Indrajit Roy等人基于流行的MapReduce框架,開發了一套分布式計算系統Airavat[8],主要為了解決MapReduce的安全問題。Airavat在SELinux中運行,并利用了SELinux的安全特性,防止系統資源泄露。在認證授權機制方面,開發人員采用了Kerberos認證。Kerberos協議是一種計算機網絡授權協議[7],為網絡通信提供基于可信第三方服務的面向開放系統的認證機制,是一種應用對稱密鑰體制進行密鑰管理的系統。同時Airavat整合了強制訪問控制MAC(Mandatory Access Control)和差分隱私技術。其中,MAC是由系統強制確定訪問主體能否訪問相應資源的一種訪問控制機制,可以提供細粒度的訪問控制。差分隱私技術是由Dwork等人在2006年提出[9],解決了傳統的匿名保護方法易受背景知識攻擊的缺點,它通過在分析結果中加入噪聲的手段使得攻擊者無法分析出原始數據中的隱私信息。Airavat系統結構如圖2所示,它包括三個角色:計算提供者、數據提供者和Airavat計算框架。其中計算提供者使用Airavat編程模型編寫MapReduce代碼,數據提供者指定隱私策略的參數。

圖2 Airavat系統結構

2.3 數據挖掘中的隱私保護的技術

由于數據挖掘可能泄露用戶的隱私,因此促使學者開始研究數據挖掘中的隱私保護方法,即在控制數據隱私泄露的情況下進行數據挖掘,同時保證數據挖掘的精度不受很大影響。隱私保護的數據挖掘技術PPDM(Privacy Preserving Data Mining)由Agrawal在2000年首次提出[15],經過十年的研究已經產生了大量的方法。PPDM按照數據的隱藏技術分,可分為基于同態加密、基于不經意傳輸和基于安全多方計算的方法等。

數據加密技術是用某種算法對數據進行加密,攻擊者如果強行破譯密碼需要很大的代價,從而保護數據的隱私安全。雖然在數據挖掘時對數據進行加密可以提高數據安全性,但由于需要處理海量的加密數據,計算代價提高,降低了數據挖掘的效率。由此產生了同態加密技術[31],它使得加密后的數據可以進行與原始數據一樣的代數運算,運算的結果還是加密數據,并且該結果就是明文經過同樣的運算再加密后的結果。這項技術可以用于加密數據的檢索、比較等操作,無需對數據解密就能得出正確的結果。

不經意傳輸OT(Oblivious Transfer)協議是一種可保護隱私的通信協議,它最早由Rabin提出[32]。它的思想是接收者以一定概率得到發送者發出的某些消息,從而可以在通信的過程中保護雙方的隱私。OT協議最初由1個消息的傳輸,發展到2選1消息的傳輸,隨后擴展至n選1不經意傳輸[33,34],即發送者發送n個消息,接收者只能以一定概率收到其中的1個,而發送者不知道接收者收到哪一個消息。這一協議可以使用在PPDM中,比如Yehuda Lindell提出了一種基于不經意傳輸的隱私保護分類挖掘[35]。

安全多方計算SMC(Secure Multi-Party Computation)最早由姚期智提出[36]。它是指多個參與方需要用各自的秘密數據進行一項協同計算,在保證每個參與方得到的計算結果正確性的同時,保護每個參與方的秘密數據不被泄露。安全多方計算被用于數據挖掘中,達到保護隱私的目的。比如,文獻[37,38]分別提出了基于SMC的K-means聚類方法。文獻[39]提出了一種隱私保護的水平分布數據的關聯規則兩方挖掘方法。文獻[40]提出了一種高性能的安全多方計算的框架,用于數據挖掘應用。文獻[41,42]提出了基于同態加密SMC協議的ID3和C4.5算法。

3 大數據安全性評估

圖3 大數據安全評估指標

大數據的安全技術是否有效,能否阻擋黑客的攻擊,需要相應的評估手段來驗證。如前所述,大數據安全的兩個重要方面是數據的可信性和隱私保護。因此評估大數據的安全性也可從這兩個方面入手,即數據的可信性和隱私保護程度。如圖3所示,數據的可信性主要包括相關性、準確性、及時性、完整性、一致性、有效性等;數據的隱私保護程度主要可以從差異度、方差、信息熵、匿名化程度、數據泄露風險度等方面來計算。本節就對數據的可信性和隱私保護程度的相關評估指標進行論述。

3.1 數據的可信性

數據可信性可以在許多方面進行定義,并與不斷變化的用戶需求有關。同一個數據的可信性可能被一個用戶所接受而另一個用戶無法接受,在2010年可信的數據可能在2013年是不可信的。通常會參照高質量的數據特征來分析數據是否可信,一般通過表1中所述的幾個方面評估數據可信性。

表1 數據可信性指標

數據可信性差的一個必然結果是,用這些數據得出結論并做出決策會產生風險。這些數據用于指定的用途時也可能會產生意想不到的后果,導致實際損失。

3.2 數據的隱私保護程度

前述的數據可信性的評估指標主要用于定性地評估數據來源是否可靠,其衡量標準可能會隨著時間和需求而變化。本節所述的數據的隱私保護程度指標則是定量地評估處理后的數據的質量和隱私保護程度。2.1節已經介紹了一些基于隱私保護的數據處理方法,不同的數據處理方法有不同的評估指標,這些指標分別從不同的角度來衡量隱私保護的效果。現舉其中有代表性的幾種評估指標加以論述,包括差異度、方差、信息熵、匿名化程度、數據泄露風險度,具體每項指標的計算方法和說明如表2所述。

表2 數據隱私保護程度指標

上述指標有些是基于傳統的統計學方法,如基于差異度、方差和數據泄露風險度的指標;有些和特定的隱私保護技術相關,如匿名化程度;有些利用了信息論理論,如信息熵。因此這些指標適合用于不同的場合。

差異度反映了經過隱私保護處理后的數據集與原數據集的相似程度,由Bertino等人在文獻[43]提出。它能夠衡量數據信息損失程度,適用于評估數據擾亂技術的保護效果。差異度越小,信息損失越少,數據質量越好,但同時隱私保護程度越小。這是比較普適的指標,因為它的測量不需要對所分析的數據集作很多假設。

方差適用于評估乘性噪聲擾亂技術的保護效果。方差越大,表示擾亂后的值與原數據差異越大,隱私保護程度也就越好,但相應的數據可用性就越低。

信息熵由Bertino等人提出[43],這個方法的基礎是由香農定義的。信息熵用來度量數據取值的不確定程度,因此它可以用來評價一個數據值的不可預測性,即預測經過隱私保護處理的數據的原值的難度。因為熵表示數據的信息量,所以數據經過隱私保護處理之后的熵應該比之前的熵要高。信息熵是一種較通用的測量數據隱私級別的方法,它越大表明隱私保護程度越好。對于不同的隱私保護方法,需要根據不同方法的特性重新定義計算方法,這和不同隱私保護算法有關。在文獻[43]中,信息熵被用來評價基于關聯規則的隱私保護算法。

匿名化程度適用于評估匿名方法的保護效果。數據匿名方法主要針對數據的準標識屬性(可唯一確定一條記錄的一組屬性)執行隱去或泛化的操作。匿名化程度用來度量從匿名化的數據中推測出原始數據的難易程度。一個好的匿名化方法應該使得用戶難以從匿名化的數據中推測出原始的敏感關聯。

數據泄露風險度適用于評估PPDM的隱私保護效果。有些PPDM算法允許使用者選擇隱藏敏感信息的數量,因此數據泄露風險度可以通過計算隱藏失效參數來評估。它被Oliveira和Zaiane定義為在處理后的數據集中被發現的敏感信息的百分比[44]。數據泄露風險度表示某條信息和一個特定的個人相關聯的風險度,所以數據泄露風險度越大,則隱私保護程度越低。

需要指出的是,在實際應用中往往僅憑單個指標難以全面衡量大數據應用的安全性,因而需要用多種指標來綜合評估。有些指標的計算方法也可能需要根據實際情況作出一些調整。

4 結 語

本文在梳理大數據安全研究現狀的基礎上,從數據和計算兩個層面上分析了大數據所面臨的安全問題,闡述了目前主要的解決大數據安全問題的研究成果。最后針對大數據安全性的評估提出了一些評估指標,并對這些指標的適用性作了比較。

[1] Temple K.What Happens in an Internet Minute?[EB/OL].http://scoop.intel.com/what-happens-in-an-internet-minute/.

[2] Feng Dengguo,Zhang Min,Li Hao.Big Data Security and Privacy Protection[J].Chinese Journal of Computers,2014,37(1):246-258.

[3] Miller H E.Big-data in cloud computing: a taxonomy of risks[J].Information Research,2013,18(1).

[4] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

[5] Duhigg C.How companies learn your secrets[EB/OL].http://128.59.177.251/twiki/pub/CompPrivConst/HowCompaniesLearnOurConsumingSecrets/How_Companies_Learn_Your_Secrets_-_NYTimes.com.pdf.

[6] Barbaro M,Zeller T,Hansell S.A face is exposed for AOL searcher no.4417749[EB/OL].http://w2.eff.org/Privacy/AOL/exhibit_d.pdf.

[7] Bhat S,Damle S,Chaudhari P,et al.KERBEROS:An Authentication Protocol[J].International Journal,2014,2(2):200-204.

[8] Roy I,Setty S T V,Kilzer A,et al.Airavat: Security and Privacy for MapReduce[C]//USENIX Conference on Networked Systems Design and Implementation,2010,10:297-312.

[9] Dwork C,Roth A.The algorithmic foundations of differential privacy[J].Theoretical Computer Science,2013,9(3-4):211-407.

[10] Xu G,Wang Z,Yang L,et al.Research of Data Provenance Semantic Annotation for Dependency Analysis[C]//Advanced Cloud and Big Data,2013 International Conference on.IEEE,2013:197-204.

[11] Bonatti P A,Hogan A,Polleres A,et al.Robust and scalable linked data reasoning incorporating provenance and trust annotations[J].Web Semantics:Science,Services and Agents on the World Wide Web,2011,9(2):165-201.

[12] Groth P.Provenance and Annotation of Data and Processes[C]//4th International Provenance and Annotation Workshop,Santa Barbara, CA, USA, June 19-21, 2012, Revised Selected Papers.Springer,2012.

[13] Ming G,Cheqing J,Xiaoling W,et al.A survey on management of data provenance[J].Chinese Journal of Computers,2010,33(3):373-389.

[14] Muniswamy-Reddy K K,Holland D A,Braun U,et al.Provenance-Aware Storage Systems[C]//USENIX Annual Technical Conference,General Track,2006:43-56.

[15] Agrawal R,Srikant R.Privacy-preserving data mining[J].ACM Sigmod Record,2000,29(2):439-450.

[16] Kantarcioglu M,Vaidya J,Clifton C.Privacy preserving naive bayes classifier for horizontally partitioned data[C]//IEEE ICDM Workshop on Privacy Preserving Data Mining,2003:3-9.

[17] Chen K,Liu L.Geometric data perturbation for privacy preserving outsourced data mining[J].Knowledge and Information Systems,2011,29(3):657-695.

[18] Islam M Z,Brankovic L.Privacy preserving data mining:A noise addition framework using a novel clustering technique[J].Knowledge-Based Systems,2011,24(8):1214-1223.

[19] Chhinkaniwala H,Garg S.Tuple Value Based Multiplicative Data Perturbation Approach To Preserve Privacy In Data Stream Mining[J].International Journal of Data Mining & Knowledge Management Process,2013,3(3):53-61.

[20] Patel A,Dodiya K,Pate S.A Survey On Geometric Data Perturbation In Multiplicative Data Perturbation[J].International Journal of Research in Advent Technology,2013,1(5):603-607.

[21] Oganian A.Multiplicative noise protocols[C]//Privacy in Statistical Databases.Springer Berlin Heidelberg,2011:107-117.

[22] Keyur D,Shruti Y.Classification Techniques For Geometric Data Perturbation in Multiplicative Data Perturbation[J].International Journal of Engineering Development and Research,2014,2(2):2380-2383.

[23] Rajalaxmi R R,Natarajan A M.A Novel Sanitization Approach for Privacy Preserving Utility Itemset Mining[J].Computer and Information Science,2008,1(3):77.

[24] Lee J,Ko H J,Lee E,et al.A Data Sanitization Method for Privacy Preserving Data Re-publication[C]//Networked Computing and Advanced Information Management,NCM’08.Fourth International Conference on.IEEE,2008,2:28-31.

[25] Samarati P.Protecting respondents identities in microdata release[J].Knowledge and Data Engineering,IEEE Transactions on,2001,13(6):1010-1027.

[26] Sweeney L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):571-588.

[27] Ajayi O O,Adebiyi T O.Application of Data Masking in Achieving Information Privacy[J].Innovative Systems Design and Engineering,2014,5(1):27-35.

[28] Patel B R,Maheta J B.Survey on Privacy Preservation Technique:Data Masking[C].International Journal of Engineering Research and Technology.ESRSA Publications,2014,3.

[29] Komishani E G,Abadi M.A generalization-based approach for personalized privacy preservation in trajectory data publishing[C]//Telecommunications (IST),2012 Sixth International Symposium on.IEEE,2012:1129-1135.

[30] Hajian S,Domingo-Ferrer J,Farras O.Generalization-based privacy preservation and discrimination prevention in data publishing and mining[J].Data Mining and Knowledge Discovery,2014,28(5):1158-1188.

[31] Paillier P.Public-key cryptosystems based on composite degree residuosity classes[C]//Advances in Cryptology—EUROCRYPT’99.Springer Berlin Heidelberg,1999:223-238.

[32] Rabin M O.How To Exchange Secrets with Oblivious Transfer[EB/OL].IACR Cryptology ePrint Archive,2005.http://eprint.iacr.org/2005/187.pdf.

[33] Vasant S,Venkatesan S,Rangan C P.A code-based 1-out-of-n oblivious transfer based on mceliece assumptions[M].Information Security Practice and Experience.Springer Berlin Heidelberg,2012:144-157.

[34] Corniaux C L F,Ghodosi H.A Verifiable 1-out-of-n Distributed Oblivious Transfer Protocol[J/OL].IACR Cryptology ePrint Archive,2013,https://eprint.iacr.org/2013/063.pdf.

[35] Lindell Y,Pinkas B.Privacy preserving data mining[C]//Advances in Cryptology—CRYPTO 2000.Springer Berlin Heidelberg,2000:36-54.

[36] Yao A C C.How to generate and exchange secrets[C]//Foundations of Computer Science,1986,27th Annual Symposium on.IEEE,1986:162-167.

[37] Beye M,Erkin Z,Lagendijk R L.Efficient privacy preserving k-means clustering in a three-party setting[C]//Information Forensics and Security,2011 IEEE International Workshop on.IEEE,2011:1-6.

[38] Zhukov V G,Vashkevich A V.Privacy-preserving Protocol over Vertically Partitioned Data in Multiparty K-means Clustering[J].Middle-East Journal of Scientific Research,2013,17(7):992-997.

[39] Zhang F,Rong C,Zhao G,et al.Privacy-Preserving Two-Party Distributed Association Rules Mining on Horizontally Partitioned Data[C]//Cloud Computing and Big Data (CloudCom-Asia),2013 International Conference on.IEEE,2013:633-640.

[40] Bogdanov D,Niitsoo M,Toft T,et al.High-performance secure multi-party computation for data mining applications[J].International Journal of Information Security,2012,11(6):403-418.

[41] Xiao M J,Huang L S,Luo Y L,et al.Privacy preserving id3 algorithm over horizontally partitioned data[C]//Parallel and Distributed Computing,Applications and Technologies,2005.PDCAT 2005.Sixth International Conference on.IEEE,2005:239-243.

[42] Xiao M J,Han K,Huang L S,et al.Privacy preserving C4.5 algorithm over horizontally partitioned data[C]//Grid and Cooperative Computing,2006.Fifth International Conference.IEEE,2006:78-85.

[43] Bertino E,Fovino I N,Provenza L P.A framework for evaluating privacy preserving data mining algorithms[J].Data Mining and Knowledge Discovery,2005,11(2):121-154.

[44] Oliveira S R M,Zaiane O R.Privacy preserving frequent itemset mining[C]//Proceedings of the IEEE International Conference on Privacy,Security and Data Mining-Volume 14.Australian Computer Society,Inc.,2002:43-54.

BIG DATA SECURITY AND ITS EVALUATION

Chen Wenjie Cai Lizhi

(ShanghaiKeyLaboratoryofComputerSoftwareTestingandEvaluating,Shanghai201112,China)

Big data security is one of the key factors affecting big data applications, and the evaluation of the security of big data applications becomes the industry concern. In light of this issue, in this paper we analyse the security challenges encountered by big data from the aspects of data and computing based on sorting the status quo of big data security studies. Then we give a survey on the main research outcomes of solving these challenges, including the security technology of distributed computing, the data traceability technology, and the data mining technology for privacy protection. Finally, from the aspects of data creditability, privacy protection degree, etc., we also propose some evaluation indices for the big data security.

Big data Security Privacy protection Data mining for privacy protection Security evaluation

2014-11-08。上海市科委科技攻關項目(135115053 03);上海市技術帶頭人項目(13XD1421800)。陳文捷,碩士生,主研領域:大數據,軟件測試。蔡立志,研究員。

TP309

A

10.3969/j.issn.1000-386x.2016.04.009

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲精品天堂在线观看| 色偷偷男人的天堂亚洲av| 中文国产成人久久精品小说| 四虎亚洲国产成人久久精品| 国产色婷婷视频在线观看| 99热线精品大全在线观看| 欧美三級片黃色三級片黃色1| 91精品国产无线乱码在线| 粉嫩国产白浆在线观看| 日本尹人综合香蕉在线观看 | 国产成人综合久久精品下载| 精品无码国产自产野外拍在线| 亚洲激情99| 国外欧美一区另类中文字幕| 色婷婷在线播放| 久久综合丝袜长腿丝袜| 精品1区2区3区| 日本五区在线不卡精品| 99在线观看免费视频| 亚洲国产天堂久久综合| 国产免费观看av大片的网站| 91精品国产自产在线老师啪l| 黑色丝袜高跟国产在线91| 99资源在线| 精品黑人一区二区三区| 伊人久久青草青青综合| 国产午夜看片| 国产毛片不卡| av在线人妻熟妇| 人妻丝袜无码视频| 国产专区综合另类日韩一区| 国产性生交xxxxx免费| 久久综合色视频| 又大又硬又爽免费视频| 四虎影院国产| 国产手机在线观看| 欧美不卡二区| 成人福利在线看| 综合久久久久久久综合网| 国产精品高清国产三级囯产AV| 中文字幕在线免费看| 国产呦视频免费视频在线观看| 91九色国产porny| 久久国产精品77777| 国产精品原创不卡在线| 欧美亚洲日韩中文| 亚洲swag精品自拍一区| 国产成人a在线观看视频| 少妇精品在线| 国产精品护士| 99热免费在线| 国产电话自拍伊人| 免费看一级毛片波多结衣| 久久黄色小视频| 成人国产免费| AV熟女乱| 国产日本欧美亚洲精品视| 国产SUV精品一区二区6| 久久精品国产999大香线焦| 四虎在线观看视频高清无码| 老司机久久99久久精品播放 | 国产综合亚洲欧洲区精品无码| 免费一级毛片完整版在线看| 婷婷成人综合| 国产成人免费视频精品一区二区 | 国产69精品久久| 青青青国产视频手机| 久久永久视频| 久久五月天国产自| 啊嗯不日本网站| 国产女人综合久久精品视| 欧美啪啪一区| 激情爆乳一区二区| 在线观看亚洲成人| 亚洲国产欧美国产综合久久| 福利在线不卡一区| 99在线国产| 91免费观看视频| 无码国内精品人妻少妇蜜桃视频| 亚洲精品777| 国产在线观看精品| AV无码一区二区三区四区|