吳超超+李偉春
摘要:近年來,信息技術發(fā)展迅速,且被廣泛應用到信息、通訊、工業(yè)生產(chǎn)、企業(yè)營銷等社會生產(chǎn)、生活的各個領域。作為信息技術的重要組成部分,數(shù)據(jù)挖掘技術不僅關系著人們對各類信息數(shù)據(jù)的收集和利用情況,而且對于信息技術的整體發(fā)展也具有重要的影響。為了使信息技術下人們的隱私得到更好的保護,本文從數(shù)據(jù)挖掘技術的角度出發(fā),通過對數(shù)據(jù)挖掘技術的相關概念進行分析,在結合其在隱私保護方面技術分類的基礎上,對基于隱私保護的數(shù)據(jù)關聯(lián)規(guī)則挖掘展開了深入研究。
關鍵詞:隱私保護;數(shù)據(jù)挖掘;數(shù)據(jù)關聯(lián)規(guī)則
中圖分類號:TP311 文獻標識碼:A 文章編號:1672-3791(2015)05(c)-0000-00
計算機信息時代的來臨在為人們的日常生產(chǎn)、生活帶來較大便利的同時,也對個人、群體以及相關組織、機構的隱私產(chǎn)生了較大威脅,因隱私泄露而導致的社會沖突也在不斷加劇,故為了在大數(shù)據(jù)時代下,進一步保護人們的隱私,本文對基于隱私保護的數(shù)據(jù)挖掘技術做出了系統(tǒng)的分析和研究。
1 數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘又稱為數(shù)據(jù)采礦,是通過相關算法在大量的數(shù)據(jù)中搜索并找出隱藏在其中各類信息的技術。數(shù)據(jù)挖掘在研究過程中主要借助了以下兩方面領域的研究思想,首先是統(tǒng)計學的抽樣以及估計與假設檢驗,通過在大量的數(shù)據(jù)中挑選出可能蘊含可用信息的數(shù)據(jù),進而對數(shù)據(jù)中蘊含的信息進行假設和檢驗分析;其次是基于人工智能識別與計算機網(wǎng)絡學習的搜索算法,通過對樣本數(shù)據(jù)進行優(yōu)化、計算和處理,進而得到所需信息[1]。然而,隨著數(shù)據(jù)挖掘技術的日益發(fā)展,使得在發(fā)現(xiàn)知識和信息的同時,人們的隱私權也收到了嚴重的威脅。因此,數(shù)據(jù)挖掘工作者有必要也必須在進行數(shù)據(jù)挖掘的同時,做好數(shù)據(jù)源以及相關挖掘結果的隱私保護工作。
2 基于隱私保護的數(shù)據(jù)挖掘分類
不同的分類標準所對應的隱私保護的數(shù)據(jù)挖掘技術也存在較大差異,以基本策略為依據(jù),可將基于隱私的數(shù)據(jù)挖掘方法分為:(1)數(shù)據(jù)擾亂法。通過在研究過程中對數(shù)據(jù)進行隨機變換,或?qū)?shù)據(jù)進行離散與添加噪聲,以達到對原始數(shù)據(jù)進行干擾的目的,其代表算法為MASK法;(2)查詢限制法。通過對數(shù)據(jù)進行隱藏、抽樣和劃分,以達到盡量避免數(shù)據(jù)挖掘者擁有完整原始數(shù)據(jù)的目的,在此基礎上,借助分布式計算或是概率統(tǒng)計,獲得所需的數(shù)據(jù)挖掘結果。但在利用查詢限制法進行隱私保護時,經(jīng)常存在一個問題,即所提供的數(shù)據(jù)全部為真實的原始數(shù)據(jù),雖然不完整,但也會降低對隱私的保護效果。以隱私保護的結束為依據(jù),可將相關的數(shù)據(jù)挖掘方法分為:(1)啟發(fā)式技術。啟發(fā)式技術又稱為掃描技術,通過將數(shù)據(jù)挖掘的經(jīng)驗和相關知識移植到檢查病毒的軟件當中,進而查找出可能存在侵犯用戶隱私的惡意程序或代碼;(2)密碼技術。密碼技術是研究如何較為隱蔽地傳遞信息的一門技術,通過應用分組密碼和流密碼等相關技術,從而對陌生的數(shù)據(jù)訪問請求進行攔截,以達到保護隱私的作用;(3)重構技術。通過利用數(shù)據(jù)重構技術,通過結果轉換以及格式變換和類型替換等方式對數(shù)據(jù)空間的結構和格式做出調(diào)整,在實現(xiàn)異構數(shù)據(jù)與多源數(shù)據(jù)有效融合的基礎上,降低隱私數(shù)據(jù)被篡改或盜用的可能[2]。
3 基于隱私保護的數(shù)據(jù)關聯(lián)規(guī)則挖掘分析
3.1集中式數(shù)據(jù)隱私保護
集中式數(shù)據(jù)隱私保護的關聯(lián)規(guī)則挖掘技術在隱私保護中的應用主要體現(xiàn)在源數(shù)據(jù)保護和規(guī)則隱藏兩方面。在源數(shù)據(jù)的保護方面的數(shù)據(jù)挖掘技術主要包括了基于數(shù)據(jù)擾亂以及分布重構關聯(lián)規(guī)則算法,即當前應用較為廣泛的MASK算法,此算法通過對數(shù)據(jù)進行擾亂以及分布重構,來達到隱私保護關聯(lián)規(guī)則挖掘的目的。具體方法為:通過將原始數(shù)據(jù)作為保密數(shù)據(jù)(保密目標),使其服從于未知分布U,引入一組擾動數(shù)據(jù),令其分布特定分布R,并輸入隨機擾動后的數(shù)據(jù);對隨機擾動后的數(shù)據(jù)進行存儲,另引入一組擾動數(shù)據(jù),使其仍然服從于特定分布R,作用后,將原始數(shù)據(jù)U輸出。在此過程中,加入隨機擾動數(shù)據(jù)后,在降低了侵犯隱私行為成功的可能性的同時,也使得數(shù)據(jù)挖掘工作人員獲得了其想要得到了目標數(shù)據(jù)[3]。
在規(guī)則隱藏方面,則主要體現(xiàn)在Alog系列的相關算法上,例如MinFIA以及MaxFIA和Native算法等,需要說明的是,各類算法所要隱藏的同一數(shù)據(jù)庫中的不同敏感規(guī)則,其彼此間是相互獨立的,其大都通過借助降低置信度以及支持度來達到對相關數(shù)據(jù)挖掘規(guī)則進行隱藏的目的。近年來,關于集中式數(shù)據(jù)隱私保護的規(guī)則隱藏方面的研究頗受關注,相關的規(guī)則隱藏方法還包括:(1)數(shù)據(jù)替代法,通過以隨機數(shù)據(jù)代替原始數(shù)據(jù),以達到降低隱藏規(guī)則中項目支持度與可信度的目的,此外,對數(shù)據(jù)挖掘后所殘留的非敏感性規(guī)則還具有較小的影響,進而從整體上提高所挖掘的數(shù)據(jù)的質(zhì)量;(2)刪除項與增加項的結合。通過將刪除項和增加項進行隨機結合,從而使原有規(guī)則的支持度發(fā)生變更,此方法的好處在于,所產(chǎn)出的規(guī)則相異度與規(guī)則丟失率能夠得到有效降低,從而達到對目標數(shù)據(jù)進行保護的目的。
3.2分布式數(shù)據(jù)隱私保護
分布式環(huán)境中,用戶隱私關聯(lián)規(guī)則挖掘的關鍵在于對全局頻繁項集進行計算,同時,加強對加密技術的應用,以確保相關隱私信息不會外泄。就現(xiàn)階段而言,分布式數(shù)據(jù)關聯(lián)規(guī)則的隱私保護方法主要包括了安全交集大小運算、安全求并集運算以及安全與運算等算法。而分布式數(shù)據(jù)的隱私保護主要包括兩方面,分別為水平分布下隱私保護的關聯(lián)規(guī)則挖掘與垂直分布下的隱私保護關聯(lián)規(guī)則的挖掘。
在水平分布的隱私保護關聯(lián)規(guī)則挖掘方面,除了需要對結果進行正確挖掘外,還需要對實施保護的相關開銷以及通信代價與安全強度進行計算。例如,可先運用數(shù)學方法對不同分布站點的數(shù)據(jù)進行變換,而后,恢復全局計數(shù)項集的支持度,以此,來搜索并發(fā)現(xiàn)數(shù)據(jù)挖掘時的全局頻繁集,進而找出并確定關聯(lián)規(guī)則[4]。在垂直分布的隱私保護關聯(lián)規(guī)則挖掘方面,在同一時間內(nèi),以不同站點的數(shù)據(jù)為依據(jù),對所有項集的計數(shù)進行計算,進而找出超過閥值的支持度全局頻繁集,以達到對數(shù)據(jù)進行保護的目的。
結論:本文通過對數(shù)據(jù)挖掘的概念以及隱私保護的必要性進行分析,在對不同依據(jù)下數(shù)據(jù)挖掘的隱私保護方法進行分類的基礎上,分別從集中式數(shù)據(jù)隱私保護和分布式數(shù)據(jù)隱私保護兩方面對基于隱私保護的數(shù)據(jù)關聯(lián)規(guī)則挖掘方法做出了全面的論述和分析。研究結果表明,源數(shù)據(jù)與隱藏規(guī)則保護方法能夠較好地滿足集中式數(shù)據(jù)隱私保護的要求,而以數(shù)學方法和全局頻繁集算法為主的水平分布與垂直分布隱私保護能夠加好地實現(xiàn)分布式數(shù)據(jù)的隱私保護。可見,未來加強對基于隱私保護的數(shù)據(jù)挖掘技術方面的研究,對于在保證用戶隱私的前提下,提高數(shù)據(jù)挖掘效率,具有重要的歷史作用和現(xiàn)實意義。
參考文獻:
[1]李學國,馮剛.面向社交網(wǎng)絡隱私保護的數(shù)據(jù)挖掘方法研究[J].科技通報,2013,01(18):128-131.
[2]張海濤,黃慧慧,徐亮,等.隱私保護數(shù)據(jù)挖掘研究進展[J].計算機應用研究,2013,12(15):3529-3535.
[3]崔春英,喬蕊.基于隱私保持的分布式數(shù)據(jù)挖掘技術研究[J].電腦編程技巧與維護,2012,10(09):52-53.
[4]李玲娟,鄭少飛.基于數(shù)據(jù)處理的數(shù)據(jù)挖掘隱私保護技術分析[J].計算機技術與發(fā)展,2011,03(09):94-97.