【摘要】:新科技帶動下,隱私保護數據挖掘相關研究工作現已成為數據挖掘的重點環節,在一定領域內取得了研究成果。現階段,隨著定位系統、物聯網技術飛速發展、新型社交手段應用的出現等等,使得個人信息涉及到隱私成分逐漸增多,數據挖掘工作的實現過程很容易伴隨個人隱私泄露現象,針對現階段隱私保護的相關挖掘方法需要進行深入探討。本文對現有挖掘方法的種類、特點、方法等進行介紹,并提出隱私數據保護挖掘今后的研究主體方向。
【關鍵詞】:隱私保護;數據挖掘;新技術研究
引言:隨著計算機應用技術、數據網絡的普及應用,現階段,可以通過網絡上存儲的大量數據進行信息提取工作,數據挖拙技術是一種現代高科技的分析手段,可以從大量數據中快速提取有用信息、相關數據重點等。從而為現代醫學、商業的研究提供有利信息,該過程不可避免的會伴隨著個人隱私信息泄露問題,甚至會在數據提取過程中發生敏感信息泄露,對整個系統的信息安全構成一定威脅。為了加強對隱私數據的保護,隱私保護數據挖掘工作是主要研究方向。
一、隱私概述
針對數據挖掘領域來講,隱私一般分為兩大類:個人隱私、共同隱私,前者主要是指個人身份信息、銀行賬號、相關密碼等私人信息,是個人不愿意被公布、被挖掘的信息;后者是某一類人群的共有信息,共同隱私主要是表現某一類人群共有情況的信息,一般借助存儲數據的挖掘可以獲取共同隱私,現階段的隱私保護挖掘工作主要研究方向是,通過對大量挖掘原始數據的前期處理,使得兩大類隱私均得到一定范圍內的保護。
為了實現數據挖掘的重大意義,避免數據挖掘中丟失部分數據的現象,同時對數據挖掘過程中的個人信息識別進行回避,需要充分把握隱私數據保護的平衡點,一般通過隱私的度量進行平衡這以現象。
二、隱私保護數據挖掘研究進展
作為一種新型數據挖掘技術,隱私保護數據挖掘的方法、處理手段、關注點分析、技術手段上均有所改進,其主要改進手段表現如下:其一,收集信息,從大量原始數據收集信息時,采用特定處理方法,對其中隱私部分進行人為加入干擾,使其得到保護;其二,預處理,對干擾后的原始數據進行進一步處理,以便得到用于研究的重要信息;其三,挖掘階段,需要改變原有的計算方法,如多方分布的數據挖掘過程中,需要對算法本身進行一定變動,以完成保護隱私的目的。
隱私保護的數據挖掘已經得到國內外眾多學者的一致認可,首先,在保護過程中,其關聯規則的應用主要采用兩種辦法:其一,隱藏頻繁項目,該方法實質是對大量原始數據進行了特殊處理,以防止相關隱私信息泄露;其二,采用一切手段將隱私信息的置信度降低,低至遠小于挖掘信息的規定置信度下限值,使得需要被保護的信息可以隱藏,不被數據挖拙相關工具發現。
對于聚類挖掘法將,現階段,可以采用幾何法進行原始數據處理工作,實現原始數據隱藏隱私信息的目的,然后借助等距變換法來進行隱藏數據的改進,對于聚類挖掘方法的研究,由于國內起步晚,與國外一些成熟的研究發展仍有一定的差距。
三、隱私保護關聯規則挖掘研究
1、集中式數據
該方法對于原始數據的保護主要借助干擾法、分布重構法進行,由于對原始數據進行了干擾,導致其支持度受到一定影響,使得算法的應用效率大幅度下降,一般需要對算法的參數進行選擇,同時需要對原始數據干擾后,保證其與干擾前的數據具有一定必然的聯系性。
隨著隱私保護數據方法的進行,其關聯規則逐漸引起了學者的重視,成為現階段主要研究熱點,Algo系列算法陸續被提出,其中的隱藏規則也逐漸被大眾所熟知。學者吳方的研究方法中,采用數據替代法進行處理,使得原始數據中信息的支持度、置信度可以降低,另一方面,最大程度的保證了原始數據的可參考價值。
2、分布式數據
分布式環境中,隱私數據保護工作主要側重關聯規則對全局頻繁項處理的方法,在進行頻繁項數據處理計算時,需要充分利用數據加密干擾的方法保證被挖掘信息受到隱私保護作用,對于分布式數據的保護過程來說,其原始信息是建立在密碼學基礎之上的,通過密碼學處理、分析來進行數據挖掘工作。現階段,分布式數據的隱私保護工作多數是通過安全多方法實現,安全交集、安全求并集等新型技術方法,從而實現分布式環境中隱私數據保護戰略。在分布式環境中,一個合理高效的保護隱私方法評價標準如下:保證挖掘結果的正確性不受影響;合理計算通信代價;高效保證安全強度不受影響。
四、隱私保護分類挖掘研究
1、集中式數據
對于集中式數據環境下,其信息保護的分類挖掘算法中一般通過隨機偏移量法實現原始數據的前期處理,借助貝葉斯公式實現原始數據的重構,接下來進行集中式數據研究分析計算,在整個計算過程中,需要充分利用空間分區的方法來加快整個計算的工作效率,另一方面,通過該方法計算,其原始數據的隱私會存在一定泄露的隱患,這是該方法無法避免的一個缺點,再者,該算法中,由于對數據處理過程中需要采用迭代法,隨著變量重復進行迭代計算,結果與原始值不吻合后需要重新進行核算,直至迭代結果符合規定偏差,這種方法的計算量相對較大,并且一般情況下只適合于均勻分布情況,該方法具有一定的改進空間。
Warner作為該領域研究專家,提出采用隨機相應法來解決原始數據中隱私保護問題,如我們經常遇到的調查問卷,其中涉及到的個人信息,該方法選擇特定群體進行個人信息相關的調查,達到統計估算某個領域需求的信息,但是實際情況中,被調查的人群實際填寫信息真實性、填寫內容完整性有待考察,Warner等人針對這種現象提出了兩個模型,解決了這一弊端,借助模型計算實現避免人為誤差的方法。
2、分布式數據
分布式領域中,其隱私保護手段已經充分利用SMC協議具體條款內容要求進行了處理,現階段,在金融財會、證券領域中已經獲得了一定的成績,通過結合隱私保護法和決策樹法,實現了隱私保護,使得金融系統中,個人隱私信息保護的前提下,充分識別了不法洗錢的行為,是商業應用的典型成果案例。
五、隱私保護聚類挖掘研究
研究過程中,對數據間的距離計算問題作為隱私保護計算中的關鍵環節,需要引起足夠的重視,現階段,基于距離的隱私保護方法中以聚類挖掘法最為常見,通過該方法,可以實現精確到歐幾里的距離,借助SMC協議的不可逆恢復特點,從而實現隱私保護的目的。研究進展中,Stanley R.M.Olvieria 指出可以利用原始數據的一種變換方法進行處理,該方法屬于旋轉變換方法,處理后,原始數據間的距離不發生變換,從而能夠進行隱私保護數據聚類挖掘分析。
實際應用過程中,每個算法的開發、研究、應用都是一個嚴格的過程,只有保證算法理論驗證可行后,同時保證其隱私保護在合理范圍內,才可以廣泛應用到實際生產生活中,才能體現其實際使用價值。
結語:隱私保護數據挖掘技術應用中,為了加大隱私保護程度,部分算法是以犧牲計算效率實現提高隱私保護度的,各種方法具有一定的優缺點,為了提高隱私保護,必須加大相關方面的研究,隨著社會信息數據化發展的加速進行,隱私問題引起極大重視,表明隱私保護挖掘技術的研究具有相當大的重要價值。
參考文獻:
[1]王愛平,王占鳳,陶嗣干,等.數據挖掘中常用關聯規則挖掘算法[J].計算機技術與發展,2010, 20(4):105- 108.
[2]劉英華,楊炳儒,馬楠,等.分布式隱私保護數據挖掘研究[J].計算機應用研究,2011,28(10) : 3606-3610.
[3]KANTARCIOGLU M, CLIFTON C.Privacy-preserving distributed mining of association rules on horizontally partitioned data[J].IEEE Trans on Knowledge and Data Engineering,2004,16(9) : 1026-1037.