[摘要] 數據挖掘中的隱私保護問題近年來得到了廣泛研究。本文首先分析了在數據挖掘中進行隱私保護的必要性,隨后對隱私保護的主要技術進行了研究,最后指出了數據挖掘領域中隱私保護方法未來的主要研究方向。
[關鍵詞] 數據挖掘 隱私保護 知識發現
一、引言
在當今社會,企業、政府,以及各類研究機構所收集的海量數據已被認為是一項重要的資源。如何對這些數據進行有效分析與處理,將其轉換為對決策過程有用的各種知識,是當前信息管理領域面臨的重要問題。數據挖掘,也稱為知識發現,主要研究如何從大規模的數據中抽取非平凡的、有潛在使用價值的知識,近年來在眾多領域都得到廣泛的研究與應用。
然而數據挖掘技術在應用過程中也出現了一些問題,隱私保護就是近年來所出現的一類重要問題。主要體現在兩個方面:一方面,供各種挖掘方法使用的數據庫中存儲了大量的敏感信息,其中有些信息是在個人無意識甚至是不知情的情況下被收集的,而網絡及其他媒體對信息的無限制暴露,已經開始對個人隱私構成嚴重威脅;另一方面,各種數據挖掘方法與工具的不斷完善,也為一些普通用戶通過不正當手段(如對信息進行推論)獲取他人隱私信息提供了可能。如何對數據進行有效的挖掘,并同時保證個人的相關隱私不被泄漏,成為近年來數據挖掘領域的一個研究熱點。
二、隱私保護方法的研究維度
隱私保護技術近年來出現了大量的新方法和新技術。主要可以從以下的四個維度進行研究:
1.數據分布方式。數據挖掘的數據一般可分為集中和分布式兩種,分布式數據又可以分為水平和垂直分布兩種。水平分布指數據按記錄分布在不同的站點,垂直分布指數據按屬性分布在不同的站點。不同的數據分布形式會影響隱私保護算法的設計。
2.數據修改方法。數據修改指根據組織的隱私保護政策,在發布數據之前,對原始數據進行適當的修改,達到保護這些數據的目的。常用的修改方法包括隨機化處理、數據加密、數據過濾和數據抽樣等。
3.數據挖掘算法。目前數據挖掘的算法主要可以分為關聯分析、序列分析、分類、聚類,以及異常檢測等幾個類別。根據這個維度,相應的隱私保護算法也可分為這幾大類。
4.數據與規則隱藏。即隱私保護算法是隱藏原始數據還是隱藏挖掘的各種規則。由于規則大多是對數據進行分析得到,因此各種規則比原始數據的抽象層次高、更具有價值,保護敏感規則有時比保護原始數據更重要。
三、隱私保護的主要技術
為保護敏感信息,常見的方法就是對數據進行分片保存,對數據進行水平分割或者垂直分割。水平分割指在每個節點上都保留原始數據的部分完整記錄,各節點數據匯總即得到完整的原始數據。垂直分割指將對象的屬性數據進行分割,在不同的節點上保存對象的部分屬性數據。
對于上述兩種數據分布形式,隱私保護的數據挖掘算法要求各節點在不知道對方數據的基礎上即能完成各種挖掘任務。文獻[1]中實現了數據水平分布時的隱私保護分類挖掘算法;文獻[2]提出一種在數據垂直分布情況下的隱私保護分類挖掘算法;文獻[3]則提出一個從垂直分割的數據中挖掘全局關聯規則的隱私保護算法。
另外,對原始數據進行抽樣、過濾或有目的的修改,也能有效保護隱私。在隱私保護中,推論問題是一個重要的研究內容,指普通用戶使用相關的數據挖掘技術,通過不斷改變算法的參數,從結果中推斷出未經授權的他人隱私信息。
在數據庫中建立隱私約束規則可以限制用戶發現或者訪問某些形式的規則,從而保護相關的隱私。使用數據抽樣方法,每次僅使用隨機得到的部分數據參與挖掘,這樣可以避免惡意的窮舉式訪問竊取相關隱私信息。
對數據進行隨機化修改也稱為數值變形(Value Distortion),在時間序列數據挖掘中經常被使用。該方法對每個原始數據加上一個隨機干擾,其中服從某種統計分布。在此基礎上,使用新的數據替代進行各種挖掘分析。由于使用數據進行各種挖掘分析,并且普通用戶通常無法確認隨機干擾的確切分布形式,因而該方法可有效防止對原始數據的惡意推斷。因此在時間序列數據挖掘中,提出對噪聲不敏感的挖掘算法,對于隱私保護而言同樣具有重要的意義。
四、未來的主要研究方向
1.高性能的方法:提出具有優良性能的相關方法,包括時間性能與空間開銷,以及網絡開銷。
2.高準確度的方法:盡可能完整地生成相應規則,而不遺漏重要規則,并且所生成規則的準確度也不應有明顯的降低。
3.保護程度更高級的方法:應當具有較高的保護級別。
4.適用于分布環境的方法:隨著網絡技術的發展,如何在分布式環境下進行各種隱私保護的數據挖掘,也將是一個重要的研究方向。
參考文獻:
[1]Lindell Y, Pinkas B. Privacy preserving data mining[C]. Proceedings of the 20th AICCAC, 2000, Santa Barbara, USA, 36–54
[2]Du W L, Zhan Z J. Building decision tree classifier on private data. Proceedings of the ICDM, 2002, Maebashi City, Japan, 1-8
[3]Vaidya J, Clifton C. Privacy Preserving Association rule mining in vertically partitioned data[C]. Proceedings of the 8th SIGKDD, 2002, Edmonton,Canada, 639-644
[4]李蒙宋翰濤:數據挖掘中隱私保護的隨機化處理方法.計算機工程與科學, 2005, 27(2): 58-59
[5]黃超朱揚勇:基于回歸系數的時間序列維約簡與相似性查找. 模式識別與人工智能, 2006, 19(1): 52-57