鄒 妍,門愛華,秦曉薇
(赤峰學院 計算機科學與技術系,內蒙古 赤峰 024000)
XML信息共享中隱私保護技術研究
鄒 妍,門愛華,秦曉薇
(赤峰學院 計算機科學與技術系,內蒙古 赤峰 024000)
隨著計算機處理能力、存儲技術以及網絡技術的迅速發展,信息電子化程度得到了極大的提高,這也使得XML信息共享更加廣泛地深入到人們的生產和生活的方方面面.但是,隨之產生的隱私泄露現象屢見不鮮,所以,如何保護XML隱私數據和防止敏感信息泄露成為當前面臨的巨大挑戰.而信息共享中隱私保護研究的目標就是在保護數據隱私的同時又不影響數據應用.本文對隱私保護領域已有的研究成果進行了總結,對各類隱私保護技術的基本原理、特點進行了闡述,并介紹了各類技術的典型應用.在對已有技術深入對比分析基礎上,指出了隱私保護技術的未來發展方向.
XML;隱私保護;數據發布
XML數據挖掘和數據發布是當前數據庫應用的兩個重要方面.一方面,數據挖掘與知識發現在各個領域都扮演著非常重要的角色.數據挖掘的目的在于從大量的數據中抽取出潛在的、有價值的知識(模型或規則)[1].傳統的數據挖掘技術在發現知識的同時,也給數據的隱私帶來了威脅.例如,疾病控制中心需要收集各醫療機構的病例信息,以進行疾病的預防與控制.在這個過程中,傳統數據挖掘技術將不可避免地暴露敏感數據(如“病人所患疾病”),而這些敏感數據是數據所有者(醫療機構、病人)不希望被揭露的.另一方面,數據發布是將數據庫中的數據直接地展現給用戶.而在各種數據發布應用中,如果數據發布者不采取適當的數據保護措施,將可能造成敏感數據的泄漏,從而給數據所有者帶來危害.譬如企業發布的產品信息,或者上市公司發布的財務年報,如果不對發布的數據進行仔細甄別,就會給商業上的競爭者以可乘之機.所以,如何在各種數據庫應用中保護數據的隱私,成為近年來學術界的研究熱點[2].
隱私保護技術[3]的出現就是為了解決上述問題.具體的說,實施數據隱私保護主要考慮以下兩個方面:(1)如何保證數據應用過程中不泄露隱私;(2)如何更有利于數據的應用.當前,隱私保護領域的研究工作主要集中于如何設計隱私保護原則和算法更好的達到這兩方面的平衡.
本文對隱私保護技術的最新進展進行綜述.對該領域的主要技術進行了分類闡述,在具體應用中對該技術的優缺點、適用范圍等進行分析.在此基礎上對隱私保護技術進行了綜合對比與分析,并指明了隱私保護技術未來的研究方向.
隱私保護的研究問題是由實際應用中不同的隱私保護需求決定的.通用的隱私保護技術致力于在較低應用層次上保護數據的隱私,一般通過引入統計模型和概率模型來實現;而面向數據挖掘的隱私保護技術主要解決在高層數據應用中,如何根據不同數據挖掘操作的特性,實現對隱私的保護;基于隱私保護的數據發布原則是為了提供一種在各類應用可以通用的隱私保護方法,進而使得在此基礎上設計的隱私保護算法也具通用性.
作為新興的研究熱點,隱私保護技術不論在理論研究還是實際應用方面,都具有非常重要的價值.在國內對隱私保護技術的研究亦受到學術界的關注與重視,包括清華大學、復旦大學、中國科技大學、北京大學、東北大學、華中科技大學等在內的多個課題組也開展了相關的研究工作.
國內關于隱私保護技術的研究目前主要集中于基于數據失真或數據加密技術方面的研究,如基于隱私保護分類挖掘算法[4]、關聯規則挖掘[5]、分布式數據的隱私保持協同過濾推薦、網格訪問控制等.
總的來說,國內關于隱私保護技術的研究還處于起步階段,具有廣闊的發展空間;與國外和我國港臺地區的研究組相比,尚有一定的差距.
本文將隱私保護技術分為以下三類:
(1)基于數據失真(Distorting)的技術:使敏感數據失真但同時保持某些數據或數據屬性不變的方法.例如,采用添加噪聲(Adding Noise)、交換(Swapping)等技術對原始數據進行擾動處理,但要求保證處理后的數據仍然可以保持某些統計方面的性質,以便進行數據挖掘等操作.
(2)基于數據加密的技術:采用加密技術在數據挖掘過程中隱藏敏感數據的方法.
(3)基于限制發布的技術:根據具體情況有條件地發布數據.
另外,對于許多新方法,由于其融合了多種技術,很難將其簡單地歸到以上某一類,但它們在利用某類技術的優勢的同時,將不可避免的引入其它的缺陷.基于數據失真的技術,效率比較高,但卻存在一定程度的信息丟失;基于加密的技術則剛好相反,它能保證最終數據的準確性和安全性,但計算開銷比較大;而限制發布技術的優點是能保證所發布的數據一定真實,但發布的數據會有一定的信息丟失.
3.1.1 基于數據失真的隱私保護技術
數據失真技術通過擾動(Perturbation)原始數據來實現隱私保護.它要使擾動后的數據同時滿足:
(1)攻擊者不能發現真實的原始數據.也就是說,攻擊者通過發布的失真數據不能重構出真實的原始數據.
(2)失真后的數據仍然保持某些性質不變,即利用失真數據得出的某些信息等同于從原始數據上得出的信息.這就保證了基于失真數據的某些應用的可行性.
3.1.2 基于數據加密的隱私保護技術
在分布式環境下實現隱私保護要解決的首要問題是通訊的安全性,而加密技術正好滿足了這一需求,因此基于數據加密的隱私保護技術多用于分布式應用中,如分布式數據挖掘、分布式安全查詢、幾何計算、科學計算等.在分布式下,具體應用通常會依賴于數據的存儲模式和站點(Site)的可信度及其行為.
分布式應用采用兩種模式存儲數據:垂直劃分的數據模式和水平劃分的數據模式.垂直劃分數據是指分布式環境中每個站點只存儲部分屬性的數據,所有站點存儲的數據不重復;水平劃分數據是將數據記錄存儲到分布式環境中的多個站點,所有站點存儲的數據不重復.
對分布式環境下的站點(參與者),根據其行為,可分為:準誠信攻擊者(Semi-honest Adversary)和惡意攻擊者(Malicious Adversary):準誠信攻擊者是遵守相關計算協議但仍試圖進行攻擊的站點;惡意攻擊者是不遵守協議且試圖披露隱私的站點.一般地,假設所有站點為準誠信攻擊者.
3.1.3 基于限制發布的隱私保護技術
限制發布即是有選擇的發布原始數據、不發布或者發布精度較低的敏感數據,以實現隱私保護.當前此類技術的研究集中于“數據匿名化”:即在隱私披露風險和數據精度間進行折中,有選擇地發布敏感數據及可能披露敏感數據的信息,但保證對敏感數據及隱私的披露風險在可容忍范圍內.數據匿名化研究主要集中在兩個方面:一是研究設計更好的匿名化原則,使遵循此原則發布的數據既能很好地保護隱私,又具有較大的利用價值.另一方面是針對特定匿名化原則設計更“高效”的匿名化算法.本節內容將圍繞這兩方面展開.
容易看出,每類隱私保護技術都有不同的特點,在不同應用需求下,它們的適用范圍、性能表現等不盡相同.表1是對隱私保護的對比分析.
隨著信息不斷膨脹、信息獲取渠道越來越多樣化,數據庫的應用無處不在,不論是在理論研究還是實際應用領域,對隱私保護技術進行研究都具有非常重要的意義.但由于隱私保護技術涉及多學科交叉且發展時間較短,還存在許多問題有待進一步研究:
隨著分布式數據庫以及Web應用的發展和普及,眾多已有的針對XML數據庫應用的隱私保護技術不能滿足分布式環境下的新需求.由于分布式環境下各站點相對獨立、數據異構的特點,通訊、數據協同等其他操作將更加頻繁.而這些操作,有意或無意間,都對敏感數據和隱私信息構成了威脅.
如何在分布式情況下,實現多點高效協同工作的同時,保證頻繁的信息交互、數據傳輸行為過程中,不會給隱私信息、敏感數據帶來威脅?如何在保護各獨立站點私有隱私的同時,還實現對整個分布式系統的共同隱私的保護?如何使得隱私保護策略或算法在有效的同時,對分布式查詢、存儲以及網絡拓撲結構的負面影響盡量的小?分布式數據庫和Web具有巨大的潛力和廣闊的應用前景,雖然在分布式環境下進行隱私保護的相關研究,將面臨一系列新的問題和挑戰,但相關問題的解決,將無疑對各種應用起到巨大的推動作用.

表1 隱私保護技術的對比分析
雖然數據庫在所有領域都有廣泛的應用,但是不同領域的應用場景卻千差萬別.不僅數據的表現形式、存儲方式、數量、更新頻率等都各不相同,而且隱私信息的表現形式、數量往往也是不同的.因此,眾多領域和現實應用,都急切需要一種符合其實際情況和特點、針對性強、效率/效果優的隱私保護方法.
大部分現有隱私保護技術都是基于靜態數據集的,而現實世界中,數據庫中的數據卻是無時無刻不在變化,包括數據表現形式的改變、屬性的增減、新數據的加入、舊數據的刪除等.并且,數據庫數據的這種變化,一般都不是完全隨機、獨立的,數據與數據之間,數據與數據變化之間,都是相互關聯的.因此,怎樣在這種更加復雜的環境下同時實現對動態數據的利用和隱私保護,是一個更具挑戰的難題.
〔1〕周志純.隱私保護數據挖掘研究.2008:5-19.
〔2〕王智慧.信息共享中隱私保護若干問題研究.2007:5-15.
〔3〕臧鋮.個性化搜索中隱私保護的關鍵問題研究.2008:12-30.
〔4〕張斌.隱私保護的分布式關聯規則挖掘算法研究.2007:4-21.
〔5〕仲波.基于關聯規則的隱私保護算法研究.2007:6-27.
TP311.13
A
1673-260X(2010)02-0035-03
內蒙古自治區高等學校科學研究項目基金資助(NJzy08152)