王 博
(井岡山大學電子與信息工程學院,江西 吉安343009)
由于云計算、異構服務和統-檢索等技術的應用,數字圖書館開放式環境下的應用缺乏相對安全的操作系統、計算機網絡系統和數據庫管理系統,導致信息化過程中,敏感數據從數據完整性(Integrity)、數據可用性(Availability)和保密性(confidentiality)等方面面臨著一系列的威脅。如果敏感數據管理者對這些威脅因素不重視不了解,則將會存在巨大管理漏洞,大大加劇隱私威脅的嚴重性。為了更好地應對數字圖書館運行和服務模式過程出現的敏感數據的隱私威脅,造成隱私泄露的原因可以歸為自然、通信、存儲和數據發布等9種威脅因素。
圖書館用戶通過網絡利用圖書館資源,而圖書館通過數據庫、日志等各種手段管理和記錄用戶的各種信息,并采用各種統計、分析和挖掘工具來利用收集的信息,以提升圖書館服務質量。在這期間,信息利用和控制不當都有可能侵犯用戶隱私權問題。數字圖書館的隱私保護需要從數據收集、數據存儲和數據應用(發布)三個方面來全面有效地保護圖書館用戶隱私權。
網絡隱私保護問題隨著網絡的廣泛應用,也越來越嚴峻。網絡隱私的泄露-般是通過黑客軟件、木馬病毒竊取、Cookies文件、WebBeacons、IP地址跟蹤等方式造成的。針對這些問題,防火墻、防殺毒軟件、Cookies管理器、匿名郵件重發器、洋蔥路由器等各種技術與相關產品應運而生。數字圖書館信息化系統要建立有效的網絡安全防范手段:數字圖書館中心機房采用防火墻防止惡意攻擊,圖書館網絡采用一體化防病毒體系增強計算機安全,圖書館公用計算機采用PWB,K-Melcon等專用圖書館瀏覽器有效保證用戶隱私,圖書館主要服務網站采用P3P(PlatformorPrivacyPreferences)技術、EPAL(EnterprisePrivacyAuthorizationLanguage)等技術增加圖書館用戶隱私保護政策的透明度。甚至可以采用基于P2P和語義Web的隱私保護等新技術用于保護網絡隱私。
現代的數據庫管理系統(DBMs)一般通過用戶認證、存取控制和數據加密等多種手段來限制對數據的訪問。無論是用戶認證、存取控制還是數據加密的不同方式,都能夠限制用戶對敏感數據的訪問。甚至也采用了專用組件進行隱私控制,如Oracle119中提供Oracle DataMasking工具對敏感數據自動屏蔽以保證安全、可伸縮的數據共享,以保持引用數據完整性的同時屏蔽開發、測試或生產環境中的敏感數據和保密數據。
數字圖書館中應用-些初步隱私保護功能的商業數據庫系統來管理信息資源。實際工作中需要是要加強數據庫數據加密、用戶認證、訪問控制(DACMacRBAC)和推理控制等方面功能的應用,如用戶個人信息的加密,手機號、密碼等重要字段的加密,用戶權限合理分配等等。另外,從管理上入手,盡量控制各種數據庫(表記錄)訪問權限,使用權限也要按需開放。
隨著Lib2.0一系列新技術的應用,移動圖書館的進一步推進,新形勢下的數字圖書館服務的隱私保護需求,常規技術已遠遠不能滿足需求。顯然,數字圖書館快速增長的海量數據如果發布不當,很容易泄露用戶隱私。這種面向各種應用的數據共享和分析服務的數據發布工作中的出現的隱私保護問題日益突出,有待于進一步研究合適的隱私保護技術。
根據對象數據類型可以把基于匿名化的數據發布技術分為兩類,并介紹如下:
目前,己經提出了一些對個人數據進行匿名處理以達到隱私保護的目的,包括泛化、隱匿、干擾味口數據交換技術等。數據發布中的隱私泄露主要可以分為身份泄露和屬性泄露。當目標個體與匿名數據中的某條具體記錄關聯起來時就會發生身份泄露;而屬性泄露可以分為記錄鏈接泄露、屬性鏈接泄露、表鏈接泄露和可能性攻擊泄露,它是指匿名數據會泄露目標個體的一些更為具體的信息。
近來,數據匿名化的隱私保護技術研究主要集中在集中式數據發布上,它主要可以分為:(1)匿名化原則的研究;(2)根據某種隱私保護模型發布匿名數據版本的算法研究。
3.2.1 避免身份泄露的匿名化原則
為了避免身份泄露,1998年salnarati和Sweeney在文獻778中提出了經典的k-匿名原則,它要求所發布的數據表中的每-條記錄不能區分于其它k-1條記錄,以使攻擊者不能判別出隱私信息所屬的具體個體,從而防止了個人隱私的泄密。此類模型對QID進行泛化后,把記錄劃分成若干個等價類,每個等價類中至少無條記錄,這樣鏈接到某條記錄的概率不超過l/k,保證了記錄安全。但是,如果每個等價類中記錄的敏感屬性取值相同或者某些敏感值出現的頻率很高,則仍然存在隱私泄露的可能。
3.2.2 避免敏感屬性泄露的匿名化原則
由于k-匿名思想啟發,z-diversity及其它的兩種形式基于嫡的ldiversity和遞歸(e,z)-成verse如,增強的(z.a)-diversity相繼被提出,它們保證每個等價類的敏感屬性至少有Z個不同的值,以使得攻擊者最多以l/l的概率確認某個體的敏感信息。T-closeness在l-diversity如基礎上,考慮了的敏感屬性的分布問題,它要求所有等價類中敏感屬性值的分布盡量接近該屬性的全局分布,從而解決了針對敏感屬性值的偏斜性攻擊和相似性攻。
3.2.3 避免高概率推斷的匿名化原則
除以上主要針對身份泄露和屬性泄露的匿名化原則外,也有一些為了避免高概率推斷的隱私問題而提出的針對概率泄露的匿名化原則。為了防止攻擊者通過訪問匿名發布數據表能夠以較高概率推斷目標對象的記錄是否存在數據集中或者目標對象敏感屬性的具體取值,文獻提出了參presence匿名化求以不超過占一定的概率推斷目標對象的記錄是否存在信息集中現象;Rastogi等人提出了概率性隱私保護(d,r)-匿名化原則;Blum等人提出了適用于非交互查詢模型的分布式隱私保護原則。此類匿名化原則旨在達到攻擊者推斷目標對象的概率在數據表匿名化前后差異性最少。
[1]徐險峰,馬海群,王海東.圖書館用戶隱私權保護研究綜述[J].圖書館建設,2010(7):30-34.
[2]周水庚,李豐,陶宇飛,等.面向數據庫應用的隱私保護研究綜述[J].計算機學報,2009(05):847-861.
[3]張鋒,孫雪冬,常會友,等.兩方參與的隱私保護協同過濾推薦研究[J].電子學報,2009,37(l):84-89.
[4]楊曉春,劉向宇,王斌,等.支持多約束的 k-匿名化方法[J].軟件學報,2006(05):1222-1231.
[5]王智慧.信息共享中隱私保護若干問題研究[J].復旦大學,2007.