陳虹云 姬嬌娜 倪杰 史雨軒 梅香香




摘? 要:近年來,隨著大數據技術和網絡信息技術的迅猛發展,越來越多的信息在網絡中傳播和分享。在數據挖掘與分析技術的不斷進步下,人們可以快速且有效地從海量的信息數據中提取出潛在的、有價值的信息。但是,從發布的數據中依舊可以挖掘出大量的隱私信息,這些信息一旦被有目的地利用和關聯,就會造成隱私信息的泄露,后果將不堪設想。在現實生活中,真實的數據集都是動態的數據。因此,對于在數據發布中隱私保護技術的研究具有極其重要的意義。
關鍵詞:動態數據集;隱私保護;重發布
中圖分類號:TP393? ? 文獻標識碼:A? 文章編號:2096-4706(2023)08-0111-03
Abstract: In recent years, with the rapid development of big data technology and network information technology, more and more information is disseminated and shared in the network. With the continuous progress of data mining and analysis technology, people can quickly and effectively extract potential and valuable information from massive information data. However, a large amount of private information can still be mined from the published data. Once such information is purposefully used and associated, it will cause the disclosure of private information, and the consequences will be unimaginable. In real life, real datasets are dynamic data. Therefore, the research on privacy protection technology in data publication is of great significance.
Keywords: dynamic dataset; privacy protection; republication
0? 引? 言
目前,在數據庫的應用領域中存在著大量與個人隱私相關的信息即原始數據。有些保險公司可能會因為被保人狀態的不斷變化而需要定期更新數據庫。但是,假設在變化后不進行一定的操作和處理,直接發布和分享一些信息,就會導致個人隱私信息的泄露,甚至不可預計的后果。而社會上有很多研究機構需要通過這些數據進行科學研究,從而發現一些社會問題并及時處理。例如,保險公司需要定期檢查保險記錄,這可能涉及到個人隱私信息。因此,數據隱私保護技術在現實中起著重要的作用和意義。其中,動態數據集重發布中的隱私保護在現實中得到了越來越廣泛的應用,相應的隱私保護模型的研究也得到了進一步的發展。然而,現有的動態數據集重發布隱私保護模型在動態數據集的重發布過程中大多存在一些不足和缺陷。
1? 國內外研究現狀
近些年來,經過專家學者的研究和改進,匿名化技術得到了迅猛的發展。Wong等人經研究后提出了(α,k)-匿名模型,它為每個等價類的敏感值設置了統一的頻率約束,要求每個等價類的任意一個敏感屬性值出現的頻率不大于α。王曉耘等人經改進后提出(α,k)-MDAV模型,該模型是通過在大小可變的等價類上增加頻率約束的方法來實現敏感值個性化保護的目的。史麗燕等人通過微聚類技術對個人背景數據進行分類處理,可以為個人信息的隱私保護提供精確的數據基礎。楊曉春等人也隨之提出多約束的k-anonymity匿名模型—Classfly+,其中包括樸素算法、完全IndepCSet和部分IndepCSet這三種算法。但以上匿名模型都不能滿足動態數據匿名發布的需求。靜態數據匿名發布方面的研究已經日趨完善。但是,在現實生活中數據是瞬息萬變的,不斷有數據需要進行多樣發布、系列發布和連續性發布。因此,對于動態數據匿名發布的研究得到了越來越廣泛的關注,成為了隱私保護研究的熱門話題。
2? 隱私保護模型的設計
匿名重發布的其中一個基本原則是保持數據的及時性。如果匿名重發布存在延時發布或者是不發布,那么很有可能就會因為這些原因導致有些機構根據其研究的成果造成偏差,從而導致很嚴重的后果。匿名重發布的另一個基本原則就是盡可能提高數據的可用性。如果匿名重發布之后的數據完全無可用性,那么將會失去匿名重發布的意義了。綜上幾點,匿名重發布的基本原則是安全性、及時性和可用性。
本文的動態數據集重發布模型為每個等價類的敏感值設置了統一的頻率約束,滿足了數據多樣性的要求。本模型包括三部分:新增、刪除和修改。
2.1? 新增模塊設計
新增模塊的主要功能是向已發布的數據集T*中新增數據集T。第一步設置閾值;第二步計算元組t與其等價類的語義貼近度;第三步根據計算結果選擇語義貼近度值最大的等價類;第四步判斷語義貼近度最大值跟準標識符屬性個數q是否一致,再決定是否新增數據;第五步判斷匿名數據集是否滿足匿名約束。如果滿足約束條件,那么新增成功;如果不滿足約束條件,那么需要加入偽記錄來滿足約束條件。圖1為新增模塊的具體流程圖。
2.2? 刪除模塊設計
刪除模塊的主要功能是從已發布的匿名數據集T*中刪除數據。第一步設置閾值;第二步通過刪除條件φ以及元組和泛化元組的映射關系,確定對刪除的元組進行定位;第三步刪除數據;第五步進行等價類個數的判斷。如果等價類個數小于k,那么跟語義貼近度最大的等價類進行合并。第六步判斷是否滿足匿名約束,如果不滿足,再進行調整。圖2為刪除模塊的具體流程圖。
2.3? 修改模塊設計
修改模塊的功能是根據實際需要對原始匿名數據集中的數據進行對應的修改。修改模塊的功能是從已發布數據集中修改數據。第一步如果修改條件中只包含敏感屬性,那么根據刪除條件和元組的映射關系來對所需修改數據所在的等價類進行定位再直接進行修改;第二步當修改條件中包含準標識符屬性,將修改操作拆分為刪除操作和插入操作。先進行刪除模塊刪除元組,再進行新增模塊添加修改后的元組;第三步判斷是否滿足約束條件,如果滿足條件,那么修改成功;如果不滿足,那么加入偽數據直至滿足匿名條件。修改模塊的主要流程如圖3所示。
3? 隱私保護模型的實現
3.1? 新增模塊實現
用戶在“發布”功能中預先設定好k值、閾值α和需更新的數據集后,點擊主菜單中的“添加新數據”,就會彈出新增模塊的操作界面,如圖4所示。在操作界面中,用戶可以選擇不同的數據集作為待添加數據集進行添加操作。為了后期實驗數據分析本系統預先設定了7種數據集來進行實驗。
3.2? 刪除模塊實現
用戶在主界面中選擇“刪除數據”來執行刪除模塊,如圖5所示。用戶需要在8個文本框當中填寫刪除數據的條件,刪除模塊根據用戶輸入的刪除的條件進行整合,取交集來執行刪除命令。用戶在文本框中輸入刪除命令的時候,系統會檢查用戶的輸入值的合法性。在點擊“刪除”按鈕后,如果任何文本框中的值都不符合輸入規則,系統會提示用戶重新輸入。
3.3? 修改模塊實現
修改模塊的功能是根據實際需要對原始匿名數據集中的數據進行對應的修改。如圖6所示,表示修改模塊的功能實現圖。用戶可以將修改條件填入功能界面的文本框當中。
4? 隱私保護技術性能評估
4.1? 實驗數據來源
實驗數據采用UCI的人口統計實際數據集中的Adult數據集,實際數據集來自http://kdd.ics.uci.edu。實驗采用
“Adult”數據集來模擬實際生活中不斷更新的醫療數據集。將收集到的數據經過過濾,去除空值處理之后,導入到EXCEL中,其中一共包含48 842條數據記錄,14個敏感屬性數據值。
4.2? 實驗數據設置
Adult標準數據集共有48 842條數據記錄,在經過預處理之后為45 222條數據。本次試驗取其中的8個不同的屬性:{Age,Education,Marital-status,Occupation,Race,Hours-per-week,Native-country,Work-Class},其中“Work-Class”作為敏感屬性,其余7種屬性作為準標識符屬性,如表1所示。
4.3? 實驗安全性分析
將從幾種常見的攻擊方式方面來對本文的匿名模型進行安全性分析,如表2所示(“√”代表抵抗效果好,“○”代表抵抗效果一般,“×”代表抵抗效果較差)。
實驗結果表明,本文提出的面向動態數據集發布的匿名模型以及根據其相應的更新設計與實現的動態數據集匿名發布系統,對于數據規模較大、數據增減量相對較小、數據更新頻繁的動態數據集,在能夠保證動態數據的同步性和真實性方面有著明顯優勢,尤其是對于更新數量較少的動態數據集,能夠在保證其數據精度的同時,有效地保護隱私信息安全。
5? 結? 論
隨著信息共享技術和數據挖掘技術的不斷發展,在網絡中傳播和共享的數據也在逐漸遞增。其中的數據中往往會包含大量個人和企業的隱私信息,這些信息一旦被有目的地利用和關聯,就會造成隱私信息的泄露,后果將不堪設想。本文主要研究在動態數據發布中的隱私保護的相關技術,提出了一種動態數據發布的匿名模型,并且提供了一個完整的動態數據發布的模型及實現。但是,本文提出的模型還存在著不足,今后還需要進一步地研究和提高。
參考文獻:
[1] 白雨靚,李曉會,陳潮陽,等.面向軌跡數據發布的優化抑制差分隱私保護研究 [J].小型微型計算機系統,2021,42(8):1787-1792.
[2] 王明月,張興,李萬杰,等.面向數據發布的隱私保護技術研究綜述 [J].小型微型計算機系統,2020,41(12):2657-2667.
[3] 梁文娟,陳紅,吳云乘,等.持續監控下差分隱私保護 [J].軟件學報,2020,31(6):1761-1785.
[4] 楊旭東,高嶺,王海,等.一種面向直方圖發布的均衡差分隱私保護方法 [J].計算機學報,2020,43(8):1414-1432.
[5] JIN Y. Disclosure and protection of personal privacy data in the era of big data [J].Journal of Tongji University ( Social Science Edition),2020,31(3):18-29.
作者簡介:陳虹云(1993—),女,漢族,江蘇南通人,講師,碩士,研究方向:信息安全、計算機技術。