999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫學數據共享隱私保護中基于聚類的匿名化算法關鍵技術研究*

2023-08-02 11:29:42唐明坤吳思竹周佳茵段一凡胡拯涌
醫學信息學雜志 2023年6期
關鍵詞:模型

唐明坤 吳思竹 周佳茵 段一凡 胡拯涌 錢 慶

(中國醫學科學院/北京協和醫學院醫學信息研究所 北京 100020)

1 引言

隨著數據共享需求的不斷增長,數據隱私保護問題受到越來越多關注。近年來我國相繼出臺《中華人民共和國個人信息保護法》等法律法規,對數據隱私保護提出更高要求[1]。醫學數據中包含大量個人隱私信息,隨著跨單位合作的增加,醫學數據共享需求也在不斷增長[2],相關數據共享平臺[3-4]和機制[5-7]等研究受到廣泛關注。然而,由于包含大量個人隱私信息和群體健康生理信息,醫學數據的高質量開放共享面臨諸多挑戰[8]。

基于聚類的匿名化算法具有靈活性較高、能夠保留原始數據更多信息的特點,被廣泛應用于各種對數據質量要求較高的場景,尤其是醫學數據共享[9-11]。但醫學數據具有語義信息層次豐富、隱私保護需求多樣化等特點,加上不同類型基于聚類的匿名化算法在時間復雜度、適用數據特點、適用場景等方面存在較大差異,導致在真實世界數據共享中如何選擇合適的基于聚類的匿名化算法成為迫切需要解決的問題。因此本研究通過梳理面向醫學數據共享的匿名化聚類算法關鍵技術相關內容,以期為相關研究提供參考。

2 基于聚類的匿名化算法主要流程

2.1 主要流程

醫學數據類型豐富,包括電子病歷數據、公共衛生數據等。基于聚類的匿名化算法首先根據數據特點選擇合適的隱私模型,而后將原始數據集映射到特定度量空間中,再對空間中的數據進行聚類和泛化、抑制或擾動等匿名化處理以實現數據匿名化。本文歸納其主要流程,包括待處理數據屬性類別確定、隱私模型選擇、匿名化聚類算法選擇與實現,見圖1。

圖1 基于聚類的匿名化算法主要流程

2.2 數據屬性類別確定

數據屬性類型包括顯式標識符、準標識符、敏感屬性和非敏感屬性4類。顯式標識符指能直接確定個體身份的屬性,如姓名等;準標識符指在一定背景知識下,能夠通過該屬性或屬性組合確定個體身份的屬性,如年齡等;敏感屬性指需要保護、涉及個體隱私信息的屬性,如疾病等;非敏感屬性是不屬于以上3類的屬性。顯式標識符直接暴露個體身份,需要進行抑制處理;而準標識符和敏感屬性潛在暴露個體身份,是匿名化處理的重點對象。

2.3 隱私模型選擇

隱私模型是數據集匿名化處理的標準。其可分為傳統隱私模型和個性化隱私模型。后者在傳統隱私模型基礎上對敏感屬性值進行個性化保護,例如給予艾滋病患者相關數據更多保護。確定是否需要個性化保護后,還需要進一步綜合隱私保護需求(如嚴格或寬泛程度)和數據特點(如數據規模、離群值數量等)。通常隱私保護需求越高則需要選擇更嚴格的隱私模型。同時,數據集特點也約束著隱私模型的選擇,例如大規模電子病歷數據集,當數據量在總人口中占比較大時,需要使用考慮人口統計信息的隱私模型。

2.4 算法選擇與實現

基于聚類的匿名化算法是實現隱私模型的方法。基于聚類的匿名化算法選擇除了要考慮隱私模型的要求,還需要考慮算法的實現成本、數據集特點等。選取最佳匿名化算法才能夠獲得高質量匿名化數據集。不同算法之間的差別主要是聚類過程和匿名化處理。聚類過程指將數據集中相似元組聚集成簇的過程,該過程受距離度量方法影響,決定算法性能。匿名化處理指對每個聚類簇進行泛化、抑制或擾動從而使每個簇內的單個元組無法再與其他元組區別的過程。

3 隱私模型

3.1 傳統隱私模型

3.1.1 k-匿名模型 經典傳統隱私模型包括k-匿名模型、l-多樣性模型、t-近似性模型等,各模型要求及能抵御的攻擊,見表1。k-匿名模型是最早出現的隱私模型[12],也是實現其他隱私模型的基礎。該模型因為能夠簡單且有效降低重識別風險,至今仍被廣泛應用于醫療數據、中醫藥臨床數據等的隱私保護[13]。k-匿名模型能夠抵御鏈接攻擊,但存在同質性攻擊風險,例如在一個醫療數據集中,當一個等價類中多個患者患有相同疾病,攻擊者可以輕易確定滿足該類準標識符的個體患有該疾病。

表1 經典傳統隱私模型的要求及可抵御的攻擊風險

3.1.2 l-多樣性模型 為了抵御同質性攻擊,Machanavajjhala A等[14]提出l-多樣性模型進一步加強對數據集中敏感屬性的保護。該模型要求敏感屬性在同一個等價類中的值具有多樣性,具體可以細分為4類,見前文表1。與l-多樣性模型原理類似的隱私模型還有p-Sensitive k-匿名模型[16]和(α,k)-匿名模型[17]等。l-多樣性相關隱私模型能夠抵御鏈接攻擊和同質性攻擊,但仍存在相似性攻擊風險,例如在匿名數據集的某個等價類中,多個患者患有類似疾病,攻擊者便可以通過語義或敏感程度推斷出患者疾病。

3.1.3 t-近似性模型 Li N[15]提出t-近似性模型對等價類中敏感屬性值的分布提出限制,以抵御相似性攻擊。但該模型明顯降低了匿名化數據集質量,尤其是當數據集規模較小或者k-匿名模型的k值較小時數據質量下降嚴重,只能通過提高閾值t來提高輸出數據集質量。

3.2 個性化隱私模型

3.2.1 個性化隱私模型分類 個性化隱私模型在傳統隱私模型的基礎上對不同敏感屬性值賦予個性化權重,對高敏感性的敏感屬性值進行重點保護。個性化隱私模型可分為兩類。一類是僅根據保護需求將敏感值劃分不同的保護級別,如(p+,α)-敏感k-匿名模型[18]。該模型要求先將敏感屬性值依照敏感程度劃分不同級別,然后保證在一個等價類中至少包含p個不同類別的敏感屬性值,避免了同類敏感屬性值在單個等價類中的集中分布,能有效實現個性化隱私保護。另一類是通過構建敏感屬性泛化結構樹,用泛化值取代敏感值實現匿名保護,如個性化(p,k)匿名隱私保護模型[19]。該模型首先對不同敏感值進行評估,然后構建泛化結構樹,根據評估分值進行泛化。該方法能有效保護高敏感性的敏感屬性值,但也會造成部分敏感屬性值丟失,導致數據質量下降。

3.2.2 個性化隱私模型相關研究 近年來,隨著個性化數據共享場景增加,個性化隱私模型相關研究也逐漸增多。李文等[20]于2017年提出面向醫療數據共享的個性化l-多樣性匿名隱私保護模型,不僅要求匿名化數據滿足Entropy l-多樣性模型,而且還將敏感屬性值區分為強敏感屬性值和弱敏感屬性值,限制強敏感屬性值出現頻率,實現移動醫療系統用戶隱私數據保護。2022年冷建宇[21]針對醫療數據中疾病屬性具有雙重語義信息的特點,提出個性化的(w,k,d)-匿名模型。該模型不僅按照疾病嚴重程度進行分級,而且還利用疾病語義層次結構度量不同疾病之間的距離用于約束等價類,從而實現個性化保護。

4 基于聚類的匿名化算法

4.1 實現傳統隱私模型的匿名化算法

4.1.1 實現k-匿名模型算法 作為最基礎的模型,實現k-匿名模型的基于聚類的匿名化算法種類十分豐富,包括k-means 算法[22]、k-member算法[23]、平均矢量最大距離算法(maximum distance to average vector algorithm,MDAV)[24]、單程k-均值算法(one-pass k-means algorithm,OKA)[25]等。k-means算法[22]是實現k-匿名模型最簡單的算法,通過隨機選取聚類中心,多次迭代生成等價類后實現匿名化。k-member算法[23]和MDAV算法[24]原理相似,聚類過程都是逐個元組逐簇進行的,當聚類簇大小達到k以后,才開始進行下一個簇的聚類,因此算法性能較差,都具有O(n2)的時間復雜度。為了降低時間復雜度,Lin J L[25]提出OKA算法,通過一次同時隨機生成k個聚類中心,將聚類過程的時間復雜度降低到了O(n2/k)。

4.1.2 實現l-多樣性模型的算法 許多實現l-多樣性模型的算法都是在k-匿名模型算法基礎上進行改進的。例如鄭珂等[26]基于k-means 算法提出通過將敏感屬性轉化為多維向量,然后根據向量距離進行聚類的基于多敏感屬性k-means算法,能夠抵御鏈接攻擊和同質性攻擊;夏贊珠等[27]提出基于MDAV改進的(k,e)-MDAV聚類算法,設置敏感屬性取值差異參數e,要求在聚類過程中保證每個簇大小達到k且敏感屬性取值差異也達到e以上,實現抵御同質性攻擊的敏感屬性保護。Gui Q等[28]提出基于泛化數據的模糊C均值聚類(fuzzy C-means clustering with generalization data,FCMGD)算法,在該算法中,每個元組不是僅分配到單個聚類簇中,而是通過構建隸屬度矩陣允許元組對每個聚類都有一個隸屬度,然后根據隸屬度矩陣調整聚類結果實現l-多樣性模型。

4.1.3 實現t-近似性模型的算法 為了保證匿名化數據中等價類敏感屬性值分布能夠與整個數據集分布相同,通常需要首先將整個數據集根據相似敏感屬性進行劃分,然后再進行聚類。Cao J等[29]指出敏感屬性分類和重分配(sensitive attribute bucketization and redistribution,SABRE)算法框架,首先將原始數據根據敏感屬性值的相似性劃分為多個組,在構建等價類簇時納入從各組中等比例選取的元組,以保證生成的等價類敏感屬性值與整體敏感屬性值的分布趨同,從而實現t-近似性模型。Soria-Comas J等[30]提出可以通過先對敏感屬性排序再聚類或先聚類再檢查聚類簇是否滿足模型要求兩種方案實現t-近似性模型。Fang Y等[31]引入完全不相交投影(complete disjoint projections,CODIP)方法,用一個單值屬性替換每個多值敏感屬性,并根據其關聯將所有敏感屬性分割為一些不相交的子集,然后再分別處理每個子集以滿足敏感屬性的分布要求。Wang R等[32]在模糊C均值聚類算法基礎上,對不滿足t-近似性模型的聚類簇通過元組抽取再分配的方法實現多敏感屬性的t-近似性模型。

4.2 實現個性化隱私模型的匿名化算法

實現個性化隱私模型的基于聚類的匿名化算法為了保證敏感屬性在各級別的分布,通常需要將整個數據集元組的相似敏感屬性進行劃分后再進行聚類。如王平水[33]提出的個性化(l,c)-匿名算法,首先對各敏感屬性值的敏感度進行定義,根據敏感屬性值的敏感度降序排列構建哈希桶,然后從中選取元組進行聚類使信息損失最小,以保證敏感程度高的屬性值得到更高程度保護。對敏感屬性進行泛化的個性化匿名模型的聚類算法,如賈俊杰等[19]提出的個性化(p,k)-匿名隱私保護算法,只需要在普通聚類算法基礎上,根據對敏感屬性保護的需求,對高敏感性的敏感屬性值進行泛化,直至滿足使用者需求,便能實現個性化保護。近年來,還出現許多結合敏感屬性特點改進的算法。如黃玉蕾等[34]提出的基于多敏感值的個性化隱私保護算法、朱理奧[35]提出的個性化(w,l,k)-匿名模型等。

4.3 基于聚類的匿名化算法比較分析(表2)

表2 代表性基于聚類的匿名化算法特點

4.3.1 距離度量 距離度量方法不同會影響聚類效果,但許多聚類算法并未給出度量兩個元組之間距離的具體方法。通常距離度量與數據屬性分類有關。有研究[37]僅提及連續型數據、二元數據等的距離度量方式,未考慮多分類類型數據的距離度量。另有研究[23]提出一種構建分類型數據泛化樹的方法,通過比較最小共同父類度量兩個多分類類型數據值的距離,以更準確地表示兩個元組之間的距離。該方法可以作為改進手段應用于所有聚類算法中。

4.3.2 時間復雜度 從前文表2中可以看出,各算法的時間復雜度大小從Ο(kn)到Ο(en2)不等。時間復雜度高低與元組在聚類過程中的比較次數有關。時間復雜度低的算法由于元組之間比較次數較少,聚類效果較差,匿名化過程引起的信息損失較多。實現l-多樣性模型的算法時間復雜度達到Ο(n2),這與約束敏感屬性過程中聚類中心需要與所有元組都進行距離比較有關。

4.3.3 優點及不足 基于聚類的匿名化算法的優點及不足主要受到聚類過程影響,包括聚類中心的選擇、聚類簇納入元組的方式以及等價類的大小等。許多算法是基于原有算法進行改進產生的,例如V-MDAV算法在MDAV算法的基礎上允許每個等價類大小不固定,從而提高簇內元組相似性,減少泛化過程信息損失。

5 基于聚類的匿名化算法應用于醫學數據共享隱私保護的建議

5.1 合理選擇基于聚類的匿名化算法類型

在醫學數據需要共享時,首先需要對共享數據進行分析。如果該數據結構化程度較高,共享時對數據質量具有較高要求,且對匿名化處理時間成本要求較低,那么基于聚類的匿名化算法是比其他匿名化算法更優的選擇。選擇算法類型時,需要判斷不同敏感屬性值是否存在不同保護需求,并基于此選擇實現傳統或個性化的隱私模型算法。在醫學數據中往往存在許多需要進行特殊保護的敏感屬性值,應當選擇實現個性化隱私模型的算法。同時,對敏感屬性的保護需求程度也是選擇模型的重要依據。從l-多樣性模型到t-近似性模型等,對敏感屬性的分布要求越來越嚴格,生成的匿名化數據質量也越來越低,因此選擇模型算法時需要在加強隱私保護和保證數據質量之間進行權衡。最后,數據集的基本特點也是算法選擇的重要影響因素。例如數據集中離群值較多時,不應選擇受離群值影響較大的MDAV等算法;而數據規模較大或處理設備性能較差,需要在較短時間內獲得匿名化結果時,不應選擇FCMGD等時間復雜度較高的聚類算法。

5.2 靈活改進基于聚類的匿名化算法模型

由于真實世界的數據共享場景千變萬化,很難有完全滿足使用要求的基于聚類的匿名化算法可供直接使用。因此實際使用時,可以根據數據集特點等對算法進行改進,例如在醫學數據共享過程中,如果選擇實現l-多樣性模型的(k,e)-MDAV算法,但數據集中的離群值較多導致聚類效果不夠理想時,可以考慮參考加權k-member聚類算法進行改進,減少離群值影響。同時,醫學數據中通常存在許多缺失值,而大多數基于聚類的匿名化算法都沒有討論存在缺失值時的處理方法。此時則可以參考面向不完整醫療數據集的匿名化聚類算法對缺失值的處理方法[9],對所選擇算法進行改進。此外,在不同場景中衡量匿名化數據集效用的指標不同,可以針對具體方面的效用對算法進行調整改進。例如對面向機器學習用途的數據共享,需要保證匿名化數據的機器學習結果與原始數據的結果相似,可以在匿名化處理過程結合非均衡熵模型,使匿名化數據集具有較好的分類模型訓練能力[38]。最后,還可以融合多種算法的優點對所選擇的算法進行改進,例如個性化聚類算法與傳統聚類算法的融合等。

5.3 加大基于聚類的匿名化算法工具研發力度

目前基于聚類的匿名化算法主要是研究者利用Java、Python等編程語言根據算法原理編寫程序實現的,實現成本較高。雖然近年來涌現出sdcMicro工具包等集合多種基于聚類的匿名化算法工具,但這些工具支持的算法數量均較少且靈活性較差,基于聚類的匿名化算法工具的研發存在大量空白。基于聚類的匿名化算法工具研發一方面可以使一些常見的需要不斷重復使用匿名化算法的醫學數據共享場景,如基于科研目的的電子病歷數據共享等,能夠實現快速匿名化處理。這不但可以減少匿名化成本,而且可以提高數據共享積極性,有效保障共享數據隱私安全。另一方面有利于實現數據共享匿名化過程規范化,建立科學統一匿名化要求標準,保障匿名化結果具有相對穩定性,從而提高匿名化結果可靠性,為匿名化評估提供依據。

6 結語

近年來出現的各類傳統算法的改進算法模型和個性化隱私模型的匿名化算法在醫學領域被廣泛應用,研究者在使用這些算法時應尤其注意選擇最合適類型。此外,研究者和醫學數據共享者還應當關注數據本身特點和共享目標選擇匿名化處理方式,從而實現平衡數據的安全性和可用性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 伊人无码视屏| 丝袜高跟美脚国产1区| 亚洲区一区| 国产成人狂喷潮在线观看2345| 亚洲视频无码| 污污网站在线观看| 亚洲三级片在线看| 欧美第二区| 亚洲精品波多野结衣| 91亚洲视频下载| 午夜视频免费试看| 免费高清a毛片| 香蕉在线视频网站| 正在播放久久| 亚洲天堂视频网站| 精品视频一区二区观看| aaa国产一级毛片| 久久五月视频| 她的性爱视频| 国内精品自在欧美一区| 日韩成人免费网站| 免费在线观看av| 亚洲精品不卡午夜精品| 欧美精品导航| 99热这里只有精品在线观看| 国产成人综合在线视频| 啦啦啦网站在线观看a毛片| 国产精品真实对白精彩久久| 高清色本在线www| www.亚洲色图.com| 国产亚洲第一页| 亚洲欧美国产高清va在线播放| 91成人在线观看| 国产黄网永久免费| 亚洲国产日韩欧美在线| 极品国产一区二区三区| 国产精品私拍在线爆乳| 免费高清a毛片| 国产不卡国语在线| 伊人精品视频免费在线| 国产成人亚洲精品色欲AV| 欧类av怡春院| 亚洲中文字幕国产av| 国产一级在线播放| 四虎永久免费在线| 午夜毛片免费观看视频 | 狠狠色综合网| 91久久夜色精品国产网站| 玖玖免费视频在线观看| 欧美三级不卡在线观看视频| 亚洲综合九九| 福利在线免费视频| 午夜一区二区三区| AV天堂资源福利在线观看| 亚洲最大综合网| 国产99精品久久| 都市激情亚洲综合久久| 国产欧美又粗又猛又爽老| 伊人久久青草青青综合| 亚洲无码在线午夜电影| 欧美色丁香| 中文字幕有乳无码| 一级毛片在线播放| 国产激爽爽爽大片在线观看| 亚洲精品国产日韩无码AV永久免费网| 永久天堂网Av| 日韩精品无码免费专网站| 在线免费亚洲无码视频| 国产成人精品综合| 国产高清在线精品一区二区三区| 免费人成视网站在线不卡| 萌白酱国产一区二区| 一级毛片免费观看不卡视频| 真实国产乱子伦高清| 国产成人禁片在线观看| 国产在线八区| 国产白浆在线| 久久久受www免费人成| 欧美激情伊人| 日韩在线第三页| 亚洲av成人无码网站在线观看| 久久中文电影|