999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生物醫學數據匿名化工具ARX 研究及啟示

2022-11-18 05:40:14唐明坤張麗鑫周佳茵吳思竹
中華醫學圖書情報雜志 2022年2期
關鍵詞:模型

唐明坤,錢 慶,張麗鑫,周佳茵,吳思竹

隨著大數據和醫療信息化建設的發展,數據共享成為大數據利用和學術研究過程中的重要環節,數據安全問題也受到越來越多的關注。2017 年國務院發布的《“十三五”衛生與健康規劃》提到,我國要全面深化醫療大數據的應用,加強醫療數據保護和患者隱私保護,推動醫療信息化的建設[1]。隨后我國陸續出臺了《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》《網絡數據安全管理條例(征求意見稿)》等數據安全相關的法律或規定,反復強調了數據生命周期流程中數據安全和隱私保護的重要性。數據的共享和發布是數據生命周期中最容易出現隱私泄露的環節,然而單純地刪去數據集中的標識符并不能保證數據隱私安全。如美國馬薩諸塞州曾發布過刪除患者姓名和地址的醫療信息數據庫,僅保留性別、出生日期、診斷結果等信息,但攻擊者通過結合另一個具有性別、出生日期等信息的州選民登記表,鎖定了大部分選民的醫療健康信息,從而造成了嚴重的醫療信息泄露事故[2]。因此數據共享和發布不能只是簡單地刪除數據集中的標識符,還需要結合其他隱私保護技術對數據集進行處理。

目前常用的隱私保護技術主要包括數據匿名化發布技術、數據加密技術、隱私保護數據挖掘技術和數據訪問控制技術4 類[3]。其中,數據匿名化發布技術即統計披露控制相關技術,是最基本和核心的隱私保護技術,其核心思想是在數據共享或發布前對數據集進行處理,防止敏感信息泄露的同時確保數據能夠用于分析挖掘[4]。隨著數據匿名化發布技術的發展,陸續出現了k-Anonymity[2]、l-Diversity[5]、t-Closeness[6]等隱私模型。這些隱私模型的算法逐漸復雜,隨著數據量的增加,匿名化轉換的計算量也逐漸增大,因此需要集合到可靠、可拓展的工具中才能實現基于隱私模型的匿名化轉換的操作。近年來,國外多家機構和單位的研究人員在這些隱私模型的基礎上開發了多款開源數據匿名化工具,如ARX 匿名化工具、UTD匿名化工具箱、康奈爾匿名化工具包(CAT)、R統計軟件開源包sdcMicro 等[7]。對國外成熟的匿名化工具進行研究可以為開發適用于我國實際需求的數據匿名化工具提供很好的借鑒。因此,本文針對生物醫學領域的數據匿名化處理需求,重點研究了目前發展最成熟的生物醫學數據匿名化工具ARX 的組成結構和功能特點,為我國匿名化工具的研發和數據共享技術的發展提供參考。

1 ARX 工具概述

ARX 工具是由慕尼黑工業大學的Fabian Prasser團隊在2011 年開發的一款擁有易操作的用戶圖形界面的開源可拓展的數據匿名化工具。Fabian Prasser 團隊長期專注于數據匿名化研究,研究內容包括統計披露控制、隱私模型、匿名化數據效用評價等[8-12]。ARX 工具的設計特別關注了生物醫學領域數據匿名化的需求,但同時也適合其他領域數據的應用。2015 年發布的ARX 工具2.2.0 版本已經具備了豐富的隱私模型支持、匿名化數據效用評估及重識別風險評估等主要功能。2016 年,ARX 工具還成為了歐洲藥品管理局臨床數據發布政策的數據匿名化和風險評估推薦工具[13]。隨后,ARX 工具經過不斷的更新,又增加了基于統計模型的匿名化方法[14]、基于博弈論的隱私模型[15]、差分隱私模型[16]等功能。由于出色的效用評估功能、重識別風險評估功能及能處理數百萬條記錄并支持豐富的隱私模型的特點,ARX 工具被廣泛應用于各領域的數據匿名化研究,包括開放政府數據的匿名化技術應用[17]、實現醫療信息數據庫匿名化策略方案[18]等。有學者在進行醫療領域數據匿名化現狀研究時發現,與其他工具相比,ARX 工具的功能更豐富全面,支持的隱私模型數量也遙遙領先[19]。目前,ARX 工具還在持續更新中,隱私模型和相關功能也在進一步豐富。

2 ARX 工具的整體架構和工作流程

2.1 ARX 工具的整體架構

本文使用2021 年1 月10 日發布的ARX 3.9.0 Windows 64-Bit 版本(https://arx.deidentifier.org/downloads/)。ARX 工具具有友好的圖形用戶界面,操作界面與各功能模塊緊密連接。本文通過對各個功能模塊的分析,總結了ARX 工具整體架構圖(圖1)。從功能上進行歸納,ARX 工具的整體架構可以分為數據導入導出模塊、數據處理模塊、隱私模型及其他參數模塊、匿名化方案探索模塊、效用分析及風險分析模塊。其中,隱私模型及其他參數模塊、效用分析及風險分析模塊具有很高的可拓展性,在歷次版本更新中,這些模塊功能得到不斷強化。

圖1 ARX 工具的整體架構

2.1.1 數據導入導出模塊

ARX 工具主要支持結構化數據的匿名化處理,其數據導入導出模塊目前支持CSV、XLS、XLSX、JDBC 等多種格式的數據的導入,但經過匿名化處理后的數據僅可以保存輸出為CSV 格式。

2.1.2 數據處理模塊

導入ARX 工具的數據需要在數據處理模塊進行數據類型設置、數據屬性設置及數據轉換,這是獲得匿名化方案的前提。數據類型設置根據每列數據的格式特點決定。數據屬性設置則需要研究者根據每個屬性與個體身份的關系進行設置。數據屬性共分為標識符、準標識符、敏感屬性和不敏感屬性4 類。標識符是指能直接確定個體身份的屬性,如姓名、身份證號等;準標識符是指在一定的背景知識下,能夠通過該屬性或屬性組合確定個體身份的屬性,如年齡、性別、身高等;敏感屬性是指想保護的、涉及個體隱私信息的屬性,如疾病、家族史等;不敏感屬性是與隱私無關的屬性。標識符和準標識符是匿名化處理過程中的重點關注對象,也是數據轉換的處理對象。標識符直接暴露了個體身份,需要進行完全的信息刪除即抑制處理。準標識符間接暴露了個體身份,需要進行泛化、集群等轉換,將暴露的風險降低到符合隱私保護要求的水平。泛化是數據轉換最常用的方式,是指創建多個范圍更廣的層級的數據值來替代原數據值,如用區間值[18,28]替代年齡值18。匿名化處理的過程需要通過算法實現,泛化可以根據不同的算法處理進一步分為全域泛化和局域泛化,前者是指在一個準標識符中所有值采取同一泛化層級,后者則是允許一個準標識符中存在不同泛化層級的值。

2.1.3 隱私模型及其他參數模塊

泛化層級的創建是隱私模型實現的基礎。在ARX 工具中,匿名化處理的過程是通過篩選出準標識符泛化層級組合方案中所有滿足隱私模型和相關參數要求的方案,并形成一個隱私保護效果最佳的推薦方案的過程。根據隱私模型對生成數據的要求,可以將其分為面向準標識符的隱私模型、面向敏感屬性的隱私模型及超人群模型等。多種隱私模型和相關參數可以組合使用,但是隱私模型越嚴格,準標識符的值會被泛化到更高的層級,雖然隱私信息能夠得到更好保護,卻會降低數據質量,影響數據分析質量。因此,需要結合數據處理和使用需求選擇合適的隱私模型和相關參數,以獲得最佳的結果。

2.1.4 匿名化方案探索模塊

ARX 工具形成隱私保護效果最佳的推薦方案的過程是通過Flash 檢索算法實現的。當該方案不能滿足需要時,可在匿名化方案探索模塊提供的泛化層級組合方案集合中探索新的匿名化方案。在該模塊中,ARX 工具提供的哈斯圖和隱私保護分數列表分別展示了所有滿足隱私模型和相關參數的匿名化方案。研究者可以通過泛化層級過濾,保留自己所需要的重要信息。假如年齡是研究所需要的重要屬性,在探索模塊中指定年齡的泛化層級為0,那么最終篩選出的泛化方案均為保留原始年齡數據的方案,保證了重要屬性信息的留存。

2.1.5 效用分析及風險分析模塊

效用分析及風險分析模塊提供了多個維度的指標衡量輸出數據的數據質量和重識別風險。ARX工具關注的重點是輸入數據和輸出數據之間的質量變化,提供輸入和輸出數據的差異分析對比和展示。效用分析包含質量模型評價指標、統計分析和分類性能分析3 個部分,分析內容圍繞著匿名化處理前后數據的分布、屬性相關關系、數據規模、數據包含信息的缺失等變化評價數據的質量;風險分析模塊則主要包含風險直方分布圖、準標識符探索和攻擊者模型3 個部分,分析內容圍繞匿名化處理后的數據的重識別風險,即攻擊者基于背景知識從共享發布的數據中確定個體身份的危險。

2.2 ARX 工具的工作流程

ARX 工具進行數據匿名化流程設計時考慮較為全面,包括數據輸入、數據處理(屬性設置、泛化層級創建、模型和參數的選擇)、匿名化方案探索及效用和重識別風險評價等步驟,考慮了數據處理的評估和反饋。圖2 展示的是ARX 工具從導入數據到生成并輸出匿名化數據的工作流程,具體分為5 個步驟。同時,本文以UCI Machine Learning Repository 中的Adult 數據集進行k=5 的k-anonymity匿名化處理為例,對各個步驟進行介紹。

圖2 ARX 工具進行數據匿名化處理的工作流程

2.2.1 數據輸入

數據輸入是匿名化處理的第一個步驟。在ARX 工具中,需要先創建一個項目,然后再把結構化的Adult 數據集導入,如圖3 左半部分所示,數據集以表格的形式在工具中展現。

圖3 ARX 的工作界面

2.2.2 數據處理

輸入的Adult 數據集需要進行屬性的設置、泛化層次的創建及模型和參數的選擇。屬性設置需要研究者根據領域知識將所有屬性中的標識符、準標識符、敏感屬性標記出來,如本文將id 設為標識符,將年齡、性別、種族等屬性設為準標識符,將教育年限、收入作為敏感屬性。然后,準標識符需要創建相應的泛化層級來保證隱私模型的實現。ARX 工具提供了4 種系統定義的泛化方法用于快速創建泛化層級方案,包括時間泛化、區間泛化、順序泛化及遮蓋泛化。對諸如年齡等數值類型的準標識符采用區間泛化的方法,以5 為間隔區間范圍創建泛化層級方案;對諸如種族等標量類型的準標識符首先考慮語義關系創建泛化層級方案并導入使用,當準標識符沒有語義層級概念時,考察數據的特點使用順序泛化或遮蓋泛化創建泛化層級方案。在隱私模型選擇方面,本文選擇k-anonymity 模型,k 值設置為5;兩個敏感屬性均選擇參數為2 的?-diversity 模型。在相關參數設置方面,最大抑制率設置為推薦的100%,其他相關參數使用默認值。經過上述處理后,選擇實現隱私模型的默認最優算法檢索策略,ARX 工具就會自動計算出所有符合隱私模型要求的泛化層級的組合方案,并生成一個最優推薦方案。圖4 為ARX 工具匿名化解決方案空間,每一個節點代表一種準標識符泛化層級組合,黃色方形的節點為最優推薦方案,節點中的數字代表準標識符的泛化層級。

圖4 ARX 工具匿名化解決方案空間

2.2.3 匿名化方案探索

ARX 工具生成的最優推薦方案是滿足隱私模型和相關參數標準下的最佳方案,但該方案不一定能滿足實際情況中對某準標識符泛化層級及數據效用指標的要求。如果選擇保留年齡準標識符的最大信息,在匿名化解決方案空間中把年齡的泛化層級限制為0,可以在維持年齡不泛化的基礎上調整最佳匿名化方案。

2.2.4 效用和重識別風險評價

生物醫學領域對數據質量具有較高的要求,因此需要對匿名化方案進行效用和重識別風險評價以確保輸出數據的質量。在該步驟中,ARX 工具會自動給出匿名化方案的數據值缺失率、粒度及非均衡熵等衡量數據質量的指標和風險直方分布圖、檢察官模型風險等重識別風險評價內容。當該方案滿足數據效用和重識別風險的要求時,則可確定為匿名化最優方案并輸出,否則需要進行新方案的探索。

2.2.5 數據輸出

當匿名化方案滿足效用和重識別風險后,通過數據效用評價模塊對輸出數據進行預覽,確認無誤后以結構化的CSV 格式輸出數據。

3 ARX 工具的功能特點及局限性

3.1 ARX 工具的功能特點

ARX 工具功能豐富全面,支持匿名化處理的全流程。與UTD 匿名化工具箱、sdcMicro、CAT等其他數據匿名化工具相比,ARX 具有采用高效的全域匿名化算法、支持豐富的隱私模型、較為全面的數據效用評價指標、較為豐富的風險分析功能等4 個功能特點。ARX 工具的歷次更新也多是在圍繞增加更多的隱私模型和效用評價指標方面進行的。ARX 工具與其他匿名化工具具體的功能特點比較如表1 所示。

表1 ARX 工具與其他匿名化工具的功能特點比較

3.1.1 高效的全域匿名化算法

ARX 工具支持全域匿名化處理和局域匿名化處理。在全域匿名化處理中,支持多種高效穩定的Flash 算法及變體是ARX 工具的一個重要特點。UTD 匿名化工具箱支持Datafly、Incognito 等算法實現k-anonymity 等匿名化處理,CAT 支持Incognito算法[20]實現匿名化處理,而sdcMicro 則提供多種自底向上和自頂向下的全域匿名化算法和10 余種局域匿名化算法[21]。與這些算法相比,Flash 算法使用預測標記的方法,采用垂直遍歷匿名化解決方案空間的策略,剪枝能力和執行時間要優于Incognito 等其他算法,算法穩定性較強,能夠實現數據集的快速全域匿名化處理。目前,ARX 工具還加入了對遺傳算法的支持,顯著提高了對高維數據的處理能力。

3.1.2 豐富的隱私模型

相比于UTD 匿名化工具箱、sdcMicro、CAT等其他匿名化工具僅支持2~3 種隱私模型,ARX工具支持的隱私模型高達10 余種,是目前支持隱私模型數量最多的數據匿名化工具。表2 是對各隱私模型相關研究的總結。根據隱私模型計算原理的不同,面向對象主要包括準標識符和敏感屬性。k-anonymity、k-map 等隱私模型面向對象為準標識符,是較為常用的隱私模型,這些模型主要通過泛化和抑制等手段增加準標識符中等價類(即準標識符值相同的記錄)的數目,減少唯一記錄,從而降低重識別風險;?-diversity、t-closeness 等隱私模型主要面向敏感屬性,因為盡管等價類數目增多保證了唯一記錄的減少,但如果同一等價類記錄對應的敏感屬性值都相同時會導致一致性攻擊,容易使個體的敏感屬性信息被發現。因此,還需要保證敏感屬性的分布具有多樣性,從不同算法的層面上要求相同等價類記錄的敏感屬性下至少要存在一定閾值數量不同的值。此外,k-map、δ-presence 等隱私模型考慮到了種群唯一性的再識別風險,使用時還需要獲得人群信息作為參數,而ARX 工具也內置了美國等國家的人口數量供參考;Profitability 模型基于博弈論進行成本效益分析,可以更明確地解釋數據發布者和接收者的動機,但需要獲取攻擊者成本和收益等參數;Average-reidentification-risk 模型則通過設置重識別風險閾值,獲得滿足重識別風險要求的匿名化方案。

表2 ARX 工具支持的主要隱私模型及其原理

3.1.3 數據效用評估

從生物醫學研究需求的不同角度衡量匿名化數據的質量,會獲得不同的結果。為此,ARX 工具提供了一系列的質量評估指標和數據質量模型對匿名化數據進行效用評估,供使用者從多個角度評估匿名化處理導致的信息丟失情況。在ARX 工具中,質量評估指標分為屬性級別的質量評估指標和數據集級別的質量評估指標。前者包含缺失率、泛化強度、粒度、非均衡熵和平方誤差等指標,后者包含泛化強度、粒度、非均衡熵、平方誤差和平均等價類大小等指標。ARX 工具提供的部分質量評估指標的具體含義如表3 所示。

表3 ARX 工具提供的部分質量評估指標

數據質量模型用于優化匿名化處理的目標函數,不同的數據質量模型側重考慮不同的評價指標,如粒度、泛化強度等,從而影響最終生成的匿名化數據。如在參數配置階段選擇了側重匿名化數據平均等價類大小的模型(AECS 模型)時,最終生成的匿名化數據是具有平均等價類大小更優的匿名化方案。質量評估指標眾多,ARX 工具中也內置了豐富的數據質量模型可供選擇,包括Loss模型、AECS 模型、Precision 模型、Discernibility模型和Non-Uniform Entropy 模型等。

ARX 工具還提供了邏輯回歸、隨機森林和樸素貝葉斯等算法對輸入數據和輸出數據的分類性能進行比較。研究結果顯示,選擇了Discernibility模型、Precision 模型和Non-Uniform Entropy 模型的輸出數據具有較好的分類模型訓練能力,測量結果的相對準確度為94%~99%,因此具有無監督學習研究需求的數據應優先選擇這幾類數據質量模型進行匿名化處理[22]。

3.1.4 風險分析功能

風險分析主要是指對輸出數據的重識別風險的評估、ARX 工具中提供了攻擊風險模型分析、風險分布直方圖和發現準標記符等功能。

3.1.4.1 攻擊風險模型分析

攻擊風險模型分析包括對檢察官風險模型、記者風險模型和營銷攻擊者風險模型3 種模型風險的分析。檢察官風險和記者風險是數據集隱私風險兩個基礎的重識別風險度量方法,都是衡量攻擊者從數據集中鎖定目標個體的數據的風險。二者的區別在于對手能否知道某個特定的個體是否在數據集中。如果攻擊者能知道目標是否在數據集內,則是所謂的“檢察官風險”;如果攻擊者不知道或不能知道目標是否在數據集中,則被稱為“記者風險”。由于不能事先確定攻擊者掌握的背景知識,因此無法得出一個固定的檢察官風險值或記者風險值。使用者可以在ARX 工具中設置風險閾值,工具將自動計算超過閾值風險的記錄比例、平均能被重識別的記錄比例和單個記錄最高重識別風險。營銷攻擊者風險模型則是以重新識別數據集中的大部分個體為目標,而不是特定個體為目標來計算重識別風險。

3.1.4.2 風險分布直方圖

風險分布直方圖是數據集記錄中重識別風險分布的直方圖,它是以檢察官重識別風險作為橫坐標,受影響記錄百分比為縱坐標,可以直觀地看到有多少數量的記錄的檢察官風險小于某一個值。通過對比輸入輸出數據的風險分布直方圖可以發現檢察官重識別風險與受影響記錄的變化。ARX 工具可以直觀地對比輸入輸出數據風險直方分布圖的變化。一般而言,經過了匿名化處理的數據集的最大重識別風險和平均重識別風險都將明顯下降。

3.1.4.3 發現準標記符功能

發現準標記符功能是指通過分析單個屬性或多個屬性組合的重識別風險,發現其中的準標識符。ARX 工具提供了所有的屬性組合(包括不敏感屬性)的重新識別相關風險的值。當這些值較高甚至達到100%時,則需要考慮相應屬性組合中是否存在未發現的準標識符。

3.2 應用局限

ARX 工具是面向結構化數據集設計的開源匿名化工具,研究者可以脫機使用,能保障處理過程中的數據安全。該工具應用功能豐富全面,適用于高維大規模的結構化數據集。但該工具在真實世界生物醫學數據匿名化的應用中,還存在以下3 個問題。一是真實世界生物醫學數據集中存在許多非結構化數據,但ARX 工具僅適用于結構化數據集的匿名化;二是當數據集存在的缺失值較多時,需要對數據集進行預處理,因為ARX 工具的匿名化處理過程缺乏對缺失值的考慮,當缺失值較多時會導致過度泛化而造成較多的信息損失;三是不太適合小規模數據集匿名化處理的應用,因為小規模的數據集處理成本較低,往往采用局域匿名化的方法保留更細顆粒度的信息,而該工具提供的局域匿名化算法較少,它使用的Flash 算法的匿名化處理能力雖然高效穩定,但在保留數據信息的能力方面不如局域匿名化算法。

4 對我國數據匿名化工具研發的啟示

目前,我國生物醫學領域有大量的數據匿名化需求,但卻缺乏可靠的開源數據匿名化工具。ARX工具作為一款在國際上被廣泛應用的開源數據匿名化工具,具有高效的全域匿名化算法、豐富的隱私模型、數據效用分析和風險分析功能,為我國數據匿名化工具的研發提供了很好的啟示。

4.1 完善匿名化處理流程,加強數據效用和風險評價

生物醫學數據匿名化工具的研發比較重視數據匿名化處理算法模型研究,而容易忽視數據處理結果的可用性和風險評估。首先,過度的匿名化處理會導致過多的信息丟失,在開展臨床科學研究時,容易引起假陰性研究結果的出現。其次,數據匿名化處理后,由于處理粒度不足,或通過與其他數據關聯,也存在個人信息被重識別的風險。ARX工具較好地考慮了數據匿名化處理的全鏈條,不僅提供了眾多可選擇的隱私模型,而且在效用評估和風險評價方面提供了較為豐富的評價指標和參數。因此,我國生物醫學數據匿名化工具研發時可以借鑒它,完善數據匿名化處理全流程,完善效用評估和風險評價功能。結合不同生物醫學數據的實際應用場景(如科學研究、臨床應用、跨域共享等),建立完善多維度數據效用評價和風險評價指標及技術方法,形成對匿名化處理方法和工具處理有效性的評估和及時反饋閉環,探索實現隱私保護和數據利用的相對平衡,提高工具匿名化處理的效果和能力。

4.2 結合敏感數據特征,支持多類型可擴展隱私模型

中文生物醫學數據來源廣泛,包括基礎調查、臨床、實驗室等多種來源,具有數據量大、關聯性強、類型多樣(如數值、時間/日期、字符等)等特點。不同來源和不同數據類型的匿名化處理需要使用合適的隱私模型和相關參數才能取得理想的匿名化處理結果。ARX 工具支持k-anonymity、?-diversity、t-closeness 等10 余種隱私模型和多種隱私參數設置,雖然有一部分的改進模型并未得到支持,但目前已經能夠滿足大多數研究的數據匿名化處理需求。在我國數據匿名化工具的研發過程中,應不斷研究和豐富工具所能支持的隱私模型,包括面向準標識符的隱私模型、面向敏感屬性的隱私模型和考慮人群唯一性的隱私模型等。同時還要保證工具的可拓展性,使工具可以隨著隱私模型的研究改進不斷進行更新迭代,從而滿足更廣泛的研究需求,并得到更優的匿名化處理結果,從而提高研究效率。此外,ARX 工具實現隱私模型的算法主要集中在全域匿名化算法方面,提供的局域匿名化算法較少,減少泛化造成的信息損失的能力較弱。因此,在研發我國數據匿名化工具時,還需要拓展對局域匿名化算法的支持,使匿名化工具的應用場景更加豐富和全面。

4.3 利用自然語言技術,加強非結構化數據處理能力

ARX 工具主要是針對結構化數據的匿名化處理,雖然對結構化數據提供了豐富的匿名化處理功能,但是缺乏對文本等非結構化數據的處理功能。而生物醫學領域中存在大量的非結構化數據,需要對散落在非結構化文本中的敏感信息進行識別和處理,如電子病歷數據中的現病史、既往史、主訴等部分的非結構化文本描述。特別是中文數據中的專業術語、分詞和表達與英文數據存在較大差異,需要予以關注。敏感數據類型和特征識別也要結合國內外發布的相關法律、法規和政策中對敏感數據或信息的范圍和類型的要求進行及時更新和補充。因此,在研發我國生物醫學數據匿名化工具時,還需要結合自然語言處理、深度學習、圖像識別等技術,自動和半自動提取和識別電子病歷數據現病史中的準標識符和敏感屬性,并提供數據審查,支持泛化等匿名化處理功能進行數據處理,從而實現敏感信息的保護。

4.4 實現人性化功能設計,提高工具易用性和可理解性

ARX 工具豐富的隱私模型和可自定義的參數設置,能夠滿足面向多種需求的數據處理需要,但同時,這種靈活性需要研究者了解隱私模型和掌握一定的數據匿名處理相關專業知識,對研究者使用該工具有一定門檻。而要達到較好的數據處理效果,也的確需要結合數據集特點和匿名化轉換目的調整和優化數據匿名化處理方案,才能獲得較好的數據匿名化處理結果。因此,在研發我國生物醫學數據匿名化工具時,需要著重考慮用戶的應用場景,提供快捷、易用的應用入口,加強工具使用的指導性和引導性。另外,還需要增強工具的人性化設計,結合用戶使用習慣設計工具功能和流程,采用用戶可理解的方式描述并進行提示和說明,提供一鍵式自動化和分步檢查等不同運行方式滿足用戶需求。

此外,ARX 工具數據處理規模較大,適用范圍較廣,這也是許多研究者選擇使用ARX 工具進行數據匿名化處理的原因。隨著生物醫學研究數據規模的不斷增長,對數據匿名化工具的數據處理能力要求也在不斷增加,因此在工具研發時還需要在此基礎上繼續拓展,達到更大規模的數據處理能力,保障工具的實用性。

5 結語

我國的數據匿名化工具的研發還處于探索階段。本文剖析了具有代表性的匿名化工具ARX 的功能架構,以Adult 數據集的匿名化處理為例介紹了ARX 工具的應用流程。通過與其他匿名化工具的比較,本文歸納了ARX 工具的功能特點和不足之處,總結了隱私模型的原理、匿名化數據評價指標和重識別風險評估的內涵,并在此基礎上提出了我國數據匿名化工具研發時需要重點關注的內容。但因為篇幅的限制,本文也存在一定的不足,如未深入分析ARX 工具各隱私模型和功能指標的具體適用場景,對我國數據匿名化工具的研發僅提供了方向上的指導等。后續的研究中,可以增加場景化的研究,為數據匿名化工具的研發提供更全面、更具體的指導。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 激情视频综合网| 欧美色综合网站| 国产高清自拍视频| 欧美日韩高清| a欧美在线| 囯产av无码片毛片一级| 99热国产在线精品99| 国产亚洲欧美在线中文bt天堂| av一区二区三区在线观看 | 91精品在线视频观看| 国产成人综合日韩精品无码不卡| 亚洲人成影视在线观看| 免费一级毛片不卡在线播放| 国产一区免费在线观看| 久久久久人妻一区精品色奶水| 国产毛片久久国产| 一级看片免费视频| 国产乱人伦AV在线A| 精品91在线| 国产AV无码专区亚洲A∨毛片| 亚洲二三区| 97国产在线视频| 国产又爽又黄无遮挡免费观看 | 国产网站免费观看| 中文纯内无码H| 日韩欧美色综合| 国产一级二级在线观看| 国产精品区视频中文字幕| 99精品免费欧美成人小视频| 国产精品成人一区二区不卡 | 国产高清免费午夜在线视频| 亚洲天堂网站在线| 欧美亚洲国产精品第一页| 欧美日韩成人在线观看| 国产精品成人一区二区| 日韩专区第一页| 老司机精品99在线播放| 欧美在线伊人| 国产麻豆91网在线看| 国产精品一老牛影视频| 午夜日b视频| 91无码视频在线观看| 中文字幕在线看视频一区二区三区| AV色爱天堂网| 国产精品吹潮在线观看中文| 成人噜噜噜视频在线观看| 99久久精品免费看国产电影| 四虎精品黑人视频| 国产精品任我爽爆在线播放6080 | 中字无码精油按摩中出视频| 亚洲综合日韩精品| 91精品免费高清在线| 色欲不卡无码一区二区| 国产综合网站| 蜜臀AV在线播放| 9久久伊人精品综合| 熟妇无码人妻| 日韩精品免费在线视频| 四虎永久在线精品影院| 丁香六月综合网| 国产人人射| 亚洲国产一区在线观看| 成人夜夜嗨| 国产精品久久精品| 精品伊人久久久久7777人| 国产在线一区二区视频| 亚洲免费人成影院| 操美女免费网站| 在线观看免费国产| 97se亚洲| 亚洲国产成人麻豆精品| 成人国产一区二区三区| 国产成人啪视频一区二区三区| 91亚洲国产视频| jizz在线观看| 99re在线免费视频| 露脸一二三区国语对白| 97国产精品视频自在拍| av大片在线无码免费| 久久成人18免费| 99精品国产自在现线观看| 亚洲国产午夜精华无码福利|