劉彩云++劉志鋒++戴百林
摘要:個人隱私保護日益成為隱私保護的電子數據格式。個人隱私保護也成為一種大數據現象的優勢和挑戰的展示。海量數據并結合智能數據挖掘算法的發展積累使得更多的數據被分析和鏈接。大數據分析意想不到的后果包括關于個人發現新的信息提高風險。有幾種保護個人隱私的方法。其中馬特溫數據集,隱私保護數據挖掘就是一個例子。在這篇文章中,我們討論的內容是感知的防數據泄漏。我們專注于保護個人健康信息(PHI),可以說是最脆弱類型的個人信息。本文討論了當我們想要把健康信息私有時所需的應用方法和所面臨挑戰。預防個人健康信息在網絡上和在在線社交網絡上泄漏作為我們的案例研究。
關鍵詞:隱私保護;個人信息;數據泄露;數據集;PHI
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)01-0043-02
1 簡介
個人隱私保護日益成為隱私保護的電子數據格式。個人隱私保護也成為一種大數據現象的優勢和挑戰的展示。結合智能數據挖掘算法開發的個人信息(財務,醫療保健,零售)海量數據的積累使得個人數據被分析和創新的鏈接,但總是積極的一方面。隨著越來越多不同來源的數據積累,大數據泄漏和無意的數據泄漏越來越普遍:2013年被爆出的2164事件的報告至今仍保持紀錄。這些事件也暴露出越來越多的個人記錄,目前為止有822萬。在2013年曝光的所有違反記錄中,發生在美國有48.5%,英國5.5%,加拿大2.7%,而其他國家僅占較小的數量。99%的所公開的數據是電子格式。更進一步說,我們只考慮電子格式的數據。
在本文中,我們將討論內容感知預防意外的數據泄漏。在此,我們用保護個人健康信息(PHI)作為我們的例子。PHI是指個體的個人信息組合(例如,出生日期)和一個人的大體健康狀況(例如診斷)的信息。PHI可以通過組織個人分布,表1提供的數據的例子。所有現有的PHI保護的方法是基于所述數據的內容的分析,因此它們提供一個完整的例子為我們的研究。此外,在本文中,為了解決DLP所面臨的用于保護數據和信息,數據泄漏防護(DLP)和PHI保護問題的挑戰,我們提供了更多細節方面的方法和技巧。
表1 PHI源和數據格式
2 數據安全原則和數據泄露
2.1 數據安全原則
在我們開始致力于內容感知DLP工具的討論之前,我們要知道,個人信息保護的基本良好做法應從系統利用標準的計算機安全技術開始。這些基本的注意事項同時適用于被惡意攻擊造成的數據隱私泄露,以及由于數據的無意泄漏造成的侵犯隱私(最常見的,人為的錯誤)。特別是下面這些原則,如果跨組織一貫增強,將是有目的的。
1)所有靜態數據加密義務教育。這將防止黑客攻擊收獲非活動數據(如如果數據被加密,2013年和2014年的國內倉庫的攻擊目標將可能顯著減少;如果從過去的交易數據進行加密存儲,即使竊取信用卡信息的電子商務網站再發生攻擊,也不會那么嚴重)。
2)承認授權人員跟蹤的私人數據訪問。這會在很大程度上,避免到組織內部故意侵犯隱私。該方法已被成功地用于全球中心的主要醫療環境中,以保護名人在意的與健康相關的數據。
3)教育。特別是,增敏人員能夠訪問在電子郵件中的有關的個人數據,USB記憶鑰匙,采取了外組織的筆記本電腦和物聯網設備的其他互聯網。
2.2 數據泄露
數據泄密以很多可能的方式發生。泄漏可能是由業內人士,第三方,或外人無意或惡意引起的??稍谶\動、休息、或者在使用中(例如,所處理的網絡的選擇的節點上,而不是在時刻遍歷它)引起泄露。在這項研究中,我們將討論防止無意的泄漏。不幸的是,該泄漏已經成為眾多業內人士和外部服務提供商口中隨著共享數據成為常態的事件。在2013年,超過500個主要數據泄漏是無意的。在這些無意泄漏的數據中有66.4%的原因已知。在這些原因已知的數據泄漏中,信息披露在網站而導致數據泄漏的占16.7%,通過電子郵件的占14.7%。
大型醫療數據泄露和無意地泄露越來越普遍,使得人們大幅度增加對數據泄露的擔憂。對于美國43個企業的調查表明,存在醫療保健數據泄露的一些明顯的后果。因數據泄露而導致普通客戶流失的占普遍3.6%,由于在金融服務方面數據泄露而導致客戶流失的占5.5%,醫療保健方面這是一個高得多的比例-6.5%。并且一次醫療保健要282美元,超過平均零售價格的兩倍之多,平均零售為131美元。該調查還顯示,44%數據泄露發生的外部原因是因為涉及第三方數據的傳輸。PHI從醫療服務提供者泄露,一般是從員工和醫學生發送的文件上泄漏。從充分的數據中刪除個人信息,也可能會引起PHI違規。因此當務之急是要有一個全球知識最佳協議和保護隱私的機密性的數據系統。
3 個人健康信息:定義和概念
個人健康信息(PHI)是一種常用的名詞,通常是通過一組相關的人的元類和他/她的健康狀況定義的。PHI可以以結構化,半結構化和非結構化的文本格式進行存儲和轉移。前者包括藥房和住院的記錄,后者分別是病人的電子醫療記錄中自由文本部分和信件的部分。醫療保健組織是PHI的主要持有者,其主要是在網絡和數據庫中對PHI進行保存。 因此PHI可以在網上的許多論壇和社交網絡上找到。
數據共享和輔助數據的使用有利于患者、醫療專家和各個領域的研究人員進行保健管理。與此同時,隱私法規定PHI在被共享之前要獲得個人的同意。但是獲得同意易導致種群選擇偏見。為了避免雙方PHI披露和同意申請的陷阱,數據可經過一個修改的過程,在這個過程中它去除,大概改造個人的身份信息,由此很難從數據中去確定一個人,這種過程被稱為匿名。
常用的數據挖掘匿名方法有以下幾組:
K-匿名。這種方法規定,在一個數據集中的每個記錄是相似的,至少另一個K-1的記錄上可能識別變量。
1)標識通常指從半結構化和非結構化的文本中檢索和提取PHI方面信息。
2)差動隱私確保添加或刪除一個數據集項目基本上不影響數據分析的結果。
該方法通過所產生的資料丟失和工作效率進行評估。這些方法的適用范圍差異很大。在表2中,我們舉例說明數據格式和數據大小所必需的每個方法。
4 內容感知型數據泄露防護
內容感知數據泄露預防技術是數據泄露防護最具挑戰性的部分。一些方法中,施加到結構化和非結構化數據,刪除明確標識。然而這樣的去除可能不足以去識別。大多數K-匿名算法可被用于結構化數據集,使用泛化和抑制。在精度或抽象屬性上推廣減少值,同時減少數據的效用。抑制取代一個有缺少值的屬性記錄的值(這被稱為細胞抑制),或在極端情況下從數據集中除去整個記錄。
一些技術建議,數據持有人可以通過第三方安全合作:醫療保健機構保持加密狀的所有敏感信息,直到第三方證明該數據披露滿足正式的數據保護模式。一般的DLP,可能需要不同的方法和工具對在休息和在使用中的數據實行運動安全防護裝置。對于運動中的數據,如果DLP部署再到監控電子郵件的phi警報可以在發送電子郵件前產生。對于在休息的數據,如果DLP監控在因特網上的PHI泄漏(例如,在對等體的對等文件共享網絡或onweb位點),那么警報涉及已經發生的泄漏,在該點處受影響的個人或數據托管人可以試圖遏制破壞和阻止進一步的泄漏。
5 網絡上PHI泄漏防御
由于數據的增加量和數據提供者的數量呈指數增長,網絡上數據泄露防御刻不容緩。PHI泄漏的識別可以通過結合自然語言處理(NLP),機器學習(ML)和軟件工程(SE)的努力來完成,因為它往往是與Web數據挖掘一起做,檢測結果必須盡快交付。因為效率是很重要的,尤其是在不確定健康信息是不是無害的情況下(如艾滋病,SARS,埃博拉)。我們必須盡快檢測出不可用敏感信息。為此,應該通過手工處理找到所有相關的文本,手動處理要求誤報是越少越好,以免隨著時間的推移人為控制變得松弛。為了檢測PHI泄露,系統必須處理大量未預定的信息。為了防止不利的后果,檢測應在盡可能短的時間間隔完成。這兩個要求,使得Web-PHI貼防滲漏的任務變成計算和方法論復雜度。
對于看似棘手的技術問題,我們建議集中在一個“聰明”的解決方案,而不是PHI文本的特點上。每個PHI文件都可以用大量的,但受限制的特性的數目識別。我們推測這種PHI文本檢測可以用來比較罕見的事件檢測。檢測過程可以基于尋找事件的區分特性,用于檢測網絡發布的PHI。
6 PHL泄漏在網絡社區的防御
在網絡上,最基本的PHI一般都是通過網上社區公開的。盡管PHI的敏感性質,但參與者并不都了解它在網上披露的風險。為了改善這種公共空間的安全,我們建議開發以證據為基礎的準則,幫助在線用戶避免在網上的帖子過多而導致PHI泄露。我們建議重點關注網絡隱私的方面是更直接的在用戶的控制上,即在用戶編寫文字的隱私保護上。例如,我們的指導方針將通知用戶有關可能存在潛在的披露個人身份信息(如姓名,年齡),地理個人指針(例如,家庭住址,工作地點)和健康信息(例如,診斷,醫療衛生單位的潛在危險)。為了實現這一目標,可以使用社會的開采技術。它包括以下步驟:(一)確定促進過度披露PHI的在線社區的特點;(二)確定問題的程度,通過調查網友認為過分透露PHI的比例;(三)確定過多透露PHI用戶的人口統計數據。
通過被告知什么是個人身份信息,用戶就會知道張貼出人的姓氏和地理指向的潛在危險。在接受了指導如何避免不慎泄露私人信息和個人身份信息后,用戶將不會危及他們的安全,并改善他們的磚坯安全。用戶也將被敏化可以張貼他人的
信息到什么樣的程度,從而,減少了無意違反保密的概率。
7 結語
本文總結了一些在大數據領域內的隱私保護現有的挑戰,當從許多不同的數據源匯總及反復盤問后,可以找到個人的個人信息。為了保護個人健康信息,我們已經討論了內容感知預防意外的數據泄漏和應用的優點。我們已經說明了成功實施泄漏預防方法依賴于幾個數據挖掘問題的解決方案。本文,我們提出了可根據積極主動的內容感知預防個人健康信息在網上社區的泄漏。到目前為止,早期的嘗試解決方案已經被開發出來了。如果為了避免有害的侵犯隱私權事故的發生,還有很多問題亟待解決,我相信只要我們共同努力,個人隱私保護一定不會是個難題。
參考文獻:
[1] 段偉文,紀長霖.網絡與大數據時代的隱私權[J].科學與社會,2014(2).
[2] 吳佳偉,劉國華,王梅.K-匿名隱私保護模型中不確定性數據的建模問題研究[J].計算機工程與科學. 2011(9).
[3] 錢萍,吳蒙.物聯網隱私保護研究與方法綜述[J].計算機應用研究,2013(1).
[4] 劉雅輝,張鐵贏,靳小龍,等.大數據時代的個人隱私保護[J].計算機研究與發展,2015(01)
[5] 童云海,陶有東,唐世渭,等.隱私保護數據發布中身份保持的匿名方法[J].軟件學報,2010(04) .
[6] 徐勇,秦小麟,楊一濤,等一種考慮屬性權重的隱私保護數據發布方法[J].計算機研究與發展,2012(5).