999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校數據隱私保護技術

2016-06-06 06:07:33王玉平吳慧韞
中國教育網絡 2016年4期
關鍵詞:用戶分析信息

文/王玉平 吳慧韞

?

高校數據隱私保護技術

文/王玉平吳慧韞

隨著高校信息化的發展,以及大數據、物聯網和云計算技術的發展,越來越多高校或主動或被動地進入了大數據時代。從校園一卡通、網絡訪問行為到教學、科研等各類業務系統,都產生積聚了大量數據,而這些數據的價值毋庸置疑,對于學校來說是很寶貴的,而且里面有大量的用戶隱私信息,一但泄露,用戶的隱私將被侵犯。在實際使用中,一部分數據用于校內信息化部門或各系統自主分析,或者共享給校內科研團隊進行科研分析,或者共享給外部技術公司來進行分析。而這些不可避免地涉及到用戶的隱私問題。尤其是常見的姓名、工號、郵箱地址、身份證號等與人員標示相關的數據。

20世紀最著名的用戶隱私泄露事件發生在美國馬薩諸塞州。為了推動公共醫學研究,該州保險委員會發布政府雇員的醫療數據,并且對數據進行了初步的匿名化處理,刪除了所有的敏感信息。然而,來自麻省理工大學的Sweeney還是根據另外一份公開的投票人名單,進行數據匹配,成功破解了這份醫療數據,確定了具體某一個人的醫療記錄。2006年,美國在線公司(AOL)公布了超過65萬用戶三個月內的搜索記錄,以推動搜索技術的研究。AOL用一個隨機數代替用戶的賬號進行匿名化處理,但《紐約時報》成功將部分數據去匿名化,并公開了其中一位用戶的真實身份。美國網飛公司(Netflix)曾舉辦了一個推薦系統算法競賽,發布了一些“經過匿名化處理的”用戶影評數據供參賽者測試,僅僅保留了每個用戶對電影的評分和評分的時間戳。然而,來自德州大學奧斯汀分校的兩位研究人員借助公開的互聯網電影數據庫(IMDB)的用戶影評數據,獲得了IMDB用戶。為此,2009年Netflix遭到了4位用戶的起訴,也不得不取消了該競賽。

此外,政府主導的公共數據的開放,也面臨著和醫療數據同樣的隱私保護問題。以上各方面都促進了數據隱私保護技術的發展。

圖1 數據匿名化處理

數據匿名化的技術

通過數據匿名化,機密數據的關鍵部分將被模糊化,從而保護了數據隱私。但是該部分數據仍然可以被處理分析以獲得一些有用信息。也就是說,數據匿名化不能影響數據的可分析部分的結果,否則數據匿名化就失去了它的價值。

譬如上海海事大學員工的乘車數據,校內一位老師提出申請,希望獲得班車數據進行分析,對學校的管理提出改進建議。若不進行匿名化,則該老師獲取了非授權內的信息,而且也是其他老師不愿意被共享的信息,其次,姓名等信息與該老師的預期分析結果無關,所以可以對班車數據進行數據匿名化處理。如圖1所示。

圖1展示了使用數據匿名化保護數據隱私的一個簡單示例,除了簡單替換學工號,還可以通過添加一些虛構數據,從而避免被獲取內部師生的真實數量信息。若對方形成了有效的分析方法,我們可以將該方法應用于我們內部的真實數據,從而得到真實的結果為管理層決策提供數據分析支撐。然而實際案例不是如此簡單,如果僅僅替換學工號,如同AOL的案例一樣,安全研究人員還可以通過分析其他數據,進行關聯性分析,推斷出代號對應的實際學工號。

目前數據隱私保護的方法可以分成以下幾類:

1.擾動(Suppression)和泛化(Generalization)的方法。擾動是對原數據中正確的數值做一些變換,比如加上一個隨機量,而且當擾動做完后,要保證分析擾動數據的結果和原數據的結果一致。泛化是指從一個合適的范圍內將原值替換為一個新值,例如將日期隨機替換為一年內的某一天。許多未經過處理的數據都包括用戶的姓名、身份證號等身份信息,這些屬性在公開前可以直接刪除或者替換為某個值,也可以看作泛化的一種形式。

2.k-匿名化(k-anonymity)和l-多樣性(l-diversity)的方法。

6.講究讀書方法。讀書“最好使學生自學”。讀書不只是學生課堂上被動聽老師“灌”,須有預習與復習兩個自學環節。“功課應該自己先去溫習,或說是預備,將未曾教過的書,自己先去研究一下,后來先生教起來,容易明了。”[2]卷5,61對于老師教過的知識,要做到“課后再去復習一次,那就不容易忘卻了”。聯系到英語學習,遇一字多解不能判定時,經過“一番自修”,就會有自己的思考和判斷。其他如礦物、植物、物理、化學等科,非機械地記牢不可。概言之,也就是蔡元培為發揮學生的主體作用,所提倡的自動、自學、自助、自研“四自”讀書方法。

數據集上的個體識別字段有可能需要一個或多個字段構成,這些屬性的集合稱為準標識符(Quasi-Identifier, QI)。通過準標識符可以充分識別唯一一個個體,例如姓名和學工號。k匿名化通過擾動和泛化的方法使得每一個準標識符都至少對應k個實例,這樣就不能惟一識別,從而保護了用戶的隱私。k-匿名由Samarati和Sweeney(也就是前文提及的馬塞諸塞州用戶泄露案例的攻擊者)提出,可以保證任意一條記錄與另外的k-1條記錄不可區分。

3.分布式(Distribution)隱私保護。大型的數據集可以在被分割后發布。劃分可以“縱向”地進行,例如將數據分成不同的子集分別在不同的地方公開;也可以“橫向”地進行,例如按照屬性劃分成不同的數據集再公開,或者兩者結合起來。例如班車數據,可以根據不同的需要只提供代號和刷卡時間,不提供地點;或者只提供某年某月的班車數據。

4.降低數據挖掘結果的效果。在很多情況下,即便數據無法被獲取,數據挖掘的結果(比如關聯規則或者分類模型)仍然有可能泄露隱私。為此可以隱藏某些關聯規則或輕微改變分類模型來保護隱私。

5.差分隱私(Differential Privacy)保護的方法。它是Microsoft研究人員在2006年提出的,基本思路是通過添加噪聲的方法,確保刪除或者添加一個數據集中的記錄并不會影響分析的結果;差分隱私保護定義了一個極為嚴格的攻擊模型,并對隱私泄露風險給出了嚴謹、定量化的表示和證明。差分隱私保護在大大降低隱私泄露風險的同時,極大地保證了數據的可用性。差分隱私保護方法的最大優點是,雖然基于數據失真技術,但所加入的噪聲量與數據集大小無關,因此對于大型數據集,僅通過添加極少量的噪聲就能達到高級別的隱私保護。因此,即使攻擊者得到了兩個僅相差一條記錄的數據集,通過分析兩者產生的結果都是相同的,也無法推斷出隱藏的那一條記錄的信息。

k-匿名化和l-多樣化

k-匿名化和l-多樣化雖然因其模型不夠穩固而受詬病,但是其操作方便簡易,在數據共享范圍受限的情況下,依然可以采用該方法進行數據隱私的保護。下面就兩個隱私保護方式進行簡單介紹。

如果將一組數據k-匿名化,并且每項數據記錄中都有一組預先設定的屬性,那么至少有k-1個其他記錄與這些屬性匹配。例如,假定班車數據集包含一個屬性——刷卡時間,如果對該數據集執行k-匿名化操作,則對于每個刷卡時間,都有k-1條其他記錄與其擁有相同的刷卡時間。一般來說,k的值越大,隱私保護越有效。見表1。

表1 班車刷卡數據集

表2 職工體檢數據集

相對于班車記錄屬性較少的情況,數據匿名技術最早應用于醫療信息的共享。譬如學校體檢信息,里面可能會出現比較敏感的病癥,也屬于個人極不愿意公開的信息,這時候,字段會較多,出現見表2的記錄。

在這份表格中,學工號和姓名字段進行隱藏處理,而年齡進行了泛化處理,代表年齡段,對于準標識符,提供了兩個冗余樣本(k=2),實現了匿名化,但不影響判斷哪個年齡段出現病癥的分布判斷。盡管k-匿名化可以保證無法從k個數據集中識別個體,但是依然會受到很多攻擊。

基于同質的攻擊。如果攻擊者知道某個教師年齡段,譬如為40多歲,那么可以根據表中記錄推斷出他有可能有心臟病,見表3。

背景知識攻擊。如果攻擊者知道某個教師在早晨有課,且在出發站上車,那么很容易推斷出他有可能是在7:01或7:02刷卡上車,進而推斷出其他信息。

針對以上兩種攻擊,有必要引入另外一種隱私保護技術l-多樣化。l-多樣化主要是指在k-匿名化的基礎上,對每個準標識符組合添加l個不同的關鍵值。對表4添加l-多樣化后,可以得到表3,其中l=1。通過多樣化后,你無法猜測40多歲的人是否患有疾病或者患有什么疾病。

但是這樣一來,虛構的關鍵字段信息為分析工作帶來了麻煩,而且從概率上推斷,依然可以得出40歲年齡段的某位教師得的疾病。如果需要解決類似問題,則需要用到差分隱私保護技術。

表3 多樣化處理后的數據集

表4 數據隱私處理方式

高校中的隱私保護方法

由于高校隱私保護需求和數據的公開范圍的受限,對于數據隱私保護的要求沒有政府公開數據、醫療數據等面向全社會公開的數據的要求那么高。因此在實際使用中,可以結合k-匿名化和l-多樣化進行匿名化處理,對某些屬性進行處理,建議方式如表4所示。

在實際使用中,我們根據Intel《利用數據匿名化技術增強云的信息安全》一文,對基本的常用隱私保護操作方式進行了總結,并在實際使用中取得了較好的隱私保護效果。

實踐操作中常用的模糊方法有:

隱藏

把關鍵字段的值替換為一個常數值。譬如對月薪統一替換為0,或者身份證號統一替換為18個X。該方法適用于隱藏無需處理或者不必要的信息。

散列

將一個或多個字段的值(尤其是準標識符)通過散列函數映射到一個新的值。譬如對姓名、學工號合并進行運算,得到一個新的散列值,可以代表兩個值的唯一性。

置換

置換也是映射的一種方法,但需通過額外的映射表來進行轉換,也可以進行逆運算推斷出源信息。

位移

對數值進行函數運算得出新的數值。該方法不需要額外的映射表,只需要特定的一個函數計算方法即可。

枚舉

枚舉也是映射的一種處理方式。但是它主要用于可排序的字段,新的數值必須保留原先的排序順序。

截斷

截斷是字符串常用的一種處理方式,譬如對于電話號碼,可以只取前幾位和后幾位,或者只取前幾位,用以區分運營商和地理位置。

通過以上簡單的處理,再加以縱向減少數據量,可以顯著地降低隱私暴露風險。在對外提供數據時,如校內搞用餐大數據分析活動、WIFI訪問分析以及班車數據分析等活動時,都可以避免隱私泄露。

在大數據的場景下,單純靠一種隱私保護技術已經很難避免安全攻擊,許多隱私保護方法融合了多種技術。k-匿名和l-多樣化是基于限制發布的泛化技術的比較有代表性的兩種隱私保護方法。但是k-匿名易受到一致性攻擊(homogeneity attack)和背景知識攻擊(background knwledge attack)。而Machanavajjhala等人提出了l-多樣化原則,雖然避免了一個等價類中敏感屬性取值單一的情況,并確保隱私泄露風險不超過1/l,但依然容易受到相似性攻擊(similarity attack)。

數據匿名化技術不是萬能的,在Schneier Bruce的《為什么“匿名”數據有時沒有匿名》一文中提到,在大數據前提下,統計學理論的支撐下,通過多屬性關聯分析,依然可以分析出被匿名化的信息。但這不是說匿名化技術不需要研究或者放棄使用匿名化,而是要有針對性地進行合適合理有效的匿名化技術。可以有針對性的對數據進行橫向或者縱向分割,減少數據量或者屬性的共享,減少攻擊者進行反匿名化需要的信息。

(作者單位為上海海事大學)

猜你喜歡
用戶分析信息
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統及其自動化發展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国模私拍一区二区| 色老二精品视频在线观看| 日韩毛片在线播放| 在线看国产精品| 久久香蕉国产线| 青青青国产视频| 欧美日韩专区| 国产激情第一页| 一级毛片在线播放免费观看| 中文字幕调教一区二区视频| 91在线国内在线播放老师| 国产尤物视频网址导航| 国产欧美日韩视频一区二区三区| 全色黄大色大片免费久久老太| 久久久黄色片| 男女男精品视频| 久久香蕉国产线看观看式| 免费看av在线网站网址| 色婷婷国产精品视频| 国产精品女在线观看| 国产欧美高清| 91精品国产福利| h网址在线观看| 国产精品无码影视久久久久久久| 最新亚洲人成无码网站欣赏网| 久久久久国产精品免费免费不卡| 亚洲色欲色欲www网| 毛片最新网址| 噜噜噜久久| 国产极品美女在线| 亚洲国产欧美目韩成人综合| 国产成人91精品免费网址在线| 日本精品一在线观看视频| 国产激情在线视频| 97视频精品全国免费观看| 国产丰满大乳无码免费播放| 中日韩欧亚无码视频| 色视频久久| 99精品热视频这里只有精品7| 伊人色在线视频| 亚洲中文字幕手机在线第一页| 欧美日韩动态图| 久久精品国产电影| 免费国产一级 片内射老| 美女被操91视频| 美女无遮挡拍拍拍免费视频| 五月婷婷综合色| 国产精品白浆无码流出在线看| 国产精品色婷婷在线观看| 中文字幕乱妇无码AV在线| 欧美日本在线| 欧美成人a∨视频免费观看 | 视频二区亚洲精品| 四虎精品黑人视频| 午夜国产不卡在线观看视频| 国产在线观看一区二区三区| 国产福利一区视频| 国产亚洲精品无码专| 国产毛片不卡| 99re热精品视频国产免费| 欧美第九页| 18禁影院亚洲专区| 精品国产乱码久久久久久一区二区| www亚洲精品| 国产精品区视频中文字幕| 中文纯内无码H| 欧美性猛交一区二区三区| 久青草国产高清在线视频| 五月天久久综合国产一区二区| 国产高清在线观看91精品| 美女裸体18禁网站| 欧美日韩一区二区三区四区在线观看 | 一本大道无码高清| 看你懂的巨臀中文字幕一区二区 | 国产SUV精品一区二区6| 欧美午夜理伦三级在线观看| 国产成人亚洲欧美激情| 亚洲一区黄色| 欧美精品xx| 国产一区二区三区夜色 | 国内精品九九久久久精品| 亚卅精品无码久久毛片乌克兰|