萬利永
(江西軟件職業(yè)技術(shù)大學(xué) 江西 南昌 330041)
基于物聯(lián)網(wǎng)環(huán)境下,人們?yōu)榱嗽鰪?qiáng)信息數(shù)據(jù)的利用效率,通常是采用亞馬遜、阿里云等云服務(wù)商進(jìn)行數(shù)據(jù)信息處理,這樣使得數(shù)據(jù)所有權(quán)和使用權(quán)處于分離狀態(tài),在數(shù)據(jù)利用過程中輸出、輸入、儲(chǔ)存等各環(huán)節(jié)都成為隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn)源,并且隱私數(shù)據(jù)的生成者并沒有主動(dòng)參與的隱私保護(hù)中,僅依靠被動(dòng)式的隱私保護(hù)和數(shù)據(jù)收集者的隱私保護(hù),加之信息數(shù)據(jù)集之間會(huì)存在一定的關(guān)聯(lián)性,會(huì)對(duì)隱私保護(hù)造成較大的難度,文章重點(diǎn)從數(shù)據(jù)庫(kù)隱私來探究了隱私保護(hù)技術(shù),希望借助完善的隱私保護(hù)技術(shù)來推動(dòng)物聯(lián)網(wǎng)技術(shù)的高質(zhì)量發(fā)展。
1.1.1 定義
隱私通常是指用戶不愿意公開或者讓其他人知道的個(gè)人秘密,在互聯(lián)網(wǎng)時(shí)代,隱私信息的泄露問題隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展及物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用而變得越來越嚴(yán)重;人們?cè)谶M(jìn)行網(wǎng)站信息查詢、網(wǎng)上購(gòu)物、發(fā)送電子郵件等網(wǎng)絡(luò)操作的時(shí)候均有可能在不經(jīng)意間泄露個(gè)人隱私[1]。針對(duì)越來越嚴(yán)峻的隱私泄露問題,一方面要保護(hù)涉及個(gè)人隱私的數(shù)據(jù)的安全,另一方面也要保證網(wǎng)絡(luò)的正常、健康、穩(wěn)定發(fā)展,隱私保護(hù)技術(shù)能夠借助隱私度量進(jìn)行相關(guān)風(fēng)險(xiǎn)披露,讓用戶能夠合理地選擇信息數(shù)據(jù)應(yīng)用程度,從而達(dá)到網(wǎng)絡(luò)技術(shù)深度運(yùn)用和用戶隱私安全的平衡點(diǎn)[2]。
1.1.2 分類
根據(jù)數(shù)據(jù)本質(zhì)特性因素,可以分為個(gè)人隱私和公共隱私。個(gè)人隱私主要包括個(gè)人基本資料、網(wǎng)絡(luò)資料、郵箱信息、工作信息、健康信息、財(cái)產(chǎn)狀況等。公共隱私主要是指有代表性的群體的共同特征信息,如政府的一些統(tǒng)計(jì)信息、趨勢(shì)分析等。根據(jù)研究對(duì)象的不同,可分為數(shù)據(jù)隱私、位置隱私及身份隱私[3]。數(shù)據(jù)隱私主要是指數(shù)據(jù)所包含的隱私信息。位置隱私是指通過統(tǒng)計(jì)分析、聚集相關(guān)數(shù)據(jù)而獲取的關(guān)于個(gè)體的位置狀況信息。身份隱私是指通過綜合分析個(gè)體的財(cái)產(chǎn)狀況、購(gòu)物習(xí)慣、出行時(shí)間、線路而推斷得到的身份信息。
物聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)了智能設(shè)備、計(jì)算機(jī)終端、移動(dòng)設(shè)備等多通信設(shè)備的互聯(lián),讓人們更容易享受到通信技術(shù)帶來的便利和功能優(yōu)勢(shì),但在信息數(shù)據(jù)傳遞中也會(huì)造成隱私數(shù)據(jù)的泄露威脅,隱私度量是為了合理地評(píng)估個(gè)人的隱私水平,這樣有助于隱私保護(hù)技術(shù)更易達(dá)到預(yù)期的防護(hù)密度,不同的隱私保護(hù)需求就會(huì)存在對(duì)應(yīng)的度量指標(biāo),主要分為數(shù)據(jù)庫(kù)隱私、位置隱私、身份隱私三類[4],文章主要研究了數(shù)據(jù)庫(kù)隱私保護(hù)。數(shù)據(jù)庫(kù)是一個(gè)信息數(shù)據(jù)集合的存在,在數(shù)據(jù)庫(kù)隱私保護(hù)技術(shù)應(yīng)用中,需要從數(shù)據(jù)庫(kù)的應(yīng)用需求和隱私保護(hù)程度兩個(gè)方面入手,首先在數(shù)據(jù)應(yīng)用上,可以根據(jù)數(shù)據(jù)質(zhì)量評(píng)判,以數(shù)據(jù)丟失程度、原始數(shù)據(jù)相似度等指標(biāo)度量。其次,在隱私保護(hù)程度上,需要明確隱私保護(hù)范疇,將不同的信息數(shù)據(jù)保護(hù)程度進(jìn)行有效隔離,可以借助風(fēng)險(xiǎn)披露進(jìn)行數(shù)據(jù)分離,用戶在數(shù)據(jù)庫(kù)使用中,可以根據(jù)風(fēng)險(xiǎn)等級(jí)來進(jìn)行相關(guān)信息數(shù)據(jù)的輸入和讀取,風(fēng)險(xiǎn)等級(jí)越高,則泄露風(fēng)險(xiǎn)越大[5]。
現(xiàn)階段,隱私保護(hù)技術(shù)主要是在數(shù)據(jù)采集和數(shù)據(jù)發(fā)布兩個(gè)層面來實(shí)現(xiàn)數(shù)據(jù)庫(kù)隱私保護(hù),讓數(shù)據(jù)庫(kù)能夠在安全的環(huán)境下進(jìn)行數(shù)據(jù)信息采集和信息輸出,如圖1所示,展示了數(shù)據(jù)采集和數(shù)據(jù)發(fā)布的應(yīng)用場(chǎng)景。在數(shù)據(jù)采集階段,數(shù)據(jù)發(fā)布者在用戶A.B.C處獲取到隱私數(shù)據(jù),并將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)接收者,以網(wǎng)絡(luò)平臺(tái)購(gòu)物為例,電商平臺(tái)作為數(shù)據(jù)發(fā)布者,將用戶A的賬戶、密碼隱私數(shù)據(jù)進(jìn)行收集,并傳遞給支付平臺(tái)(數(shù)據(jù)接受者);在這個(gè)流程中,基于不可信計(jì)算模式,數(shù)據(jù)發(fā)布者是不可信的,它可能會(huì)通過多種途徑從用戶那里獲取敏感數(shù)據(jù),其中包含隱私數(shù)據(jù),在可信計(jì)算模式中,數(shù)據(jù)發(fā)布者是可信的,用戶也愿意將隱私數(shù)據(jù)提供給數(shù)據(jù)接收者,但數(shù)據(jù)接收者不可信。如支付平臺(tái)在采集大量的賬戶、密碼過程中,出現(xiàn)賬戶泄露問題,而賬目數(shù)據(jù)是用戶不愿意泄露的隱私數(shù)據(jù)[6]。

圖1 數(shù)據(jù)采集和數(shù)據(jù)發(fā)布
隱私保護(hù)技術(shù)是為了有效地解決數(shù)據(jù)發(fā)布者及數(shù)據(jù)接收者可能出現(xiàn)的數(shù)據(jù)泄露問題,在具體的實(shí)施中需要考慮到:一是隱私數(shù)據(jù)是數(shù)據(jù)庫(kù)輸入和輸出過程中不被篡改、泄露;二是在增強(qiáng)數(shù)據(jù)庫(kù)隱私數(shù)據(jù)保護(hù)的同時(shí),也需要提高隱私數(shù)據(jù)利用效率,不能出現(xiàn)顧此失彼現(xiàn)象。在技術(shù)分類上,分為數(shù)據(jù)失真技術(shù)、數(shù)據(jù)加密技術(shù)、限制發(fā)布技術(shù)[7]。
2.2.1 基于數(shù)據(jù)失真的隱私保護(hù)技術(shù)
數(shù)據(jù)失真技術(shù)指的是將私密數(shù)據(jù)進(jìn)行失真處理,如添加噪聲、信息交互等造成原始數(shù)據(jù)的擾動(dòng),從而達(dá)到隱私數(shù)據(jù)的保護(hù)目的,在進(jìn)行數(shù)據(jù)失真處理時(shí),首先需要確保攻擊者不能識(shí)別真實(shí)隱私數(shù)據(jù),即攻擊者難以通過數(shù)據(jù)集、關(guān)聯(lián)知識(shí)推理出真實(shí)數(shù)據(jù)。其次要確保原始數(shù)據(jù)的屬性,讓數(shù)據(jù)性質(zhì)不發(fā)生變化。在實(shí)際應(yīng)用中,通常采用隨機(jī)化擾動(dòng)技術(shù)來實(shí)現(xiàn)數(shù)據(jù)失真:x1隨機(jī)擾動(dòng):通過采用隨機(jī)化技術(shù)(隨機(jī)添加噪聲、信息交互)來修改真實(shí)數(shù)據(jù),將真實(shí)數(shù)據(jù)進(jìn)行有效隱藏,讓攻擊者難以找到原始數(shù)據(jù),從而完成隱私數(shù)據(jù)的保護(hù)。如圖2所示,攻擊者只能查獲擾動(dòng)數(shù)據(jù)。

圖2 數(shù)據(jù)擾動(dòng)過程
2.2.2 數(shù)據(jù)加密的隱私保護(hù)技術(shù)
(1)分布式匿名化
匿名化指的是對(duì)隱私數(shù)據(jù)的信息和來源進(jìn)行隱藏,通過匿名化處理后,數(shù)據(jù)庫(kù)在進(jìn)行隱私數(shù)據(jù)的采集或者發(fā)布過程中,隱私數(shù)據(jù)處于匿名化狀態(tài),這樣極大地降低了隱私數(shù)據(jù)的被攻擊的風(fēng)險(xiǎn),進(jìn)而提高隱私數(shù)據(jù)的安全性。分布式匿名化在信息通信過程中,為了保證隱私數(shù)據(jù)的利用效率,是基于垂直劃分的數(shù)據(jù)環(huán)境下實(shí)現(xiàn)兩方分布式匿名化,并以k-匿名為例來說明,在信息隱藏中以“是否滿足k-匿名條件”來判斷原始數(shù)據(jù)匿名[8]。
(2)分布式聚類
分布式聚類的關(guān)鍵是安全地計(jì)算數(shù)據(jù)間的距離,聚類模型有Naive聚類模型(K-means)和多次聚類模型,兩種模型都利用了加密技術(shù)來實(shí)現(xiàn)信息的安全傳輸[9]。①Naive聚類模型:數(shù)據(jù)節(jié)點(diǎn)將隱私保護(hù)方式傳輸給可信任的第三方,然后第三方對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)加密,聚類后反饋相關(guān)處理結(jié)果。②多次聚類模型:數(shù)據(jù)節(jié)點(diǎn)對(duì)原始數(shù)據(jù)進(jìn)行聚類處理,并發(fā)布結(jié)果,各節(jié)點(diǎn)在根據(jù)隱私保護(hù)需求對(duì)聚類處理結(jié)果發(fā)布,進(jìn)行二次聚類處理,從而形成分布式聚類。
2.2.3 限制發(fā)布的隱私保護(hù)技術(shù)
限制發(fā)布指的是將隱私數(shù)據(jù)進(jìn)行分類,根據(jù)風(fēng)險(xiǎn)披露等來針對(duì)性地發(fā)布或者不發(fā)布數(shù)據(jù),從而起到隱私數(shù)據(jù)保護(hù)的作用。現(xiàn)階段,匿名化處理技術(shù)是限制發(fā)布的隱私保護(hù)技術(shù)的關(guān)鍵技術(shù),通過結(jié)合風(fēng)險(xiǎn)披露等級(jí)和隱私數(shù)據(jù)保護(hù)程度,進(jìn)行部分隱私因素的匿名化處理,達(dá)到一個(gè)折中的效果,既能滿足隱私數(shù)據(jù)的使用,也確保隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)處于預(yù)期范圍內(nèi)。以學(xué)校考試成績(jī)公布為例,在原始數(shù)據(jù)上會(huì)存在姓名、年齡、專業(yè)、成績(jī)分?jǐn)?shù)等主要隱私數(shù)據(jù),通過傳統(tǒng)隱私數(shù)據(jù)保護(hù),會(huì)將姓名進(jìn)行※保護(hù),但經(jīng)過攻擊者關(guān)聯(lián)數(shù)據(jù)推理,會(huì)容易得到原始完整數(shù)據(jù),經(jīng)過分布式匿名化算法匿名化處理,會(huì)將原始記錄映射到特定的度量空間,再對(duì)空間中的點(diǎn)進(jìn)行聚類匿名。類似k匿名,算法保證每個(gè)聚類中至少有k個(gè)數(shù)據(jù)點(diǎn)在r-gather算法中,以所有聚類中的最大半徑為度量對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行聚類,保證每個(gè)聚類至少包含k個(gè)數(shù)據(jù)點(diǎn)。如在姓名上會(huì)出現(xiàn)數(shù)字標(biāo)識(shí)、年齡呈現(xiàn)出區(qū)間數(shù)值,這樣使得攻擊者難以根據(jù)關(guān)聯(lián)數(shù)據(jù)識(shí)別獲取隱私數(shù)據(jù)[10]。
基于數(shù)據(jù)擾動(dòng)的分類數(shù)據(jù)采集隱私保護(hù)技術(shù)在具體應(yīng)用中,首先是給原始數(shù)據(jù)集的各屬性域構(gòu)建一個(gè)隨機(jī)擾動(dòng)矩陣,并給定一個(gè)轉(zhuǎn)移概率,其次再根據(jù)轉(zhuǎn)移概率值將原始數(shù)據(jù)集中的值進(jìn)行轉(zhuǎn)換操作,最后構(gòu)建原數(shù)據(jù)分布,并進(jìn)行分類采集。在數(shù)據(jù)預(yù)處理中,是通過屬性域編碼表進(jìn)行,便于生成離散數(shù)據(jù)。在轉(zhuǎn)移概率值設(shè)定中,可以引入矩陣條件數(shù)、r-amplifying方法減小重建原數(shù)據(jù)分布的錯(cuò)誤率,采用決策樹分類,整個(gè)過程分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)擾動(dòng)、分類數(shù)據(jù)采集三個(gè)階段,基本框架如圖3所示:

圖3 分類數(shù)據(jù)采集隱私保護(hù)基本框架
3.1.1 數(shù)據(jù)預(yù)處理
首先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,才能實(shí)現(xiàn)原始數(shù)據(jù)的轉(zhuǎn)換操作,本次采用的是平均區(qū)域劃分方法進(jìn)行數(shù)據(jù)離散處理,如式(1):

length=離散區(qū)間長(zhǎng)度 A=連續(xù)屬性n=離散數(shù)
在具體計(jì)算中,以A1為第一個(gè)離散值開始,進(jìn)行(1)離散區(qū)間長(zhǎng)度計(jì)算,結(jié)果采用四舍五入計(jì),最后以0結(jié)束。
屬性域編碼是對(duì)離散數(shù)據(jù)集中各屬性域值進(jìn)行查詢,并對(duì)這些不同的屬性域值進(jìn)行重新編碼,進(jìn)而生成屬性域編碼表。
數(shù)據(jù)集轉(zhuǎn)換成編碼集時(shí)將離散數(shù)據(jù)集的屬性值用對(duì)應(yīng)的編碼來代替,替換后形成編碼集。
3.1.2 單屬性隨機(jī)擾動(dòng)矩陣
單屬性隨機(jī)擾動(dòng)矩陣的值體現(xiàn)著屬性域值的轉(zhuǎn)化概率,單屬性隨機(jī)擾動(dòng)矩陣的應(yīng)用關(guān)乎著隱私數(shù)據(jù)保護(hù)的程度和精準(zhǔn)度,可以說是整個(gè)隱私保護(hù)技術(shù)的關(guān)鍵內(nèi)容。本方法選擇r正定對(duì)稱矩陣為單屬性擾動(dòng)矩陣。首先要求用戶給定每個(gè)屬性的閾值前驗(yàn)率a1和后驗(yàn)率a2,要求0<α1<α2< 1,并在a2(1-a1)/a1(1-a2)>r≥ 1 隨機(jī)取個(gè)r值,生成任意屬性A的擾動(dòng)矩陣。
3.1.3 數(shù)據(jù)擾動(dòng)
數(shù)據(jù)擾動(dòng)是各屬性值根據(jù)對(duì)應(yīng)的轉(zhuǎn)移概率值轉(zhuǎn)換后形成的其他值,在本次擾動(dòng)中首先給定編碼數(shù)據(jù)集,再通過擾動(dòng)算法進(jìn)行擾亂。
3.2.1 實(shí)驗(yàn)環(huán)境
(1)開發(fā)環(huán)境:WindowsXP操作系統(tǒng)17 Hz主頻,2 B內(nèi)存320 GB硬盤
(2)開發(fā)工具:Eclipse-SDK-3.4.1,SQL Server 2000。
(3)開發(fā)語言:Java。
3.2.2 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)采用學(xué)生考試成績(jī),通過分類數(shù)據(jù)采集隱私保護(hù)技術(shù)在數(shù)據(jù)集隱私保護(hù)的前提下,找出判斷是否及格的規(guī)律,以下從隱私保護(hù)度和挖掘精度兩個(gè)方面對(duì)該方法進(jìn)行考察[11]。
隱私保護(hù)度用1/(a2-a1)來表示,其中,a1為用戶前驗(yàn)率,a2為后驗(yàn)率。如圖4所示,隨著數(shù)據(jù)集的增加,采集精準(zhǔn)度越高,越來越接近真實(shí)的數(shù)據(jù)水平。

圖4 精度和數(shù)據(jù)量的關(guān)系
綜上所述,物聯(lián)網(wǎng)環(huán)境下網(wǎng)絡(luò)隱私保護(hù)主要包括位置隱私、身份隱私、數(shù)據(jù)庫(kù)隱私三類,隨著物聯(lián)網(wǎng)技術(shù)發(fā)展,數(shù)據(jù)庫(kù)增量信息會(huì)呈現(xiàn)出階梯式上升,數(shù)據(jù)庫(kù)的隱私數(shù)據(jù)使用效率和保護(hù)技術(shù)都會(huì)成為影響物聯(lián)網(wǎng)技術(shù)發(fā)展的重要因素。文章以數(shù)據(jù)庫(kù)隱私保護(hù)為例,提出基于數(shù)據(jù)擾動(dòng)的分類數(shù)據(jù)采集隱私保護(hù)技術(shù)研究,希望以此來滿足數(shù)據(jù)庫(kù)隱私保護(hù)需求。