金偉民,張逸凡,張淑麗
(哈爾濱理工大學,黑龍江 哈爾濱 150080)
隨著互聯網對各行各業的滲透,數字經濟的規模不斷擴大,人們的生活開始邁向數字化,世界進入數據大爆炸的“大數據時代”,人們對生活質量的要求越來越高,也越來越注重個人隱私數據的安全。蘊藏著巨大價值的數據能夠以極低的成本復制和無限使用,這種“野蠻掘金”的誘惑導致數據泄露、盜用、濫用等案件頻頻發生,給人們帶來諸多困擾,同時也造成社會各界對于數據安全和隱私保護的擔憂。
在大數據時代背景下,數據的來源越來越廣泛,處理方法也越來越復雜,如圖1所示。云基礎設施中存儲大量的用戶信息數據,各種數據供給平臺從中提取數據,對數據進行計算、存儲并通過網絡傳輸數據,其中包括政府數據資源、信托數據資源、企業數據資源等。在各個平臺之間使用統一的安全管理機制、統一的服務、統一的采集、統一的加工,雖然具有極大的便利性,但與此同時也存在著極大的安全隱患——隱私數據的泄露。

圖1 數據來源及處理方式示意圖
在現代生活中,有關個人隱私的數據越來越多,個人隱私被暴露的風險也越來越大,由此造成的個人損失也愈發嚴重。在個人隱私保護方面,國家出臺了一系列的法律法規,同時在技術上也要注意數據傳遞的安全性,從而為隱私數據的保護提供保障。有鑒于此,研發一款面向大數據的隱私保護系統,其在金融、政務、醫療等行業具有廣泛的市場應用前景。
隱私數據的保護主要分為發布階段的數據保護、傳輸階段的數據保護、發布結果的保護。發布階段的數據保護是指在數據發布之前要對數據進行預處理,包括加密、重編碼、混淆、哈西散列等,避免竊取者直接獲得數據的真實含義;傳輸階段的數據保護是指在整個傳輸過程中,不泄露與傳輸信息無關的數據,以提高數據的安全性;發布結果的保護是指對發布的數據進行脫敏處理,以確保發布的數據中不存在隱私漏洞,消息接收者即便是對所接收的數據進行數據挖掘也不能分析出其所蘊含的隱私信息,從而避免隱私信息的間接泄露。
數據加密處理主要有兩種形式——對稱加密和非對稱加密,前者使用的是對稱加密算法,后者使用的是非對稱加密算法。對稱加密系統是使用相同的密鑰對數據進行加密和解密,非對稱加密系統是使用一個密鑰加密,使用另一個密鑰解密。從使用安全性來看,非對稱加密更有優勢,市場應用前景也更加廣闊。非對稱加密的典型算法就是RSA(Rivest、Shamir、Adleman)算法,其具體過程為:
(1)先找到兩個正整數(這兩個正整數互為質數)。
(2)用函數()表示正整數可以在小于的正整數中找到與互為質數的個數,通常也把這個函數稱為歐拉函數。
(3)如果兩個正整數和互為質數,則的歐拉函數()可以使式(1)成立。

這個公式也稱為歐拉定理。
(4)如果兩個正整數和互為質數,那么一定能夠找到整數,使×-1 可以被整除,那么就稱是的模反元素,得到式(2)。

本系統在實現過程中需要對數據進行加密處理,在這里數據加密算法采用RSA 算法。
數據安全管理體系的功能包括五個方面:
(1)數據安全需求。明確存在哪些外部和內部數據安全需求。
(2)數據安全關鍵要素識別。盤點被保護的數據資產目標及其保護等級。
(3)數據安全評估。針對一些敏感數據,根據其重要等級和安全保護等級,評估數據采集、存儲、傳輸、使用等各個環節的風險。
(4)數據安全規劃。針對這些需要保護的數據,明確風險控制等級并制定相應的管理規范、管理制度、數據使用規則、技術架構等,確保數據安全。
(5)數據安全持續改進。通過行為管理、內部審計稽核和閉環管理等措施,推進數據安全管理體系的持續優化。以數據保護為核心的數據安全管理體系如圖2所示。

圖2 以數據保護為核心的數據安全管理體系
本系統的應用場景選擇醫療管理領域,以病例管理為例,病人的病例信息中包含許多隱私信息,在信息的存儲和傳輸過程中都需要進行加密處理,下面給出統計計算病歷的關鍵代碼:



運用模塊化的思想將算法應用于具體的系統設計中,如圖3所示為系統整體研發架構。在系統開發中首先分析功能需求,然后利用開發工具和相應技術進行功能模塊的設計,明確各個模塊之間的數據交互與數據傳遞,構建系統的整體架構,然后對各個模塊進行詳細的功能分析和設計,這些模塊包括數據匿名結果可視化、數據匿名結果效用度量、數據匿名結果風險分析、數據匿名結果快速導出等功能模塊。

圖3 系統整體研發架構
在研發系統時,基于面向大數據的隱私保護與風險分析,能夠構建安全的數據管理體系,主要體現在以下三個方面:
(1)實現身份匿名保護。在現實生活中,每個人都有其自己的活動規律,在計算機應用場景中,采用行為識別技術進行數據挖掘發展出了用戶身份的重識別攻擊,攻擊者采用數據連接的形式,利用多個數據源發起身份識別請求,企圖發現用戶的真實身份。在此攻擊方式下采用匿名模式可以實現對用戶隱私數據的安全保護。
(2)保護敏感信息。敏感信息是指社交關系、位置屬性等信息。在很多分布式系統中都存儲有大量的用戶個人隱私數據,借助人工智能、數據挖掘、深度學習等技術可以根據非敏感信息分析推測出部分或全部敏感信息,例如可以通過共同好友、興趣愛好等分析出用戶的社交關系;通過行為軌跡、網絡社交等預判出用戶的地理位置、健康狀況等隱私信息;也可以通過用戶的生活習慣、人際關系等分析出用戶的宗教信仰、社會地位等隱私信息。因此,在大數據的背景下保護敏感信息是極其重要的。
(3)確保隱私信息安全。在數據采集之后,要采用RSA 算法對一些敏感數據進行加密處理,在網絡上傳輸的數據也要采取加密手段,確保數據在安全管控之內,不被泄露。
病例中的患病時間、診斷數據、治療方案等敏感信息都需要進行加密處理,本系統采用RSA 加密算法實現加密處理,主要包括以下六步:
(1)隨機選擇兩個不相等的質數與。
(2)計算、的乘積,在RSA 算法中,基于大數分解的原理,選擇乘積中較低的位數,一般選取1 024 位。
(3)求的歐拉函數()。
(4)再次選取一個正整數,使得1 ≤≤(),同時滿足與()互為質數。
(5)求對的模反元素。
(6)將與封裝成公鑰,將與封裝成私鑰。
在數據交互的過程中,采用公鑰對數據進行加密,加密如式(3)所示;在接收到數據后可對數據進行解密,解密使用私鑰,如式(4)所示。


面向大數據的隱私保護在諸多領域有廣泛的應用,本文以醫療領域為例,在電子病例系統、預約掛號系統等多個醫療系統中進行了實踐應用,隱私保護系統在醫療領域的應用如圖4所示。

圖4 隱私保護系統在醫療領域的應用
經過加密的數據在傳輸過程中即使被人意外竊取,竊取者也無法獲得數據的真實含義,數據加密能夠對數據起到很好的保護作用。在數據存儲的時候,數據庫也是以加密方式保存數據,以防數據意外丟失,敏感醫療數據信息數據庫存儲加密情況如圖5所示。

圖5 電子病歷數據信息的MySQL 數據庫存儲結果圖
面向大數據的隱私保護系統在醫療領域進行了初步嘗試,其在一定程度上滿足了醫院信息化服務和數據安全存儲的要求,但是在大數據領域還存在許多不同格式的數據以及不規范的數據,在傳輸的過程中也容易出現隱私泄露的情況,在后續的研究中可以結合數字簽名技術、區塊鏈技術等,進一步完善對個人隱私數據的保護。