殷亞萍 凌毅德 朱芳華
摘要:為提高在云存儲環(huán)境中具有密度高、關(guān)聯(lián)復(fù)雜的醫(yī)學(xué)大數(shù)據(jù)安全保密級別,基于數(shù)據(jù)分割和等級關(guān)聯(lián)結(jié)構(gòu),以數(shù)據(jù)加密的隱私保護算法為支持,提出了一種新的大數(shù)據(jù)資源的隱私保密模式。從云環(huán)境下醫(yī)療大數(shù)據(jù)特征入手,分析云存儲中數(shù)據(jù)隱私保護機制,提出基于分割的云存儲數(shù)據(jù)分級保密模型,大大提高了數(shù)據(jù)的安全性。研究表明,該模型可以有效保護數(shù)據(jù)安全和隱私,提高云端數(shù)據(jù)的安全程度及提高執(zhí)行效率。
關(guān)鍵詞:云存儲;數(shù)據(jù)分割;分級加密;隱私保護;醫(yī)療大數(shù)據(jù)
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2021)03-65-3

0引言
近年來,云計算已在醫(yī)療信息化建設(shè)領(lǐng)域得到廣泛應(yīng)用。云存儲、管理、集成共享技術(shù)和健康醫(yī)療業(yè)通過高效、準確和深度融合,滿足了病人就診、優(yōu)化醫(yī)療衛(wèi)生業(yè)務(wù)流程及提高服務(wù)效率等方面的要求,促進了醫(yī)療衛(wèi)生服務(wù)模式和管理方面的深刻變化,也為促進業(yè)內(nèi)健康的快速發(fā)展,提供有力支持。我國將健康醫(yī)學(xué)大數(shù)據(jù)定位為“國家重要的基礎(chǔ)性戰(zhàn)略資源”,安全是健康醫(yī)療大數(shù)據(jù)的核心基礎(chǔ),數(shù)據(jù)安全的重要性不斷凸顯,直接系著國家安全[1]。
云計算可以使大數(shù)據(jù)的提取與分析成為可能,實現(xiàn)了云端的健康醫(yī)學(xué)大數(shù)據(jù)存儲。云存儲系統(tǒng)中,數(shù)據(jù)安全問題的核心是數(shù)據(jù)管理權(quán)和所有權(quán)的分離,云服務(wù)提供商獲得數(shù)據(jù)的優(yōu)先訪問權(quán),由于內(nèi)部存在問題,因此數(shù)據(jù)安全存在問題[2]。基于上述分析,提出改進的分離存儲方法,即真實的數(shù)據(jù)在客戶端分割后加密傳輸?shù)皆拼鎯Ψ?wù)器,數(shù)據(jù)目錄信息保存于本地。這種方式實現(xiàn)了文件數(shù)據(jù)與元數(shù)據(jù)割離,使服務(wù)商無法獲取元數(shù)據(jù),再對分割數(shù)據(jù)分級加密上傳,進而提高數(shù)據(jù)上傳到云端后的安全性。
1醫(yī)療大數(shù)據(jù)特性
醫(yī)療大數(shù)據(jù)平臺對全院數(shù)據(jù)采集、清洗、形成云存儲數(shù)據(jù)中心,數(shù)據(jù)中心邏輯串聯(lián)后形成以患者就診為核心的資源中心,具有以下幾個特點:
①多態(tài)性:區(qū)別于其他大數(shù)據(jù)最明顯的特性,同一就診序號對應(yīng)的數(shù)據(jù)既包含真實姓名、身份及年齡等純文本型數(shù)據(jù),又包含B超、CT、MR等圖形數(shù)據(jù),還包括各類檢測的生理生化的數(shù)字型數(shù)據(jù)。
②冗余性:相同的患者不同時間、不同醫(yī)院就診會產(chǎn)生相同信息、不相關(guān)信息和矛盾信息。
③不完整性:部分醫(yī)療數(shù)據(jù),在記錄時產(chǎn)生的信息有缺失,應(yīng)用共享時不能反映出本身不完整性。
④時間性:心腦血管等疾病發(fā)生、就診均在一定時間內(nèi)產(chǎn)生,數(shù)據(jù)具有時序性。
2體系架構(gòu)
基于分割的云存儲分級數(shù)據(jù)隱私保護模型是基于客戶端/服務(wù)器模型構(gòu)建的,客戶端包括分割模塊和分級加密模塊;服務(wù)器是指云端處理系統(tǒng),包括分塊模塊和存儲模塊[3],體系架構(gòu)如圖1所示。

3關(guān)鍵模塊
3.1分割模塊
在大數(shù)據(jù)分割過程中,通過固定大小分割和非固定大小分割2種方式將文件在上傳前根據(jù)情況分割成大、小數(shù)據(jù)庫。
①固定大小:產(chǎn)生0~(文件尺寸)之間的隨機序列,長度與小塊數(shù)據(jù)的大小相等;從小到大地排列隨機數(shù)據(jù),得到字節(jié)所在的位置;將對應(yīng)的字節(jié)位置由原文件分割,并與順序序列的隨機數(shù)字節(jié)保存,作為一個小塊的數(shù)據(jù);將分割過的文件視為大量數(shù)據(jù)。
②不固定大小:自動將文件的大小設(shè)置為隨機數(shù)范圍(1~10),隨后生成一組隨機數(shù),將此值作為抽取位置的增量,滿足隨機數(shù)的范圍。依次從固定的位置中抽取一個字節(jié),使該位置和隨機數(shù)一起獲得下個字節(jié)的位置,直到該位置比待上傳的數(shù)據(jù)小得多;再將相應(yīng)位置的字節(jié)從原始文件中分離出來,并與順序序列的隨機數(shù)字排列合并,作為一個小塊的數(shù)據(jù),將原文件分割成大量的文件。
3.2分級加密模塊
根據(jù)醫(yī)療大數(shù)據(jù)特性,本分級加密模塊采用3種不同程度的加密算法,安全級別如下:
①低級:基于TEA算法的加密機制,這種機制的安全程度相對比較低,但處理速度占非常大的優(yōu)勢,適合隱私要求相對低的數(shù)據(jù)。
②中級:基于數(shù)據(jù)染色的加密機制,安全性適中,計算難度遠遠低于傳統(tǒng)加密計算,適合隱私要求普通的數(shù)據(jù)。
③高級:基于高度橢圓三角曲線數(shù)據(jù)加密的高級算法,應(yīng)用此加密算法時數(shù)據(jù)安全性最高,但數(shù)據(jù)處理速度有所減慢,適合對個人隱私極高安全要求的用戶數(shù)據(jù)處理[4]。
當(dāng)客戶端上傳文件時,提取對應(yīng)的上傳文件分割成大量的數(shù)據(jù),分級加密模塊啟動用戶的數(shù)據(jù)和選擇安全戰(zhàn)略,根據(jù)用戶的選擇使用相應(yīng)算法處理上傳數(shù)據(jù),并維護安全戰(zhàn)略映射表,保存與本地相對應(yīng)的參數(shù)。
在下載文件時,當(dāng)密文被下載到本地后,分級加密模塊可快速查找文件、加密策略映射表、加密及解密文件生成大量數(shù)據(jù)。
加密過程中的加密算法基于本地小塊數(shù)據(jù)生成,通過對此項數(shù)據(jù)塊進行Hash操作,生成128位數(shù)值作為TEA的密鑰。
4基于加密的隱私保護算法
4.1 TEA加密算法
TEA是一種小型分組對稱加密算法,其明文密分組長度64 bit,密鑰長度128 bit。利用不斷增加的Delta值作為變化,使每輪加密迭代次數(shù)改變[5]。算法特征存在0x9e3779b9,核心加密算法,如下:
