沈國良,鄭 滔
(1. 蘇州大學信息化建設與管理中心,江蘇 蘇州 215006;2. 南京大學軟件學院,江蘇 南京 210046)
信息屬性基加密技術是根據密碼學原理提出的,它是由信息密鑰屬性基加密與信息密文屬性基加密兩種方法組成。而敏感信息安全引起諸多組織高度重視,但是組織內部敏感信息管理所使用基礎設備是非常昂貴的,如何以便宜的價格來完成可靠的敏感信息存儲,并且能夠保證敏感信息安全與高效使用,同時遵守有關政府信息保護法規法律、不泄露信息隱私是亟須特別重視的問題。
相關研究人員對該方面研究諸多。例如閆璽璽[1]等人采用多機構方法對敏感信息屬性基進行加密,首先使用半策略隱藏方法,把敏感信息屬性分成屬性值與屬性名兩部分,再對敏感信息屬性值做隱藏處理,完成隱私保護,這樣有效避免敏感信息屬性值泄露給其他人。此外,信息加密過程中只對與訪問策略有關屬性做加密處理,并不是對該系統所有屬性做加密處理,而是改變原有敏感信息保護的屬性基加密方法。在極大程度上縮短密文長度。但該方法信息安全僅僅依賴DBDH假設,具有一定局限性,同時計算較為復雜,浪費大量時間。陳丹偉[2]等人針對敏感信息屬性基加密過程會泄露一部分信息問題,提出一種全新的敏感信息屬性基加密方法。先采用線性秘密分享矩陣函數作為該系統訪問結構,使方法具有很強表達能力,可以隨機表達訪問,再通過三種質數合數階雙線性群來構建,實現安全隱藏敏感信息的目的,隨之利用雙系統加密方法來驗證其安全性。但該方法需要占據系統大量空間,結果準確率較低。
為此,提出一種新的分布式互聯網敏感信息屬性基加密方法,經驗證該方法簡化了計算時間,提高了準確率,縮短了系統運營成本,增強了信息安全性,有效解決了上述存在的問題。
在安全信息庫服務系統組成中,可信板塊是保護信息隱私安全的重要一步,因此將可信板塊中敏感信息分解到不相同的分布式信息庫中并保存,做到敏感信息隱私安全保護。信息分解分為水平分解與垂直分解兩種方式[3]。其中水平分解是將信息記載水平分解到若干信息庫中,即敏感信息R=R1∪R2∪…∪Rn;而垂直分解是將記載的不相同屬性基分解在若干個信息庫中,即R=R1??R2??…??Rn。但由于水平分解在該系統保護作用較小,可忽略不計,所以僅考慮敏感信息屬性基的垂直分解。
信譽用戶在外包信息過程中,可以直接指出敏感信息屬性基,但是對于那些不屬于敏感信息屬性基的,則可以通過對這些信息屬性基進行分析來區分。比如,在統計信息庫中,人名與身份證件號都屬于個人隱私,即敏感信息屬性基,但是出生日期、性別以及郵政編碼等都屬于非個人隱私,即非敏感信息屬性基,而事實上可以采用連續操作的方法來確定其身份證編碼與個人姓名[4]。為此,對信息庫中的敏感信息屬性基做自動檢測是非常必要的。
信譽用戶信息庫中的信息用R(A1,A2,…,An)表示,其中A1,A2,…,An代表關系R的屬性基。為了完成屬性基的自動檢測,做了如下設定:
設定一:準標志集合。Q表示準標志集合關系R中最小屬性集合。
設定二:準標志。α表示準標志的某一個屬性基集合,這部分屬性基的取值結果可以很容易確定關系R中的α一部分信息。
設定三:屬性基乘域。n1,n2,…,nk表示關系中屬性基不相同取值個數,即D=n1×n2×…×nk。

E[Xi]=npi(1-pi)n≈npien
(1)


(2)
定義一:假設D≤n,則D/e表示已標識記錄總數量的敏感信息屬性基的檢測期望值上限。
證明:假設f(x)=xex,則f′(x)=(1-x)ex,f″(x)=(x-2)ex,根據f′(1)=0,f″(x)<0,得到期望函數f(x),當x=1此處有一個極大值。已標識記錄的敏感信息屬性基檢測期望值上限即為

(3)
定義二:假設D≥n,則nen/D表示已標識記錄總數量的敏感信息屬性基檢測期望值上限。


(4)
假設D≥n,則得出nen/D已標識記錄總數量的敏感信息屬性基檢測期望值。
定義三:設定n為關系表的大小,D>n/ln(1/α)表示信息屬性基集合的屬性乘域,得到一個為α準標志的敏感信息屬性基集合。
證明:當D>n,根據定義一可知,關系表中最大期望值為D/en1/e<α。根據定義二可知,信息屬性值域的屬性基集合能夠有效找關系表中被標記記錄的屬性基檢測最大期望值,即en/D,并組成α標準志集合記錄,再找出檢測期望值一定大于α,為此en/D>α,也就符合D>n/ln(1/α)。
檢測出的敏感信息屬性基能夠為敏感信息關系的分解奠定基礎。
關于垂直分解的方法諸多,而垂直分解需要考慮兩個問題。問題一關系分解后必要保證原有信息屬性基;問題二被分解后信息必須起到隱私保護作用。
為了確保被分解后信息具有原來信息屬性基,就得在每一個信息庫中保存并記錄關鍵字,使用關鍵字拼接方法完成全部查詢記錄過程。而事實上關鍵字屬性總是展現出敏感信息屬性,但不能顯示是否保存,這種情況最好的解決方法就是采用序列號的方式[5]對元組進行標記記錄。在信譽板塊中設置一個序列自動生成裝置,并記錄每個被分解信息所生成的序號編碼ID,此序號編碼ID重復出現整個分解關系表中,同時保存到不相同的信息庫中[6]。
定義四:隱私制約準則。其是根據初始關系表中的集合屬性基進行訪問,但每個子集屬性基不能同時進行訪問。設定P?2R,表示P是R的子集的集合。
如果初始關系表中的垂直分解代表D(R)=(R1,R2,…,Rn,E),R1∪R2∪…∪Rn=R同時E?R1∧E?R2∧…∧E?Rn。式中R1,R2,…,Rn分別代表分解后被輸送不相同服務端的屬性基集合,其中E代表被加密的敏感信息屬性基集合。關系分解必須符合隱私制約準則,也就是?p∈P,P?(R1-E)∧p?(R2-E)∧…∧p?(Rn-E)。
要想符合信譽用戶設定的隱私制約準則,就得區分初始關系表中敏感信息屬性基與非敏感信息屬性基[7]。對初始關系表中的敏感信息屬性基做隱私保護處理,降低對該敏感信息加密能力的影響,被加密的敏感信息屬性基使用對稱加密方法,即a=E(a,k)。其中a代表初始屬性基數值,k代表加密密鑰。而被加密后的敏感信息屬性保存在整個信息庫中,密鑰則保存在信譽板塊中。對于非敏感信息屬性基則采用自動檢測方式得到極大的準標志屬性基集合,需要注意準標志集合不同存儲到同一個信息庫中,還要將非敏感信息屬性基保存到某個信息庫中,降低連續操作對查詢能力的影響。

想要提高敏感信息隱私保護和敏感信息查詢、處理過程中的平衡,就得使用上述敏感信息關系分解結果對該敏感信息的屬性基進行加密[4]。
由上述步驟可知,敏感信息關系分解結果是根據敏感信息的屬性基自動檢測得到的,將敏感信息分解成若干個信息屬性準標志集合,同時將有關分解的信息屬性基保存到敏感信息儲存設備中;通過上述過程完成了分布式互聯網敏感信息屬性基的加密。給出分布式互聯網敏感信息屬性基加密過程如圖1所示。

圖1 分布式互聯網敏感信息屬性基加密過程
該方法不用信息庫管理工作者來維護隱私信息[9],只需要對敏感信息屬性基做加密處理,就可以完成敏感信息的隱私安全保護。雖然只是將敏感信息一部分進行加密,再分解成若干個信息屬性基,但其具有極高的信息保護和查詢能力。
綜合上述步驟,完成了分布式互聯網敏感信息屬性基加密方法。為了確保加密質量,還設計了基于查詢處理的敏感信息加密質量校驗模塊。
已有加密信息庫查詢處理方法都沒有考慮敏感信息的加密質量校驗問題,而分布式互聯網敏感信息加密方法充分考慮加密質量問題,采用查詢處理的方式對被加密敏感信息屬性基的加密質量進行校驗。要求信譽板塊在收到信譽用戶在初始關系表上的SQL查詢之后,就要對SQL查詢做分析、重寫以及優化等處理,獲得符合的子查詢并將其輸送到不相同的信息庫系統中,各信息庫系統將查詢后結果送回信譽板塊,由信譽板塊總結后送回信譽用戶初始信息庫數據中。為此,使用分布式信息庫查詢方法能夠有效解決被加密的敏感信息屬性基查詢問題[10]。
對關系表上信息進行查詢,可以用R1??R2??….??Rn代表關系表,并將關系表邏輯查詢變換成R1,R2,…,Rn上的查詢,最終將各子查詢信息輸送信譽用戶。根據信息查詢結果可知,子查詢是根據初始信息查詢并不是信息保存位置,因此在操作過程中不會形成不同信息庫之間的隱蔽路徑。
為了驗證所提分布式互聯網敏感信息屬性基加密方法的有效性,進行一次仿真。
隨機抽取敏感信息集n=4×108條并記錄下來,每一條記錄都有二十多個屬性基。
對敏感信息屬性基的自動檢測準確度做測試,檢測信息集合是從互聯網中隨機抽取的32480條信息與7個非敏感屬性基,這7個屬性基分別表示開通時間、空卡記錄、使用情況、資源種類、廠商標碼、業務種類以及節點類別,每一個信息屬性基不同值個數也是不同的,即70、3、9、15、8、45、6,任意抽取10個敏感信息屬性基做檢測處理,得到如表2結果。

表2 互聯網記錄集合中檢測的屬性基
屬性基乘域的大小直接決定屬性基自動檢測的準確度,屬性基乘域越大,自動檢測的準確度就越高。根據表2信息可知,采用所提的分布式互聯網敏感信息屬性基加密方法中所構建的屬性基自動檢測方法后,隨著屬性基數量的增大,屬性基乘域也逐漸增大,當屬性基數達到最大值7時,屬性基乘域也已經達到最大值2.98×108,因此說明所提方法的檢測準確度較高,驗證了所提方法在屬性基的檢測方面具有一定的有效性。
敏感信息關系分解的精度對后續敏感信息屬性基的加密質量有直接影響。現將敏感信息關系分解精度作為實驗測試指標,以文獻[1]方法和文獻[2]方法作為所提方法的對比方法,分別測試三種不同方法的敏感信息關系分解精度。得到對比結果如圖2所示。

圖2 三種不同方法的敏感信息關系分解精度對比
分析圖2可得出,屬性基個數的遞增使得銘感信息關系分解精度逐漸增大,因此在屬性基個數為7時,分解精度普遍較大。圖中看出,文獻[1]方法的敏感信息關系分解精度最大值為35%,平均分解精度約為30%;文獻[2]方法的敏感信息關系分解精度最大值為78%,平均分解精度約為65%;所提方法的敏感信息關系分解精度最大值為75%,平均分解精度約為72%。對比實驗結果得出,雖然所提方法的最大分解精度低于文獻[2]方法的最大分解精度,但平均分解精度遠遠大于兩種傳統方法,因此驗證出,所提方法的分解精度最高。
分別采用文獻[1]方法、文獻[2]方法和所提方法,對分布式互聯網敏感信息的屬性基進行加密,以加密漏洞個數為指標,測試三種不同方法的加密質量,得到三種不同方法的加密漏洞個數對比結果如圖3所示。

圖3 三種同方法的加密漏洞個數對比
根據圖3結果可以看出,文獻[1]方法的加密漏洞個數隨著屬性基乘域的增加而大幅度增加,當屬性基乘域達到5000時,加密漏洞個數的增加幅度趨于平穩,平均加密漏洞個數約為60個,最終穩定在80個;文獻[2]方法的加密漏洞個數隨著屬性基乘域的增加穩定上升,平均加密漏洞個數約為33個,最中穩定在35個;所提方法的加密漏洞個數隨著屬性基乘域的增加而線性減少,在屬性基乘域為0時,漏洞個數最多為71個,在屬性基乘域為14000時,漏洞個數最少為30個,也就是最終的漏洞個數。對比三種不同方法的實驗結果可得,文獻[1]和文獻[2]方法的漏洞個數是呈上升趨勢的,而所提方法的漏洞個數呈下降趨勢,且所提方法的最終漏洞個數均小于文獻[1]方法和文獻[2]方法的最終漏洞個數,充分說明所提方法的加密質量最好,具有一定的有效性。
綜合上述實驗結果得出,所提方法在屬性基自動檢測、敏感信息關系分解精度及加密漏洞個數方面,均具有一定的優越性,說明所提方法的加密質量最好。
通過對互聯網中敏感信息屬性基存在泄露問題,提出一種分布式互聯網敏感信息屬性基加密仿真。實驗結果表明,該方法能夠準確地檢測出屬性基,且敏感信息關系分解精度最大值可達到75%,平均分解精度高達72%,加密漏洞可以呈現減小的趨勢最終穩定在30個左右。該方法優越的加密效果,能夠為分布式互聯網的隱私信息安全保護起到較大的作用。