






摘"要:隨著信息技術的廣泛應用,敏感大數據在傳輸和存儲過程中存在隱私泄露、數據濫用、安全風險等問題。為了提高敏感大數據的安全性,提出了一種基于弱無回溯模式匹配算法的敏感大數據安全分級檢測方法。建立協方差矩陣構建敏感大數據樣本庫,設定約束條件同構嵌入敏感大數據子圖,采用弱無回溯模式匹配算法回溯匹配敏感大數據查詢圖索引,降低計算復雜度。利用核函數映射查詢圖特征向量,提高敏感大數據識別準確度,以剪枝的方式完成敏感大數據特征相似性匹配。通過相似度指數函數計算敏感因子,劃分敏感大數據安全等級,完成自動化分級檢測。實驗結果表明:所提方法的敏感大數據安全分級準確度為100%、特征匹配耗時為2.7"s、收斂速度為0.44。由此證明,所提方法能夠有效保護敏感大數據安全,在數據傳輸和存儲中具有較高的實際應用價值。
關鍵詞:弱無回溯模式匹配算法;協方差矩陣;相似度指數函數;敏感大數據
中圖分類號:TP399""""""文獻標識碼:A
Sensitive"Big"Data"Security"Hierarchical"Detection"Method"
Based"on"Weak"Backtracking"Pattern"Matching"Algorithm
ZHANG"Haiming,WANG"Yifei,NA"Qionglan,WANG"Sen,WEN"Xin,YAO"Yanli
(State"Grid"Jibei"Information"and"Telecommunication"Company,Beijing"100053)
Abstract:With"the"wide"application"of"information"technology,"there"are"some"problems"in"the"transmission"and"storage"of"sensitive"big"data,"such"as"privacy"leakage,"data"abuse"and"security"risks."In"order"to"improve"the"security"of"sensitive"big"data,"this"paper"proposes"a"hierarchical"detection"method"of"sensitive"big"data"security"based"on"weak"backtracking"pattern"matching"algorithm."Establishing"covariance"matrix"and"constructing"sensitive"big"data"sample"database."Set"constraints"to"isomorphically"embed"sensitive"big"data"subgraphs,"and"use"weak"backtracking"pattern"matching"algorithm"to"backtrack"the"index"of"sensitive"big"data"query"graph,"which"reduces"the"computational"complexity."Kernel"function"is"used"to"map"the"feature"vector"of"query"graph"to"improve"the"recognition"accuracy"of"sensitive"big"data,"and"the"similarity"matching"of"sensitive"big"data"features"is"completed"by"pruning."The"sensitivity"factor"is"calculated"by"similarity"index"function,"and"the"security"level"of"sensitive"big"data"is"divided,"thus"completing"automatic"hierarchical"detection."The"experimental"results"show"that"the"accuracy"of"sensitive"big"data"security"classification"is"100%,"the"time"for"feature"matching"is"2.7"s,"and"the"convergence"speed"is"0.44."This"proves"that"the"proposed"method"can"effectively"protect"the"security"of"sensitive"big"data"and"has"high"practical"application"value"in"data"transmission"and"storage.
Key"words:weak"backtracking"pattern"matching"algorithm;"covariance"matrix;"similarity"index"function;"sensitive"big"data
隨著信息技術的飛速發展,大數據已成為當今社會中的一個重要組成部分。大數據的產生和存儲量均呈指數級增長,其中包含了大量敏感數據,如個人身份信息[1]、財務數據[2]、醫療記錄[3]等。敏感大數據的泄露和濫用可能會導致個人隱私的曝光,對個人身份、實名認證信息等構成威脅[4]。因此,保護敏感大數據的安全至關重要。已有學者探索了多種數據類型的安全檢測方法。王瑋等[5]提出了一種基于數據挖掘的信息安全檢測方法,結合軌道交通信息系統中異常數據占比較少特點,構建單分類支持向量機模型。采用超平面法將正常數據和入侵數據進行分類,實現網絡入侵行為的有效檢測。但是,該方法計算算力有待進一步驗證。高麗杰等[6]設計了一種RSA公鑰加密機制,用于大數據安全性雙向檢測。根據用戶的安全需求度選擇不同的數據安全度,引入分類算法聚類評價指標,采用距離函數組合不同權值,獲取大數據安全性雙向檢測結果。但是,該方法在大規模數據集處理中的檢測準確率有待進一步提高。
弱無回溯模式匹配算法是一種用在大規模數據集中處理和分析匹配任務的算法,具有計算算力較高的特點,能夠在海量數據中快速完成模式匹配。弱無回溯模式匹配算法通過減少或避免回溯操作,提高大規模數據匹配和搜索效率。在敏感大數據的安全分級檢測方面,弱無回溯模式匹配算法的應用相對較少。基于此,本文引入弱無回溯模式匹配算法,提出一種新的敏感大數據安全分級檢測方法,旨在解決當前大數據環境下的安全問題。建立協方差矩陣捕捉不同敏感大數據之間的相關性,構建敏感大數據樣本庫,以便更好地表示敏感大數據屬性。設定約束條件,將敏感大數據子圖同構嵌入到樣本庫,確保敏感大數據特征得到保留,有助于后續的特征相似性匹配。采用弱無回溯模式匹配算法回溯匹配敏感大數據查詢圖索引,識別與查詢圖相似的敏感大數據樣本。使用核函數將查詢圖映射到高維空間,轉換查詢圖特征向量,使敏感大數據更易分類。采用剪枝的方式篩選與查詢圖相似度高的敏感大數據樣本,完成特征相似性匹配。利用相似度指數函數計算敏感因子,根據敏感因子結果大小劃分敏感大數據安全等級,以自動化對敏感大數據的分級檢測,為后續的安全管理和控制提供數據依據。
1"敏感大數據安全分級檢測方法
1.1nbsp;構建敏感大數據樣本庫
樣本庫是敏感大數據特征匹配的基礎,收集業務中產生、使用的敏感大數據分量形成樣本庫,能夠有效提高非線性數據的處理能力,并提高敏感大數據的質量和準確性。設定cl為第l個敏感大數據分量,其中l=1,2,…,n,建立協方差矩陣[7],捕捉不同敏感大數據之間的相關性:
Vl=∑Ml=1clτ(1)
式中,M為敏感大數據總體數量;τ為敏感大數據累計頻率。當Vl趨向無窮時,表明敏感大數據分量具有一定的隨機性且存在重復數據[8],因此需要清洗敏感大數據相關性:
Y=∑Mc=1zcVlb(2)
式中,zc為敏感大數據第c個目標源相似性概率分布的散度;b為協同過濾參數。標注清洗后的敏感大數據為c′l,構建敏感大數據樣本庫:
W=c′lM×I+dcYωc(x,y)(3)
式中,I為敏感大數據信息熵;dc為第c個目標源的相似性加權系數;ωcx,y為第c個目標源的網絡參數節點。將敏感大數據相關性劃分至W中,以便在后續特征相似性匹配階段獲得更好的結果,為敏感大數據安全分級檢測提供數據支持。
1.2"匹配敏感大數據特征相似性
在構建敏感大數據樣本庫W后,根據敏感大數據子圖同構性設定節點屬性約束條件、標簽完整約束條件、注入一致約束條件,協同節點數量、聚類系數、同配性、介數中心度等參數,保留敏感大數據特征,提高敏感大數據特征相似性匹配效率。
(1)節點屬性約束
xi,yi∈Hc,Mxi,Myi∈Hc(4)
式中,xi,yi為敏感大數據子圖節點[9];Hc為敏感大數據子圖介數中心度。通過節點屬性約束條件保持敏感大數據子圖中節點屬性在W中的嵌入過程一致,確保關鍵屬性信息不混淆。
(2)標簽完整約束
xi,yi∈Rc,lxi,yi=l(M[xi],M[yi])(5)
式中,Rc為聚類系數[10];lxi,yi為敏感大數據子圖節點的同配性。通過標簽完整約束條件確保敏感大數據子圖中的所有節點都被正確地嵌入到W中,且沒有遺漏或錯誤節點。
(3)注入一致約束
xi,yi∈Hc,xi≠yiMxi≠Myi(6)
通過注入一致約束條件確保敏感大數據子圖在W中的嵌入過程保持特征相似。
設定約束條件后,采用弱無回溯模式匹配算法[11]回溯匹配敏感大數據查詢圖索引,使其在匹配過程中避免不必要的回溯,提高敏感大數據特征相似性。弱無回溯模式匹配算法基于正向匹配和貪婪匹配原則[12],根據約束條件從查詢圖索引中選擇最合適的匹配路徑,并在匹配過程中盡可能地避免回溯,快速識別與查詢圖相似的敏感大數據樣本,減少計算消耗。使用弱無回溯模式匹配算法進行敏感大數據查詢圖索引的回溯匹配,有效提高查詢效率和響應速度,能夠適應不同規模和復雜度的查詢需求。具體回溯匹配操作如圖1所示。
圖1"回溯匹配過程示意圖
根據內積匹配準則對約束后的敏感大數據進行映射,將非線性映射函數φ輸入到W中[13],獲取新的敏感大數據特征空間:
G=φ∑ni=1lxi,yi(7)
設定η1kl,ko為核函數,使用核函數將查詢圖映射到高維空間:
η1kl,ko=exp"-G‖kl-ko‖2ζ2(8)
式中,kl為子圖直徑;ko為子圖的模塊距離;ζ為敏感大數據子圖中的邊數量。
設定μN為查詢圖特征向量,歸一化該特征向量后轉換查詢圖特征向量:
BN=μNβnoφko(9)
式中,βno為滯后階數;φ為累計和,使查詢圖特征向量與查詢圖索引對應。根據查詢圖特征向量之間的距離對敏感大數據候選項進行剪枝:
fp=BN∑ni=1ψhi+ki(10)
式中,ψ為運行時間;hi為存儲最短距離;ki為子圖的核心節點個數。采用余弦相似度[14]計算子圖核心節點特征向量,匹配敏感大數據候選項特征相似性:
cos"θ=∑nj=1vj×fp∑nj=1vj2×∑nj=1fp2"(11)
式中,vj為第j維的特征向量之間的數值差;τ為鄰居項目。具體弱無回溯模式匹配算法的敏感大數據征相似性匹配流程如圖2所示。
圖2"敏感大數據特征相似性匹配流程圖
1.3"敏感大數據自動化分級檢測
對特征相似性匹配后的敏感大數據進行特征相似性度量,為后續敏感大數據自動化分級檢測提供數據依據。引入熵參數[15]量化敏感大數據特征相似性:
ι=cos"θ∑nj=1cjnlg"cjn(12)
式中,cjn為敏感大數據分量類別n在第j維下的區間數香濃熵參數,即量化后的區間數。結合式(12)所示的計算結果,引入相似度指數函數[16]計算敏感因子:
κ=Dt∑nj=1Rjι(13)
式中,Dt為相似度函數;Rj為第j維的特征向量導數。
敏感因子κ是判斷敏感大數據安全分級的指標,通常在0~1之間。根據敏感因子結果將敏感大數據劃分為四個安全等級,具體如表1所示。
κ值越大則表明敏感大數據越不安全,根據κ值大小,及時判斷傳輸和存儲過程中隱私泄露、數據濫用、安全風險等情況。至此結合敏感大數據樣本庫和敏感大數據特征相似性匹配完成對敏感大數據的分級檢測,為后續的數據安全保障提供重要依據。
2"實驗結果與分析
2.1"實驗環境
選取國網冀北電力有限公司信息通信分公司的敏感大數據作為測試對象,結合配電網的實際運行情況,選擇電網賬戶數據包展開測試分析。網絡拓撲結構為局域網,帶寬為1"Gbps,通信方式為恒定字節速率,包速率為2.5"pkt/s,分組負載為700"bytes。敏感大數據以實時流、批量數據和周期性報告等形式進行傳輸,接收端與發送端之間距離為1000"km,發送信息時的比特數為1"bit,最大傳輸單元為1200"bytes。測試過程中的硬件、軟件參數如表2所示。
在電力有限公司信息通信環境場景下,使用Python中的NLP工具從視頻彈幕、社交媒體帖子、電子郵件等真實大數據中提取包含“銀行賬戶”“信用卡號碼”“財務報表”等詞匯的相關文本數據。使用正則表達式數據清洗方法,去除重復數據和無意義信息。使用Fast"Text詞向量訓練工具,將清洗后的文本數據用于訓練自定義的詞向量模型。通過訓練模型,將每個詞匯表示為一個向量,以便后續的相似性匹配。利用訓練好的詞向量模型,在預處理的文本數據中進行關鍵詞匹配,尋找與敏感信息相關的詞匯、短語以及規則相似性特征。根據匹配結果,使用Python內置的字符串搜索方法,標記敏感信息所在的文本數據。使用SQL"Server"2022數據庫處理工具創建表結構,將標記后的敏感信息存入數據庫,根據匹配到的信息完成分級。
2.2"實驗測試結果
2.2.1"敏感大數據安全分級準確度測試
將電網賬戶數據包按照視頻彈幕、社交媒體帖子、電子郵件劃分為3個數據集,視頻彈幕公開數據條數為37405條(敏感數據20394條),社交媒體帖子公開數據條數為29637條(敏感數據12963條)、電子郵件公開數據條數為28621條(敏感數據18309條)。利用勒索軟件向目標服務器發送大量請求,可以識別視頻彈幕數據集中少數敏感大數據,能夠精準識別社交媒體帖子數據集中所有個人信息敏感大數據,能夠獲取社交媒體帖子數據集中涉密不予公開的敏感大數據,進而造成電力有限公司信息通信環境下的敏感大數據存在安全風險。采用所提方法對視頻彈幕數據集、社交媒體帖子數據集、社交媒體帖子數據集進行相似度指數函數計算,獲取κ值,劃分敏感大數據安全等級,具體結果如表3所示。
根據表3結果可知,視頻彈幕數據集κ值為0.37,處于一般安全等級;社交媒體帖子數據集κ值為0.55,處于不安全等級;電子郵件數據集κ值為0.98,處于非常不安全等級。3個數據集的測試結果與當前電力有限公司信息通信環境下的敏感大數據實際安全等級一致,由此證明所提方法可以準確劃分敏感大數據安全等級,確保電力系統穩定運行。
2.2.2"敏感大數據特征匹配耗時測試
為了進一步驗證所提方法的敏感大數據安全分級有效性,將文獻[5]方法和文獻[6]方法作為對比方法,進行匹配耗時測試分析。對不同輸入規模的數據集進行敏感大數據特征匹配并記錄耗時,觀察并分析匹配時間隨輸入規模增加的趨勢,耗時時間越低則表明方法計算量越小,時間復雜度越低。將視頻彈幕數據集、社交媒體帖子數據集、電子郵件數據集進行組合,選擇整數數據量進行敏感大數據特征匹配。不同方法的匹配耗時測試結果如圖3所示。
分析圖3可知,隨著電網賬戶數據數量的增多,不同方法的匹配耗時均呈現上升趨勢。當數據數量達到8萬條時,文獻[5]方法的耗時為3.1"s,文獻[6]方法的耗時為3.2"s,而所提方法的耗時為2.7"s。這是因為所提方法采用了弱無回溯模式匹配算法回溯匹配敏感大數據查詢圖索引,設定約束條件從查詢圖索引中選擇最合適的匹配路徑,以此提高了敏感大數據特征匹配效率,進而表明所提方法的計算時間復雜度較低。
2.2.3"敏感大數據特征匹配收斂速度測試
由于敏感大數據可能包含大量的數據項和復雜的特征,特征匹配的收斂速度可能會受到多個因素的影響,包括算法的選擇、數據集的大小和復雜性,以及計算資源的可用性等。收斂速度越小表明方法能夠更快地收斂到準確結果。測試所提方法與文獻[5]方法、文獻[6]方法的特征匹配收斂速度,測試結果如圖4所示。
分析圖4可知,電網賬戶數據數量與收斂速度之間成正比關系,所提方法的收斂速度波動范圍較小,當數據達到5.3萬條時,收斂速度趨于平緩,而文獻[5]方法和文獻[6]方法的收斂速度波動趨勢較大。當數據數量達到8萬條時,所提方法的收斂速度為0.44,而文獻[5]方法的收斂速度為0.91,文獻[6]方法的收斂速度為0.74。這是因為所提方法以建立協方差矩陣的方式捕捉不同類型的敏感大數據,獲取其特征相關性,并以此為基礎構建敏感大數據樣本庫,進而提高了敏感大數據屬性顯示效果,由此提升了敏感大數據特征匹配收斂速度。
3"結"論
為了解決敏感大數據傳輸和存儲過程中的安全問題,提出了基于弱無回溯模式匹配算法的敏感大數據安全分級檢測方法。建立敏感大數據樣本庫,利用弱無回溯模式匹配算法回溯匹配敏感大數據查詢圖索引,通過余弦相似度計算完成敏感大數據特征相似性匹配。采用相似度指數函數計算敏感因子,完成敏感大數據自動化安全分級檢測。測試結果表明,所提方法敏感大數據安全分級準確度較高、特征匹配耗時較短、收斂速度較快。雖然所提方法在敏感大數據的安全分級檢測中具有較高的準確度和效率,但在數據傳輸和存儲過程的加密保護有待改進。未來的研究將結合本文成果,引入隱私保護算法、身份認證機制等進一步提高數據傳輸和存儲過程中的敏感大數據安全性,以期為敏感大數據保護和隱私安全領域做出積極貢獻。
參考文獻
[1]"方朝劍,胡新榮.基于模糊近似度的隱私敏感數據過濾算法[J].吉林大學學報(工學版),2023,53(4):1174-1180.
[2]"崔嵬,楊同軍,苗凱.基于代理重加密的財務數據安全共享技術[J].現代電子技術,2023,46(1):74-78.
[3]"張思琪,李曉會,江欣俞,等.面向醫療數據的AURTree差分隱私數據發布算法[J].計算機應用研究,2022,39(7):2162-2166+2171.
[4]"黃志清,解魯陽,張嚴心,等.基于區塊鏈的物聯網數據服務信譽評估模型[J].計算機工程,2022,48(1):33-42.
[5]"王瑋,龐婷婷.基于數據挖掘的城市軌道交通信息安全檢測[J].微型電腦應用,2022,38(2):113-115
[6]"高麗杰,薛麗香,馬照瑞,等.大數據RSA公鑰加密安全雙向檢測仿真[J].計算機仿真,2023,40(2):410-414
[7]"PERCIVAL"W"J,"FRIEDRICH"O,"SELLENTIN"E,"et"al."Matching"Bayesian"and"frequentist"coverage"probabilities"when"using"an"approximate"data"covariance"matrix[J]."Monthly"Notices"of"the"Royal"Astronomical"Society,"2022,"510(3):"3207-3221.
[8]"IKRAM"R"M"A,"GOLIATT"L,"KISI"O,"et"al."Covariance"matrix"adaptation"evolution"strategy"for"improving"machine"learning"approaches"in"streamflow"prediction[J]."Mathematics,"2022,"10(16):"2971.
[9]"于慧琳,陳煒,王琪,等.使用子圖推理實現知識圖譜關系預測[J].計算機科學與探索,2022,16(8):1800-1808.
[10]"郁湧,王瑩港,羅正國,等.基于聚類系數和節點中心性的鏈路預測算法[J].清華大學學報(自然科學版),2022,62(1):98-104.
[11]"古險峰,程艷艷,楊立英.基于回溯模式總結的魯棒近似子圖查詢算法[J].計算機工程與設計,2022,43(10):2822-2828.
[12]"申濱,孫萬平,張楠,等.基于加權二部圖及貪婪策略的蜂窩網絡D2D通信資源分配[J].電子與信息學報,2023,45(3):1055-1064.
[13]"王樂洋,羅鑫磊.非線性函數協方差傳播的Stein"Monte"Carlo方法[J].大地測量與地球動力學,2022,42(1):1-4.
[14]"WANG"F,"KONG"A"W"K."Exploiting"the"relationship"between"Kendall's"rank"correlation"and"cosine"similarity"for"attribution"protection[J]."Advances"in"Neural"Information"Processing"Systems,"2022,"35:"20580-20591.
[15]"嚴鈞,晏婉晨.基于Gumbel分布的熵風險度量的參數估計及漸近行為[J].河南師范大學學報(自然科學版),2022,50(1):67-72.
[16]"陶新民,王若彤,常瑞,等.基于低密度分割密度敏感距離的譜聚類算法[J].自動化學報,2020,46(7):1479-1495.