曹 忠
(山西廣播電視臺節(jié)目播送中心,山西 太原 030001)
考慮到傳統(tǒng)訪問控制策略的局限性,且在當前數(shù)據(jù)共享環(huán)境下面臨著信息安全問題,目前基于區(qū)塊鏈技術(shù)進行訪問控制已經(jīng)成為熱點研究方向[1]。區(qū)塊鏈技術(shù)具有去中心化、不可篡改等優(yōu)勢,可以通過構(gòu)建智能合約,實現(xiàn)訪問控制與身份管理的結(jié)合,有效避免傳統(tǒng)訪問控制策略中的單點故障問題[2]。然而,這種訪問控制策略同樣面臨著單次驗證信任問題,因此仍然無法完全適用零信任網(wǎng)絡(luò)[3]。考慮到零信任網(wǎng)絡(luò)的特性,部分學(xué)者提出需要在分布式屬性訪問控制的基礎(chǔ)上,進一步對訪問行為的風險等級進行評估與劃分,從而進一步優(yōu)化訪問控制的靈活性,提高基于區(qū)塊鏈技術(shù)的訪問控制手段在零信任網(wǎng)絡(luò)中的應(yīng)用可行性[4]。鑒于此,本研究著重探討了零信任網(wǎng)絡(luò)中基于區(qū)塊鏈的訪問風險評估模型,以準確評估訪問控制風險,從而有效提高訪問行為的安全性。
零信任網(wǎng)絡(luò)的特征為對每個環(huán)節(jié)的訪問控制均需要驗證,通過該用戶的歷史訪問行為準確評估此次訪問風險,從而完全杜絕惡意用戶的非法訪問行為。根據(jù)這一特征,可考慮構(gòu)建的訪問風險特征體系為“主體特征+資源特征+環(huán)境特征”,并對上述大類別進行詳細分類,最終確定8個訪問風險特征,分別為用戶賬號信息(account)、用戶所屬組(group)、請求資源地址(url)、請求終端ip(ip)、請求終端端口號(port)、請求終端所在虛擬網(wǎng)域編號(vlan)、請求終端連接交換機ip(ip_s)、訪問時間(time)[5-6]。
數(shù)據(jù)預(yù)處理流程如下:(1)數(shù)據(jù)清洗。通過數(shù)據(jù)清洗清理掉原始數(shù)據(jù)中的重復(fù)數(shù)據(jù)與不完整數(shù)據(jù),避免此類數(shù)據(jù)對最終模型訓(xùn)練結(jié)果的影響;(2)數(shù)據(jù)轉(zhuǎn)換。將清洗后的原始數(shù)據(jù)按照標簽編碼轉(zhuǎn)換為0~(n-1)的數(shù)值型特征。其中,n為該特征對應(yīng)取值的數(shù)量。
用戶訪問風險評估的實質(zhì)為回歸任務(wù),因此可采用的機器學(xué)習(xí)算法有LightGBM算法、隨機森林算法、決策樹算法等,其中LightGBM算法具有訓(xùn)練精度高、尋優(yōu)時間短、占用內(nèi)存少的優(yōu)勢。因此本研究選擇該算法進行模型構(gòu)建,并通過與其他3種算法的評估結(jié)果對比來驗證模型效果[7-8]。
為了提高模型性能,模型采用貝葉斯優(yōu)化算法進行參數(shù)調(diào)節(jié)。該算法可以用指定的參數(shù)優(yōu)化空間,快速確定最優(yōu)參數(shù)組合,并且在參數(shù)調(diào)節(jié)過程中參考之前的參數(shù)優(yōu)化信息,從而有效地降低迭代次數(shù),更快速地鎖定目標函數(shù)最優(yōu)值。貝葉斯優(yōu)化算法的應(yīng)用流程如圖1所示。

圖1 貝葉斯優(yōu)化算法的應(yīng)用流程
本研究采用的概率代理模型為高斯過程,并采用采集函數(shù)實現(xiàn)均值越大的點與方差越大的點之間的平衡,從而確定最佳的優(yōu)化搜索方向,避免出現(xiàn)局部最優(yōu)問題。在上述流程下,本文對LightGBM模型進行優(yōu)化,提高用戶訪問風險評估的精準度,縮短模型響應(yīng)時間,具體構(gòu)建流程如下:
(1)明確模型的重要參數(shù),對應(yīng)設(shè)置好尋優(yōu)空間,隨機生成初始化樣本點。在高斯過程中輸入初始化樣本點,對構(gòu)建的LightGBM模型進行訓(xùn)練。考慮到模型精度問題,在目標函數(shù)設(shè)定值時,取均方根誤差的相反值,原因如下:貝葉斯優(yōu)化算法在迭代時,其參數(shù)最優(yōu)取決于目標函數(shù)值,該值越大說明參數(shù)結(jié)果越優(yōu),而均方根誤差值越低,說明最終確定的評估結(jié)果越準確。同時,利用均方根誤差的相反值進行高斯代理模型修正,以達到不斷提升模型算法精度的目的。
(2)在高斯代理模型中,利用采集函數(shù)確定下一組參數(shù),獲取相應(yīng)的均方根誤差值,若此次獲取到的目標函數(shù)值優(yōu)于上一輪,則更新對應(yīng)的數(shù)據(jù)集,再次對高斯代理模型進行修正。
(3)當某一組參數(shù)滿足了目標函數(shù)值設(shè)定要求,或者貝葉斯優(yōu)化算法達到最大迭代次數(shù),執(zhí)行終止,輸出對應(yīng)的參數(shù)組合,確定最終目標函數(shù)值。
(4)將貝葉斯優(yōu)化算法得到的最優(yōu)參數(shù)組合輸入LightGBM模型,從而完成基于區(qū)塊鏈的訪問風險評估模型構(gòu)建。
為對比分析不同算法模型的實際效果,選擇使用決定系數(shù)、均方根誤差指標進行效果評估。決定系數(shù)和均方根誤差的計算方法如下所示:
(1)
(2)

結(jié)合用戶訪問風險評估要求,確定了最終的綜合評分函數(shù),計算方式如下:
(3)
式中,RMSE越小且R2越接近1,該評分結(jié)果越大,表明模型評估性能越好。
本研究采用五折交叉驗證法對模型性能進行驗證,驗證流程如圖2所示。將所有訓(xùn)練數(shù)據(jù)劃分為5份,選擇4份進行模型訓(xùn)練,另一份則作為驗證集,采用循環(huán)驗證的方式進行5次驗證,計算得到5次結(jié)果的平均值,用于評估該模型性能。

圖2 五折交叉驗證流程
本文在區(qū)塊鏈訪問風險評估模型構(gòu)建中,按照0~1的訪問風險值進行等級劃分,根據(jù)區(qū)塊鏈訪問風險情況,將用戶風險值劃分為4個等級,分別為:一級風險,風險值為0~0.4,此時的訪問內(nèi)容包含系統(tǒng)讀寫、查詢、上傳和下載;二級風險,風險值為0.4~0.6,用戶訪問可進行讀寫、查詢;三級風險,風險值為0.6~0.8,用戶訪問可進行讀和查詢;四級風險,風險值為0.8~1,此時系統(tǒng)拒絕用戶訪問,限制用戶訪問權(quán)限。
本次模型測試數(shù)據(jù)均來自防泄露產(chǎn)品日志庫,其中包含用戶訪問行為管理日志、用戶訪問審計日志,所有用于測試的數(shù)據(jù)均進行了安全篩選操作,可進行公開使用。按照安全和隱私保護要求,經(jīng)過篩選預(yù)處理后的數(shù)據(jù)共計有514 850條,本次測試將所有數(shù)據(jù)劃分為訓(xùn)練集和測試集,數(shù)據(jù)的劃分比例為4∶1。
在模型參數(shù)設(shè)置中結(jié)合模擬分析要求進行了關(guān)鍵參數(shù)處理,具體設(shè)置情況如表1所示。
本文提出的基于貝葉斯優(yōu)化的LightGBM模型參數(shù)設(shè)置內(nèi)容如表2所示。

表2 基于貝葉斯優(yōu)化的LightGBM模型參數(shù)取值范圍
參數(shù)設(shè)置中將以上參數(shù)和相應(yīng)的取值范圍直接帶入模型,對LightGBM模型進行優(yōu)化處理,選取RMSE值作為目標函數(shù)值,優(yōu)化中迭代次數(shù)為30次,算法優(yōu)化執(zhí)行中,每一次迭代處理會得到一個目標函數(shù)值,當下一輪迭代輸出目標函數(shù)值明顯優(yōu)于之前迭代輸出值后,輸出的迭代結(jié)果會被進行加粗標記。本次模型參數(shù)設(shè)置中,在第16次迭代中獲取了最優(yōu)值,各項參數(shù)為:參數(shù)1為889,參數(shù)2為12,參數(shù)3為11.24,參數(shù)4為16,參數(shù)5為0.23,參數(shù)6為0.45,參數(shù)7為0.17,參數(shù)8為488。
本次模型測試中選擇使用五折交叉驗證法獲取不同模型的平均指標。經(jīng)過測算分析獲得決策樹模型、隨機森林模型、XGBoost模型、LightGBM模型和基于貝葉斯優(yōu)化的LightGBM模型score值分別為:3.04、3.41、3.45、4.18、5.22。該項數(shù)值表明基于貝葉斯優(yōu)化的LightGBM模型具有較好的擬合性,其整體準確率更高。
經(jīng)過測算分析獲得決策樹模型、隨機森林模型、XGBoost模型、LightGBM模型和基于貝葉斯優(yōu)化的LightGBM模型的訓(xùn)練時間分別為:8.38 s、2 245 s、193 s、5.56 s、30.26 s。結(jié)果表明決策樹模型、LightGBM模型和基于貝葉斯優(yōu)化的LightGBM模型能夠滿足實際應(yīng)用需求,實際訓(xùn)練時間較短,另外兩種模型的訓(xùn)練時間過長,訓(xùn)練成本較高。該結(jié)果同樣證明了優(yōu)化后的模型能夠滿足樣本訓(xùn)練要求,整體訓(xùn)練時間較低。
綜合不同模型的訓(xùn)練測試結(jié)果,可發(fā)現(xiàn)基于貝葉斯優(yōu)化的LightGBM模型相對于其他模型更加優(yōu)秀,模型的擬合度、準確度與訓(xùn)練速度都能夠滿足應(yīng)用要求,因此,運用該模型可實現(xiàn)對用戶訪問風險的持續(xù)評估與分析,根據(jù)系統(tǒng)訪問控制要求可有效預(yù)防零信任網(wǎng)絡(luò)對系統(tǒng)的威脅,提高整體的風險預(yù)測防范能力,保障系統(tǒng)資源安全。
考慮到基于區(qū)塊鏈技術(shù)的訪問控制仍然存在一定風險,不適合應(yīng)用在零信任網(wǎng)絡(luò)中,需要構(gòu)建一種有效的訪問風險評估機制用于完善這種訪問控制手段。研究提出了基于區(qū)塊鏈的訪問風險評估模型,模型采用精準度較高、評估速度較快的LightGBM模型,并采用貝葉斯優(yōu)化算法對LightGBM模型進行優(yōu)化,通過高斯過程控制尋優(yōu)方向,實驗證明了該模型的有效性,適用于基于區(qū)塊鏈技術(shù)的訪問控制,可以提升訪問控制的安全性。