曹 忠
(山西廣播電視臺節目播送中心,山西 太原 030001)
考慮到傳統訪問控制策略的局限性,且在當前數據共享環境下面臨著信息安全問題,目前基于區塊鏈技術進行訪問控制已經成為熱點研究方向[1]。區塊鏈技術具有去中心化、不可篡改等優勢,可以通過構建智能合約,實現訪問控制與身份管理的結合,有效避免傳統訪問控制策略中的單點故障問題[2]。然而,這種訪問控制策略同樣面臨著單次驗證信任問題,因此仍然無法完全適用零信任網絡[3]??紤]到零信任網絡的特性,部分學者提出需要在分布式屬性訪問控制的基礎上,進一步對訪問行為的風險等級進行評估與劃分,從而進一步優化訪問控制的靈活性,提高基于區塊鏈技術的訪問控制手段在零信任網絡中的應用可行性[4]。鑒于此,本研究著重探討了零信任網絡中基于區塊鏈的訪問風險評估模型,以準確評估訪問控制風險,從而有效提高訪問行為的安全性。
零信任網絡的特征為對每個環節的訪問控制均需要驗證,通過該用戶的歷史訪問行為準確評估此次訪問風險,從而完全杜絕惡意用戶的非法訪問行為。根據這一特征,可考慮構建的訪問風險特征體系為“主體特征+資源特征+環境特征”,并對上述大類別進行詳細分類,最終確定8個訪問風險特征,分別為用戶賬號信息(account)、用戶所屬組(group)、請求資源地址(url)、請求終端ip(ip)、請求終端端口號(port)、請求終端所在虛擬網域編號(vlan)、請求終端連接交換機ip(ip_s)、訪問時間(time)[5-6]。
數據預處理流程如下:(1)數據清洗。通過數據清洗清理掉原始數據中的重復數據與不完整數據,避免此類數據對最終模型訓練結果的影響;(2)數據轉換。將清洗后的原始數據按照標簽編碼轉換為0~(n-1)的數值型特征。其中,n為該特征對應取值的數量。
用戶訪問風險評估的實質為回歸任務,因此可采用的機器學習算法有LightGBM算法、隨機森林算法、決策樹算法等,其中LightGBM算法具有訓練精度高、尋優時間短、占用內存少的優勢。因此本研究選擇該算法進行模型構建,并通過與其他3種算法的評估結果對比來驗證模型效果[7-8]。
為了提高模型性能,模型采用貝葉斯優化算法進行參數調節。該算法可以用指定的參數優化空間,快速確定最優參數組合,并且在參數調節過程中參考之前的參數優化信息,從而有效地降低迭代次數,更快速地鎖定目標函數最優值。貝葉斯優化算法的應用流程如圖1所示。

圖1 貝葉斯優化算法的應用流程
本研究采用的概率代理模型為高斯過程,并采用采集函數實現均值越大的點與方差越大的點之間的平衡,從而確定最佳的優化搜索方向,避免出現局部最優問題。在上述流程下,本文對LightGBM模型進行優化,提高用戶訪問風險評估的精準度,縮短模型響應時間,具體構建流程如下:
(1)明確模型的重要參數,對應設置好尋優空間,隨機生成初始化樣本點。在高斯過程中輸入初始化樣本點,對構建的LightGBM模型進行訓練??紤]到模型精度問題,在目標函數設定值時,取均方根誤差的相反值,原因如下:貝葉斯優化算法在迭代時,其參數最優取決于目標函數值,該值越大說明參數結果越優,而均方根誤差值越低,說明最終確定的評估結果越準確。同時,利用均方根誤差的相反值進行高斯代理模型修正,以達到不斷提升模型算法精度的目的。
(2)在高斯代理模型中,利用采集函數確定下一組參數,獲取相應的均方根誤差值,若此次獲取到的目標函數值優于上一輪,則更新對應的數據集,再次對高斯代理模型進行修正。
(3)當某一組參數滿足了目標函數值設定要求,或者貝葉斯優化算法達到最大迭代次數,執行終止,輸出對應的參數組合,確定最終目標函數值。
(4)將貝葉斯優化算法得到的最優參數組合輸入LightGBM模型,從而完成基于區塊鏈的訪問風險評估模型構建。
為對比分析不同算法模型的實際效果,選擇使用決定系數、均方根誤差指標進行效果評估。決定系數和均方根誤差的計算方法如下所示:
(1)
(2)

結合用戶訪問風險評估要求,確定了最終的綜合評分函數,計算方式如下:
(3)
式中,RMSE越小且R2越接近1,該評分結果越大,表明模型評估性能越好。
本研究采用五折交叉驗證法對模型性能進行驗證,驗證流程如圖2所示。將所有訓練數據劃分為5份,選擇4份進行模型訓練,另一份則作為驗證集,采用循環驗證的方式進行5次驗證,計算得到5次結果的平均值,用于評估該模型性能。

圖2 五折交叉驗證流程
本文在區塊鏈訪問風險評估模型構建中,按照0~1的訪問風險值進行等級劃分,根據區塊鏈訪問風險情況,將用戶風險值劃分為4個等級,分別為:一級風險,風險值為0~0.4,此時的訪問內容包含系統讀寫、查詢、上傳和下載;二級風險,風險值為0.4~0.6,用戶訪問可進行讀寫、查詢;三級風險,風險值為0.6~0.8,用戶訪問可進行讀和查詢;四級風險,風險值為0.8~1,此時系統拒絕用戶訪問,限制用戶訪問權限。
本次模型測試數據均來自防泄露產品日志庫,其中包含用戶訪問行為管理日志、用戶訪問審計日志,所有用于測試的數據均進行了安全篩選操作,可進行公開使用。按照安全和隱私保護要求,經過篩選預處理后的數據共計有514 850條,本次測試將所有數據劃分為訓練集和測試集,數據的劃分比例為4∶1。
在模型參數設置中結合模擬分析要求進行了關鍵參數處理,具體設置情況如表1所示。
本文提出的基于貝葉斯優化的LightGBM模型參數設置內容如表2所示。

表2 基于貝葉斯優化的LightGBM模型參數取值范圍
參數設置中將以上參數和相應的取值范圍直接帶入模型,對LightGBM模型進行優化處理,選取RMSE值作為目標函數值,優化中迭代次數為30次,算法優化執行中,每一次迭代處理會得到一個目標函數值,當下一輪迭代輸出目標函數值明顯優于之前迭代輸出值后,輸出的迭代結果會被進行加粗標記。本次模型參數設置中,在第16次迭代中獲取了最優值,各項參數為:參數1為889,參數2為12,參數3為11.24,參數4為16,參數5為0.23,參數6為0.45,參數7為0.17,參數8為488。
本次模型測試中選擇使用五折交叉驗證法獲取不同模型的平均指標。經過測算分析獲得決策樹模型、隨機森林模型、XGBoost模型、LightGBM模型和基于貝葉斯優化的LightGBM模型score值分別為:3.04、3.41、3.45、4.18、5.22。該項數值表明基于貝葉斯優化的LightGBM模型具有較好的擬合性,其整體準確率更高。
經過測算分析獲得決策樹模型、隨機森林模型、XGBoost模型、LightGBM模型和基于貝葉斯優化的LightGBM模型的訓練時間分別為:8.38 s、2 245 s、193 s、5.56 s、30.26 s。結果表明決策樹模型、LightGBM模型和基于貝葉斯優化的LightGBM模型能夠滿足實際應用需求,實際訓練時間較短,另外兩種模型的訓練時間過長,訓練成本較高。該結果同樣證明了優化后的模型能夠滿足樣本訓練要求,整體訓練時間較低。
綜合不同模型的訓練測試結果,可發現基于貝葉斯優化的LightGBM模型相對于其他模型更加優秀,模型的擬合度、準確度與訓練速度都能夠滿足應用要求,因此,運用該模型可實現對用戶訪問風險的持續評估與分析,根據系統訪問控制要求可有效預防零信任網絡對系統的威脅,提高整體的風險預測防范能力,保障系統資源安全。
考慮到基于區塊鏈技術的訪問控制仍然存在一定風險,不適合應用在零信任網絡中,需要構建一種有效的訪問風險評估機制用于完善這種訪問控制手段。研究提出了基于區塊鏈的訪問風險評估模型,模型采用精準度較高、評估速度較快的LightGBM模型,并采用貝葉斯優化算法對LightGBM模型進行優化,通過高斯過程控制尋優方向,實驗證明了該模型的有效性,適用于基于區塊鏈技術的訪問控制,可以提升訪問控制的安全性。