







摘要:為提高發電行業的信息安全防護水平,保障電網的安全穩定運行,文章利用集成學習,開展了發電行業數字化轉型信息安全風險預測模型研究。文章首先識別發電行業數字化轉型信息安全風險,確定安全風險等級與優先級;其次,從數字化轉型原始數據中,文章識別并提取出對預測信息安全風險有用的特征;在此基礎上,文章利用集成學習,構建風險預測模型,對潛在的信息安全風險作出全方位的預測。實驗結果表明,該模型在風險預測覆蓋率上表現出明顯的優勢,均達到了98%以上的預測覆蓋率,提高了對信息安全風險的預測能力。
關鍵詞:集成學習;發電行業;數字化轉型;信息;安全;風險;預測
中圖分類號:F271 "文獻標志碼:A
0 引言
作為國民經濟的重要支柱,發電企業數字化轉型至關重要。通過數字化轉型,發電企業可以實現對發電設備的實時監測與智能控制,優化發電過程,提高發電效率;同時,還能實現能源的高效傳輸與分配,提升供電可靠性和穩定性。此外,數字化轉型還有助于推動清潔能源的廣泛應用,減少對傳統能源的依賴,降低碳排放,促進可持續發展。然而,數字化轉型在帶來諸多便利的同時,也顯著增加了信息系統的復雜度和安全風險。發電行業作為關鍵基礎設施領域,其信息系統一旦遭受黑客攻擊、惡意軟件等安全威脅,可能導致電網運行出現故障,甚至引發災難性事故,威脅國家經濟安全和人民生命財產安全。因此,該研究構建發電行業數字化轉型信息安全風險預測模型,對于保障發電行業信息安全、促進數字化轉型健康發展具有重要意義。當前,傳統的發電行業數字化轉型信息安全風險預測模型雖然取得了一定的成就,但是在實際應用中仍然存在缺陷。其中,代榮家[1]提出研究依賴于單一的算法,在處理復雜、多變的信息安全風險時,可能因其固有的局限性而導致預測精度不高。甘新業等[2]提出研究未能充分利用發電行業數字化轉型過程中產生的大量、多維度的數據,影響了預測結果的可靠性。
集成學習作為一種將多個預測模型組合起來進行決策的方法,在預測準確性和穩定性方面具有顯著優勢。集成學習通過結合多個模型的預測結果,可以減少單一模型的偏差和方差,提高預測的準確性。同時,由于考慮了多個模型的意見,集成學習對于異常數據和噪聲的魯棒性更強,能夠增強預測的穩定性[3]。這些特點使得集成學習在發電行業數字化轉型信息安全風險預測中具有廣泛的應用前景。因此,文章利用集成學習,開展了發電行業數字化轉型信息安全風險預測模型研究。
1 發電行業數字化轉型信息安全風險識別
發電行業數字化轉型信息安全風險識別是一個系統性、全面性的過程,其目的在于發現并評估數字化轉型過程中可能出現的信息安全威脅。該研究收集發電行業數字化轉型的相關文檔、計劃、系統架構圖等信息,明確數字化轉型涉及的領域、系統和業務流程。基于歷史經驗、行業標準和專家意見,初步識別可能存在的信息安全風險。該研究對發電行業數字化轉型信息安全的層次結構作出分析,如圖1所示。
如圖1所示,首先,該研究深入地識別并分類可能導致關鍵信息資產遭受損失或破壞的各種潛在風險行為或事件,包括但不限于惡意黑客發起的網絡攻擊、計算機病毒及勒索軟件的感染、內部人員的誤操作或故意泄露等[4]。其次,該研究通過專業的安全審計與滲透測試,全面評估系統架構、網絡布局及應用程序代碼中潛藏的弱點,比如未修復的安全漏洞、不恰當的安全配置與權限設置錯誤等[5]。在此基礎上,該研究進一步對組織的核心價值資產進行價值評估,
這涵蓋了關鍵業務數據的敏感性、系統運行的穩定性對業務連續性的重要性以及網絡基礎設施的支撐能力等,確保安全策略與防護措施能夠精準對接,有效保護組織免受信息安全威脅。使用公式(1),計算信息安全風險值:
R=T×V×A(1)
根據計算得到風險值,對信息安全風險進行排序和優先級劃分,如表1所示。
按照表1,該研究優先處理高風險,確保核心業務和數據的安全性。從風險值來看,外部攻擊(等級Ⅰ,風險值90)因其可能導致的嚴重后果(如惡意攻擊引發的數據泄露)而被列為最高優先級。這類風險直接威脅到企業的核心資產和業務連續性。緊隨其后的是內部泄密(等級Ⅱ,風險值75)和配置錯誤(等級Ⅲ,風險值60),這兩類風險雖不如外部攻擊直接猛烈,但同樣不容忽視。內部泄密可能源于惡意行為,配置錯誤則可能因系統漏洞被利用。至于病毒感染(等級Ⅴ,風險值45),雖然其優先級相對較低,但考慮到其對系統穩定性的潛在影響,仍須注意其風險性。通過以上流程和方法,發電行業數字化轉型信息安全風險識別能夠系統地識別和評估潛在的信息安全威脅。
2 風險特征提取
風險特征提取是構建基于集成學習的發電行業數字化轉型信息安全風險預測模型的重要步驟之一。這一過程旨在從原始數據中識別并提取出對預測信息安全風險有用的特征[6]。該研究從發電企業的各種信息源(如系統日志、網絡流量、用戶行為記錄等)中收集原始數據。去除重復、不完整或錯誤的數據項,對數據進行標準化處理,如公式(2)所示:
Xn=(X-Xmin)(Xmax-Xmin)(2)
其中,X表示原始數據值;Xmax、Xmin分別表示數據集中的最小值和最大值。通過標準化處理,將數據縮放到固定區間。在此基礎上,該研究深入理解發電行業數字化轉型的信息安全需求,識別可能影響信息安全的關鍵因素[7]。基于業務理解和數據特性,初步篩選出可能與信息安全風險相關的特征。該研究根據初步篩選出的特征,通過組合的方式構造新的特征。設用戶登錄嘗試次數為N,成功次數為S,則異常登錄行為特征F可以構造為:
F=N-SN(3)
這個特征反映了用戶登錄嘗試中失敗的比例,比例越高可能表示異常行為。其次,利用卡方檢驗,評估特征與信息安全風險之間的相關性。卡方統計量χ2的計算公式為;
χ2=∑(O-E)2E(4)
其中,O表示觀察頻數;E表示期望頻數。卡方值越大,表示特征與風險之間的關聯性越強。在此基礎上,該研究對于特征X和信息安全風險Y,計算其互信息,如公式(5)所示:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)(5)
其中,p(x,y)表示X和Y的聯合概率分布;p(x)、p(y)分別表示X和Y的邊緣概率分布。互信息值越大,表示特征X對預測風險Y越有用。
通過以上流程和內容,可以系統地提取出對發電行業數字化轉型信息安全風險預測有用的特征,為后續的模型構建和預測分析提供有力支持。
3 基于集成學習的風險預測模型構建
發電行業數字化轉型信息安全風險特征提取完畢后,在此基礎上,該研究利用集成學習,構建風險預測模型,對潛在的信息安全風險作出全方位的預測。
需要明確預測的具體風險類型,如信用風險、市場風險、操作風險等。基于明確的預測目標,從多元化的數據源中搜集相關數據。這些數據源可能包括:(1)企業內部數據庫,其中存儲著豐富的歷史交易記錄、員工行為數據等;(2)公共數據庫,如行業報告、政府發布的統計數據;(3)專業的第三方數據提供商,它們能提供更為詳盡和專業的市場情報與風險評估數據。在數據收集的過程中,須特別關注那些能反映歷史風險事件及其相關特征的指標,以便為后續的模型訓練提供堅實的基礎。
該研究依據數據的特性和預測的具體需求,挑選多個基礎模型進行訓練,如(1)決策樹模型,其通過樹狀結構直觀展示決策過程;(2)隨機森林模型,通過集成多個決策樹來提高預測準確性和穩定性;(3)支持向量機模型,擅長處理高維數據和分類問題。為了科學評估模型的性能,將標準化處理后的數據集劃分為訓練集、驗證集和測試集,分別用于模型的訓練、參數調優和最終性能的評估。在模型訓練階段,該研究利用訓練集數據對每個基礎模型進行充分的訓練,使其能夠學習并捕捉到數據中的規律和模式。該研究通過驗證集數據對模型進行細致的調優,包括調整模型參數、優化模型結構等,以選擇出表現最佳的模型。這些經過訓練的模型將各自輸出對信息安全風險的預測結果。
該研究根據基礎模型的預測結果和預測目標的特點,選擇加權平均的集成策略進行集成,如公式(6)所示。
E=∑ni=1wi×Mi(6)
其中,E表示集成模型的預測結果;wi表示第i個基礎模型性能分配的權重,確保所有權重的和為1;Mi表示第i個基礎模型對同一樣本的預測結果(通常是概率值或風險評分);n表示基礎模型的數量。使用測試集數據對集成模型進行評估,根據評估結果,調整基礎模型的參數、權重分配或嘗試新的基礎模型,以優化集成模型的性能。將訓練好的集成模型部署到發電企業的信息系統中,實現實時或定時的信息安全風險預測。該研究根據集成模型的預測結果,制定相應的風險預警和應對措施,以降低信息安全風險對發電行業數字化轉型的影響。當預測到網絡攻擊風險較高時,可以加強網絡安全防護措施;當預測到數據泄漏風險較高時,可以加強數據加密和訪問控制等。
4 實驗分析
4.1 實驗準備
文章基于集成學習的發電行業數字化轉型信息安全風險預測模型的實驗,精心選取了R大型發電企業作為主要研究對象。該企業作為行業內的領軍企業,正積極推進數字化轉型,涉及多個信息系統和業務流程,其數字化轉型進程具有高度的代表性和研究價值。實驗收集了該企業過去3年內的信息安全事件數據、網絡流量數據、系統日志數據以及相關的業務運營數據。數據樣本總數為10萬條,其中包括已知的信息安全風險事件(正樣本)7000條以及未發生安全事件的正常數據(負樣本)93000條。
為了確保實驗的順利進行,搭建如表2所示的實驗環境。
在此基礎上,按照上文提出的流程構建預測模型,對模型的性能進行測試。
4.2 預測結果分析
該研究選擇將風險預測覆蓋率作為此次實驗的評估指標,即模型預測出的風險事件占實際發生風險事件的比例。文章實驗模擬設置100個實際發生的風險事件作為測試集,這些事件未出現在訓練集中。文章使用R大型發電企業過去幾年的信息安全數據,包含實際發生的風險事件和未發生風險的正常事件。對比文章提出的基于集成學習的預測模型(模型A)與代榮家[1]、甘新業等[2]提出的2種傳統模型(模型B、模型C)的風險預測覆蓋率,如圖2所示。
通過圖2的對比結果可以得知,文章提出的基于集成學習的預測模型在風險預測覆蓋率上表現出明顯的優勢,均達到了98%以上的預測覆蓋率。相比之下,2種傳統模型的預測覆蓋率較低。這一結果表明,集成學習模型通過結合多個基學習器的預測結果,能夠更有效地捕捉數據中的復雜模式和特征,從而提高對信息安全風險的預測能力。因此,可以得出結論:在發電行業數字化轉型信息安全風險預測中,基于集成學習的預測模型具有更高的預測覆蓋率和更好的預測性能,是更為合適的選擇。這一結論為發電企業提高信息安全風險管理水平提供了有力的技術支持。
5 結語
該研究對于發電行業數字化轉型信息安全風險預測模型的構建和應用具有重要的理論意義和實踐價值。一方面,該研究通過構建科學有效的預測模型,為發電行業提供了一套切實可行的信息安全風險評估和預警工具;另一方面,該研究通過模型的實際 "應用,可以顯著提高發電行業的信息安全防護水平,保障電網的安全穩定運行。未來,隨著技術的不斷進步和應用場景的不斷拓展,信息安全風險預測模型將在發電行業發揮更加重要的作用,推動發電行業的數字化轉型向更高層次邁進。
參考文獻
[1]代榮家.基于灰色模型的變電倒閘操作風險預測方法研究[J].電工技術,2024(2):121-123.
[2]甘新業,張天怡,曹穎,等.多源數據集成的光伏企業經營風險預測研究[J].工程管理科技前沿,2023(3):37-44.
[3]康文倩.基于改進AHP算法的電力監控網絡安全風險評估方法[J].自動化與儀器儀表,2022(10):171-174.
[4]李明鈺,牛東曉,張瀟丹,等.考慮多價值鏈協同的電力設備制造企業經營風險預測研究[J].工程管理科技前沿,2022(3):53-60.
[5]趙彩,許大煒.基于層次分析法的網絡涉密信息風險評估系統設計[J].電子設計工程,2022(7):91-95.
[6]程永新,廖竣鍇,付江,等.基于加權時間序列的跨域交換風險智能評估預測系統設計[J].通信技術,2022(3):359-366.
[7]曹令軍.基于人工智能的配電網風險態勢預測方法研究[J].科學技術創新,2021(28):30-32.
(編輯 王永超)
Research on the information security risk prediction model of digital transformation of power generation industry based on integrated learning
LIU" Xiaohan, LUO" Jin
(Huadian Jinsha River Upstream Hydropower Development Co., Ltd., Chengdu 610041, China)
Abstract: In order to improve the level of information security protection in the power generation industry and ensure the safe and stable operation of the power grid, this paper uses integrated learning to carry out the research on the information security risk prediction model of the digital transformation of the power generation industry. Firstly, the paper identifies the information security risks of the digital transformation of the power generation industry, and determines the security risk level and priority. Secondly, from the original data of the digital transformation, the paper identifies and extracts the features that are useful for predicting information security risks. On this basis, the paper uses ensemble learning to contruct a risk prediction model, which makes a comprehensive prediction of potential information security risks. The experimental results show that the model shows obvious advantages in the risk prediction coverage, which reaches more than 98%, and improves the prediction ability of information security risk.
Key words: integrated learning; power generation industry; digital transformation; information; security; risk; forecast