




摘 要:針對工業以太網通信系統的快速收斂和故障自愈問題,引入一種基于聚類算法的工業以太網運行態勢感知技術,以加強工業以太網通信系統工程應用的魯棒性和免維護性。在現有網絡態勢感知技術研究基礎上,以風電場環網為例,提出了風電場環網配置行為感知方法和網絡運行態勢感知方法。使用基于改進的K-Means聚類算法和SNMP簡單網絡管理協議的風電場環網運行態勢感知技術,對風電場環網的運行狀態進行實時采集、感知和管理,從而使得風電場環網具備自學習技術,并在減少人為干預的情況下可以故障自愈。該方法解決了網絡異常檢測系統收集的數據中包含不相關特征屬性導致檢測算法準確率降低、實時性不高等問題,風電場應用結果表明其具有較好的實用價值。
關鍵詞:K-Means聚類算法;工業以太網;風電場;態勢感知
中圖分類號:TP274" " 文獻標志碼:A" " 文章編號:1671-0797(2024)06-0083-06
DOI:10.19514/j.cnki.cn32-1628/tm.2024.06.022
0" " 引言
近年來,風電、核電、交通等工業領域的數據通信系統已經越來越趨向于使用工業以太網技術。在工業領域的應用場合,用戶對以太網的可靠性要求越來越高[1-2]。隨著工業以太網的廣泛應用,國內外學者在網絡冗余方面做了大量的工作來提高工業以太網的可靠性[3-5]。冗余技術采用環網組網架構并引入了多種環網協議,因此也增加了很多不確定性,配置不當也可能給網絡帶來環路故障。在風力發電行業,風電場網絡故障會導致能量管理平臺系統無法控制風機,SCADA系統無法監控風機,甚至風機控制系統死機。
要準確感知工業以太網運行情況,建立網絡運行態勢感知系統是一種有效的手段。文獻[6]深入研究了網絡態勢感知技術,提出了基于空間流量聚類的網絡態勢感知模型。文獻[7]提出了網絡運行態勢概念和運行態勢感知模型來反映網絡整體運行質量問題。在工業控制網絡上,文獻[8]研究了基于粒子濾波的工業控制網絡態勢感知建模。文獻[9]提出一種將大數據和圖神經網絡模型聯合應用于工控網絡態勢感知技術的研究方法。聚類分析作為一種數據挖掘方法,目前也已經廣泛應用于網絡數據分析領域。文獻[10]研究了工業控制系統的網絡安全檢測和防御資源優化問題。文獻[11]提出一種基于信息熵和改進K-Means聚類的混合異常檢測特征選擇方法。
目前,網絡態勢感知研究多側重于安全態勢研究[12],但針對工業以太網,網絡運行態勢的研究則具有更高的實用價值。本文在現有技術的研究基礎上,引入了一種基于K-Means聚類算法的工業以太網運行態勢感知技術,對風電場環網的運行狀態進行實時采集、感知和管理。針對風電場環網提出了網絡配置行為感知和網絡運行態勢感知方法,從而使得網絡具備自學習能力,并能在減少人為干預的前提下故障自愈。
1" " K-Means聚類算法介紹
聚類分析是數據挖掘中將物理或抽象對象的集合分成由類似對象組成的多個類的方法。K-Means聚類算法是由J. B. MacQueen最早提出的,是聚類分析中應用最為廣泛的一種學習算法[13-15]。該算法的基本思想是在給定聚類組數k值的條件下,通過多次迭代將n個樣本數據分成k組。算法選用歐氏距離作為相似度量度方法,目標函數可表示為:
式中:dw(xi,xj)為樣本xi和樣本xj在m維向量空間下維度加權后計算出來的歐氏距離;xid和xjd分別為在向量空間第d維下的樣本點xi和樣本點xj的數據值。
密度距離因子用來選取距離越遠密度越大的點作為下一個初始中心。
本文通過以下步驟進行初始聚類中心優化:
步驟1,給定數據集X,根據式(5)計算出所有樣本點的平均距離AvgDist(X)。
步驟2,根據式(6)計算所有樣本點的密度。
步驟3,計算出所有樣本點的密度后,按從大到小的順序將樣本數據存入數據集合U,選取樣本點密度最大的點x1作為第一個初始聚類中心放入初始中心點集合C中,并刪除距其AvgDist(X)之內的樣本。
步驟4,根據式(7)在數據集合U中找出密度距離因子μi最大的點,作為第二個初始中心點x2加入到集合C中,并刪除距其AvgDist(X)之內的樣本。
步驟5,在剩余的所有樣本中依次計算中心點,直到滿足k個初始聚類中心。
3" " 風電場環網運行態勢感知
3.1" " 總體設計
本文將改進的K-Means聚類算法用于感知風電場環網運行態勢,包括風電場環網配置策略感知和運行狀態感知。風電場環網運行態勢感知的總體結構設計包含三部分,如圖1所示。本文的研究重心為態勢感知層和態勢資源層。
態勢資源層為其他層提供數據支撐,包含數據采集模塊與態勢因子提取模塊。數據采集模塊負責從風電場環網中采集所需數據,本文通過SNMP簡單網絡管理協議進行數據采集。態勢感知層包括了環網配置行為感知模塊和環網運行狀態感知模塊。
本文基于優化K-Means聚類算法的風電場環網運行態勢感知模型如圖2所示。
本文采用改進的K-Means聚類算法對風電場環網運行態勢和配置策略進行評估。運行態勢評估模塊挑選訓練樣本并使用優化后的K-Means聚類算法進行訓練,并對測試樣本進行聚類評估。配置策略評估模塊使用優化后的K-Means聚類算法識別異常配置。
3.2" " 態勢因子選擇
以內蒙古某風電場為例,該風電場環網承載著能量管理系統、SCADA系統、CMS系統等重要業務系統的數據傳輸任務。該風電場各風機節點的100臺工業以太網交換機通過光纖進行連接,通過跳線的形式搭建環形網絡。環網交換機的配置參數和運行工況數據可以用來感知網絡的配置行為和運行態勢,它們對合理分配網絡資源起著重要作用。
本文通過SNMP簡單網絡管理協議,獲取內蒙古某風電場中的環網交換機運行數據,將MIB對象數據采集到本地服務器供后續分析處理。對于網絡運行態勢因子的選擇和采集,考慮了網絡實際情況,不占用過多網絡資源。本文選取環網交換機的CPU利用率、內存利用率、端口丟包率等10個關鍵指標作為網絡運行態勢因子。將選取的10個網絡態勢因子組成特征屬性集S={s1,s2,s3,s4,s5,s6,s7,s8,s9,s10},其中:s1為端口狀態;s2為環狀態;s3為端口丟包率;s4為內存利用率;s5為設備溫度;s6為CPU利用率;s7為光模塊信息;s8為QoS配置信息;s9為環網協議配置信息;s10為VLAN劃分信息。
3.3" " 配置策略感知
風電場環網中的交換機配置了多種策略,主要包括:配置正確的自環檢測協議,配置廣播風暴抑制功能;通過劃分VLAN實現盡量小的廣播域;配置QoS,保證有低時延需求和擁塞情況下優先傳輸的報文獲得交換機優先處理發送。風電場環網中的各個交換機配置參數不正確會直接導致環網功能異常,因此如何做好環網配置就變得尤其重要。
本文基于改進的K-Means聚類算法設計了交換機配置行為自學習方法。通過SNMP簡單網絡管理協議采集的環網交換機運行態勢因子,實現對設備的關鍵配置指標的劃分和識別,這樣當環網交換機出現配置異常時可以利用學習的配置進行恢復。該方法可以防止現場人員對交換機的誤操作,并使網絡運行在正常配置下,從而有效應對網絡故障。本文通過識別工業以太網交換機的關鍵配置指標來感知風電場環網的配置狀態。
具體步驟如下:
步驟1,通過SNMP簡單網絡管理協議獲取配置行為識別因子數據。
步驟2,通過改進的K-Means聚類算法對環網交換機的配置策略進行劃分,識別出正確配置的交換機和錯誤配置的交換機。配置行為識別因子包括:接口配置信息、VLAN配置信息、QoS配置信息、環網協議配置信息。
步驟3,通過SNMP簡單網絡管理協議進行MIB節點參數設置,并進行多值綁定表操作,然后獲取標準配置文件,進行正確配置學習。
步驟4,重命名學習獲得的配置文件,通過SNMP簡單網絡管理協議進行MIB節點參數設置,進行多值綁定表操作,然后下載配置文件。
步驟5,通過SNMP簡單網絡管理協議重啟設備。
通過上述方法,本文實現了對內蒙古某風電場環網中交換機配置策略的感知。在交換機配置遇到人為誤操作時,通過基于改進的K-Means聚類算法的自學習技術,可以更新正確配置并與其他設備保持一致,從而使得網絡在減少人為干預的情況下故障自愈。
3.4" " 運行狀態感知
本文根據實際業務應用場景,把風電場環網交換機的運行狀態分為5類,分別是繁忙狀態、正常業務狀態、輕業務狀態、閑置狀態這四種正常運行工況以及異常狀態,其中4表示繁忙狀態,3表示正常業務狀態,2表示輕業務狀態,1表示閑置狀態,0表示異常狀態。繁忙狀態指業務量較大且突發流量較多的狀態,正常業務狀態指業務流量大且平穩的狀態,輕業務狀態指流量較小的狀態,閑置狀態指無業務流量的狀態,異常狀態指導致設備運行性能降低的特殊狀態。本文通過改進的K-Means聚類算法對風電場環網交換機的運行狀態進行聚類感知。
具體步驟如下:
步驟1,通過SNMP簡單網絡管理協議收集風電場環網交換機運行態勢因子數據。
步驟2,利用改進的K-Means聚類算法,將訓練數據分成4類,并記下每個運行狀態子空間的聚類中心。
步驟3,在各個狀態子空間計算樣本到聚類中心的歐氏距離,作為各狀態下的檢測閾值。對應第i種運行狀態,設聚類中心為Ki=(k1i,k2i,…,kni),則狀態i下第j個樣本到聚類中心Ki的歐氏距離可用下式求得:
步驟4,同樣利用改進的K-Means聚類算法將測試數據分成4類,根據步驟2得到4個聚類中心,將測試數據進行歸類。
步驟5,在測試數據的狀態子空間計算樣本到聚類中心的歐氏距離,與步驟3得到的檢測閾值進行對比,超限則認為是異常。
4" " 實驗及結果分析
4.1" " 實驗環境
本文實驗環境的處理器為Intel R CoreTM i7-8750,內存為32.00 GB,操作系統為CentOS 7,系統類型是64位操作系統,算法編寫和編譯是在Python環境下實現的。
4.2" " 實驗數據
為驗證改進后的K-Means算法的聚類效果,本文在實驗過程中用到了UCI和風電場實際數據這兩種數據集,如表1所示。與傳統K-Means算法和K-Means++算法在精準率、召回率等評價指標上作比較,對比三者聚類分析的準確率。
本文獲取了內蒙古某個風電場環網中每臺交換機2023年6月1日至6月15日總共15天的分鐘級正常運行態勢因子數據,將這21 600條數據按時間排序并分成12 600條訓練數據和9 000條測試數據。通過本文改進的K-Means聚類算法把訓練數據劃分成4類,并設置4個對應的檢測閾值,在訓練數據完成學習后,用測試數據進行歸類并計算聚類效果。
4.3" " 評價標準
實驗中采用了精準率(P)、召回率(R)、F1值、輪廓系數(SC)、Xie-Beni指標對算法的聚類結果進行評價。
1)精準率。
精準率是指正確歸類的樣本數據與全部樣本數據的比例,其值一般在[0,1]區間,計算公式為:
XB系數越小說明聚類效果越好,該指標綜合考慮了簇內緊密度和簇間分離度。
4.4" " 結果對比
為了驗證本文改進算法的有效性,對所選實驗數據進行測試,得到的傳統K-Means算法、K-Means++算法、本文改進算法的聚類結果比較如表2~4所示。
從以上測試結果可以看出,對于同一數據集本文改進算法的聚類效果明顯要好于傳統K-Means和K-Means++算法,并且本文的改進算法在相同前提下多次實驗輸出結果穩定,其原因在于,本文對初始聚類中心選取進行了優化,排除了孤立點的影響,使得最終結果能收斂到全局最優,避免了陷入局部最優解,從而提高了聚類結果的準確率。綜上所述,本文的改進算法是可行和有效的。
5" " 結束語
本文提出了一種改進的K-Means聚類算法,對選取初始聚類中心的算法進行了優化,消除了初始聚類中心的敏感性。針對工業以太網通信系統的可靠性問題,本文將改進的K-Means聚類算法應用于風電場工業以太網運行態勢感知,以加強風電場環網通信系統的魯棒性。本文提出了基于改進K-Means聚類算法的風電場環網配置行為感知方法和運行態勢感知方法,對風電場環網的關鍵運行指標進行實時采集和感知。實驗結果表明,改進的算法聚類效果較好,可以有效避免態勢感知中不相關特征屬性對準確率的影響,驗證了所提方法的有效性和優越性。風場應用結果也表明,本文所提方法可以較好地感知風電場環網的運行態勢,識別網絡的異常情況并使網絡自愈,進而有效保證風電場環網正常運行。
[參考文獻]
[1] 胡毅,于東,劉明烈.工業控制網絡的研究現狀及發展趨勢[J].計算機科學,2010,37(1):23-27.
[2] 包偉華,張浩,黃雯,等.高可用性自動化網絡研究與設計[J].制造業自動化,2009,31(4):7-11.
[3] 徐琳升,胡立生.基于IEC 62439-2標準的提高工業以太網可靠性的方法研究[J].化工自動化及儀表,2015,42(9):1009-1012.
[4] 來曉,馮冬芹,褚健.分布式網絡故障檢測及恢復技術研究[J].計算機工程與應用,2010,46(24):73-76.
[5] 李俊剛,宋小會,狄軍峰,等.基于IEC 62439-3的智能變電站通信網絡冗余設計[J].電力系統自動化,2011,35(10):70-73.
[6] 龔正虎,卓瑩.網絡態勢感知研究[J].軟件學報,2010,21(7):1605-1619.
[7] 柏駿,夏靖波,鐘赟,等.網絡運行態勢感知技術及其模型[J].解放軍理工大學學報(自然科學版),2015,16(1):16-22.
[8] 陸耿虹,馮冬芹.基于粒子濾波的工業控制網絡態勢感知建模[J].自動化學報,2018,44(8):1405-1412.
[9] 劉杰.基于大數據的工控網絡態勢感知技術研究與應用[D].北京:中國科學院大學,2021.
[10] 王海鳳.工業控制網絡的異常檢測與防御資源分配研究[D].杭州:浙江大學,2014.
[11] 丁宣宣,郭淵博,雷琦.基于信息熵和改進K-means聚類的混合異常檢測特征選擇方法[J].信息工程大學學報,2019,20(3):291-296.
[12] 石樂義,劉佳,劉祎豪,等.網絡安全態勢感知研究綜述[J].計算機工程與應用,2019,55(24):1-9.
[13] SAROJ,KAVITA.Review:study on simple k mean and modified K mean clustering technique[J].Intern-
ational Journal of Computer Science Engineering and Technology,2016,6(7):279-281.
[14] 章永來,周耀鑒.聚類算法綜述[J].計算機應用,2019,39(7):1869-1882.
[15] 楊俊闖,趙超.K-Means聚類算法研究綜述[J].計算機工程與應用,2019,55(23):7-14.
[16] 謝娟英,王艷娥.最小方差優化初始聚類中心的K-means算法[J].計算機工程,2014,40(8):205-211.
[17] 郭永坤,章新友,劉莉萍,等.優化初始聚類中心的K-means聚類算法[J].計算機工程與應用,2020,56(15):172-178.
[18] 陳小雪,尉永清,任敏,等.基于螢火蟲優化的加權K-means算法[J].計算機應用研究,2018,35(2):466-470.
收稿日期:2023-11-17
作者簡介:葛穎奇(1987—),男,浙江寧波人,工程師,研究方向:風電場能量管理、數據挖掘、工業以太網數據通信。