楊冬英
(山西大學商務學院,太原 030031)
通常,工控企業由于自動化程度不高,導致生產過程中產生的數據很難實時傳送到用戶端,導致用戶端也很難及時將控制命令傳達給設備端,結果導致工控企業的生產效率比較低。近年來,隨著計算機網絡滲入到各行各業,尤其是生產領域,許多工控企業網絡逐漸向智能化發展,生產過程中相關數據的采集、設備的監控與故障診斷與處理等,都可以集中整合到自動化網絡信息系統中,從而實現了生產過程的全自動化監控和管理。
目前,計算機網絡由于具有可靠性、實時性等特點,同時還可以兼容現場控制總線技術,被廣泛應用到工控企業網絡中。傳統的工控網絡一般都屬于專用網絡,計算機通過與PLC卡件的連接獲取實時數據,并將數據傳輸給操作人員進行分析、控制,同時操作人員也將命令傳送給現場終端設備。當故障發生時,操作人員無法通過計算機網絡實時了解現場設備故障情況以及生產狀況,導致工作效率比較低。如何有效、快速、安全地診斷出工控企業網絡中的故障,保證工控企業能夠正常生產運行,是目前工控企業網絡亟需解決的核心問題。
本文主要分析在現有故障診斷方法的基礎上,結合工控企業實際特點,提出了一種精確度加權隨機森林算法((Accuracy Weighted Random Forest,AWRF)。該算法根據每棵決策樹的分類能力來設定其相對應的權重,很大程度上解決了數據不均衡帶來的問題。該算法比較其他算法具有更高的分類效率,更加適合工控企業網絡環境。通過與其他相關算法做對比實驗,可以證明該算法的可靠性、有效性還是比較高。
組成工控系統的設備類型主要包括工業生產控制設備、工業網絡通信設備、工業主機設備、工業生產信息系統、工業網絡安全設備五類設備。工業網絡安全設備主要包括工業防火墻、工業網閘、主機安全防護設備等。工業生產控制設備主要包括可邏輯編程控制器(PLC)、分布式控制系統(DCS)、遠程中端設備(RTU)、數控機床、工業機器人、智能儀表等。工業網絡通信設備包括工業交換機、工業路由器、串口服務器等。工業主機設備主要包括工業主機、組態軟件&數據采集與監控系統(SCADA)軟件、工業數據庫等。工業生產信息系統主要包括制造執行系(MES)、ERP管理系統、工業云等。
近年來人們對工控企業網絡智能化故障診斷技術進行了深入研究,文獻[1]提出了遠程機械故障診斷和服務系統,將其應用于遠程控制智能診斷中,使診斷實現遠程智能控制。但是文獻[2]提出了基于神經網絡診斷方法,將其應用于電機伺服閥的故障診斷中,使故障診斷速度得到加速。文獻[3]提出了基于Web遠程故障服務系統,使診斷實現實時性,文獻[4]提出了基于IE瀏覽器的數控故障診斷系統,使診斷得到了網絡化。文獻[4]提出了專家系統診斷方法,使診斷實現了系統化。文獻[5]利用貝葉斯網絡的概率原理,根據設備間的故障傳播關系建立了系統模型,找出了可能出現的故障的主要原因,大大提升了故障定位的精度,并將該算法應用于復雜的飛機自動增壓系統的故障診斷中,具有一定的應用價值。
上述方法都對工控企業網絡故障診斷提出了相應對策及建議,但是,都沒有涉及到非平衡數據,非平衡數據對分類結果會造成巨大影響,目前,處理非平衡數據問題的方法主要有兩種:一種是改進算法,使它可以采集并分析非平衡的數據;二是處理非平衡數據,目前,對非平衡數據的處理普遍采用向上或向下采樣法、SMOTE算法、SUV算法,向上采樣法會導致出現重復數據,雖然該方法可以使少類樣本數據達到要求的數量,但并不是樣本自然生成的數據,無法完整地描述少類樣本數據的特征。向下采樣法會損害數據,特別是在少類樣本量比較少的情況下,甚至無法完成訓練。為此,本文提出了一種精確度加權隨機森林算法(AWRF),加入了決策樹投票權重的概念,優化了決策樹的投票能力,為工控企業網絡的故障診斷提供了科學合理的決策思路。
隨機森林算法的優點有:
(1)有很強的通用性,可以適用與各種環境,主要用于聚類分析,進行數據異常檢測和數據透視等;
(2)不需要對樣本數據進行大量修剪,和決策樹算法對比,不易出現過擬合現象;
(3)異常值、噪聲數據等靈敏度不強,能保持比較高的精確度;
(4)可以對高維數據進行處理,具有并行性、可擴展性,尤其魯棒性比較強;
(5)對于數據維數比較多的情況,可以自動生成重要的特征屬性,還可以作為降維方法使用。
隨機森林在構建的每棵決策樹時的分類能力大多數不同,有些部分決策樹的分類效果比較好,有些部分的決策樹的分類效果比較差?;谏鲜鲈颍疚奶岢隽烁鶕S機森林中每棵決策樹分類能力大小來設定其相對應的權重。精確度加權隨機森林模型(AWRF)的核心原理是將要訓練的樣本數據分為兩個部分,一部分樣本數據作為傳統隨機森林模型的訓練樣本,并對樣本中所有的決策樹都進行訓練。另一部分剩余樣本數據作為預測試樣本,當這部分決策樹樣本數據結束訓練之后,再對所有決策樹樣本數據進行測試,并計算分類樣本的正確率。
其中:

把P作為隨機森林中訓練樣本所對應的決策樹的權重,隨機森林中的每棵決策樹再進行投票時都要和其相對應的權重進行乘積運算。其對應的輸出模型表示如下:

其中,z表示加權隨機森林中的待測樣本數量,c表示整個隨機森林中所有的類別數目,x為c類中的其中一類樣本數量。
(1)從所有訓練樣本中取出一部分數據作為預測試樣本,作為選取每棵決策樹的權值的依據。在進行權值計算時,有可能會出現不公平的投票現象。為了保證投票的公平性,所有的決策樹一般都采用固定的預測試樣本進行計算。上述方法一般在訓練樣本比較多的情況下使用。
(2)由于每次使用的訓練樣本不同,導致留下的預測試樣本也可能不相同。為了便于優化權值,后續的實驗中可以用預測試樣本率來代替預測試樣本數。其中,預測試樣本率等于預測試樣本數占總訓練樣本數的比率。
由于加權隨機森林算法(AWRF)是根據預測試樣本進行權值計算,所以不需要再額外考慮公平性。每個決策樹的權值可以用隨機森林中的每棵決策樹和預測試樣本分類的正確率來代替。這樣可以大大簡化了隨機森林算法的計算復雜性,同時也加快了程序的運行。
根據工業和信息化部辦公廳關于開展工業控制系統信息安全檢查工作的通知,企業針對自身企業的實際情況完成系統信息安全自查,本次調查以企業工控系統構成為核心,圍繞網絡運行狀態進行全面調查。系統安全狀態主要包括安全軟件選擇與管理情況、配置和補丁管理情況、邊界安全防護情況、物理和環境安全防護情況、身份證情況、遠程訪問安全情況、安全監測情況、資產安全情況、數據安全情況、供應鏈管理情況10個方面。
實驗數據選取2016年280家企業實際調查數據作為實驗數據,指標體系完全按照調查回來的數據設計,企業的安全等級采用“好差”二級體系,評估總分大于60,方差小于30的認定為“好”,其他為“差”。在實際應用中好與差應由專家來定,實驗認為總分較高,小差較小的企業在安全措施方面做的比較多,而且每一方面都比較均衡,所以應該是做的比較好的。實驗數據設置了標簽值“1”和“0”,分別表示“好”和“差”,按照75%,25%的比例劃分為訓練集與測試集,使用加權隨機森林算法訓練的準確率模型在95%以上。結果如圖1所示。

圖1 訓練樣本結果圖
實驗結果表明在現有數據環境下加權隨機森林算法(AWRF)更具有優勢,分類的準確率比較高,結果比較令人滿意。同時表明使用加權隨機森林算法(AWRF)進行安全評估是可行的,可以實現對企業工控系統安全狀態的評估。從速度和精度上看,加權隨機森林算法(AWRF)訓練時長明顯要遠遠低于隨機森林算法。
根據工控企業網絡的特點,提出了加權隨機森林算法(AWRF)的故障診斷方法,該算法可以簡化隨機森林算法的計算復雜度,加快了程序運行,進而提高了故障診斷的效率,同時加權隨機森林算法(AWRF)大大降低了工控企業網絡故障診斷的錯誤率。