李梅琴
(閩西職業技術學院 實訓實驗管理中心,福建 龍巖 364021)
虛擬仿真技術在儀器分析和操作中具有非常明顯的應用優勢,為現階段強化儀器管理提供了虛擬實驗室系統操作的概念。鄧雅瓊等[1]提出儀器分析的虛擬仿真平臺設計方法,在虛擬實驗室環境中,對設備應用及分析進行教學和管理,保障操作的重復性和準確性。而在現階段高校教育中,同樣存在儀器設備不足和難以觀察的問題,影響教學效果,以此提出虛擬仿真實驗室的概念,為教學提供了全新方式。黃科等[2]分析了虛擬仿真實驗室建立的必要性,并對虛擬仿真技術的應用方式作出假設,為實驗室的建設和管理提供了一定參考。
無論是現實儀器應用還是虛擬實驗室環境中的儀器應用,都需要對其進行全方位的管理,以確保儀器能夠安全地進行多種類型的操作。其中對故障預警的設計是儀器管理中較為重要的一個環節,樊紅衛等[3]提出一種基于轉子振動頻率的故障預警方式,解釋了典型故障的原因和診斷機理及對振動頻率的引用,可以非常清晰地模擬轉子的不平衡與不對中的狀態,能夠對設備的故障類型做出自動判斷。鐘少恒等[4]提出了隨機森林的算法清洗方式,以多維分布的節點構建隨機處理模型,對故障信息進行特征采樣。
本文以上述研究為基礎,研究隨機森林算法的故障預警方法,為虛擬仿真實驗室的儀器管理提供理論支持。
虛擬仿真實驗室中的儀器,在連接和組成結構上,與真實儀器的擺放形式一致,能夠真實地還原設備現場的操作環境。當其出現故障或者問題時,同樣需要按照現實標準進行判斷,以為常規條件下儀器的應用提供參考。故障特征信號在傳遞過程中,以文件形式為存在標準,通過索引號和通道號以及量值等信息,預估出報警上限和報警下限,判斷實驗室儀器的運行狀態,并加以說明。
設置診斷子網絡個數為p,與決策融合網絡構成一體的綜合網絡形式,即集成神經網絡,能夠診斷出q種類型故障[5]。
集成網絡用WW1來表示,其中輸出的不穩定信號為故障向量,表示為
Er=(er1,er2,…,ert)q,
(1)
故障向量Er映射后,轉換為
Er=fr(Yr),
(2)
式中:fr表示映射函數,r=1,2,…,p;Yr表示網絡WW1的特征向量。
故障特征量融合的過程實際上就是故障信號輸出的過程,以每個子網絡中的輸出量對應融合網絡中的節點信息,將WW1中的輸出節點個數設置為wr,則融合網絡中的決策點個數表示為[6]

(3)
融合網絡中的決策信息輸出結果為
E=f(Y1+Y2+…+Yn)。
(4)
以此尋求神經網絡中的訓練樣本,將前置子網絡中的所有數據信息點進行匯總,當決策網絡中的樣本數據來源于前置網絡時,即可設定兩個網絡之間的特征相匹配。
將網絡WW1的故障向量設置為集合Ar=[ar1,ar2,…,art],每一種故障對應的置信權值向量Sr=[Sr1,Sr2,…,Srt],子網絡的并行組合向量集Wp=[WW1,WW2,…,WWp],以此建立故障特征矩陣A為[7]

(5)
置信權值矩陣S為
(6)
此時融合網絡輸出為
E=A·S。
(7)
由此對實驗室儀器故障類型進行判斷,將產生的不同種類故障特征進行分析,以集成神經網絡的有機整體,在多組相互獨立且配合的模塊中,實現特征的在線提取和劃分,并通過森林算法構建預警模型。
集成神經網絡的實現借助于信息分配網絡的構建,以多個信號為基礎,對應實驗室儀器故障診斷,將部件級別的信號進行定位[8]。與現階段個體網絡診斷不同,集成神經網絡能夠真實還原故障定位,對故障點的信號完成標識。
從數學專業角度,將隨機森林算法引入故障診斷中,定義特征決策樹,設置即將需要分類的故障類型,對某一類的信息值進行計算,公式為
Z(C=cr)=-lbX(cr),
(8)
式中:Z(C)表示實驗室儀器的隨機監測數據變量;X(cr)表示某一類信息cr出現的概率。
對隨機變量的不確定度量,可以采用信息熵,即該故障特征的期望值,表示為[9]
(9)
式中g表示儀器故障的分類數量。
信息熵完全依賴于C的分布,與其參數取值沒有聯系,基本上與C=cr出現的概率呈反比趨勢,其值越大,表示故障分類的準確性越低。當隨機選擇兩個變量時,其與概率之間的變化關系如圖1所示。

圖1 信息熵與概率的變化關系
根據圖1內容所示,橫坐標表示為概率,縱坐標表示為信息熵,當橫坐標的值取0或者1時,其縱坐標的對應值均為0,表示隨機變量完全沒有不確定性[10]。而取值為0.5時,縱坐標值為1,即隨機變量的不確定性達到頂峰。以此將熵概念引入特征分類中,對儀器的故障類型進行判斷,對隨機變量進行定義,都設置為F,在變量條件C下的不確定性,即為判斷概率,表示為

(10)
式中:M(F|C)表示聯合熵;M(F|C=c)表示單獨的熵[11]。在C和F共同滿足信息類型時,能夠在給定條件下,對故障問題做出預警信號,借助遞歸形式,對上述特征進行組合,當出現故障時第一時間完成預警。
儀器設備在運行過程中只會出現兩種結果,一是正常工作狀態,二是故障狀態,而在不同事件中產生的隨機事件可能為正常工作,也可能為故障狀態。因此采用隨機森林的方式進行故障預警,可以將兩種狀態作為隨機時間,而{正常,故障}集合則為隨機森林算法的樣本空間。但常規模式下數學計算過程不會用正常和故障兩種字眼作為數學運算的介質,本文用1表示故障,0表示正常[12-13]。
對給定的樣本數據能夠分類出的信息期望做出假設,即信息熵,利用式(8)可表示為

(11)

當樣本數據中包含多種特征屬性時,定義k個特征屬性構成集合為KL(L=1,2,…,k),每個特征屬性均含有H個數值。特征屬性KL將J劃分成k個子集,分別為J1,J2,…Jk。假定屬性KL中子集Jk的類Cr的樣本數用drk來表示,則由屬性KL劃分的子集熵值的計算公式為[14]
(12)


(13)
式中:GR表示增益效果;Gn表示信息增益;SI表示信息類型。
對故障特征屬性KL分類出的判斷結果代表信息類型,可用SI(J,KL)來表示,具體為[15]
(14)
按照信息增益的最大原則,對不同儀器設備隨著分類得出的判斷結果進行標記,聯系故障信號特征與某個儀器之間的關系,確定故障位置進行預警。至此在隨機森林算法下,完成了對虛擬仿真實驗室儀器故障的預警方法設計。
本文設計了隨機森林預警方法,對虛擬實驗室儀器故障進行監測,為驗證其實際應用價值,選擇兩組傳統方法進行對比,測試不同預警方法的應用效果。
故障信號預警的基本前提,就是對故障信號頻率的預估準確度。為驗證三種不同方法的預警效果,選擇某虛擬仿真實驗室儀器為測試對象,對其故障信號頻率進行預估。
將信號采樣率設置為4 000 Hz,采樣點數量為2 024個,隨機選擇余弦信號下對應的故障頻率,進行全局頻譜圖繪制,如圖2所示。

圖2 采樣點信號全局頻譜圖
根據圖2內容所示,此次設計的儀器故障信號頻譜存在三組余弦信號極值,故障信號表示為
I=cos(2πf1t)+cos(2πf2t)+cos(2πf3t),
(15)
式中f1、f2和f3的取值分別為246.12、425.87和648.03 Hz。將上述頻率作為測試對象,代入預警方法中進行測試。
分別將三種預警方法連接到儀器設備中進行頻率預估,對故障信號進行局部細化處理,如圖3所示。

(a)246.12 Hz
根據圖3內容所示,在不同故障頻率的細化頻譜下,本文方法對應的數據基本與原始采樣點數據一致,而兩組傳統方法存在一定偏離。
為更清晰地展示預估精度,將故障信號的實際頻率和估計頻率進行匯總,統計各信號與真實數據之間的差值,見表1。

表1 不同方法預估誤差 單位:Hz
根據表1內容可知,本文方法的估計誤差可以控制在0.002 5 Hz以下,兩組傳統方法的估計誤差分別為0.2 Hz和0.15 Hz。
在此基礎上對故障信號加入噪聲,以不同信噪比變化為條件,從-10到10 dB,驗證三種預警方法的頻率預估能力。
以4 dB為間隔,在三種預警方式下,獲取三組信號的估計頻率,如圖4所示。
根據圖4內容所示,隨著信噪比的加入,故障信號的預估頻率也發生變化,在本文方法下對故障信號的頻率預估逐漸趨向實際數值,最大誤差只有0.080 1 Hz。而兩組傳統方法下,當加入噪聲后對信號頻率的預估會出現較大誤差,對故障信號的預警會出現延遲現象,說明本文方法更加有效。
本文以隨機森林算法為基礎,按照對信息熵和信息增益的處理原則,重新劃分實驗室儀器的故障類型,完成不同特征信號的定位匹配,設計一種新的儀器故障預警方法,主要結論如下:
1)不同故障頻率的細化頻譜基本與原始采樣點數據一致,故障信號的頻率預估逐漸趨向實際數值,最大誤差只有0.08 1 Hz,能夠對不同的故障類型進行精確匹配。
2)估計誤差可以控制在0.002 5 Hz以下,及時發出故障預警信號,保障儀器的穩定運行,具有實際應用效果。
由于本文在對故障測試樣本選擇上能夠對比的選項較為單一,所得結果具有一定偏差,后續研究針對不足之處,進行更深層次的改進,對非平穩信號或者信息較大的信號進行劃分,提出適用于多種類型的預警方法。