陳文強,劉陽,丁曉喜,邵毅敏,黃文彬
(重慶大學 機械傳動國家重點實驗室,重慶 400044)
近年來,國內機械設備制造水平迅猛發展,滾動軸承作為旋轉機械設備的重要零部件,其健康狀況對設備的正常運行和工作效率有重大影響,因此對軸承狀態進行實時監測和故障識別,保證軸承在故障尚未發展的階段及時得到處理,對保障設備安全正常運行具有重要意義[1-4]。
隨著物聯網技術、云計算等的發展[5],無線網絡技術實現了近程數據交互和遠程數據監測,并且能夠靈活地布點和監測[6],使其在機械設備監測系統上具有獨特的優勢:文獻[7]通過運用無線傳感器網絡技術實現了對電動機故障的遠程監測,搭建完整的監測網絡和硬件系統實現了對電動機狀態的在線監測;文獻[8]提出了用于電動機監測和故障診斷的一種新型工業無線傳感器網絡系統,將數據提取和分析的功能集中于傳感器節點中,有效減小了傳輸數據的載荷和能耗;文獻[9]提出了針對旋轉機械設備的一種新型工業監測系統,在中央處理單元中提前進行模型訓練和參數提取,通過空中編程的方式將參數分配給各個節點,可動態地調整診斷參數和診斷能力,提高了整體算法系統的適應能力;文獻[10]設計了一個針對機泵的振動信號監測系統,結合Zigbee網絡和WIFI網絡構建了多層次網絡。
目前并沒有一套完善的針對軸承故障診斷的無線網絡監測系統,為實現軸承運行狀態的無線監測,本文結合現有無線網絡監測系統的研究,針對軸承狀態監測需求設計了一套完整的軸承云邊協同監測方案,提出了一種多層次故障診斷算法,利用云平臺強大的資源服務能力和邊緣設備數據傳輸低延時特性,構建了一個智能化的監測系統。
神經網絡在機械故障診斷中通常利用特征數據進行故障識別和分類,具有較高的識別精度,能夠滿足機械設備診斷的需求[11]。本文采用以改進BP算法為核心的故障診斷策略,如圖1所示。傳感器對振動數據進行采集之后,將數據分為訓練集和測試集,訓練集作為先驗數據用于模型訓練,測試數據用于驗證模型的正確性和故障診斷。終端首先提取特征數據集,然后利用特征選擇算法選取辨別能力最高的多維特征并作為基礎網絡的訓練樣本。故障決策是綜合多個模型的預測結果給出最終判斷。

圖1 軸承故障診斷網絡框架
邊緣網絡結構流量承受能力有限,而振動信號數據量通常較大,故采用特征提取算法提取信號數據在時域和頻域內的特征值,經數據降維后再進行網絡傳輸和后續處理。
1.2.1 邊緣特征提取
幾種典型的時域特征參數見表1,其中xi為振動信號的時域序列,i=1,2,…,N,N為樣本點數,Xmax,Xrms分別為序列的最大值和均方根。

表1 典型的時域特征參數
幾種典型頻域特征見表2,其中s(k)和fk為頻譜序列和頻率。頻域特征序號1反映了頻域振動能量的大小;2~4,6,10~13反映了頻譜的分散或集中程度;5,7~9反映主頻帶位置的變化。

表2 典型的頻域特征參數
1.2.2 基于距離的過濾式特征選擇算法
特征提取后,大量數據獲得了降維,但各類特征對于故障的反映程度不同,且特征之間存在耦合,因此對特征數據進行再次降維和去重復處理,以減小后續神經網絡的計算壓力。由于軸承故障診斷的問題為連續特征的多分類問題,故在滿足準確性的基礎上設計改進的Relief-F算法[12]作為特征選擇算法,其是基于距離計算的一種過濾算法,在多維特征中的猜錯近鄰和猜中近鄰如圖2所示,通過計算每個特征的相對統計量并排序以實現特征選擇。

圖2 多維特征中的猜錯近鄰和猜中近鄰
獲取每個特征維度的相關統計量后,通過多次采樣計算提高算法的可靠性,根據統計量獲得第j個特征對于數據的區分能力,即
(1)

W(j)的值越大說明第j個特征值的分類效果越好,通過比較每一維特征的統計量來評估特征的分類能力,最后將篩選出的包含z個特征的集合作為神經網絡分類的輸入特征。Releif-F特征選擇算法的執行流程如圖3所示。

圖3 Releif-F特征選擇算法具體流程
由于本系統主要針對軸承故障狀態及程度進行判斷,故在保證性能可靠的情況下,選擇了單隱層BP神經網絡[13]作為基本的故障分類模型,以減小底層處理器的計算量,提高整體系統的實時性和處理效率。
1.3.1 單模型多層神經網絡結構
神經網絡的輸入為經過特征選擇算法提取的特征值,輸出為分類結果。根據監測需求和數據來源將軸承狀態類型分為4種,即健康、輕度故障、中度故障和重度故障。通過訓練和反饋不斷改進和修正模型,在測試數據集中驗證正確率后作為最終的診斷模型。BP神經網絡模型如圖4所示。

圖4 BP神經網絡模型
多層網絡模型分為3層,分別是輸入層、隱藏層和輸出層。輸入層輸入樣本的d維特征(本文d=5),輸出層輸出一個4維向量,其中一個值為1,其他為0,代表對故障的判斷,即神經網絡對輸入數據的分類結果,隱藏層神經元個數為滿足泛化能力通常取
(2)
式中:a為輸入層神經元個數;b為輸出層神經元個數;e為調制參數,本文e=8。
1.3.2 交叉驗證集成訓練網絡
單個神經網絡的訓練模型準確性會隨訓練集的不同、訓練方法的差異和一些超參數變化而受到影響,為強化模型的泛化能力,采用多模型集成的方法聯合多個學習器強化整體的測試性能,減小單個學習器的測試誤差。本系統采用改進的交叉驗證的策略[14]對模型進行集成,如圖5所示。

圖5 交叉驗證模型
1)對帶有標簽的x個樣本平均分為y份(本文y=5),其中一份作為驗證集,其余為訓練集,對訓練集的數據進行訓練后獲得訓練模型。
2)y份樣本集輪流作為驗證集,其余為訓練集,共進行y次訓練,獲得y個訓練模型及其訓練結果。
3)按照樣本分割順序將y個結果通過投票法進行集成,以獲得某個樣本的最終分類結果。
4)從樣本數據中提取出標簽集,與前一步獲取的分類結果進行對比,統計與標簽一致的數量與總數量的比值,獲得融合模型的測試準確率。
本系統的上位機以云服務器為核心,并為監測系統提供一個數據可視化顯示、存儲管理中心和控制的平臺,同時結合邊緣設備對振動信號的采集、特征計算和故障診斷共同構成云邊協同的整體架構,如圖6所示。云端通過遠程控制系統對中繼設備進行程序更新和系統升級,中繼設備和終端設備通過指定的無線網絡協議進行指令交互,對終端設備的采集和處理方案進行邏輯控制,從而達到整體遠程控制的目的。

圖6 云邊協同架構
在實現網絡架構和采集系統搭建的同時,采用分布式算法結構,通過網絡數據傳輸和邏輯控制系統的配合實現多層故障診斷,如圖7所示,分布式算法結構減輕了單個設備計算的負擔,提高了計算效率和監測報警系統的實時性。

圖7 云邊協同監測系統分布式算法結構
在云端中對算法做前期參數準備工作,包含特征篩選和神經網絡模型的參數訓練;終端設備根據篩選出的特征序號激活相應的特征提取算法,對數據進行降維處理并將特征值上傳給中繼設備;中繼設備內嵌了2個算法,先根據云端的神經網絡參數建立神經網絡測試模型進行信號分類,之后通過故障決策算法對結果進行判斷,完成監測故障和報警的功能。
2.3.1 終端
終端硬件架構如圖8所示,包含振動傳感器、ARM內核芯片、Flash內存、SD卡、CC2530等硬件模塊,完成軸承振動信號的采集、存儲和降維處理,最終通過Zigbee無線傳輸通道傳輸特征值。

圖8 終端硬件架構
2.3.2 中繼
中繼硬件架構如圖9所示,由ARM內核芯片、CC2530、Flash內存、SD卡以及4G網絡模塊等組成,主要實現算法判斷、網絡控制和數據中轉等功能。該設備嵌入了神經網絡算法和故障診斷策略,能夠接收終端設備上傳的特征數據并使用建立的模型算法實現故障識別,進而實現設備故障的預警報警功能;同時,可通過網絡協議配合網絡模塊進行數據的打包和上傳,還可使用Bootloader程序與遠程服務器配合實現遠程更新和實時配置的功能[15]。包含故障識別診斷系統和故障預報警系統的中繼整體框架如圖10所示。

圖9 中繼硬件架構

圖10 中繼整體框架
1)故障識別診斷系統
中繼層對各節點的故障識別主要基于嵌入的神經網絡模型。中繼層處理器首先讀取存儲在Flash中的神經網絡參數用于模型初始化,再讀取終端發送來的特征數據包并提取其中的特征信息,然后使用交叉神經網絡模型進行計算,并根據多個模型的融合計算結果對軸承狀態進行判斷,最終將結果處理成故障標志,為后續的預報警系統提供輸入信息。
2)故障預報警系統
多維報警算法從以下角度對當前軸承狀態進行評估。
(1)狀態隊列評估
在中繼設備中會為每個節點保存一個固定長度的歷史狀態隊列和故障計數器,歷史隊列中保存著每個節點最近的狀態信息,中繼根據歷史狀態信息計算出隊列的故障期望,以在一個較長的時間維度上做出判斷,從而避免偶然性錯誤信號對整體判斷的影響。
中繼通過神經網絡模型獲取相應的軸承狀態后,生成狀態標志si(取0,1,2,3,分別代表健康、輕微故障、中度故障、嚴重故障)放入相應節點的狀態隊列中,故障程度越高則對故障期望的影響越大。狀態隊列通常維護有c倍采樣間隔時間內軸承節點的狀態,過期的狀態信息會自動清除。將故障標志累加后取平均作為故障期望E,即
(3)
本系統設置的故障預警及報警期望閾值分別為Fp和Fw,故障計數器的預警及報警閾值分別為Cp和Cw,具體判斷策略見表3。為避免系統啟動時的信號波動或偶然故障信號的影響,預報警系統設置一個熱機閾值K,狀態隊列預報警機制在隊列填充數據量c>K時才會啟動。

表3 振動預報警判斷策略
(2)故障計數器判斷
如果判斷為故障則對應的故障計數器自增,自增值與狀態標志相同(輕微故障自增1,中度故障自增2,嚴重故障自增3)。如果故障計數器值超過相應的報警或者預警閾值便觸發振動預報警系統,其中連續的故障判斷表示存在突發性緊急故障。
如果上傳的判斷狀態為健康,則故障計數器清零后重新計數,并將狀態標志加入狀態隊列;同時再次計算此時的故障期望,根據故障期望值對預報警系統進行重置,若低于振動預報警閾值則對預報警進行清除,具體流程如圖11所示。

圖11 監測系統預報警邏輯圖
用戶層是基于瀏覽器/服務器(Browser/Server,B/S)架構進行設計和開發的,為技術人員提供一個交互接口和界面顯示的云平臺。云平臺后端采用Springboot與Netty結合的復合端口設計,提供TCP數據上傳和web數據訪問功能,數據庫使用MySQL數據庫的JPA(Java Persistence API,JPA),前端界面和圖表顯示主要使用bootStrap和Echart框架實現,并通過thymeleaf引擎進行渲染,加入了相關的交互功能,包括監測系統更新固件上傳下載、數據統計分析等。
軸承云邊協同監測系統云平臺前端瀏覽器頁面如圖12所示,導航欄中包含有首頁、數據分析、設備總覽、遠程控制以及數據選擇4個菜單選項。首頁主要展示的是設備總覽信息,右側狀態信息欄包括設備總數、監測點數、在線設備數量、以及各狀態監測點數量等,并可通過詳情鏈接到設備總覽視圖,中部以餅圖的形式展示所有監測點的總體報警狀態(綠色代表正常監測點,黃色代表預警監測點,紅色代表報警監測點)。

圖12 軸承云邊協同監測系統云服務平臺主界面
3.1.1 數據采集
為了驗證算法的正確性,在6308滾動軸承(外徑90 mm,內徑40 mm,寬度23 mm)外圈加工不同尺寸缺口以模擬不同的故障狀態(圖13),不同狀態軸承數據見表4。在1 800 r/min的振動臺上以12 kHz采樣頻率進行數據采集,截取到的不同狀態軸承的部分振動信號如圖14所示。

圖13 不同故障程度的軸承

表4 不同故障程度軸承數據

圖14 不同狀態軸承的振動信號
3.1.2 特征選擇
通過數據采集裝置獲取振動數據,將節點采集獲取的訓練數據根據軸承狀況進行標簽化處理后,對數據集進行均分并提取11個時域特征和13個頻域特征。共采集4組軸承數據,使用特征選擇算法獲得特征距離的相關統計量,并進行平均后從大到小進行排序,見表5。

表5 軸承節點特征距離的相關統計量
根據得到的統計量信息判斷各特征對故障診斷的識別能力,選擇識別能力最強的5個特征用于后續的神經網絡模型,分別為峰峰值、p4、標準差、峭度、偏度。
3.1.3 模型訓練及測試
將Releif-F特征提取算法得到的特征集作為訓練融合神經網絡模型的樣本,損失函數大小設置為0.001,訓練步長為0.1。
測試集對于訓練出的網絡模型的測試結果及分類效果用t-sne聚類圖和混淆矩陣進行可視化,分別如圖15、圖16所示。

圖15 隱層t-sne聚類圖

圖16 混淆矩陣
由t-sne聚類圖可以看到提出的神經網絡算法模型有較好的分類能力,在混淆矩陣中,預測結果和真實結果一致,表示神經網絡算法有較好的識別性能。
3.2.1 軸承試驗臺的搭建
基于BVT-5型軸承振動測量儀搭建試驗臺,基本原理圖如圖17所示,軸承試驗臺的布置如圖18所示,將試驗軸承安裝在BVT-5軸承振動測試臺上,施加150 N的徑向力,終端的加速度傳感器安裝于軸承外圈采集加速度信號,通過無線網絡將處理數據傳送到中繼設備,中繼設備將數據處理之后傳送到云端進行顯示。

圖17 BVT-5型軸承振動測量儀基本原理圖

圖18 試驗臺布置圖
3.2.2 軸承云邊協同監測系統試驗
試驗臺、終端及中繼的相關配置見表6,特征選擇參數按照Relief-F算法所得的結果,監測系統的相關參數通過OTA遠程固件更新進行配置,使用不同故障軸承進行試驗的流程見表7,云平臺軸承故障期望曲線監測結果如圖19所示。

表6 試驗設備參數配置

表7 試驗流程表

圖19 云平臺軸承故障期望變化曲線
由云平臺軸承故障期望變化曲線可知,不同故障軸承試驗流程共分為5個階段:
1)階段A。安裝健康軸承作為被測軸承,通過云平臺觀察到軸承故障期望曲線一直處于0位置,顯示為軸承無故障。
2)階段B。更換被測軸承為輕度故障軸承,更換軸承期間,故障期望仍保持原有水平,更換后可以看到軸承故障期望開始上升,原因是監測系統診斷出的輕度故障結果進入狀態隊列導致故障期望升高,通過計算可知狀態隊列中約有20個0標志和30個1標志,根據(3)式,理論上故障期望為(30×1+20×0)/50=0.6,監測故障軸承300 s后,故障期望值為0.58,基本與預期一致。此時觸發了報警,由于此時未達報警的故障期望值,此處報警是連續報警計數器觸發的。
3)階段C。更換被測軸承為中度故障軸承,故障期望值繼續上升,且斜率較階段B中曲線更大,此階段的曲線分2段,前半段狀態隊列中仍然有0狀態標志,后半段0狀態標志已完全離開狀態隊列,斜率減小。監測時間結束后狀態隊列中應有30個2狀態標志和20個1狀態標志,理論故障期望值為(30×2+20×1)/50=1.6,實際為1.58與理論基本一致,此時已超過故障期望報警閾值,顯示為報警。
4)階段D。更換被測軸承為重度故障軸承,此階段的曲線也分為2段,前半段隊列中存在狀態1標志,后半段1狀態標志離開隊列。監測時間結束后狀態隊列中應有30個3狀態標志和20個2狀態標志,理論故障期望值為(30×3+20×2)/50=2.6,實際監測值為2.58,與理論基本相符,此時已超過故障期望報警閾值,顯示為報警。
5)階段E。最后將被測軸承更換為健康軸承,從云平臺監測圖可知,更換監測軸承后,故障期望值開始下降,當下降到預警閾值和報警閾值時報警解除。監測結束之后,軸承期望值恢復為0,軸承狀態恢復。
經過試驗驗證,監測系統數據傳輸正常,有可靠的故障識別和報警能力,滿足功能需求,少量誤差可能來自于軸承更換時帶來的試驗誤差。
本文以軸承監測系統為設計對象,針對現有監測系統的不足和局限,設計了一種云邊協同的軸承監測系統。該系統具有傳統無線監測系統遠程監控能力,還可以通過云端功能實現遠程控制,針對不同的運用環境進行相應的配置更新,實現了監測系統的靈活性和通用性;采用的多核心多層網絡架構具有特征提取、分類算法、故障決策和預報警功能,實現了監測系統的智能化和實時性,解決了傳統監測系統采集量大,網絡傳輸延遲導致的監測滯后問題等;采用的神經網絡故障診斷模型嵌入到邊緣網絡,經過試驗證明具有良好的性能。