夏 懿, 徐文學(xué)
(1. 安徽大學(xué) 電氣工程與自動(dòng)化學(xué)院, 合肥 230601;2. 安徽大學(xué) 安徽省人機(jī)共融系統(tǒng)與智能裝備工程試驗(yàn)室, 合肥 230601)
滾動(dòng)軸承作為很多旋轉(zhuǎn)機(jī)構(gòu)的核心零件,對(duì)其進(jìn)行故障診斷能夠有效保證設(shè)備正常平穩(wěn)運(yùn)行及防止重大事故發(fā)生[1]。近年來(lái),基于機(jī)器學(xué)習(xí)、模式識(shí)別的智能故障診斷由于其較高的準(zhǔn)確率以及良好的魯棒性日益受到業(yè)界和學(xué)界的廣泛重視。早期的智能故障診斷其一般步驟如下:針對(duì)不同軸承故障的傳感器數(shù)據(jù),首先提取其相應(yīng)的分類特征,如時(shí)、頻域特征以及統(tǒng)計(jì)學(xué)特征;然后利用這些特征通過(guò)有監(jiān)督或者無(wú)監(jiān)督的方式來(lái)訓(xùn)練一個(gè)分類模型,如支持向量機(jī)(support vector machines,SVM)[2]、人工神經(jīng)網(wǎng)絡(luò)[3]等;最后利用這些分類模型進(jìn)行故障類型的預(yù)測(cè)從而實(shí)現(xiàn)故障診斷。傳統(tǒng)的故障診斷方法其準(zhǔn)確率很大程度上取決于特征提取的有效性,這就需要大量的專家知識(shí)和反復(fù)的特征選擇,因此過(guò)程復(fù)雜[4]。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,通過(guò)端到端的網(wǎng)絡(luò)設(shè)計(jì)并利用大數(shù)據(jù)來(lái)學(xué)習(xí)數(shù)據(jù)的內(nèi)在特征從而實(shí)現(xiàn)所謂的自動(dòng)特征提取,這一思路已經(jīng)在很多領(lǐng)域取得了巨大成功。在機(jī)械系統(tǒng)故障診斷領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[5]、自編碼器[6]等深度神經(jīng)網(wǎng)絡(luò)不僅可以實(shí)現(xiàn)強(qiáng)分類能力特征的提取,并且具有較強(qiáng)的泛化能力,特別適合大數(shù)據(jù)背景下的故障診斷。
基于深度網(wǎng)絡(luò)模型的機(jī)械故障診斷其訓(xùn)練需要大量的標(biāo)簽數(shù)據(jù),但在實(shí)際工業(yè)應(yīng)用中,針對(duì)每一個(gè)新工作環(huán)境下的機(jī)器,難以采集足夠多的典型故障樣本。再者,將一個(gè)事先訓(xùn)練的深度模型直接應(yīng)用到變工況條件下的故障診斷,其隱含假設(shè)是有標(biāo)記的訓(xùn)練數(shù)據(jù)(源域)和無(wú)標(biāo)記的測(cè)試數(shù)據(jù)(目標(biāo)域)來(lái)自相同的分布。然而由于工作條件的變化以及機(jī)器的差異,目標(biāo)域和源域數(shù)據(jù)分布通常會(huì)出現(xiàn)不匹配現(xiàn)象,導(dǎo)致模型在新的工作條件下診斷性能顯著下降[7]。針對(duì)這一問(wèn)題,域自適應(yīng)技術(shù)利用大量有標(biāo)簽的源域數(shù)據(jù)和無(wú)標(biāo)記或者少量標(biāo)記的目標(biāo)域數(shù)據(jù),力圖實(shí)現(xiàn)模型對(duì)不同域數(shù)據(jù)分布的跨域自適應(yīng),從而提高目標(biāo)域未標(biāo)記數(shù)據(jù)的分類準(zhǔn)確率,進(jìn)而促進(jìn)故障診斷模型的實(shí)際應(yīng)用和部署[8]。Tzeng等[9]采用最大均值差異(maximum mean discrepancy,MMD )距離來(lái)度量特征向量在源域和目標(biāo)域之間的距離,并通過(guò)最小化MMD距離來(lái)縮小數(shù)據(jù)特征的邊緣分布在不同域之間的偏差。作為上述工作的改進(jìn),Zhu等[10]提出一種多層多核的最大均值差異分析框架并成功應(yīng)用于變工況條件下的軸承故障診斷。Han等[11]將基于對(duì)抗學(xué)習(xí)的域分類器作為正則化方法引入到卷積神經(jīng)網(wǎng)絡(luò)中,提出一種新的深度對(duì)抗卷積神經(jīng)網(wǎng)絡(luò),從而學(xué)習(xí)邊緣分布跨域差異化最小的特征向量,并應(yīng)用于軸承故障的跨域診斷。Chen等[12]提出利用Wasserstein距離來(lái)度量條件分布在不同域之間的差異,相應(yīng)設(shè)計(jì)了一種條件自適應(yīng)網(wǎng)絡(luò),并在4個(gè)數(shù)據(jù)集上驗(yàn)證了Wasserstein距離用于條件分布匹配的優(yōu)越性。
實(shí)際情況中,不同域的數(shù)據(jù)不僅在邊緣分布上有顯著差異,在條件分布上也存在顯著差異。對(duì)齊數(shù)據(jù)在不同域的邊緣分布,可以學(xué)習(xí)到域不變的特征向量,但是由于沒(méi)有考慮數(shù)據(jù)在不同域之間的條件分布差異,因此難以獲得跨域的最優(yōu)分類超平面。另一方面,如果要獲取數(shù)據(jù)的條件分布在不同域之間的最佳匹配,則需要利用邊緣分布的對(duì)齊來(lái)獲取一個(gè)跨域的不變特征空間,進(jìn)而在該空間拉近不同類別之間的條件分布。本文將多核MMD度量和Wasserstein度量結(jié)合起來(lái),分別用于跨域的邊緣分布對(duì)齊和條件分布對(duì)齊,并應(yīng)用到不同工況條件下的軸承故障診斷中。兩種分布的聯(lián)合對(duì)齊能進(jìn)一步提升樣本特征與樣本類別之間的關(guān)聯(lián)性,得到分類性能更佳的源域到目標(biāo)域的遷移模型,試驗(yàn)通過(guò)軸承的兩種跨域故障診斷驗(yàn)證了該方法的有效性。
為了構(gòu)建能夠連接差異化使用場(chǎng)景的模型,域自適應(yīng)技術(shù)[13]得到了廣泛的研究和應(yīng)用。域自適應(yīng)技術(shù)本身是遷移學(xué)習(xí)的一個(gè)分支,它試圖通過(guò)挖掘域不變特征來(lái)減少數(shù)據(jù)分布在不同域之間的差異。下面給出域、任務(wù)以及域自適應(yīng)學(xué)習(xí)的定義:
域的定義:設(shè)樣本集X=[x1,x2,…,xn]∈χ,χ為一個(gè)特征空間,數(shù)據(jù)的邊緣分布為P(X),χ和P(X)構(gòu)成一個(gè)域D。若有χt≠χs或者P(Xt)≠P(Xs),則Dt和Ds為兩個(gè)不同的域。
任務(wù)的定義:學(xué)習(xí)任務(wù)T由標(biāo)簽空間Y以及標(biāo)簽預(yù)測(cè)函數(shù)F(X)構(gòu)成。這里F(X)可以通過(guò)數(shù)據(jù)X學(xué)習(xí)得到。如果Y或函數(shù)F(X)不同,那么兩個(gè)任務(wù)Tt和Ts就被認(rèn)為是不同的。
域自適應(yīng)學(xué)習(xí):給定一個(gè)源域Ds以及相應(yīng)的學(xué)習(xí)任務(wù)Ts,一個(gè)目標(biāo)域Dt及其相應(yīng)的學(xué)習(xí)任務(wù)Tt,域自適應(yīng)學(xué)習(xí)利用源域Ds和學(xué)習(xí)任務(wù)Ts所積累的先驗(yàn)知識(shí)來(lái)建立目標(biāo)域的學(xué)習(xí)任務(wù)Tt。這里一般情況下Ds≠Dt,Ts≠Tt。
傳統(tǒng)的基于機(jī)器學(xué)習(xí)的故障診斷,為了簡(jiǎn)化問(wèn)題,通常假設(shè)Ds=Dt,Ts=Tt,這顯然會(huì)降低模型在不同工作條件下的診斷準(zhǔn)確率。因此,近年來(lái)基于邊緣分布和條件分布匹配的跨域自適應(yīng)模型被提出,并且取得了一定的成功。
假設(shè)測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)來(lái)自不同但相近的域,分別是未標(biāo)記的目標(biāo)域Dt:{Xt}和有標(biāo)記的源域Ds:{Xs,Ys}。下面分布給出邊緣分布和條件分布自適應(yīng)的定義,然后再引出本文所提的聯(lián)合分布自適應(yīng)。
1.2.1 邊緣分布自適應(yīng)
設(shè)目標(biāo)域和源域的邊緣分布分別為P(Xt)和P(Xs),且一般有P(Xt)≠P(Xs),域自適應(yīng)深度模型通過(guò)學(xué)習(xí)得到嵌入特征F(Xt)和F(Xs),使得P(F(Xt))≈P(F(Xs)),從而建立從源域到目標(biāo)域的知識(shí)轉(zhuǎn)移。如圖1的①、②,在目標(biāo)域中直接使用源域訓(xùn)練好的判別超平面會(huì)導(dǎo)致大量的誤分類,邊緣分布自適應(yīng)通過(guò)對(duì)齊兩個(gè)分布的中心點(diǎn)來(lái)提高模型的跨域分類性能,從而減少了分類錯(cuò)誤。
1.2.2 條件分布自適應(yīng)
在實(shí)際應(yīng)用中,不同數(shù)據(jù)域下的分類任務(wù)可能會(huì)有不同的判別超平面,僅僅匹配數(shù)據(jù)的邊緣分布是不夠的,還要考慮它們基于類別的結(jié)構(gòu)信息,讓源域和目標(biāo)域?qū)儆谕活悇e的數(shù)據(jù)分布盡可能的對(duì)齊。為實(shí)現(xiàn)這一目標(biāo),文獻(xiàn)[14-15]提出利用標(biāo)簽信息來(lái)匹配不同域的條件分布P(Y|X)。不失一般性,可以假設(shè)源域和目標(biāo)域的條件分布是相同的,也即存在P(Yt|Xt)=P(Ys|Xs)。根據(jù)貝葉斯原理
(1)
為使這一假設(shè)成立,在匹配好邊緣分布P(X)的情況下,還需要匹配P(X|Y)和P(Y)。進(jìn)一步簡(jiǎn)化問(wèn)題,假設(shè)P(Yt)=P(Ys),也即在不同的工作環(huán)境下,各類故障發(fā)生的概率是不變的,因此尋找跨域不變的條件分布使得P(Xt|Yt)≈P(Xs|Ys)就可以實(shí)現(xiàn)式(1)所表達(dá)的類別條件分布的對(duì)齊。從圖1的②、③可知,條件分布P(Y|X)在源域和目標(biāo)域的對(duì)齊,使得目標(biāo)域的類別分布盡可能在結(jié)構(gòu)上匹配源域的類別分布,進(jìn)一步減少了分類錯(cuò)誤,提高了域自適應(yīng)的效果。

圖1 不同分布自適應(yīng)效果圖
1.2.3 聯(lián)合分布自適應(yīng)
本文力圖實(shí)現(xiàn)邊緣分布和類別條件分布在源域和目標(biāo)域的同時(shí)匹配,這一自適應(yīng)模型為聯(lián)合分布自適應(yīng)?;诼?lián)合分布自適應(yīng)的智能診斷模型同時(shí)最小化目標(biāo)域與源域的邊緣分布和條件分布min(P(F(Xt)),P(F(Xs)))和min(P(F(Xt)|Yt),P(F(Xs)|Ys)),從而可以進(jìn)一步利用有標(biāo)記數(shù)據(jù)的先驗(yàn)知識(shí),提高跨域條件下的故障診斷準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)常用網(wǎng)絡(luò),它具有強(qiáng)大的特征學(xué)習(xí)能力,可以有效避免局部信息的丟失,在圖像分類領(lǐng)域表現(xiàn)優(yōu)異。其基礎(chǔ)結(jié)構(gòu)在Lecun等[16]提出的LeNet-5之后基本就被確定了下來(lái)。卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成,如圖2所示。

圖2 卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
由于本文的輸入信號(hào)是一維的,因此卷積被設(shè)計(jì)成一維運(yùn)算,如圖3所示。

圖3 一維卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

(2)
式中:*為一維卷積操作;n為卷積核的數(shù)量;bc為相應(yīng)的偏移值;f(·)為一種激活函數(shù)。
池化操作是接著卷積后的下一步操作,對(duì)卷積后的特征進(jìn)行降維,讓學(xué)習(xí)到的卷積特征具有移不變性。本文使用最大池化函數(shù),返回某一子區(qū)域內(nèi)的最大值,用k表示池化長(zhǎng)度,則第j個(gè)點(diǎn)的池化輸出
pj=max{cj×k∶(j+1)×k}
(3)
最后采用全連接網(wǎng)絡(luò)將卷積得到的高維特征映射成低維特征f
f=δ(wTs+b)
(4)
式中:w為連接兩個(gè)全連接層的權(quán)值矩陣;b為對(duì)應(yīng)的偏移值;s為輸入數(shù)據(jù);δ(·)同樣表示一種激活函數(shù)。
最大均值差異MMD定義為再生核希爾伯特空間(reproducing kernel Hilbert space,RKHS)中數(shù)據(jù)分布的核嵌入距離的平方。近年來(lái),MMD被廣泛應(yīng)用到域自適應(yīng)領(lǐng)域中,通過(guò)最小化源域和目標(biāo)域之間的MMD距離來(lái)進(jìn)行特征的跨域自適應(yīng)。MMD計(jì)算公式如下
(5)
式中:H為再生核希爾伯特空間RKHS,φ:Xs,Xt→H;ns和nt分別為源域和目標(biāo)域的樣本數(shù)。
為了計(jì)算特征分布在不同域之間的距離,經(jīng)驗(yàn)上一般采用核函數(shù)法。于是,MMD的實(shí)際計(jì)算為

(6)
式中,k(*,*)為高斯核函數(shù),其表達(dá)式為
(7)
式中,δ為核函數(shù)的帶寬,可以取多個(gè)不同的值來(lái)計(jì)算MMD并疊加其計(jì)算結(jié)果,形成所謂的多核MMD,本文利用這一函數(shù)來(lái)度量邊緣分布的跨域差異。
Wasserstein度量是指在給定度量空間(M,ρ)上不同概率分布之間的距離,其中的ρ(x,y)是集合M中兩個(gè)樣本對(duì)x和y的距離函數(shù)。兩個(gè)Borel概率之間的第p階Wasserstein距離定義為
(8)
式中:P和Q為M上具有有限p階矩的兩個(gè)概率度量;Γ(P,Q)為M×M上所有測(cè)度的集合。
根據(jù)Kantorovich-Rubinstein對(duì)偶原理[17],當(dāng)M為可分離變量,1階Wasserstein距離可等價(jià)于
(9)

本文所提聯(lián)合自適應(yīng)網(wǎng)絡(luò)(joint adaptation network, JAN)結(jié)構(gòu),如圖4所示,主要有3個(gè)模塊:特征提取器fs,Wasserstein度量網(wǎng)絡(luò)fw和分類器fc,其中fw和fc均為全連接網(wǎng)絡(luò)。圖4中:Conv1、Conv2為卷積層;Pool1、Pool2為池化層;F1、F2、Fc1、Fc2、Fw1和Fw2為全連接層;hs和ht分別為特征提取器提取源域和目標(biāo)域隱層特征;Lc為分類損失函數(shù);Ld為邊緣分布匹配損失函數(shù);Lwcd為條件分布匹配損失函數(shù),網(wǎng)絡(luò)通過(guò)優(yōu)化這3種損失函數(shù)既可以針對(duì)有標(biāo)簽的源域數(shù)據(jù)保持較高的分類精度,同時(shí)通過(guò)聯(lián)合匹配源域和目標(biāo)域數(shù)據(jù)的邊緣分布和條件分布,將基于源域有標(biāo)簽數(shù)據(jù)的診斷模型有效遷移到數(shù)據(jù)無(wú)標(biāo)簽的目標(biāo)域空間。

圖4 聯(lián)合自適應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)


(10)
式中,K為不同高斯核的數(shù)量。
fw將源域和目標(biāo)域的特征映射到一個(gè)實(shí)數(shù),其相應(yīng)的參數(shù)矩陣可以通過(guò)網(wǎng)絡(luò)的學(xué)習(xí)得到。于是,Wasserstein距離W1(Xs,Xt)的計(jì)算如下

EPht[fw(fs(xt))]
(11)
由式(11),給定數(shù)據(jù)標(biāo)簽條件下的特征條件分布在源域和目標(biāo)域之間的Wasserstein距離計(jì)算如下
Wcd(Xs,Xt)=EPxs[fw(fs(xs))|ys]-
(12)

由于目標(biāo)域標(biāo)簽是未知的,本文采用一種相關(guān)標(biāo)簽遷移算法來(lái)獲取目標(biāo)域的偽標(biāo)簽。在源域和目標(biāo)域之間的類別分布一致的情況下,針對(duì)一個(gè)訓(xùn)練數(shù)據(jù)批中有標(biāo)簽的源樣本和無(wú)標(biāo)簽的目標(biāo)樣本,并不是直接利用分類網(wǎng)絡(luò)fc所預(yù)測(cè)的后驗(yàn)類別概率來(lái)給這些無(wú)標(biāo)簽的目標(biāo)樣本進(jìn)行標(biāo)簽標(biāo)記。本文所采用的思想是:針對(duì)某個(gè)考慮中的無(wú)標(biāo)簽數(shù)據(jù)以及所有有標(biāo)簽數(shù)據(jù),分類網(wǎng)絡(luò)fc均輸出一個(gè)類別概率,將距離無(wú)標(biāo)簽數(shù)據(jù)類別概率分布最近的某個(gè)有標(biāo)簽數(shù)據(jù)的類別作為該無(wú)標(biāo)簽數(shù)據(jù)的類別。這一過(guò)程隨著網(wǎng)絡(luò)的優(yōu)化迭代,無(wú)標(biāo)簽數(shù)據(jù)類別預(yù)測(cè)的準(zhǔn)確率也逐漸提高。更加具體一點(diǎn),設(shè)通過(guò)fc網(wǎng)絡(luò)預(yù)測(cè)源域和目標(biāo)域的標(biāo)簽后驗(yàn)分布分別為ps,j=p(ys=c|xs)=fc(fs(xs))以及pt,i=p(yt=c|xt)=fc(fs(xt)),其中j∈ns,i∈nt。則概率分布ps,j和pt,j之間的距離或者近似度可通過(guò)kL(Kullback-Leibler)距離計(jì)算如下
(13)
得到目標(biāo)域數(shù)據(jù)的偽標(biāo)簽后,特征條件分布在源域和目標(biāo)域之間的Wasserstein距離計(jì)算為
Lwcd(Xs,Xt)=Wcd(Xs,Xt)=
(14)
在域自適應(yīng)的過(guò)程中,分類器網(wǎng)絡(luò)fc可以保證分類的準(zhǔn)確性,同時(shí)其誤差的反向傳播有助于1維卷積網(wǎng)絡(luò)學(xué)習(xí)域不變特征。fc的輸出采用典型的Softmax函數(shù),分類損失函數(shù)采用監(jiān)督學(xué)習(xí)中廣泛使用的交叉熵函數(shù),具體計(jì)算如下
(15)
綜合以上,最終的優(yōu)化目標(biāo)L如式(16),并采用自適應(yīng)動(dòng)量項(xiàng)算法 (algorithm with an adaptive momentum term,Adam)[21]來(lái)進(jìn)行目標(biāo)函數(shù)L(θ)優(yōu)化,同時(shí)通過(guò)誤差逐層傳遞反向更新模型參數(shù)。
L(θ)=Lc+λ1Ld+λ2Lwcd
(16)
式中,λ1和λ2為一對(duì)權(quán)衡參數(shù),代表兩種不同分布的域自適應(yīng)性在目標(biāo)函數(shù)中的重要性。
在軸承故障診斷中,凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集[22]是目前學(xué)界廣泛使用的標(biāo)準(zhǔn)試驗(yàn)數(shù)據(jù)庫(kù)。該數(shù)據(jù)集一共有4種軸承狀態(tài)的數(shù)據(jù),即健康狀態(tài)、內(nèi)圈故障、外圈故障和滾子故障,并分別以12 kHz頻率和48 kHz頻率采樣。同時(shí),每種故障類型的數(shù)據(jù),還根據(jù)故障嚴(yán)重程度的不同(0.177 8 mm、0.355 6 mm和0.533 4 mm故障直徑)分為3類。每種類型的故障軸承都配有測(cè)試電機(jī),負(fù)載分別為0、746 W、1 492 W、2 238 W,相應(yīng)的電機(jī)轉(zhuǎn)速分別為:1 797 r/min,1 772 r/min,1 750r/min,1 730 r/min。根據(jù)測(cè)試電機(jī)的負(fù)載不同,數(shù)據(jù)又分為4個(gè)小類。數(shù)據(jù)采集的傳感器分別位于電機(jī)殼體的驅(qū)動(dòng)端和風(fēng)扇端,它們的位置如圖5所示。

圖5 試驗(yàn)設(shè)備
用于本文試驗(yàn)的不同負(fù)載、不同故障類型、不同故障尺寸的數(shù)據(jù)分布如表1所示。根據(jù)不同的故障診斷任務(wù)場(chǎng)景,分別設(shè)計(jì)了如下兩個(gè)轉(zhuǎn)移場(chǎng)景。

表1 試驗(yàn)所使用數(shù)據(jù)的分布情況
負(fù)載下的轉(zhuǎn)移根據(jù)負(fù)載的不同,分別用A、B、C、D來(lái)標(biāo)記0、746 W、1 492 W、2 238 W下的數(shù)據(jù),于是它們之間的兩兩轉(zhuǎn)移一共構(gòu)成12個(gè)轉(zhuǎn)移任務(wù),具體的轉(zhuǎn)移場(chǎng)景如表2所示。例如,轉(zhuǎn)移任務(wù)A→B表示代表源域的0數(shù)據(jù)向代表目標(biāo)域的746 W數(shù)據(jù)的轉(zhuǎn)移,其他的均類似。每個(gè)轉(zhuǎn)移任務(wù)中,源域和目標(biāo)域數(shù)據(jù)均有4種故障類型,每種類型共收集300個(gè)樣本(每種類型針對(duì)3種不同故障尺寸大小分別采集100個(gè)樣本),每個(gè)樣本包含1 200個(gè)時(shí)域數(shù)據(jù)點(diǎn)。
傳感器位置下的轉(zhuǎn)移這里本文采用文獻(xiàn)[23]的方案,將負(fù)載0和負(fù)載2 238 W下的數(shù)據(jù)混合在一起進(jìn)行故障診斷,這樣每種故障類型在源域和目標(biāo)域分別有2 400個(gè)樣本。兩個(gè)轉(zhuǎn)移任務(wù)的設(shè)置如表2所示,其中E→F代表源域的驅(qū)動(dòng)端數(shù)據(jù)向代表目標(biāo)域的風(fēng)扇端數(shù)據(jù)轉(zhuǎn)移,反之用F→E表示。另外這里設(shè)置10個(gè)不同的隨機(jī)種子將目標(biāo)域數(shù)據(jù)隨機(jī)劃分10次進(jìn)行測(cè)試并計(jì)算報(bào)告其結(jié)果的平均值和標(biāo)準(zhǔn)差。

表2 傳輸場(chǎng)景和任務(wù)的總結(jié)
作為預(yù)處理,通過(guò)對(duì)原始振動(dòng)信號(hào)進(jìn)行傅里葉變換(fast Fourier transform,F(xiàn)FT),從而得到其相應(yīng)的頻率譜信號(hào),并以此作為網(wǎng)絡(luò)模型的輸入信號(hào)。訓(xùn)練數(shù)據(jù)由所有有標(biāo)簽的源域數(shù)據(jù)和隨機(jī)抽取一半的無(wú)標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù)所構(gòu)成,另一半目標(biāo)域數(shù)據(jù)用于測(cè)試。
試驗(yàn)中,聯(lián)合自適應(yīng)網(wǎng)絡(luò)的參數(shù)設(shè)置,如表3所示。此外,本文工作中批處理的個(gè)數(shù)為200,學(xué)習(xí)率設(shè)置為0.000 2,采用5種不同的高斯核δ=[0.01,0.1,1.0,10.0,100.0],權(quán)重參數(shù)λ1和λ2分別設(shè)置為1.0和0.5。

表3 網(wǎng)絡(luò)層的拓?fù)浣Y(jié)構(gòu)
為了評(píng)估聯(lián)合自適應(yīng)網(wǎng)絡(luò)在軸承故障診斷問(wèn)題上的有效性,試驗(yàn)中也選用了其他的深度學(xué)習(xí)方法以進(jìn)行比較。
(1) 卷積神經(jīng)網(wǎng)絡(luò)不使用域自適應(yīng)轉(zhuǎn)移技術(shù),網(wǎng)絡(luò)結(jié)構(gòu)與本文卷積網(wǎng)絡(luò)一樣,只用源域數(shù)據(jù)訓(xùn)練,目標(biāo)域數(shù)據(jù)測(cè)試。
(2) 域?qū)股窠?jīng)網(wǎng)絡(luò)(domain adversarial training of neural networks,DANN)采用域鑒別器對(duì)模型進(jìn)行對(duì)抗訓(xùn)練,從而學(xué)習(xí)跨源域和目標(biāo)域的域不變特征。
(3) 深度適應(yīng)網(wǎng)絡(luò)(deep adaptation network,DAN)[24]使用多核MMD最小化源域和目標(biāo)域之間的特征分布。
(4) 深度多層自適應(yīng)網(wǎng)路(deep transfer learning based convolutional neural network,DTLCNN)使用多核MMD分別對(duì)特征層和分類層進(jìn)行多層域自適應(yīng)。
不同負(fù)載下的軸承故障診斷結(jié)果如表4所示,不具有域自適應(yīng)的CNN平均診斷精度為93.30%。深度域自適應(yīng)網(wǎng)絡(luò)DANN和DAN在CNN的基礎(chǔ)上嵌入了域自適應(yīng)技術(shù),它們的平均診斷精度分別為97.68%和98.44%,相對(duì)于CNN都有了很大的提升,說(shuō)明深度域自適應(yīng)對(duì)跨域故障診斷有很好的促進(jìn)作用。DTLCNN平均精度為99.00%,相對(duì)DAN略有提高,說(shuō)明多層特征自適應(yīng)效果要好于單層特征域自適應(yīng)。本文方法JAN是在DAN的基礎(chǔ)上嵌入條件分布自適應(yīng),在各種轉(zhuǎn)移任務(wù)中精度都達(dá)了100%,優(yōu)于其他的深度特征自適應(yīng)方法,體現(xiàn)了聯(lián)合自適應(yīng)方法的有效性。為了更好的展示聯(lián)合自適應(yīng)網(wǎng)絡(luò)JAN與無(wú)域自適應(yīng)網(wǎng)絡(luò)以及其他特征自適應(yīng)網(wǎng)絡(luò)之間的對(duì)比,在圖6中用柱狀圖顯示了CNN、DAN、JAN在12項(xiàng)轉(zhuǎn)移任務(wù)中的診斷精度??梢钥闯鲈贏→D、C→A和D→A幾個(gè)域差別較大的轉(zhuǎn)移任務(wù)中,JAN有著比較明顯的優(yōu)勢(shì)。

圖6 負(fù)載下12項(xiàng)轉(zhuǎn)移任務(wù)中的3種方法比較

表4 不同負(fù)載遷移的診斷結(jié)果
為了進(jìn)一步驗(yàn)證本文網(wǎng)絡(luò)的有效性,不同傳感器位置所采集的數(shù)據(jù)也進(jìn)行了知識(shí)遷移學(xué)習(xí),其故障診斷的結(jié)果如表5所示。相對(duì)于不同負(fù)載下的知識(shí)遷移,不同位置傳感器數(shù)據(jù)所體現(xiàn)的域之間的差別較大,為了進(jìn)一步驗(yàn)證本文算法在這一任務(wù)上的有效性,本文又加入了傳統(tǒng)的SVM分類方法以及傳統(tǒng)的遷移分量分析法(transfer component analysis,TCA)[25]來(lái)進(jìn)行對(duì)比試驗(yàn)。TCA是一種常用的遷移學(xué)習(xí)方法,使用MMD正則化子空間學(xué)習(xí),提取一些基于專家知識(shí)的手動(dòng)特征,然后使用SVM分類。

表5 不同傳感器位置的診斷結(jié)果
從表5可以看出,在不同傳感器位置下的知識(shí)遷移學(xué)習(xí)任務(wù)中,JAN相對(duì)其他方法有著最高的精度和最小的標(biāo)準(zhǔn)差,進(jìn)一步說(shuō)明本文方法可以學(xué)習(xí)到更穩(wěn)定,更一致的特征。傳統(tǒng)方法SVM直接分類,效果較差,準(zhǔn)確率只有25%左右,傳統(tǒng)的遷移學(xué)習(xí)方法TCA,由于使用MMD提取域相關(guān)的分類特征,相對(duì)于SVM,其分類精度有了顯著的提升。無(wú)域自適應(yīng)的深度學(xué)習(xí)方法CNN達(dá)到了70%以上的診斷精度,這表明深度學(xué)習(xí)相對(duì)于傳統(tǒng)方法可以更好的學(xué)習(xí)各類故障的有效分類特征。具有深度特征自適應(yīng)方法的DANN、DAN、DTLCNN,它們的分類精度在無(wú)域自適應(yīng)CNN的基礎(chǔ)上有了進(jìn)一步的提高,平均診斷精度分別為87.73%、89.35%、90.05%,均比CNN提高了超過(guò)10個(gè)百分點(diǎn)以上,說(shuō)明深度特征自適應(yīng)模型可以通過(guò)深度特征匹配來(lái)最大程度的消除源域和目標(biāo)域之間的差異。本文所提的聯(lián)合自適應(yīng)方法JAN通過(guò)同時(shí)匹配深度特征的邊緣分布和條件分布,相對(duì)于其他深度特征自適應(yīng)方法其分類精度又有了進(jìn)一步的提升,尤其是在風(fēng)扇端到驅(qū)動(dòng)端F→E的轉(zhuǎn)移任務(wù)中,診斷精度接近100%,比第二名的方法JAN_MMD準(zhǔn)確率高出4.08%。JAN_MMD嘗試用MMD代替Wasserstein去度量條件分布,雖然相對(duì)其他深度自適應(yīng)方法有著更高的識(shí)別精度,但仍然在多數(shù)情況下不如本文所提JAN的性能好。因此,同時(shí)匹配特征的邊緣分布和條件分布是非常有必要的,并且在條件分布自適應(yīng)上采用Wasserstein距離去度量分布差異也是一個(gè)非常有前景的技術(shù)。
圖7顯示了3種代表性方法在訓(xùn)練過(guò)程中的分類精度,這3種方法分別為無(wú)域自適應(yīng)的CNN模型,深度特征自適應(yīng)的DAN模型,以及JAN模型。圖7中橫坐標(biāo)是迭代次數(shù),縱坐標(biāo)是相應(yīng)的分類準(zhǔn)確率。由于在源域上是有監(jiān)督訓(xùn)練,隨著迭代次數(shù)的增加,3種方法在源域上的診斷精度很快就收斂到接近100%的精度。然而在無(wú)監(jiān)督的目標(biāo)域測(cè)試中,無(wú)域自適應(yīng)的CNN模型,診斷效果比較差,由于域之間的差別,當(dāng)訓(xùn)練達(dá)到一定的閾值,容易出現(xiàn)過(guò)擬合。圖7中,CNN模型在50次迭代后其目標(biāo)域的診斷結(jié)果就出現(xiàn)了過(guò)擬合現(xiàn)象。DAN模型由于引入了域之間的相互適應(yīng)機(jī)制,因而沒(méi)有出現(xiàn)CNN模型那樣明顯的過(guò)擬合現(xiàn)象。本文的JAN模型在目標(biāo)域的診斷精度最終穩(wěn)定在近100%的精度,相對(duì)前面兩個(gè)模型無(wú)論是精度上,還是穩(wěn)定性上,都有了很大的提升。這里需要注意的是模型在訓(xùn)練的時(shí)候,盡管源域很早就飽和收斂,但DAN和JAN由于具有域自適應(yīng)性能,隨著訓(xùn)練的迭代,源域和目標(biāo)域的特征分布逐漸匹配,因而模型在目標(biāo)域的診斷性能在后期仍然在進(jìn)一步提升。針對(duì)上述3種模型,引入t分布隨機(jī)鄰接嵌入(t-distributed stochastic neighbor embedding, t-SNE)來(lái)非線性降維網(wǎng)絡(luò)的最后一層特征,從而實(shí)現(xiàn)特征分布的可視化,不同類別的特征圖顯示在圖8中。從圖8的3個(gè)子圖可以看出,CNN、DAN、JAN 3種模型所提供的特征在源域中能夠很好的區(qū)分4種故障樣本,但在目標(biāo)域中則存在著明顯的區(qū)別。如圖8(a)所示,4種故障類別的目標(biāo)域樣本在分布上存在很大的重疊區(qū)域,而且源域和目標(biāo)域的同類別特征分布也沒(méi)有很好的對(duì)齊,這表明CNN所提取特征不僅在邊緣分布上存在域差異,在條件分布上也存在域差異,因此導(dǎo)致診斷結(jié)果的退化。在圖8(b)和圖8(c)中,可以發(fā)現(xiàn)在域自適應(yīng)學(xué)習(xí)框架下,分布的域自適應(yīng)有了明顯的改善,尤其是JAN很好地對(duì)齊了域之間同一類別的條件分布,并且可以觀察到源域類別和目標(biāo)域類別都有著清晰的分類結(jié)構(gòu)。

(a) CNN

(a) CNN
接著,本文分析了參數(shù)學(xué)習(xí)率對(duì)本文JAN模型的影響,分別從精度上和效率上進(jìn)行了分析,如圖9所示,左邊的縱坐標(biāo)表示診斷精度,右邊的縱坐標(biāo)表示網(wǎng)絡(luò)開(kāi)始穩(wěn)定收斂的迭代次數(shù),橫坐標(biāo)表示不同的學(xué)習(xí)率。迭代次數(shù)越多,收斂速度越慢??梢郧逦目闯觯褂?.000 05~0.001 00的學(xué)習(xí)率,測(cè)試精度都是先增大后減小。當(dāng)學(xué)習(xí)率為0.000 20時(shí),性能達(dá)到峰值。同時(shí),收斂速度會(huì)隨著學(xué)習(xí)率的增大而加快。在性能和收斂效率之間進(jìn)行權(quán)衡,將學(xué)習(xí)率設(shè)置為0.000 20。此外,本文將JAN方法在轉(zhuǎn)移任務(wù)FE→DE中的3種訓(xùn)練損失可視化,如圖10所示??梢钥吹絁AN模型的分類損失收斂是最快的,在160次迭代之后基本趨于穩(wěn)定,邊緣分布匹配損失和條件分布匹配損失需要一個(gè)域自適應(yīng)的過(guò)程,收斂速度慢一點(diǎn),總體大概在400次迭代之后都趨于穩(wěn)定。

圖9 JAN模型在F→E轉(zhuǎn)移任務(wù)中不同學(xué)習(xí)率下的性能

圖10 JAN在F→E轉(zhuǎn)移任務(wù)中的訓(xùn)練損失
針對(duì)不同工況下的軸承故障診斷,本文基于傳統(tǒng)基于邊緣分布對(duì)齊的深度特征自適應(yīng),考慮可利用的有標(biāo)簽信息以及偽標(biāo)簽信息,力圖實(shí)現(xiàn)同類別特征分布在源域和目標(biāo)域盡可能的對(duì)齊,最終提出一種深度聯(lián)合自適應(yīng)網(wǎng)絡(luò),分別使用最大均值差異(MMD)測(cè)度以及Wasserstein度量網(wǎng)絡(luò)來(lái)進(jìn)行數(shù)據(jù)深度特征邊緣分布和條件分布的同時(shí)匹配,從而更好的學(xué)習(xí)域不變特征去實(shí)現(xiàn)不同故障的分類,提升模型的跨域診斷性能。試驗(yàn)中設(shè)計(jì)了兩個(gè)遷移學(xué)習(xí)場(chǎng)景,即不同負(fù)載環(huán)境下的遷移和不同傳感器位置環(huán)境下的遷移,前者域之間的差異較小,而后者的域差異則較大。凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集上的試驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性,且相對(duì)于其它深度自適應(yīng)模型,本文方法不僅有著較高的跨域診斷精度,還有著不錯(cuò)的跨域穩(wěn)定性。