宋世軍 朱昆賢 安增輝 宋連玉 楊 蕊
1 山東建筑大學機電工程學院 濟南 250101 2 山東富友科技有限公司 濟南 250101
塔式起重機(以下簡稱塔機)是目前建筑工程中非常重要的起重機械,屬于建筑工地中高危設備。塔機結構一旦出現損傷,有可能會發生整機變形或倒塌事故,給人民群眾的生命財產安全造成巨大損失[1]。目前,采集到的塔機結構數據量龐大,數據集不完備,標簽數據少且獲取成本高,且人工診斷塔機結構是否損傷面臨誤判率高、診斷效率低等問題。因此,研究塔機結構損傷智能診斷方法,利用少量的有標簽數據,訓練網絡模型快速高效的識別塔機結構是否損傷,對降低塔機的事故率,保障塔機安全具有重大意義。
在機械的損傷智能診斷中,深度學習具有較強學習能力,極大地提高了診斷水平和效率。Che C C 等[2]提出一種基于領域自適應深度信念網絡的滾動軸承智能診斷模型,應用遷移學習中的領域自適應方法計算不同工況數據之 間的多核最大均值差(Multi Kernel-Maximum mean Discrepancies,MK-MMD),并利用反向傳播算法對模型參數進行微調,解決了標記樣本少的問題;Li Y B 等[3]提出一種基于改進的領域自適應方法的機械智能故障診斷方法,與特征提取器有關的特征空間距離和域失配分別使用最大均值差異(Maximum Mean Discrepancies,MMD)和域對抗訓練,以提高特征表示。
面對塔機上收集到的數據具有數據量大、有標簽數據少且獲取成本大、不同塔機收集的數據有差異等問題,給傳統的損傷診斷方法帶來了困難。遷移學習為解決有標簽數據樣本不足的問題提供了新的思路,可使用與需要診斷的目標塔機數據不同分布的已有數據集或已有含足量訓練樣本的塔機數據集訓練網絡,將過往的有標簽數據與現有無標簽數據聯系起來,從而有效解決樣本不足的問題。本文采用遷移學習中的域自適應方法,將不同域之間的聯系建立起來,以增強模型的泛用性。
本文以MMD 距離作為度量標準,將源域樣本與目標域樣本的特征映射到無窮維特征空間,使樣本特征在再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)建立聯系,應用卷積神經網絡,設計實驗對本文方法進行驗證。
在現實中,訓練數據和測試數據來自不同的域,即訓練數據與測試數據分布不同,但兩者的任務相同,而遷移學習中的域自適應方法[4]能有效解決上述問題。域自適應方法是指通過學習源域與目標域之間的差異,將源域的知識遷移到目標域中,從而解決在目標域上數據不足或分布不同導致模型性能下降的問題。域自適應可以找出數據分布不同的域之間的聯系,提取跨域不變的分類特征,提高模型的泛化能力,從而使模型目標域的性能可與在源域的性能相當甚至更好。
在塔機損傷智能診斷中,普遍面臨不同域的識別問題(如不同塔機間數據有差異,同一塔機不同時間段和不同工況所收集到的數據也有區別),同時還要面對標簽數據少且無標簽數據龐雜的問題,這種情況下可以利用域自適應方法使模型繼續應用。域自適應方法的應用背景與目的如下:
1)訓練用數據包括源域數據(Ds,即已有知識域數據)和目標域數據(Dt,即要進行學習的域的數據),本文所述域指代不同塔機的數據集、同一塔機不同時間段的數據集。
2)塔機的健康狀態種類相同,故源域和目標域具有相同的標簽空間。
3)源域和目標域數據空間不同,邊緣分布也不同,通過域自適應方法,利用源域的有標簽數據和目標域的無標簽數據訓練模型,使數據在模型作用下進入相同的特征空間,且邊緣分布相同。
最大均值差異(MMD)[5]是評價源域與目標域間域差異分布的測量方法,是衡量2 個分布差異的重要指標。設所有函數為?,若這2 個分布通過?映射后得到的均值均相等,則可認為2 個分布具備一致性。MMD的基本定義式為
式中:p為源域分布,q為目標域分布,x為特征,f為映射函數,E為期望,sup為函數映射的最大值,F為函數的集合。
本文使用的是Gretton A 等[6]提出的MMD 多核變形體,選取高斯徑向基核函數(Gaussian Radial Basis Function,GRBF)作為多核核函數,高斯核函數作為徑向基函數可將特征映射到無窮維RKHS 中,能夠更好地表示出數據在高維空間的分布差異,是應用度很高的一種核函數[7]。高斯核函數形式為
在式中,σ控制高斯核函數的作用范圍,其值越大高斯核函數的局部影響范圍就越大。σ在內核的性能中起主要作用,σ過小易使分類任務出現過擬合現象;σ過大則指數將幾乎成線性,高維投影將開始失去其非線性功能。本文采取5 個不同σ的高斯核函數來解決單一核函數的參數選擇風險。
卷積神經網絡(Convolutional Neural Networks,CNN)屬于前饋神經網絡的一種,主要包含卷積層、池化層、全連接層等結構[8]。卷積層是卷積神經網絡的核心部分,當數據經過卷積層時,卷積層中所包含的卷積核會對輸入數據做卷積運算。卷積的作用是將輸入的樣本數據進行卷積,抑制輸入數據中噪聲的干擾,增強原始樣本信息。卷積運算可表示為
式中:xi為卷積后的特征圖,Wi為卷積核權值,xi-1為當前輸入特征,bi為偏置,fi(?)為激活函數。
如果直接使用卷積層的輸出進行后續任務的處理會增加計算量,在卷積層間設置池化層,可有效縮小參數矩陣的尺寸和全連接層中參數的數量,既能減少計算量又不會失去數據的主要特征,能起到加快網絡計算速度和防止過擬合的作用[9]。池化操作也稱下采樣,其主要操作是對數據進行降維,壓縮卷積層提取的特征,全連接層起到對提取的特征進行壓縮的作用,全連接層自身不具備特征提取能力,而是使用前置層中已提取的高階特征完成網絡學習任務。
隨機梯度下降算法(Stochastic Gradient Descent,SGD)[10]對解決機器學習優化問題有顯著效果,其核心思想是:為了獲得最優解并計算函數損失值的最小值,需要先計算損失函數的梯度,然后按照梯度方向逐步減小函數損失值;需要通過反復調整權重更新函數損失值,直至達到最小值。這種算法在每次迭代過程中從樣本中隨機選擇一組樣本的梯度更新迭代總體梯度,不但加快迭代速度,而且大大降低了計算復雜度。
以CNN 為基本診斷模型,在訓練時引入域自適應,利用多核MMD 方法將樣本特征映射到RKHS 中進行處理,實現不同塔機間數據的特征遷移結構損傷智能診斷。
采用一維卷積神經網絡將樣本數據樣本輸入模型,將數據的健康狀態分為完好和損傷2 種,利用Softmax激活函數給出數據樣本屬于某一健康狀態的后驗概率,再根據此概率判斷設備的健康狀態。
輸入樣本xi為塔機上收集來的數據,y為C 類健康狀態,數據樣本經過模型處理的向前傳播公式為
采用Softmax 激活函數進行激活輸出o,給出樣本的健康狀態的后驗概率,即有
式中:P=(y=c|x)為輸出x時的健康狀態y為c的概率。
1)分類損失函數Lc模型通過帶標簽的源域數據的訓練獲取分類知識。在保證模型最基本的分類能力下,盡可能地減少分類誤差。分類損失函數Lc最小化意味著模型通過帶標簽的源域數據學習到了分類特征。采用標準的Softmax 分類損失可表示為
式中:θ為參數的集合;xiS為源域樣本xS通過模型輸出的預測結果,根據標簽可計算其與真實標簽的誤差;1{?}為指示函數。
2)域自適應損失函數Ld
域自適應的目的是為了減少源域和目標域的分布距離,使其進入相同的特征空間對目標域數據進行特征分類,保證目標域樣本能夠被準確地診斷。卷積神經網絡的每層都含有分類信息的特征,取卷積神經網絡最后2層提取分類信息的深層特征,用MMD 多個核函數計算這2 層的分布距離Ld1、Ld2,即在多個高維空間中計算源域和目標域之間的分布距離,其表達式為
式中:H1S、H1t、H2S、H2t是源域和目標域在該層的特征向量,K為所用核函數的個數。
采用域自適應損失函數最小化意味著模型能夠學習跨域不變的分類特征。最終的域自適應損失函數為
聯立分類損失函數Lc和域自適應損失函數Ld這2個優化目標,最終損失函數為
搭建整個域自適應特征提取網絡模型,對塔機采集到的有標簽數據樣本的源域進行特征提取,利用多核MMD 找出數據分布不同的域之間的聯系,提取跨域不變的分類特征。一方面,通過計算源域和目標域學習到的特征之間的MMD 距離優化計算模型的特征學習;另一方面,模型使用源域訓練數據進行分類,計算分類損失函數。將源域數據的分類損失函數和源域與目標域之間的差異距離MMD 結合作為模型的總損失函數,利用隨機梯度下降算法反向傳播更新模型中的權重參數。如此不斷地優化模型,提高其泛化性能。診斷方法如圖1所示,診斷模型如圖2 所示。

圖1 基于域適應的結構損傷診斷方法

圖2 應用MMD 的CNN 診斷模型
在塔機上安裝剛度儀,將采集的原始頂端位移數據樣本進行訓練,剛度儀的安裝位置為與塔身軸線是平行的結構處或塔機回轉塔身的任意主肢,如圖3 所示。測得相關數據可儲存在計算機設備上[11]。本文以多臺塔機收集的數據作為實驗數據,并將這些數據分為完好和損傷2 種健康狀態,樣本長度為48 維。

圖3 剛度儀樣式及安裝位置
采用一維卷積神經網絡,設計CNN 結構主要包括1 層輸入層、2 層卷積層、2 層池化層和4 層全連接層。卷積層的卷積核均為1×6,池化層的卷積核大小均為2×1,4 個全連接層的節點數依次為256、128、35、2。CNN 模型參數如表1 所示,激活函數采用ReLU 形式。

表1 CNN 模型的各參數設置
其中,輸入層輸入塔機位移原始數據,從塔機收集400 個有標簽數據和500 個無標簽數據作為實驗樣本,取300 個有標簽數據作為源域訓練樣本,500 個無標簽數據作為目標域訓練樣本,剩余的100 個有標簽數據作為目標域測試樣本。采用批訓練的方法,每次迭代隨機選取64 個源域有標簽的數據樣本和64 個目標域無標簽數據樣本,共訓練500 步,訓練好的模型對目標域有標簽樣本數據進行測試,以此判斷網絡訓練的效果。在從源域到目標域遷移的訓練過程中,域自適應損失函數隨優化迭代過程的變化曲線如圖4 所示。

圖4 分類損失函數與域自適應損失函數變化曲線
由圖4 可知,隨著優化的不斷進行,域自適應損失函數值和分類損失函數值在不斷減小直至趨于平穩,表明目標域和源域的分布距離MMD 都在下降,模型可以保證源域和目標域能夠進入相同的特征空間,并使2 個域深層特征的邊緣分布相接近。分類損失函數Lc的降低,表明分類誤差在減小,保證了模型基本的分類能力。Ld1、Ld2層損失函數曲線之所以會出現明顯差異,是因為分布差異的誤差會隨層數的增加而累積,層數越深差異就越明顯。
為了驗證本文方法對于訓練塔機數據樣本的可行性,設定對具有相同網絡結構的人工神經網絡(Artificial Neural Network,ANN)模型和使用本文方法的ANN模型、具有相同網絡結構的CNN 模型和使用本文方法的CNN 模型進行對比分析。診斷結果如圖5 所示。

圖5 不同模型的測試準確率
在未采用遷移學習方法的模型中,CNN 的診斷平均準確率為86.70%,與診斷平均準確率為79.85%的ANN 相比,CNN 診斷結果均比ANN 高。若診斷結果均難以滿足診斷需求,說明數據發生變化后基于原始數據所學習到的分類能力對診斷新的樣本略有乏力。在使用遷移學習方法情況下,CNN 的診斷平均準確率為91.15%,ANN 的診斷平均準確率為84.30%,CNN 對診斷準確率依舊優于ANN,但通過遷移學習方法的使用,CNN 與ANN 相比于未使用遷移方法前均有診斷效果的提升。
為驗證本文方法在塔機損傷診斷方面的優越性能,設計了遷移成分分析(Transfer Componet Analysis,TCA)[12]、聯合分布自適應方法(Joint Distribution Adoptation,JDA)[13]、平衡分布自適應方 法(Balanced Distribution Adaptation,BDA)[14]等3 個遷移學習方法進行對比實驗。診斷準確率如表2 所示。

表2 不同遷移學習方法的損傷診斷準確率 %
本文方法的診斷準確率較TCA、JDA、BDA 遷移學習方法有明顯提升,表明本文方法較其他方法對比,能夠更加有效地診斷塔機結構損傷。
批處理樣本數目對模型的訓練結果、診斷準確率、訓練時長有重要影響,批處理樣本數目太少會增加模型的訓練步數,太多則會降低模型的優化效果。訓練優化步數為500,批處理樣本數目分別為16、32、64、128時的實驗結果如表3 所示。當批處理樣本數目為64 時,診斷準確率較高,訓練時間在合理范圍內,所以批處理樣本數目設置為64。

表3 不同批處理樣本數目的實驗統計結果
在本文方法中,域適應方法應用了多核MMD,通過改變RBF 核的個數研究多個核函數進行分布適配效果,診斷結果如圖6 所示。由圖6 中的診斷結果可知,隨著核函數數量的增加訓練時間不斷增加(每百步訓練時間是基于Intel I5 處理器4G 內存設備上計算得出的),診斷準確率略有上升,但標準差有所降低,表明多核MMD 能夠讓診斷結果更穩定。雖然增加RBF 核的個數能夠讓診斷結果略有提升,但訓練時間地拉長將不利于模型的高效診斷。通過權衡診斷準確率核每百步訓練時間,RBF 核的數量為5 的時候診斷效果較好。

圖6 不同核函數個數對準確率的影響
此外,對比域自適應損失函數在同時采用Ld1、Ld2這2 個域自適應損失函數與僅采用Ld21 個域自適應損失函數情況下的診斷效果,結果如圖7 所示。在迭代500 次訓練模型結果中,使用2 個域自適應損失函數的情況下源域訓練準確率比僅使用1 個域自適應損失函數更快到達最高值。在目標域的訓練準確率中,使用2 個域自適應損失函數要比使用單個域自適應損失函數的平均準確率略高,且更快達到最終的訓練效果。所以,同時采用Ld1、Ld2這2 個域自應損失函數要比采用Ld21 個域自適應損失函數效果要好。

圖7 訓練過程準確率曲線
在式(9)中,λ的值確定了域自適應損失函數在總損失函數里的占比,亦表示目標域數據訓練樣本在訓練中所占比例,改變目標域數據訓練樣本的占比對診斷準確率結果的影響如圖8 所示。隨著目標域數據訓練樣本在訓練中所占比例的增加,目標域準確率得到提升,但在目標域訓練樣本比例為10%時,目標域準確率約為89%,較其他占比較高的時候的效果略差。

圖8 不同目標域訓練樣本比例對診斷準確率的影響
采用遷移學習中的域自適應方法對塔機進行智能損傷診斷,以深層神經網絡為基本框架,研究了域自適應損失函數的作用,進行了核函數個數和提取域自適應損失函數的不同層數對診斷結果影響的研究,證明了采用多核多層方法的有效性,驗證了遷移學習在使用塔機數據的情況下的可行性,解決了塔機采集的有標簽數據少且無標簽數據龐雜的問題。使用本文方法,可使樣本數據特征進入相同的特征空間,拉近數據間的特征距離,從而進行高效損傷診斷。另外,通過實驗表明了基于本文方法下的模型具有對新數據更好的適用性,穩定性以及較好的診斷效果。