李帷韜 童倩倩 王殿輝 吳高昌
氧化鎂作為電熔鎂砂(又稱電熔鎂)的主要成分,是一種堿性耐火原材料,廣泛應用于航空航天、核子熔爐、電子電器等領域.作為全球最大的電熔鎂生產國和供應國,我國菱鎂礦石普遍存在品位低、成份波動大、礦物組成復雜等特性,需要采用特有的三相交流電極電熔鎂爐進行熔煉.電熔鎂爐的冶煉過程是邊進料邊冶煉,由機器將原料倒入電熔鎂爐,通過爐內高溫電弧對原料進行加熱生成氧化鎂晶體[1-2].由于氧化鎂的熔點高達2 850 ℃,整個生產過程電能消耗極高,單臺電熔鎂爐的日均耗電量在40 000 kWh 左右,占生產成本的60%以上,屬于典型的重大耗能設備.
為了保證電熔鎂的品質,需要對生產過程進行監控,防止冶煉過程中可能出現的異常工況,包括欠燒、過熱和異常排氣等.欠燒工況是由于原料中含有雜質和復雜礦物導致電熔鎂爐中原料燃燒不充分而產生的異常工況,此時爐壁局部被燒紅、發亮;過熱工況時爐口火焰較亮,可能會產生鎂煙塵和氧化鎂等不良物質;異常排氣工況時爐口會有高溫熔體噴射,此時電流變化劇烈.出現這些異常工況時,需要及時發現并處理,否則會導致能耗浪費,鎂資源利用率和鎂砂品位降低,鎂爐燒穿,原料泄漏威脅操作人員的安全.目前鎂爐異常工況的診斷很大程度上還需要依靠人工決策.由于爐口存在燃燒的火焰無法直接觀測內部熔池,操作人員需要克服爐壁周圍冷卻管道形成的不確定位置/濃度高亮度水霧干擾,圍繞爐壁感知隨著原料間斷加入形成的熔池高度變速率增長多模態工況,憑借經驗反復推敲比對評估當前工況,利用電流控制系統使三相電極電流跟蹤熔煉電流設定值[3-4].然而,每個巡檢人員負責多臺熔爐,受制于人員多角度多方位反復觀測的經驗、責任心和勞動強度等主觀因素以及復雜燒制環境中高溫、噪音、灰塵、水霧和爐壁固有白斑等客觀因素的影響,知識無法解釋和積累傳承,容易導致漏檢或誤檢而造成電熔鎂爐燒穿等不可逆損失,難以滿足實時巡檢的運維需求.
近年來,隨著人工智能技術的不斷發展,借助機器學習、深度學習對電熔鎂爐工況進行異常診斷受到廣泛關注.這些方法通過對鎂爐生產數據進行采集和處理,提取各種特征參數,利用算法對異常工況進行自動診斷.例如文獻[5-6] 提出了一種基于貝葉斯網絡的鎂爐異常工況診斷方法,引入遷移學習解決異常工況數據量少的問題.文獻[7]采用半監督學習對無標簽電流數據進行自動標注,對在半監督學習框架下構造的分類器進行訓練.文獻[8]將卷積神經網絡(Convolutional neural network,CNN)與長短期記憶網絡(Long short-term memory,LSTM)相結合,分別提取電熔鎂爐的空間特征和時序特征,以識別欠燒工況.文獻[9]采用深度卷積生成對抗網絡進行數據增強,利用卷積神經網絡提取RGB 圖像和紅外熱成像的特征.文獻[10]使用卷積網絡、多層雙向長短期記憶網絡(Bi-directional long short-term memory,Bi-LSTM)和堆疊自動編碼器分別提取電熔鎂爐工況的圖像、聲音、電流特征,將不同特征進行融合后訓練工況分類器.文獻[11]使用YOLO 目標檢測算法檢測關鍵目標區域,基于AlexNet 模型進行鎂爐工況分類.
深層卷積神經網絡(Deep convolutional neural network,DCNN)是一種人工神經網絡,DCNN通常由多個卷積層、激活函數、池化層和全連接層組成,形成深度的網絡結構.深度結構有利于網絡學習更抽象和高級的特征,使用多個卷積層和池化層用于逐層提取圖像特征,提高了網絡的表達能力.具體而言,卷積層使用卷積核來捕獲圖像的局部特征,而池化層則通過降采樣操作減少特征圖的維度,保留重要的信息.雖然深度學習在圖像領域已被廣泛使用,但是依然存在一些亟待解決的難題.深層神經網絡的黑盒特性本質上是由于其內部神經元學習到的特征與人類所理解的語義概念之間存在不一致性所導致的.深度學習的可解釋性是指模型的決策過程可以被清晰地理解和解釋,是人們理解模型程度和對決策信任程度的重要指標.目前,深度學習模型的可解釋性具有不同層面的呈現方式,包括特征可視化[12]、分析可視化[13]、局部和全局可解釋性[12]、具有解釋性的網絡結構設計[14]等.其中,具有解釋性的網絡結構可以使用戶理解模型,不僅能觀察模型的預測結果,還能了解模型產生決策的原因,在模型出錯時可以自行修復模型[15].傳統的網絡構建方法通常是基于人類的先驗知識和經驗進行迭代試錯,尋找最佳的超參數,時間消耗巨大.近年來,研究者提出了一些自動的網絡結構搜索方法.文獻[16]通過構建計算圖共享子圖間的參數進行訓練,尋找最優神經網絡架構.文獻[17]使用RNN 生成網絡的描述并采用強化學習訓練RNN.文獻[18]使用組稀疏性正則器自動確定網絡每層節點個數.然而,這些方法搜索空間巨大、計算效率不高且需要提前確定網絡層級.另外,采用反向傳播梯度下降方法訓練神經網絡存在權重初始化、局部最小值以及學習性能對學習率設置敏感等問題[19],同樣制約了深度學習模型的性能.因此,亟待研究一種具有可解釋性網絡結構的快速有效自動構建方法.
為了解決神經網絡訓練時間長、易陷入局部最小、與學習能力密切相關的隱含層節點個數難以確定等問題,隨機學習算法應運而生.該算法隨機分配輸入權重和偏移并通過最小二乘法計算輸出權重.與隨機向量函數連接網絡(Random vector functional link networks,RVFL)[20]相比,隨機配置網絡(Stochastic configuration networks,SCNs)[21]基于增量式隨機算法,采用不等式約束神經元隨機參數的分配并自適應地選擇隨機參數的范圍,基于監督機制確保所構建隨機學習器的萬局逼近能力.文獻[22] 提出二維隨機配置網絡(Two dimension stochastic configuration network,2DSCN),可以直接處理二維數據,較SCNs 在圖像數據建模方面的泛化性能有所提高.文獻[23]提出一種深度隨機配置網絡(Deep stochastic configuration network,DeepSCN),網絡中每一層的隱含節點都與輸出相連,使網絡可以學習到更豐富的特征表征.為解決非穩態數據流的持續學習問題,文獻[24]提出一種深度堆疊隨機配置網絡(Deep stack stochastic configuration network,DSSCN),網絡結構可以自主加深和減淺.然而,雖然SCNs 構建了可學習的神經元網絡,但是對于圖像特征的提取能力較弱,無法很好地表征感興趣的圖像信息.
電熔鎂爐運行環境的特殊性導致了識別模型的泛化能力問題.高亮度水霧、爐壁白斑、強光等干擾因素對圖像質量造成了極大影響,使得已經訓練良好的模型在測試集上的表現出現較大下降,產生了泛化能力弱的現象.解決這一問題需要尋找適用于電熔鎂爐環境的處理方法,以確保模型能夠在多樣化的工況下保持準確性.因此,本文引入具有物理含義的高斯差分卷積核,有助于區分由水霧、白斑、強光等因素導致的圖像紋理信息缺失,使模型能夠較為準確地區分鎂爐圖像的水霧和白斑.并且本文使用隨機配置方法構建深層卷積網絡,其網絡結構在增量學習過程中確定,每增加一個卷積核/卷積層,網絡誤差逐漸收斂,使得網絡結構更加緊致,冗余卷積核更少,更加利于模型的泛化性能.同時,傳統模型架構固定(卷積層數和卷積次數固定),設計缺乏明確意義,卷積核沒有物理含義,會出現卷積核冗余導致網絡結構復雜等現象,這限制了模型在實際應用中的可靠性和可信度.而本文采用的深層卷積隨機配置網絡(Deep convolutional stochastic configuration networks,DCSCN)架構,從單層網絡單個卷積開始構建,直至滿足預設誤差限,構建過程中網絡誤差逐漸收斂且無需反復訓練,使得網絡更加可信.這種網絡結構緊致且具有高度的可信度,使得本文模型在實際應用中更具有可信度.
綜上所述,本文針對電熔鎂爐運行環境的特殊性導致識別模型的泛化能力差問題以及可解釋性弱的缺陷,借鑒SCNs 的增量學習方法,提出一種基于深層卷積隨機配置網絡的可解釋性電熔鎂爐異常工況識別方法,主要工作包括:
1)為了避免傳統增量式網絡的不足,本文首次采用隨機配置方法構建深層卷積神經網絡,從單層網絡單個卷積核開始遞增,直至滿足停止迭代條件,避免了反向傳播算法迭代尋優卷積核參數的過程.具有物理含義的高斯差分卷積核參數通過與數據相關的參數選擇策略自動配置,確保識別誤差逐級收斂.給出了深層卷積神經網絡全局收斂能力的證明,以保證網絡的收斂性.
2)為了避免高精度的超分辨算法需要較多訓練樣本及計算量大,本文采用雙線性插值方法將DCSCN 構建的特征圖集合上采樣至輸入圖像大小,與原始圖像進行疊加后,重新輸入至當前隨機配置卷積層級條件下的DCSCN,以獲得多模態工況隸屬于不同類別的得分.定義通道特征圖獨立系數,獲取不同通道特征獨立得分,將類別得分、通道特征獨立得分與對應通道特征圖進行線性組合,得到類激活映射圖,疊加至原始圖像可獲得當前層級條件下的電熔鎂爐特征可視化結果.定義可解釋性可信度評測指標,自適應調節DCSCN 的層級,以獲取最優工況識別結果.
3)對9 000 幅電熔鎂爐工況數據進行實驗驗證,結果表明,本文方法在測試集上的識別精度為92.31%,較其他方法具有更高的準確率和可解釋性.
本文提出的基于深層卷積隨機配置網絡的可解釋性電熔鎂爐異常工況識別模型,采用三層結構實現信息的耦合傳遞,包括訓練層、反饋層和測試層,模型結構如圖1 所示.
訓練層包括數據增強、預處理和深層卷積隨機配置網絡模塊.首先,將電熔鎂爐訓練圖像數據進行數據增強和預處理,以擴展訓練集樣本數量.然后,將訓練集送入深層卷積隨機配置網絡,避免反向傳播迭代更新卷積核參數,基于監督機制自適應選取新的卷積核參數,從單層單個卷積核開始,逐個逐層構建增量式卷積特征提取層,確保識別誤差收斂.從第一層增量式卷積特征提取層開始(圖1中增量式卷積特征提取層1 表示),將訓練集送入第一層增量式卷積特征提取層,獲取特征圖(圖1 中第一個黃色框表示),經由全連接層進行電熔鎂爐工況分類,若識別誤差滿足預設條件,則停止訓練;否則繼續增加單層卷積核個數(圖1 中第二個黃色框表示),直至單層最大卷積核個數C1,若此時識別誤差仍不滿足預設條件,在單層增量式卷積特征提取層基礎上,繼續增加第二層增量式卷積特征提取層(圖1 中增量式卷積特征提取層2 表示).重復上述過程直至設置的最大卷積層數(圖1 中增量式卷積特征提取層Lmax表示),停止訓練.
反饋層包括可解釋性評估模塊和基于可解釋性可信度指標的DCSCN 卷積層調節模塊.電熔鎂爐訓練完成后,若此時已構建Lmax-1 層DCSCN,將深層卷積隨機配置網絡提取到的特征圖集合輸入至反饋層(圖1 中藍色箭頭)并上采樣至原始輸入圖像大小,與原始圖像疊加后再次輸入增量式卷積網絡獲取類別得分,定義通道特征圖獨立系數,計算每個通道特征獨立得分,最后將類別得分、通道特征獨立得分與特征圖線性組合,獲取特征圖的類激活映射圖.定義可解釋性可信度評測指標,針對訓練集電熔鎂爐工況不確定識別結果,判別是否滿足可解釋性可信度指標.若滿足可信度指標閾值,則從訓練集中移除,否則將壓縮后的訓練集數據增強至原始訓練集大小,調節深層卷積隨機配置網絡的層數(圖1 中紅色箭頭),在固定前一層深層卷積隨機配置網絡參數條件下,生成新的增量式卷積特征提取層,使得DCSCN 調整為Lmax層,對不滿足可信度指標閾值的訓練樣本進行工況可信度再識別.
測試層使用構建的具有可解釋性深層卷積隨機配置網絡,獲取測試樣本的電熔鎂爐工況最優識別結果.
電熔鎂爐生產過程中,異常工況相對較少,因此存在圖像樣本不平衡問題,會導致訓練的學習模型出現過擬合現象.為了解決該問題,本文采用非生成式方法對圖像進行數據增強,例如水平翻轉、調整對比度和亮度、增加噪聲等,以提高數據的多樣性,減輕過擬合問題,使得學習模型能夠更好地適應各種場景下的鎂爐圖像變化.其中,水平翻轉是一種常用的數據增強方法,它通過將圖像水平翻轉來生成新的圖像,從而增加了數據的多樣性.這種操作可以模擬現實中不同視角的觀察,幫助模型更好地泛化到不同情況.另一方面,增加高斯噪聲也是一種有效的數據增強方法.在真實世界中,圖像往往會受到各種干擾,例如光照變化和傳感器噪聲.通過在圖像中添加高斯噪聲,能夠讓模型更好地適應這些現實干擾,從而提高其在實際應用中的穩健性和準確性.
水平翻轉可以描述為
其中,I(x,y)為原始圖像在坐標 (x,y)處的像素值,I′(x,y)為水平翻轉后圖像在 (x,y)處的像素值,w表示原始圖像寬度.
調整對比度和亮度可以描述為
為了避免出現像素值越界,將原始圖像中的每個數值減去0.5,乘以對比度增強系數1.5,最后再加上0.5,以同時增強圖像的亮度和對比度.
添加高斯噪聲可以描述為
其中,N (0,η2)表示均值為0、標準差為η的高斯噪聲,通過改變η的值可以控制噪聲的強度.
采集的圖像中可能包含一些與電熔鎂爐無關的信息,為了減少這些信息的影響,將圖像中心裁剪至 1 080×1 080 并縮放至 2 56×256,將輸入值歸一化到 [-1,1] 范圍內,以方便后續的圖像處理.
為了解決卷積神經網絡在結構設計、超參數調整的問題,借鑒隨機配置網絡[25-30],如圖2 所示,本文提出一種高效構建卷積神經網絡的方法,即深層卷積隨機配置網絡.該策略從初始單層單個卷積核開始,通過增量學習的方式產生新的隨機卷積核來構建卷積神經網絡,克服了傳統方法中手動設計網絡結構和超參數調整的繁瑣性.在卷積核參數的選取過程中采用監督學習機制,確保了深度學習模型的全局近似能力.

圖2 深層卷積隨機配置網絡結構圖Fig.2 Deep convolutional stochastic configuration networks structure diagram
2.2.1 隨機配置卷積核生成策略
隨機配置卷積核生成策略自適應確定卷積核參數范圍并在范圍內隨機產生新的卷積核參數,包括權重和偏置.深層神經網絡從零卷積核開始構建,使用監督學習機制產生具有可解釋性的新卷積核,確保網絡性能的提升.最后采用最小二乘法更新網絡輸出權重,當網絡誤差小于預設誤差時停止卷積核的生成.
令F=[f1,f2,···,fm]:為一組實值函數,d1,d2,d3分別為空間上三個維度的大小,其L2范數定義為
實值函數F與實值函數G=[g1,g2,···,gm]:的內積可表示為
設輸入矩陣I,卷積核K的大小為ρ×n,經過互相關操作后,輸出矩陣S中 (i,j)位置的元素為
其中,?為互相關操作符,I(i+ρ,j+n)K(ρ,n)表示I中 (i+ρ,j+n)位置的元素與卷積核K中(ρ,n)位置的元素相乘.
給定目標實值函數F:,假設一個DCSCN 由Lmax層卷積構成,每層卷積的卷積核個數分別為C1,···,Cl,···,CLmax,l∈[1,Lmax],卷積核的大小為k×k,則DCSCN 可表示為
則 l iml→+∞‖F-Fl‖=0 成立,否則,重新生成第l+1 層的第1 個卷積核參數,直至滿足卷積核增加的終止條件.
因此,一個DCSCN 的構建問題可描述如下: 給定訓練圖像數據X={x1,x2,···,xN},其中,xi∈,對應的輸出Y={y1,y2,···,yN},其中,yi∈Rm為圖像類別標簽.記第l層卷積輸入數據Il的第t個通道為,t=1,2,···,Cl-1,則第l層卷積的第C個卷積核輸出的特征圖可表示為
其中,g(·)為激活函數,的維度為H×W.經過最大池化后可獲得下采樣特征圖
其中,Ψ∈[h,h+m],h=1,2,···,H表示特征圖的長度范圍,?∈[w,w+n],w=1,2,···,W表示特征圖的寬度范圍.
第l層卷積中第C個卷積核的誤差為
2.2.2 卷積核參數選取策略
深度學習模型中卷積核的構建會直接影響學習模型與輸入數據之間的關聯性,具有良好性能的深度卷積網絡,其卷積核應呈高斯分布[31].爐壁和爐口高亮區域與水霧高亮區域具有截然不同的紋理特性,邊界存在顯著的亮度變化.高斯差分卷積核通過對圖像進行高斯平滑和差分操作,可以強化圖像中的紋理信息,以區分由于水霧遮擋導致減弱或丟失紋理信息的圖像區域,因此這里被選取作為DCSCN 的卷積核,其定義如下
其中,ξ表示標準差,控制卷積核的寬度范圍;r表示尺度倍數,較小的r可以檢測細微邊緣和細節信息,較大的r可以檢測粗糙邊緣和輪廓結構.不同的ξ和r組合可以獲取不同的鎂爐工況信息.
不同于傳統基于梯度下降算法迭代更新卷積核參數的方法,本文采用隨機選取策略以生成不同的卷積核.卷積核的權重服從如式(15)所示的高斯差分分布,偏置在如下式所示的均勻分布中選取
基于式(15)和式(16)生成Tmax個候選高斯差分卷積核,采用下式評估每個候選高斯卷積核的收斂性得分
2.2.3 深層卷積隨機配置網絡收斂性證明
假設DCSCN 中第l層卷積的卷積核個數為Cl,則易得第l層卷積滿足
第l+1 層卷積中生成的第1 個卷積核的輸出誤差為
電熔鎂爐異常工況識別需要確保識別結果的可靠性和可解釋性,以便于操作人員理解深度學習模型的可信決策過程.深層卷積隨機配置網絡在確保全局收斂獲取可靠識別結果的同時,基于監督學習生成的高斯分布卷積核具有與輸入數據強關聯的物理含義,確保了模型的機理可解釋性.類激活映射可視化作為一種視覺可解釋性驗證,表征了數據的重要性分布,其采用最后一層卷積的梯度信息作為通道特征圖的權重值,與特征圖加權求和得到類別重要性,最終疊加至原圖得到模型的特征數據可解釋性.由于DCSCN 的構建過程中不包含梯度信息,因此,本文提出了一種基于特征圖獨立性加權的類激活映射方法.首先將特征圖集合上采樣至原始圖像大小,與原始圖像疊加后,再次送入增量式卷積網絡獲取類別得分;定義通道特征獨立系數,計算每個通道特征圖獨立得分,將類別得分、通道特征圖獨立得分與通道特征圖進行線性組合,可以得到特征類激活圖,再疊加至原圖即可得到圖3 所示的特征可視化結果.

圖3 基于特征圖獨立性得分的類激活映射示意圖Fig.3 Schematic diagram of the class activation mapping based on feature map independence scores
采用雙線性插值將第l層卷積的特征圖集合Al的每個通道特征上采樣至原始輸入大小并歸一化至[0,1].Al的第?個通道特征圖與原始圖像xi疊加后可記為
其中,?為點乘操作.將輸入DCSCN 模型(記為 ?),經由Softmax 可輸出類別得分
DCSCN 模型針對xi的類別預測結果為yq,q=1,···,m,則第?個通道特征圖的類別得分為.通道特征獨立得分的定義如下
將Al中的全體特征圖分別乘以后再進行求和,即將每個通道特征圖賦予不同類別得分和不同通道獨立得分,即可得到l層DCSCN 模型條件下樣本xi的類激活映射圖
基于Lq可定義可解釋性可信度指標,以量測預測目標與真實目標之間的偏差,判斷可解釋性結果是否與真實結果一致.可解釋性可信度指標定義為當前可解釋性結果高亮區域d與真實標注區域之間的交并比IoU
其中,d ∩表示d和相交的面積大小,d ∪表示d和相并的面積大小.若IoU 大于預設定閾值I,則從訓練樣本集中移除該樣本,否則將移除壓縮后的訓練集數據增強至原始訓練集大小,增加DCSCN 的特征提取層數,固定前一層網絡參數,在新的特征提取層中從零開始生成新的卷積核,對不滿足可解釋性可信度指標閾值的訓練樣本進行工況可信度再識別,直至滿足停止迭代要求.
為了驗證所提方法的有效性,本文選取了源于遼寧省某電熔鎂爐廠的生產視頻.對視頻進行拆幀處理,獲取分辨率為 1 080×1 920 的圖像,經過圖像數據增強后,共獲得9 000 張圖像樣本.圖4~7分別為正常工況、欠燒工況、過熱工況和異常排氣工況數據增強后的部分結果.通過增加對比度和亮度,圖像的明暗部分更加突出,有利于模型提取細節特征.此外,還對圖像進行了鏡像處理,模擬了在真實場景中可能出現的情況.本文在圖像上增加標準差為0.3 的高斯噪聲,模擬真實情況下的噪聲強度.電熔鎂爐圖像的工況由專家進行類別標注.隨機選取80%的數據(共7 200 張圖像)作為訓練集,其中4 種工況樣本各占四分之一,剩余20%的數據(共1 800 張樣本)作為測試集.所有實驗均在同一平臺上進行,硬件包括Intel i9-10900K 處理器、16 GB內存以及RTX 3060 顯卡,編程語言為python 3.9.

圖4 正常工況圖像數據增強后的結果Fig.4 Results of normal conditions image data enhancement

圖5 欠燒工況圖像數據增強后的結果Fig.5 Results after image data enhancement for underburning conditions

圖6 過熱工況圖像數據增強后的結果Fig.6 Results after image data enhancement for superheated operating conditions

圖7 異常排氣工況圖像數據增強后的結果Fig.7 Results after image data enhancement for abnormal exhaust conditions
漏診率Rm定義為實際是正例但被預測為負例的樣本數量與全體樣本數量的比例,可以衡量模型對正樣本的識別能力,計算方法如下
其中,FN為實際是正例但被預測為負例的樣本數量,N表示全體樣本數量.
誤診率Rf定義為實際是負例但被預測為正例的樣本數量與全體樣本數量的比例,可以衡量模型對負樣本的識別能力,計算方法如下
其中,FP表示實際是負例但被預測為正例的樣本數量.
精度Ra為模型正確分類樣本數量與全體樣本數量的比例,計算方法如下
其中,TP表示實際是正例且被正確預測為正例的樣本數量,TN表示實際是負例且被正確預測為負例的樣本數量.
PA可以衡量模型所占內存大小,即卷積層參數量CA與全連接層參數量FA之和,計算方法如下
其中,k表示高斯差分卷積核大小,Cl-1為第l-1層卷積核個數,Cl為第l層卷積核個數,min為全連接層輸入神經元個數,m為網絡輸出的維數.
3.3.1 深層卷積隨機配置網絡實驗結果
深層卷積隨機配置網絡的參數設置為期望誤差限e=0.01,候選高斯差分卷積核個數Tmax=100,標準差ξ∈[0.5,5],尺度倍數r∈[0.8,1.5],高斯差分卷積核大小k∈{3,5,7}.卷積網絡中最大卷積層數Lmax=10,每層卷積的最大卷積核個數Cl=40,采用sigmoid 激活函數,池化層選取最大池化核,池化核kp=2,非負收縮序列uC=1/C,C∈[1,Cmax].所有實驗結果均基于50 次獨立實驗的平均.
圖8 給出了某次采樣實驗中,當網絡卷積層數l=1 時,不同大小卷積核k條件下,電熔鎂爐工況訓練樣本和測試樣本識別精度曲線.可以看出,在訓練和測試過程中,隨著具有物理含義的不同大小隨機配置卷積核逐一生成,DCSCN 模型均呈現快速收斂性,在40 次卷積操作后,模型精度趨于平緩.由于單層卷積的性能有限,DCSCN 在給定的卷積核個數內未達到預設的誤差水平,因此需要多層卷積網絡以提取抽象特征,達到理想的分類性能.此外,不同大小的卷積核雖然可以獲取相似的模型性能,但同時也帶來了更多的計算量.兩個 3×3 的卷積核與一個 5×5 的卷積核具有相同的感受野,但兩個 3×3 的卷積核可以進行兩次非線性變換,具有更好的非線性變換能力且計算量更小.因此,大小為3 的卷積核可以更好地平衡模型性能與復雜度.

圖8 不同卷積核大小條件下的識別精度曲線Fig.8 Recognition accuracy curves under different convolutional kernel sizes
為了驗證本文每個具有物理含義的卷積核生成的必要性,采用強化學習方法對經由生成的隨機配置卷積核提取的特征圖集合進行選取,與選取前的特征圖集合進行性能對比.構建l=1 和l=3 的深層卷積隨機配置網絡,卷積核大小k為3.
強化學習模型中,為了降低深層卷積隨機配置網絡過擬合的風險,平衡模型精度與較低相關性特征圖提取之間的權重,定義聯合獎勵函數R(st,l,st+1,l)如下
其中,α和β分別表示特征圖獨立性和精度的權重系數,t表示時刻,st,l和st+1,l分別為t時刻和t+1時刻智能體的狀態,α數值高表示強化學習模型側重相互獨立的特征圖作為輸出,β數值高表示側重提升精度的特征圖作為輸出.表示每層卷積輸出特征圖集合Al的獨立性之和,特征圖獨立性指標可以評測每個卷積層特征圖集合的獨立程度,當某個特征圖高度依賴于其他通道的特征圖時,意味著其包含的信息很大程度上已經被編碼在其他特征圖中,其定義如下
強化學習模型的參數設置為: 評估Q網絡和目標Q網絡均為包含300 個神經元的兩層全連接網絡,折扣因子γ為0.9,經驗回放池大小為2 000,學習率為0.002,訓練輪數為400 個epoch.使用ε-貪心搜索策略[32]更新評估Q網絡,在前100 輪實驗中,ε固定為1.0,100 輪后ε固定為0.1.
圖9 為l=1 和l=3 時DCSCN 中高斯差分卷積核提取的特征圖集合被送入強化學習模塊后的平均獎勵曲線.從圖中可以看出,在訓練300 輪后,單層DCSCN 和三層DCSCN 的平均獎勵值均穩定在0.85 附近,表明此時強化學習模塊收斂,選取了可以較好平衡模型精度與較低相關性的特征圖.

圖9 強化學習訓練過程的平均獎勵曲線Fig.9 Average reward curves for training process of reinforcement learning methods
訓練樣本集和測試樣本集在是否采用強化學習方法條件下的漏診率、誤診率和精度如表1 所示.可以看出,本文方法在訓練樣本集和測試樣本集的所有性能指標上,均較采用強化學習方法選取特征圖的策略有著更優的表現,深層網絡的性能優于淺層網絡,模型的泛化性能得到提升.具體而言,使用強化學習方法對特征圖進行選取后,訓練樣本集和測試樣本集在單層DCSCN 條件下和三層DCSCN 條件下相較于本文方法,精度分別下降2.48%、2.67%、3.07%、2.49%,漏診率分別上升1.47%、2.05%、0.56%、1.33%,誤診率分別上升0.99%、0.62%、2.51%、1.16%.由此表明,本文DCSCN 所生成的不同標準差和不同尺度倍數的高斯差分卷積核具有特定的物理含義,可以提取電熔鎂爐圖像截然不同細節和輪廓結構的特征圖,對工況的識別結果均可提供獨特的貢獻度,因此,特征圖的選取導致DCSCN 模型性能下降.

表1 基于強化學習的漏診率、誤診率和精度對比 (%)Table 1 Comparison of missed diagnosis rate,misdiagnosis rate and accuracy based on reinforcement learning (%)
3.3.2 可解釋性評估實驗結果
深層卷積隨機配置網絡中不同卷積層的類激活映射圖如圖10 所示,圖10(a)~10(d)分別對應4種不同工況,圖中高亮的部分表示激活區域,即該卷積層所關注的區域.可以看出,l=1 所對應的類激活映射圖提供了較為詳細的關鍵目標信息,但是高亮區域較為分散且雜亂,說明噪聲污染對識別結果的影響比較嚴重.隨著卷積層數的增加,噪聲逐漸被抑制,模型關注的關鍵目標更加連貫和準確.在l=3所對應的類激活映射圖中,較好地提取了關鍵特征,定位了不同工況所需關注的目標區域,即正常工況下的爐口火焰位置、欠燒工況下的爐壁燒紅和爐口位置、過熱工況下的爐口火焰位置、異常排氣工況下的爐口溶液溢出位置.
為了更好地表明本文可解釋性評估策略的準確性,采用深度強化學習方法選取特征圖進行可解釋性評測,與本文方法的實驗對比結果如圖11 所示.其中,原始圖像右側第一行為使用強化學習方法選取特征圖的可視化結果,第二行為本文方法的可視化結果.從圖中可以看出,本文方法相較于強化學習方法,其高亮區域更加豐富連貫.具體而言,強化學習方法可解釋性分析的高亮區域較小,表明模型僅關注圖像中的小部分細節和輪廓信息,可能會影響模型的魯棒性和泛化性能.本文方法可以更加準確地定位與工況具有強關聯性的感興趣高亮區域,具有物理含義的卷積核使得本文方法更加透明和易于理解.
圖12 給出了某次采樣實驗中不同卷積層條件下,本文方法與基于強化學習方法的可信識別樣本比例變化曲線,這里可解釋性可信度指標閾值I設為0.5,當訓練樣本的IoU 大于I時,認為該樣本的類別預測結果可信,否則認為類別預測結果不可信.從圖中可以看出,本文方法較采用強化學習選取特征圖的策略均有著更優的表現.當l=1 時,本文方法中約有87%的訓練樣本滿足可解釋性可信度指標閾值,將不滿足的訓練樣本數據增強至原始數據大小,增加新的卷積特征提取層,當卷積層數增加至3 時,全體訓練樣本均滿足可解釋性可信度指標閾值,網絡層數停止增加,表明深層卷積隨機配置網絡可以提取不同工況的有效特征,關注的特征區域與真實標注區域重合.強化學習方法移除了部分可提供獨特貢獻度的高斯差分卷積核,降低了樣本關注特征區域的表征能力,IoU 下降導致可信識別樣本比例較低.

圖12 本文方法與基于強化學習的可信識別樣本比例變化曲線Fig.12 The proportion change curves of trusted recognition samples based on reinforcement learning and the method proposed in this paper
為了驗證本文所提出的各個模塊的有效性,將本文方法與三個變體進行對比,分別是未加入可解釋性模塊的方法、未加入高斯卷積核以及可解釋性模塊的方法、未加入高斯卷積核的方法.實驗中采用三層DCSCN 網絡,實驗結果見表2.

表2 消融實驗結果 (%)Table 2 Results of ablation experiments (%)
由表2 可知,本文方法相比于去除可解釋性模塊、去除高斯卷積核、同時去除可解釋性模塊和高斯卷積核的方法,訓練集精度和測試集精度分別提升了0.81%、1.53%、3.00%、1.19%、1.77%、3.17%.因此,本文所提出的可解釋性模塊不僅使模型更加透明和可信,同時也提升了模型的性能.另外,使用具有物理含義的高斯差分卷積核構建的深層卷積網絡,使模型能夠更好地適應電熔鎂爐復雜情況的識別,確保精度的不斷提升.使用類激活映射獲取特征的可視化結果并定義可信度指標,使工況識別結果更加準確及可信.
為了驗證高斯噪聲對數據的具體影響,引入不同標準差η的高斯噪聲并對其影響進行實驗驗證.具體而言,在三層DCSCN 網絡基礎上,實驗中分別設置了三個不同的標準差值,即,η=0.3 (本文方法所采用的標準差),η=0.6,η=0.9,實驗結果見表3.

表3 不同高斯噪聲的實驗結果 (%)Table 3 Experimental results with different Gaussian noises (%)
從表3 可以看出,隨著高斯噪聲標準差η的增大,訓練集和測試集性能逐漸下降,η=0.6 模型和η=0.9模型相較于本文方法,訓練集精度分別下降1.86% 和3.33%,測試集精度分別下降2.02% 和6.77%,結果表明,噪聲逐漸增加會使網絡的構建更加困難,容易導致過擬合或欠擬合問題.具體原因分析如下,高斯噪聲、裁剪和縮放處理后,圖像會損失一部分細節特征,適量噪聲可以使模型對輸入中的小變化更健壯,當噪聲水平過大時,噪聲會掩蓋圖像中的有用特征,使模型難以從數據中學習有效的特征信息,從而導致過擬合或欠擬合問題.
為了驗證本文方法的有效性,本文將其與SCN[21]、塊增量BSC[33]、2DSCN[22]、DeepSCN[23]、CNN[34]、貝葉斯網絡[6]以及CNN+LSTM[8]的工況識別模型進行性能對比.其中,SCN、塊增量 BSC和2DSCN 的隱含層數均為1,隱含層節點數設置為2 000,塊寬△k=5.DeepSCN 的隱含層數為4,每個隱含層節點數均設置為500,激活函數為sigmoid,隱含層節點參數范圍λ∈{1,3,5,7,9,10,25,50,100},收縮序列r∈{0.9,0.99,0.999,0.999 9,0.999 99,0.999 999}.貝葉斯網絡中使用BN 參數遷移學習方法[6]學習目標域BN 模型參數.CNN 的網絡結構包含3 個卷積層,3 個sigmoid 激活層,3 個池化層,1個全連接層,訓練輪數為100 個epoch.
圖13 給出了5 種網絡模型的訓練樣本識別精度曲線.由圖13 可以看出,其他 4 種模型的訓練樣本識別精度曲線隨著卷積核個數/隱含層節點數的遞增均呈現收斂趨勢,SCN、塊增量 BSC、2DSCN和DeepSCN 在2 000 個隱含層節點處分別趨于0.77、0.79、0.79、0.84 且上升緩慢,而本文方法的識別精度變化更為劇烈,在120 次卷積時,識別精度就可以達到0.92.

圖13 不同網絡模型的訓練樣本識別精度曲線Fig.13 Recognition accuracy curves of training samples for different network models
表4 給出了本文方法與其他模型的測試樣本漏診率、誤診率和精度對比.可以看出,本文方法相較于其他7 種模型,在漏診率和誤診率上保持較低水平,分別為5.24%和2.45%.精度相較于SCN、塊增量 BSC、2DSCN、DeepSCN、CNN、貝葉斯網絡、CNN+LSTM 分別提升了16.17%、15.46%、14.32%、8.67%、4.59%、2.39%、2.74%.上述結果表明SCN、塊增量 BSC、2DSCN、DeepSCN 中的隱含層節點對于直接輸入的圖像數據特征提取能力不足,本文方法采用增量式方法構建深層卷積隨機配置網絡,基于監督學習機制隨機配置具有物理含義的高斯差分卷積核參數,有效提取電熔鎂爐不同工況的特征,確保識別誤差逐級收斂.本文方法構建類激活映射圖獲取電熔鎂爐特征的可視化結果,使得深度學習模型內部機理更加清晰,定義可解釋性可信度評測指標,自適應調節網絡層級對不可信識別結果的樣本進行再認知,以獲取最優工況識別結果.

表4 不同模型的測試樣本漏診率、誤診率和精度對比 (%)Table 4 Comparison of missed diagnosis rate,misdiagnosis rate and accuracy of test samples with different models (%)
表5 給出了本文方法與其他模型某次采樣實驗中的參數量、訓練和測試時間對比.在參數量方面,本文方法中的卷積操作具有參數共享的優點,加之深層網絡的多次卷積和下采樣操作,使得輸入全連接層的特征圖尺寸減小,參數量較SCN、塊增量BSC、2DSCN 和DeepSCN 減少了1 至2 個數量級,復雜度大幅降低,避免了模型的過擬合風險.貝葉斯網絡的參數量較少且訓練時間較短,但是推斷過程時間較其他方法更長.此外,由于DCSCN 每個特征圖集合均與輸出層連接,因此,雖然參數量較CNN 和CNN+LSTM 有所提高,但漏診率、誤診率和精度均為更優.

表5 不同識別模型的綜合性能對比Table 5 Comprehensive performance comparison of different recognition models
在訓練時間方面,本文方法、DeepSCN、CNN和CNN+LSTM 的多層模型訓練時間均多于SCN、塊增量BSC 和2DSCN 的單層模型訓練時間,測試時間具有相同的數量級.本文方法采用三通道的彩色圖像作為輸入,加之卷積操作替代隱含層節點,因此訓練時間較采用灰度圖像作為輸入的SCN、塊增量BSC、2DSCN 和DeepSCN 更長.不同于CNN 和CNN+LSTM 采用反向傳播梯度下降法進行訓練,本文方法則基于監督學習機制增量式生成卷積核,避免了權重初始化、局部最小值以及學習率敏感等問題.
為了驗證本文所提出的深層卷積隨機配置網絡的泛化性和魯棒性,本文選擇一種太陽能電池板公共數據集[35],該數據集提取自單晶和多晶光伏模塊圖像.該數據集包含2 624 張圖像,圖像分辨率為300×300像素,涵蓋了4 種不同的太陽能電池板故障類型.為保證實驗的一致性,首先對數據集進行統一的數據增強和預處理,得到總計10 496 張圖像.隨機選取80%的圖像作為訓練集,剩余20%的圖像作為測試集.實驗參數設置與消融和比較實驗保持一致.表6 給出了本文方法在太陽能電池板數據集上的漏診率、誤診率和精度結果.根據表中的數據,可以清楚地看出在單層DCSCN 和三層DCSCN 條件下,本文方法在測試集上表現出了較好的性能.本文方法相較于未加入可解釋性模塊方法分別實現了1.64%和1.39%的精度提升,并且進一步證明了本文方法在不同數據集上均具有良好的泛化性和魯棒性.

表6 太陽能電池板數據集實驗結果對比 (%)Table 6 Comparison of experimental results for solar panel dataset (%)
針對現有電熔鎂爐異常工況識別方法泛化能力差、可解釋性弱等問題,本文提出異常工況可解釋性識別模型,創新點如下:
1)基于監督學習機制采用增量式隨機配置策略,生成具有物理含義的高斯差分卷積核構建深層卷積網絡,確保識別誤差逐級收斂,具有網絡結構透明和可解釋性的特點.
2)采用類激活映射方法對模型進行可解釋性分析,標識需關注的鎂爐特征區域,定義可解釋性可信度評測指標,自適應調節網絡層級對不可信樣本進行再認知,以獲取最優工況識別結果.
3)本文方法的電熔鎂爐異常工況漏診率為5.24%,誤診率為2.45%,精度為92.31%,較其他識別方法更優.
未來將采用塊增量技術,進一步提升深層卷積隨機配置網絡的建模速度和精度.