李祥宇,隋璘,熊偉麗,2
(1.江南大學 物聯網工程學院, 江蘇 無錫 214122; 2.江南大學 輕工過程先進控制教育部重點實驗室, 江蘇 無錫 214122)
現代工業過程中,關鍵質量和參數的準確監測,對確保生產過程安全可靠及產品質量滿足生產要求至關重要。然而實際生產過程中存在大量難以直接或實時測量的過程變量,導致過程控制中難以通過閉環實時反饋信號,造成反饋控制失控[1-2]。
軟測量技術通過挖掘易測輔助變量與難測主導變量間的關系建立數學模型,以實現對關鍵質量變量的監測[3-4]。軟測量建模一般可分為兩類:基于機理分析建模與基于數據驅動建模。基于機理分析建模是通過對生產過程中工藝機理進行分析以建立數學模型,建模過程復雜且難度較大。基于數據驅動建模則無須對工藝機理有深刻理解,只需要對生產過程中所采集的數據進行分析建模。常用的數據驅動建模方法有主成分回歸[5]、偏最小二乘回歸[6]、高斯過程回歸[7]、支持向量機[8]及人工神經網絡[9]等機器學習模型。
深度學習作為機器學習的一個重要分支,在面對大數據量、深層特征信息時具有更出色的數據解析能力,其在數據驅動軟測量中也擁有高度適應性[10-11]。Hochreiter 等[12]提出一種長短時記憶(long short-term memory, LSTM)網絡,其作為一種常見的深度學習模型,在處理時間序列信息及提取時序特征問題時有著良好的建模性能。Yuan等[13]提出一種有監督LSTM,并將其應用于青霉素發酵過程,可有效提取過程變量間的非線性動態特征。此外,為提高LSTM 預測性能,研究者將其與其他算法模型相結合,組成混合預測模型。Zheng 等[14]將卷積神經網絡(convolutional neural networks, CNN)與LSTM 相結合并應用于青霉素發酵軟測量建模中,有效提升了模型對樣本間相關特征的發掘能力。常樹超等[15]提出一種時空協同的圖卷積LSTM 網絡,兼顧過程變量時序關系及質量變量空間關系,采用多通道獨立學習方法對輸入變量時空特征關系處理分析。孫凱等[16]將非負絞殺算法與LSTM 網絡相結合,辨識過程變量的冗余信息,對網絡輸入權重進行壓縮,剔除冗余變量,從而提高模型預測精度。
另一方面,為了更好地處理各種采樣數據特征信息,研究者在提升LSTM 相關模型性能的同時,對LSTM 的網絡結構也進行不斷改進。Lui 等[17]提出一種有監督雙向LSTM 網絡,通過雙向架構更深層地挖據過程變量與質量變量間的非線性特征信息。Xie 等[18]提出一種雙流λ門控循環單元(gated recurrent unit, GRU)網絡模型,通過雙流結構,融合時間和動態因果流,更高效地提取學習特征。Shen 等[19]通過對LSTM 內部隱藏層神經元進行重要性排序,提出一種有序神經元長短時記憶網絡(ordered neurons long short-term memory,ONLSTM),并將其運用于自然語言處理和圖像處理中。在軟測量建模中,不同輔助變量對預測結果影響不同,因此保留高影響性關鍵特征便尤為重要,而ONLSTM 所引入的層級概念能夠很好地滿足所提要求。Shi 等[20]將ONLSTM 網絡運用于工業故障檢測中,有效解決了高速銑削過程中頻繁發生的自激振動問題。
盡管在解決時間序列長期依賴的問題上,相關LSTM 模型具備良好的應用效果,但是其難以高效專注于不同時間步長下的輸入變量。針對這一問題,Bahdanau 等[21]提出一種基于注意力機制的編碼器-解碼器網絡,在序列建模中有著良好的應用性能,但面對長時間序列時,會造成重要信息丟失,導致模型性能隨著時間序列的增長而下降。因此,將編碼器-解碼器模型替換為LSTM網絡可以有效解決長期依賴的問題。當將LSTM網絡與注意力機制相結合時,可以有效處理數據樣本之間的動態性和相關性。Yuan 等[22]提出一種時空注意力長短時記憶網絡模型,不僅可以自適應處理輸入特征,同時對數據動態特性也有很好的適用性。Li 等[23]提出一種自注意力(self-attention, SA)機制與 GRU 網絡的軟測量建模方法,根據輸入變量間依賴關系分配注意力權重,減少外部信息的影響,從而提高模型預測精度。
本文設計了一種結合自注意力機制的卷積有序神經元長短時記憶網絡(SA-CNN-ONLSTM)混合軟測量模型,并將其運用于青霉素發酵過程。所提模型首先利用CNN 對輸入變量進行局部特征提取并降維;然后將所提取特征輸入多層ONLSTM網絡進行時序特征提取,并通過層級判斷輸入變量的重要程度,過濾特征變量冗余信息;最后結合自注意力機制動態調整特征權重,利用變量間內部依賴關系,對高相關性變量賦予高權重,同時優化全連接層激活函數,以提高模型預測性能。
深度學習神經網絡模型中,由于傳統遞歸神經網絡(recurrent neural network, RNN)存在梯度消失問題,所以提出一種改進型RNN,即LSTM 網絡。LSTM 在RNN 基礎上對其隱藏層神經元結構進行改進,通過引入門結構和記憶細胞,使得模型能夠更好地處理時序過程中長期依賴的問題,從而有效解決RNN 中梯度消失或爆炸的缺陷。LSTM 單元結構如圖1 所示。

圖1 LSTM 結構圖Fig.1 Structure of LSTM
在LSTM 網絡結構中神經元包含3 個門結構和1 個記憶細胞,3 個門分別為遺忘門、輸入門和輸出門,其在LSTM 網絡中起到判斷輸入信息重要程度的作用,通過門的開關實現對時序信息的記憶,從而防止梯度消失。對于一個LSTM 神經元,其外部輸入為前一時刻的細胞狀態Ct-1、前一時刻的隱藏狀態ht-1和當前時刻輸入過程變量xt。3 個門控制計算過程為
式中:ft、it、ot分別為遺忘門、輸入門和輸出門的輸出,σ為激活函數,本文選用Sigmoid 函數,Wf*、Wi*、Wo*和bf、bi、bo分別為不同門所對應的權重和偏置值。
記憶細胞作為LSTM 神經元中的重要組成部分,能夠將時序處理過程中相關信息的遺忘與記憶關系進行學習,將篩選出的重要信息不斷傳遞下去,從而發揮挖掘樣本時序特征的作用。記憶細胞的計算過程為
在LSTM 中對隱含狀態和細胞狀態的更新計算過程為
式中:Ct和ht為更新后當前時刻的細胞狀態和隱含狀態, °為矩陣相應元素乘積運算。
ONLSTM 網絡在傳統LSTM 網絡基礎上對隱藏層神經元順序信息進行運算排序。相較于傳統LSTM 中神經元對所傳遞信息重要程度的判斷不足,ONLSTM 通過引入信息層級概念,構建信息重要性評價指標,并按照信息層級的高低,采用分區更新的方式對輸入信息進行取舍,從而提高網絡模型對信息重要性的判斷能力。
ONLSTM 單元結構如圖2 所示。圖中橙色、黃色和藍色部分為對傳統LSTM 網絡的改進部分,分別表示主遺忘門通路、主輸入門通路以及信息重疊部分通路,ONLSTM 的輸入門、輸出門和遺忘門的計算公式同傳統LSTM 網絡計算公式相同,不同之處在于對細胞狀態Ct的更新函數進行了改進。

圖2 ONLSTM 結構Fig.2 Structure of ONLSTM
為了更準確地提取信息的分層結構,在神經元中引入了新的激活函數:
式中: cumax()表示累計和函數,在此基礎上在隱藏層神經元中引入“主遺忘門”和“主輸入門”,計算公式為
式中:Wf?*、W?i*和bf?、b?i分別為主遺忘門和主輸入門所對應的權重和偏置值。激活函數將細胞狀態轉換為二進制形式。在加入主遺忘門和主輸入門后,改進后的神經元內的細胞狀態的更新規則為
其中 ωt為主遺忘門和主輸入門重疊部分。
自注意力機制在序列建模中具有良好應用性能,其利用軟測量建模中時序信息的特征自身相關性,直接計算特征內部依賴關系,自適應確定輸入特征權重的大小[24],同時與LSTM 相結合,對隱藏層輸出特征進行優化,使模型在長期依賴問題上有更好的性能表現。
自注意力機制中確定權重系數的計算過程為
式中:W表示權重矩陣,ht表示當前時刻前一LSTM模型隱藏層輸出,b表示偏置值,ua表示輸入隱藏層非線性變換層,ur表示輸入序列向量,θ表示自注意力特征權重,st表示所賦不同概率注意力特征權重與各隱藏層輸出相積之和。
本文所提SA-CNN-ONLSTM 預測模型主要包括4 層,分別為CNN 層、ONLSTM 層、自注意力層和全連接層。考慮發酵過程具有動態性和非線性的特點,首先選擇引入CNN 層,通過卷積運算對輸入樣本數據局部特征提取并降維;再在CNN層后疊入多層ONLSTM 層,利用其能夠有效解決時序特征長期依賴問題的優點,進一步提取樣本時序特征,解決發酵過程動態性的問題,同時舍棄訓練過程中冗余信息,減小其對預測結果的影響;進一步引入自注意力機制層,通過自注意力機制,更新特征權重,調節ONLSTM 神經元內隱藏層輸出;最后改進全連接層的激活函數,減小數據非線性的影響,提取整個模型的特征輸出。所提模型結構如圖3 所示。

圖3 SA-CNN-ONLSTM 模型結構Fig.3 SA-CNN-ONLSTM model structure
在處理時序特征問題時,由于傳統LSTM 在參數更新過程中沒有考慮神經元的順序信息,所以在判斷神經元間信息重要程度關系上準確性不足,使得后續神經元參數更新時對包含重要信息的神經元保留時間不足,對包含次要信息的神經元保留時間又過長。
所提混合模型的ONLSTM 層對LSTM 隱藏層神經元內部結構進行改進,引入層級概念來表示輸入時序信息的重要程度。當面對輸入樣本具有數據量大且強非線性特征時,變量間具有較高的關聯性,同時由于大數據量使得輸入樣本中存在著冗余變量影響著模型預測精度。而ONLSTM模型中引入層級的概念,能夠有效提取輸入數據中的重要信息,從而剔除冗余信息。層級在ONLSTM單元內部通過運算得到,通過引入主遺忘門和主輸入門的方式,將輸入到隱藏層神經元的時序特征信息于兩個門內通過運算篩選分類,采用分區更新的方式將不同層級的信息傳遞到ONLSTM模型中的不同通道,從而對不同重要性的信息賦予相應的權值,將包含高重要性信息的神經元保留并傳遞下去。
所提模型中的ONLSTM 層將多層ONLSTM相疊加,通過堆疊多層ONLSTM,將前一層ONLSTM 層的輸出傳遞到后一層ONLSTM 層,使其作為該ONLSTM 的輸入從而建立堆棧式ONLSTM 層,利用堆疊多層ONLSTM 層能夠進一步提取輸入變量的深層特征,與單層ONLSTM模型相比,堆棧式ONLSTM 模型結構對輸入時序特征的非線性特征具有更強的擬合能力,模型具有更強的穩健性。
注意力機制的核心是通過輸入特征與權重加權求和,判斷輸入特征對預測目標的重要程度。軟測量建模中由于無法像自然語言處理任務中有額外信息,所以標準注意力機制在解決軟測量建模的回歸預測問題時仍有不足。因此改進標準注意力機制,得到自注意力機制,即所提混合模型中的自注意力機制層。
自注意力機制層在整個模型中起著輸出特征優化作用。自注意力機制輸入為前一ONLSTM 層的隱藏層神經元輸出,將自注意力機制與ONLSTM網絡模型相結合,依據輸入變量之間的內部依賴關系,對ONLSTM 層的輸出進行動態加權,對關鍵特征變量賦以高權重,表示該特征對模型預測結果的影響較大。自注意力機制以特征相關性為標準,對特征信息進行篩選,并將模型的預測重點聚焦于關鍵特征上。
設定輸入樣本集為X={x1,x2,…,xn},輸出樣本集為Y={y1,y2,…,yn},基于SA-CNN-ONLSTM 的軟測量建模步驟如下:
1) 利用Pensim 仿真平臺采集輔助變量與主導變量,并對采集數據進行預處理;
2) 將預處理后的數據集劃分為訓練集Xtrain、Ytrain和Xtest、Ytest;
3) 利用訓練輸入樣本Xtrain輸入到CNN層提取樣本局部特征d,再將d代入堆棧式ONLSTM層,并得到ONLSTM 隱藏層輸出htrain;
4) 將步驟3 訓練得到的htrain代入自注意力機制層,提取相關特征信息,并更新訓練權重系數;
5)Ytrain作為訓練輸出樣本集,利用Adam 算法對模型參數尋優,訓練SA-CNN-ONLSTM 模型;
6) 將測試輸入樣本集Xtest和測試輸出樣本集Ytest代入到已經訓練好的SA-CNN-ONLSTM模型中,對青霉素濃度進行預測,預測結果為Ypre-dictt,并根據相應的評價指標評估模型預測性能。
青霉素發酵過程是一個復雜的生化反應過程,準確地預測青霉素濃度對整個發酵過程的優化控制具有重要意義[25]。本文以青霉素發酵過程為案例,驗證所提算法應用于軟測量建模的優越性。青霉素發酵基本流程如圖4 所示。

圖4 青霉素發酵過程流程Fig.4 Flow of penicillin fermentation process
本文中的數據通過Pensim 仿真平臺得到。該平臺由Cinar 教授針對實際青霉素發酵過程開發的仿真平臺。通過該平臺采集樣本數據前,設定采樣時間為400 h,間隔時間為0.2 h,即總共采樣20 000 組樣本數據,其余設定值均采用平臺默認設定值。本文選取曝氣速率、CO2濃度、pH 值、發酵罐溫度等11 個變量作為輔助變量,青霉素濃度作為關鍵質量變量。采樣變量及設定值見表1。

表1 Pensim 采樣變量及設定值Table 1 Pensim sampling variables and set values
在青霉素發酵過程仿真實驗中,訓練集和測試集分別取5 000 組和1 000 組數據。本文中采用SA-CNN-ONLSTM 模型作為青霉素濃度預測模型,在深度學習神經網絡模型中,模型的參數對網絡的性能起到至關重要的作用,所以設置合適的網絡模型參數能夠有效提高模型的預測精度。本文通過試驗法不斷調整模型的參數,從而選取實驗效果最為理想的模型參數用于預測青霉素濃度。
本文中模型預測的評價指標選擇均方根誤差RMSE(ERMSE),平均絕對誤差MAE(EMAE)以及相關指數R2(ER2)。其計算公式如下:
在SA-CNN-ONLSTM 模型的ONLSTM 層中,時間步長決定著每個輸入滑動子窗口的序列長度,影響著模型預測精度,本文選取時間步長候選集{3,4,5,6,7,8,9,10},不同時間步長下模型預測的RMSE 如圖5 所示。當時間步長為6 時,模型預測精度最高。其余參數通過多次實驗確定,各層參數設置見表2,當設定CNN 部分的基本參數過濾器個數filters 為10,層數為1,ONLSTM 部分每層ONLSTM 的隱藏層神經元個數為100 和50,層數為2 時,預測青霉素濃度的結果最優。

表2 SA-CNN-ONLSTM 模型參數設定值Table 2 SA-CNN-ONLSTM model parameter settings

圖5 各時間步長下SA-CNN-ONLSTM 模型的RMSEFig.5 RMSE of SA-CNN-ONLSTM model at each time step
由于青霉素發酵過程具有非線性特點,而激活函數將非線性特性引入到神經網絡之中,通過對神經元加以非線性特性,可使神經網絡模型更好地逼近非線性特征函數。選取合適的全連接層激活函數可有效篩選重要輸入神經元信息,以提高模型預測精度。全連接層中較為常見的激活函數為:Sigmoid、ReLU、Elu、Leaky ReLU 和Selu,將其分別代入模型全連接層中,選擇性能最優的作為全連接層激活函數。表3 為幾種常見激活函數的性能對比,根據評價指標結果,本文選用Selu作為全連接層激活函數,模型預測效果最優。

表3 不同激活函數對模型性能的評價指標Table 3 Evaluation index of model performance by different activation functions
自注意力機制作為一種特殊的注意力機制形式,其旨在根據輸入變量自身內部特征相關性對輸入變量進行加權賦值,高相關度的輸入變量將被賦予高權重。在本文SA-CNN-ONLSTM 模型中以自注意力層的形式對ONLSTM 層的隱藏層輸出加權。在青霉素發酵過程仿真實驗中,設置自注意力層神經元數量與輔助變量維度相等。實驗中,自注意力層各輸入樣本自注意力權重如圖6所示,在不同神經元下的輸入變量所賦權重動態調整,通過對權重取平均值,得出不同神經元下輸入變量所賦權重占比,結果如圖7 所示。輸入變量5 的自注意力權重占比最低,而輸入變量4、6、7 占比較高,即輸入變量5 對青霉素濃度的預測結果影響最小,而輸入變量4、6、7 影響較大。

圖6 自注意力層各輸入樣本自注意力權重Fig.6 Self attention weight of each input sample in the self attention layer

圖7 自注意力層各樣本自注意力權重占比Fig.7 Proportion of self attention weight of each sample in the self attention layer
為了更好地驗證所提SA-CNN-ONLSTM 算法在青霉素濃度預測中的性能優越性,本文將該算法分別與LSTM、CNN-LSTM、CNN-ONLSTM、AT-CNN-ONLSTM 和SA-CNN-ONLSTM 算法模型進行對比,比較5 種算法模型對青霉素濃度的預測效果,實驗結果如圖8、9、10 和表4 所示。由圖8 可知,SA-CNN-ONLSTM 算法模型隨著訓練次數的增加,損失值下降速度最快,即模型收斂性最優。

表4 各網絡模型對青霉素濃度預測結果Table 4 Prediction results of penicillin concentration by various network models

圖8 各網絡模型損失值變化曲線Fig.8 Change curves of loss value of each network model

圖9 不同模型下青霉素濃度預測擬合曲線Fig.9 Penicillin concentration prediction curve under different models

圖10 各網絡模型對青霉素濃度預測誤差箱線圖Fig.10 Box chart of prediction error of penicillin concentration by each network model
根據實驗仿真結果可知,當將LSTM 與CNN結合時,利用CNN 對過程變量的局部依賴關系進行處理,提取局部特征后可提高模型預測精度。在此基礎上通過改變LSTM 神經元內部結構,利用層級對隱藏層神經元進行運算排序并分區更新,構成ONLSTM 算法,可有效剔除時序特征中的冗余特征,并將高重要度的神經元信息長時間保留,從而進一步提高預測精度。
以上3 種模型驗證了采用卷積ONLSTM 能夠減小冗余變量對模型預測性能的影響,在此基礎上引入注意力機制。通過該機制能有效提取CNN-LSTM 所提取信息中的重要特征,提高該特征所賦權重,從而增強此特征對預測結果的影響。實驗結果顯示,采用AT-CNN-ONLSTM 算法模型的RMSE 為0.019 74,高于前面3 種神經網絡算法模型。而當應用自注意力機制,對輸入特征的相關性進行處理,更加準確地對相關特征加權,實驗結果表明,采用SA-CNN-ONLSTM 模型進行預測時,RMSE 為0.015 51,為5 種算法模型中最小,預測精度達到最高。
本文提出一種自注意力機制與卷積ONLSTM相結合的混合預測模型,以青霉素發酵過程為案例進行軟測量建模,解決實際工業過程中非線性動態建模問題。所提模型通過CNN 對樣本數據的局部特征進行特征提取和降維,并利用ONLSTM網絡提取樣本數據時序特征,根據層級重要性評價指標過濾冗余信息。另一方面,通過引入自注意力機制動態調節權重系數,以提高重要變量特征權重,增強模型預測性能。實驗結果表明,與其他深度學習模型相比,所提模型能有效降低輸入冗余信息對模型的影響,具有更高的預測精度,可為實際工業過程的優化控制提供有力的技術支撐。