郝超,趙忠蓋,劉飛
(江南大學,輕工過程先進控制教育部重點實驗室,江蘇 無錫,214122)
檸檬酸被廣泛應用于食品、藥品、化工等領域,我國是世界上最大的檸檬酸生產國與出口國[1]。我國現有的檸檬酸生產方式主要是發酵法,將玉米、木薯等粉碎、液化后進行帶渣發酵。然而帶渣的混液含有大量粗蛋白,容易導致菌體瘋長,糖酸轉化率低[2];同時帶渣玉米液化液較黏稠、溶氧差,生產能耗大。而利用去除殘渣后的液化清液進行發酵,可以有效克服以上不足,清液黏度低利于溶氧,降低能耗,提高轉化率[3]。監控檸檬酸發酵液化清液的生產過程對整體檸檬酸發酵過程至關重要,而傳統方法只能通過對產品中各種理化值進行事后檢驗并由相關工藝人員判斷清液生產過程是否正常。
近紅外光譜從分子振動層面收集了大量過程信息,因其非破壞性、分析快、效率高而引起人們的廣泛關注,現已在農業、石油、醫藥、食品和環境等領域得到應用[4-8]。但是現有的利用近紅外光譜的監控方法是將測量得到的過程變量信息轉化為理化值并與經驗得到的理化值閾值對比進行監控[9-13],這樣忽略了近紅外光譜本身的統計特性,導致漏報等很多異常狀況出現。本文提出分析近紅外光譜的統計特性,通過判斷光譜的分布信息來判斷光譜表示的生產過程是否異常,這樣能夠充分利用近紅外不同波長上的信息,并根據統計分布的變化實現事前預警。
本文將基于概率偏最小二乘(probability partial least squares,PPLS)的多元統計過程監控方法與近紅外光譜技術相結合來對檸檬酸發酵液化清液生產過程進行監控。通過對檸檬酸發酵液化清液光譜進行聯合區間概率偏最小二乘法(synergy interval probability partial least squares,siPPLS)波段優選、建立PPLS模型、計算光譜的分布特性、建立統計監控指標與置信限對比,得到測試數據是否存在異常。最后與工藝人員給出的故障數據進行比對,得到最后漏報率與錯報率,并與傳統利用近紅外光譜進行監控的方法進行對比。
實驗所用樣本是某檸檬酸工廠生產過程中產生的發酵液化清液,按不同批次,不同日期取樣,每天取8個樣本,共計得236組數據。將提取到的清液樣品以500 r/min攪拌1 min,譜圖穩定。液化清液中的總糖由費林法測得,總氮由凱氏定氮法測得。
近紅外光譜儀(MATRIX-F型傅里葉近紅外光譜儀,德國Bruker公司)用于液化清液光譜的采集,光譜波長范圍為3 996~11 988 cm-1,光譜掃描分辨率為16 cm-1,掃描次數為64次。光譜采集軟件為OPUS,采集的每條光譜包含1 037個數據點。預處理軟件:The Unscrambler X 10.3,挪威CAMO公司。波段選擇及模型構建軟件:Matlab 7.11,美國MathWorks公司。
主成分分析(principal component analysis,PCA)[14-15]、偏最小二乘法(partial least squares,PLS)[16]是常見的特征提取方法,PLS在PCA的基礎上考慮到了輸入輸出的回歸關系。LI[17]等將概率分布引入PLS模型提出PPLS方法,考慮到每個變量的概率分布情況,在主元和誤差都服從高斯分布的條件下,通過求解極大似然函數得到主元、殘差等模型參數。

xn=Ptn+μx+ξn
(1)
yn=Ctn+μy+εn
(2)

可用貝葉斯公式求tn的后驗分布,如公式(3)所示:
(3)


yn≈E(yn|xn)=CE(tn|xn)+μy=
(4)
模型評價是判斷模型建立好壞的重要指標。評價化學計量學模型一般用均方根誤差,均方根誤差越小,模型性能越好。校正集均方根誤差(root mean square error of calibration,RMSEC)、預測均方根誤差(root mean square error of prediction,RMSEP)、交叉驗證均方根誤差(root mean square error of cross validation,RMSECV)計算如公式(5)~公式(7)所示:
(5)
(6)
(7)

光譜采集過程會受到測量條件、外部環境等影響而產生噪聲,因此在分析數據前要對近紅外光譜進行預處理,通過預處理可以減少背景噪聲、基線漂移等對光譜的干擾。一階導數、二階導數、多元散射校正(multiplicative scatter correction,MSC)、平滑是常用預處理方法。本文用一階導數、MSC、9點SG(Savitzky-Golay)平滑分別對原始光譜進行預處理。原始光譜及預處理后光譜如圖1所示。SG平滑可以有效消除噪聲但是平滑圖(圖1-b)沒有消除光譜基線漂移,導數可以有效消除基線漂移和背景干擾,但是會放大信噪比;一階導數圖(圖1-d)雖然消除了光譜的基線漂移,但是會導致光譜吸光度變化太小,不利于建模;MSC圖(圖1-c)既消除了基線漂移,吸光度變化也更適合建模,同時實驗所用清液是過濾所得,會有大小不同的顆粒,顆粒大小會影響光譜,而MSC可以用來減小顆粒大小及分布不均勻產生的散射對近紅外光譜的影響,綜合考慮,本文選用MSC預處理方法。

a-原始光譜;b-SG平滑處理光譜;c-MSC處理光譜;d-階導數處理光譜圖1 原始光譜及預處理后的檸檬酸發酵液化清液光譜Fig.1 Original spectra and preprocessed near infrared spectra of clear solution for citric acid fermentation
通過上述方法一共獲得2組數據,第一組171組正常數據,第二組24組正常數據與31組異常數據混合。根據約2∶1在第一組正常數據中取111組數據作為校正集,60組作為驗證集,第二組正常數據及異常數據混合共55組作為過程監控方法的樣本集。由表1、表2可以看出,驗證集的分組數據在校正集內,分組合理。

表1 Kennard-Stone分組結果(總糖)Table 1 Results of Kennard-Stone(total sugar)

表2 Kennard-Stone分組結果(總氮)Table 2 Results of Kennard-Stone(total nitrogen)
常用的波長選擇方法有無信息變量消除方法(uniformative variable elimination,UVE)、區間偏最小二乘(interval partial least squares,iPLS)[19]與聯合區間偏最小二乘(synergy interval partial least squares,siPLS)[20-21]等。本文在PPLS的基礎上,參考由NORGAARD等[22]提出的iPLS方法及siPLS提出siPPLS來選擇波段。
siPPLS是建立在PPLS基礎上的波段選擇方法,siPPLS具體算法步驟如下:(1) 將整個光譜區域分成n個等寬的子區間;(2) 將數量為 2、3、4的所有等寬子區間排列組合建立PPLS回歸模型; (3) 將不同子區間組合的變量建立PPLS模型并計算每個模型的RMSECV;(4) 選出最小的RMSECV對應的子區間組合對應的光譜波段。
由于還不能從理論上確定參加聯合子區間間隔的數目,在應用siPPLS時,嘗試將整個光譜區域分別劃分為 10、11、12、…、25 個子區間。分別計算總糖、總氮的各種區間劃分及子區間最佳組合下建立模型的RMSECV。對于總糖,如表3所示,siPPLS波長選擇算法在光譜劃分為18個子區間并按[7,11,14,15]區間組合選擇波長時能獲得最小的RMSECV,其值為0.347 8。對于總氮,如表4所示,siPPLS波長選擇算法在光譜劃分為20個子區間并按[4,5,10,16]區間組合選擇波長時能獲得最小的RMSECV,其值為2.400 5×10-3。
由表3可知,經過siPPLS波段選擇,建立光譜與含糖量相關的PPLS模型時,光譜波段不是全部光譜,而是將光譜分為18個區間時的第7、11、14、15個區間的組合對應的光譜,即在全部光譜的1 037個數據點中343~399、571~627、742~855的數據點。

表3 siPPLS方法劃分的不同間隔數的特征光譜區間篩選結果(總糖)Table 3 Spectral interval screening results of different intervals of siPPLS method (total sugar)

表4 siPPLS方法劃分的不同間隔數的特征光譜區間篩選結果(總氮)Table 4 Spectral interval screening results of different intervals of siPPLS method (total nitrogen)
由表4可知,經過siPPLS波段選擇,建立光譜與含氮量相關的PPLS模型時,光譜波段不是全部光譜,而是將光譜分為20個區間時的第4、5、10、16個區間的組合對應的光譜,即在全部光譜的1 037個數據點中154~255、460~510、766~816的數據點。
將經過預處理以及波長選擇的光譜數據進行PPLS建模。通過RMSEC、RMSEP對模型的準確性進行評價。圖2、圖3分別為校正集的PPLS模型及RMSEC指標、驗證集的PPLS模型及RMSEP評價指標。由圖2、圖3可知,校正集與驗證集的均方根誤差之比在0.8~1.2,說明建立的PPLS模型是有效的。

a-含糖量擬合值與真實值對比;b-含氮量擬合值與真實值對比圖2 PPLS模型的樣品擬合值與真實值對比圖(校正集)Fig.2 Correlation of predicted and measured value based on PPLS

a-含糖量擬合值與真實值對比;b-含氮量擬合值與真實值對比圖3 PPLS模型的樣品擬合值與真實值對比圖Fig.3 Correlation of predicted and measured value based on PPLS
現有基于近紅外的監控通常建立近紅外光譜與某種理化值之間的回歸關系,通過判斷理化值是否在閾值內判定過程是否異常。但是這樣忽略了近紅外光譜本身的統計特性,會降低監控結果的準確度。
本文提出通過分析近紅外光譜的統計特性,對檸檬酸發酵液化清液過程進行監控。統計監控理論認為在隨機干擾下,過程變量滿足某種正態分布,如果過程出現故障該分布會變化。光譜不同波長及其對應的吸光度都可以看做不同的過程變量,這些過程變量本身都滿足不同的正態分布,即在每個波長點處的所有171個樣本都符合一定的分布,如圖1-a中樣本點1和2的分布如圖4、圖5所示,圖4是波長在7 200 cm-1處所有171個樣本點的分布圖,圖5是波長在8 904 cm-1處所有171個樣本點的分布圖,這些分布對于判斷過程運行是否正常至關重要,而只用質量變量不足以反映出過程的這些信息。本文考慮了這些過程變量本身的分布情況,將特征提取方法PPLS與統計監控方法結合起來。根據建模的數據得到正常運行狀況下的主元應該滿足的正態分布,通過監控指標計算測試樣本的主元與主元正常分布之間的馬氏距離。具體地,首先得到樣品的光譜xn和對應的理化值含糖量和含氮量yn,對校正集中的樣本進行PPLS建模,可以得到公式(3)及公式(4)所需的參數值,根據公式(4)可以計算出校正集及驗證集的含糖量及含氮量的預測值,計算校正集的RMSEC與驗證集的RMSEP,判斷模型是否可靠,其次在建立可靠PPLS模型的基礎上可以得到主元相關參數如公式(4),由于主元tn的測量值在建模時得不到,故用tn的后驗分布的期望值即公式(3)的期望值來代替tn。根據概率統計常識,基于馬氏距離的tn滿足卡方統計規律。因此,可以計算出測試集的監控指標GT2如公式(8)所示:
(8)
式中:監控指標GT2服從置信度為α、自由度為k的卡方統計規律,自由度即為PPLS模型中的主元個數。

圖4 樣本點1的分布圖Fig.4 Distribution of sample point 1

圖5 樣本點2的分布圖Fig.5 Distribution of sample point 2
現有基于近紅外的監控方法通常建立近紅外光譜與質量變量之間的回歸關系,將光譜信息轉化為質量變量,然后通過判斷質量變量是否在閾值內判斷過程是否正常。基于此檸檬酸發酵液化清液的監控結果如圖6所示,圖中光譜信息首先轉化為總糖含量,然后對總糖含量進行監控,得到的糖含量全部在閾值范圍內,但是實際過程存在異常。在實際工業過程中,總氮并沒有設定嚴格的閾值,故不需要將近紅外光譜轉化為總氮進行監控,因此將近紅外光譜轉化為質量變量的方法忽略了很多有用過程信息,不能有效監控生產過程。
本文直接計算近紅外光譜的統計特性,統計監控理論認為在正常情況下,過程變量滿足正態分布,如果過程出現故障則該分布發生變化。本文首先對近紅外光譜進行PPLS特征提取,然后通過公式計算出各個測試樣本關于總糖、總氮的監控指標GT2的值,結果如圖7、圖8所示,將PPLS模型應用于近紅外光譜的監控中,結合監控指標發現第8~17、第20~31、第34~39、第42~47及第52~53的指標超過控制線,工藝人員給出的故障數據為第1、第6~17、第20~31及第42~47。PPLS方法得到的監控指標漏報第1、6、7三個數據,錯報第34、35、36、37、38、39、52、53八個數據,漏報率為9.68%,錯報率為25.81%。相比于將近紅外光譜信息轉化為質量變量的方法,漏報率與錯報率都有了很大的改進。

圖6 近紅外光譜轉化為總糖的監控結果Fig.6 Monitoring result of conversion of near-infrared spectroscopy to total sugar

圖7 測試樣本的監控指標(總糖)Fig.7 Monitoring indices of test samples (total sugar)

圖8 測試樣本的監控指標(總氮)Fig.8 Monitoring indices of test samples (total nitrogen)
針對檸檬酸發酵液化清液的生產過程的監控,本文從近紅外光譜的統計特性層面提出了基于光譜的PPLS監控方法。過程中采用siPPLS方法選波段所得RMSECV為0.347 8、2.400 5×10-3,在理想范圍內,說明siPPLS優選波段的方法是有效的。對近紅外光譜的PPLS統計監控比傳統方法將近紅外光譜轉化為質量變量得到的監控結果更為有效,漏報率為9.68%,錯報率為25.81%,相較于傳統方法全部檢測不出來有了很大的提升,說明基于近紅外光譜的PPLS過程監控是有效的,為實際檸檬酸工業過程監控提供了一種可靠的參考方法。