胡春艷 于來行
(1. 周口職業技術學院,河南 周口 466300;2. 周口師范學院,河南 周口 466300)
近紅外光譜分析技術具有快速、高效、環保以及低成本等優點,在食品、農業、制藥工程和石油化工等領域得到了廣泛應用。已有學者[1]利用近紅外光譜技術對蘋果品質評價進行了研究。目前蘋果品質評價的方法主要有主成分回歸法、逐步多元線性回歸法以及偏最小二乘法等統計方法和人工神經網絡法[2-4]。統計方法適合線性數據研究,但是針對非線性分類問題就不具備相應的優勢。人工神經網絡法適合非線性分類研究,但是存在過學習和易陷入局部最優的問題,且無法解決光譜冗余信息帶來的復雜度較高的問題。
為了提高蘋果內部品質評價模型的精度,針對近紅外光譜存在大量冗余信息和預測精度較低的問題,提出一種基于連續投影法的特征波長篩選和灰狼優化算法[5](grey wolf optimization algorithm,GWO)改進深度置信網絡[6](deep belief network,DBN)的蘋果品質評價模型,旨在為蘋果內部品質評價提供新的方法。
試驗儀器采用美國Thermo Fisher公司的型號為Antaris II的近紅外檢測儀。該儀器集成了透射、反射、漫透射以及漫反射等不同檢測模塊,采用了Nicolet專利的高光通量、高速動態準直電磁式干涉儀,可以實現不同狀態下樣品的高效、精準的檢測與分析。Antaris II的近紅外檢測儀的光譜范圍為4 000~10 000 cm,掃描次數為64次,分辨率為8 cm。
DBN是概率網絡模型,屬于深度神經網絡的一種。采用DBN不僅可以進行非監督學習,同時還可以進行監督學習。受限玻爾茲曼機(restricted boltzmann machine,RBM)是DBN的組成元件,一系列的RBM堆疊成DBN,圖1為DBN的結構圖。

圖1 DBN結構組成Figure 1 DBN structure compositions
由圖1可知,DBN是由多層RBM所構成的神經網絡,其采用非監督貪婪逐層方法來進行預訓練,獲得所對應的權值。v為顯層,作為輸入數據;h為隱層,作為特征收集[7]。不同的顯層與隱層堆疊成不同的RBM,BP層為DBN的最后一層。
設(v,h)為DBN給定的狀態,在DBN網絡中所有顯層與隱層單元二值變量i和j的能量函數E為
(1)
式中:
θ——參數w,a,b組成的集合;
a、b——顯層與隱層的偏置;
w——顯層與隱層的連接權重。
設K為訓練樣本數,采用隨機梯度法求解對數似然函數L(θ)的最大值來確定參數θ的值θ*,即
(2)
參數確定之后,由能量函數可以得到顯層和隱層每一種狀態(v,h)的聯合概率分布函數,即[5]
(3)
顯層v確定之后,隱層單元的激活概率p為
(4)
隱層h確定之后,顯層單元的激活概率p為
(5)
由Gibbs采樣定理得到RBM參數更新的規則,即
(6)
式中:
ε——學習速率;
〈·〉data、〈·〉recon——輸入數據和重構后數據的數學期望。
GWO算法中,灰狼個體被劃分為4個等級α、β、δ和ω。α負責整個狼群的決策與管理,β和δ為適應度次于α的灰狼個體,ω為除α、β、δ之外的灰狼個體。主要包括3種行為,分別為包圍行為、捕獵行為和攻擊行為[8]。
1.3.1 包圍行為 灰狼根據式(7)和式(8)包圍獵物:
D=|C·Xp(t)-X(t)|,C=2·r2,
(7)
X(t+1)=Xp(t)-A·D,A=2ac·r1-ac,
(8)
式中:
D——狼群和獵物之間的距離;
t——當前迭代次數;
X——當前狼群的位置;
Xp——獵物的位置;
r1、r2——隨機數,r1、r2∈[0,1];
ac——非線性收斂因子,ac∈[2,0]。
1.3.2 捕獵行為 包圍獵物之后,狼群將捕食獵物。如果α、β、δ依次為全局最優解、全局第二解和全局第三解,則α、β、δ可以根據式(9)~式(11)進行重新定位[9]。
Dα=|C1·Xα-X|,
(9)
Dβ=|C2·Xβ-X|,
(10)
Dδ=|C3·Xδ-X|,
(11)
式中:
Dα、Dβ和Dδ——α、β、δ與當前解X的近似距離;
Xα、Xβ、Xδ——α、β、δ的位置;
C1、C2、C3——隨機向量。
當前解X和更新解X(t+1)為:
X1=Xα-A1·(Dα),
(12)
X2=Xβ-A2·(Dβ),
(13)
X3=Xδ-A3·(Dδ),
(14)
(15)
式中:
A1、A2、A3——隨機向量。
1.3.3 攻擊行為 狼群捕食獵物的最后階段就是攻擊捕獲獵物。當|A|≤1時,狼群接近獵物(X*,Y*),進行集中攻擊獵物;當|A|>1時,狼群遠離獵物,尋找新的獵物。該過程主要通過調節參數ac實現。
DBN模型的性能受其參數θ={w,a,b}選擇影響比較大,采用GWO算法對DBN模型參數θ={w,a,b}進行優化,提高DBN模型的性能,將均方根誤差作為GWO-DBN的目標函數[10]:
(16)
式中:
k——訓練樣本的個數;
x(k)——實際值;
p(k)——預測值;
wmin,wmax——w的上限和下限;
amin,amax——a的上限和下限;
bmin,bmax——b的上限和下限。
運用GWO算法隨機產生參數θ={w,a,b},將不同參數θ={w,a,b}帶入DBN模型進行訓練,將均方根誤差最小時的對應的參數θ={w,a,b}輸出,建立基于DBN模型的蘋果內部品質評價模型。
基于近紅外光譜的GWO-DBN的蘋果內部品質評價建模流程可以描述:
① 選擇蘋果樣品;
② 采集蘋果的近紅外光譜;
③ 光譜數據預處理[多元散射校正(MSC)預處理、特征波長篩選];
④ 建立基于GWO-DBN的蘋果內部品質評價模型;
⑤ 蘋果內部品質評價模型的驗證。
蘋果原料選擇2021年山東煙臺紅富士成熟蘋果為研究對象,隨機挑選234個大小相似且無機械損傷的蘋果進行清洗、削皮和均勻切片,切片厚度為5 mm,將蘋果切片置于0.5 g/100 mL抗壞血酸鈉溶液中浸泡30 min,之后蘋果薄片放入65 ℃烘箱,熱風干燥處理6 h,共得到234組樣本數據。
光譜的預處理方法有:一階導數算法(FD)預處理、二階導數算法(SD)預處理、標準正態變量變換算法預處理(SNV)和多元散射校正(MSC)預處理[11-12],原始數據和不同預處理方式對比結果如表1所示。蘋果原始光譜圖像如圖2所示。由表1可知,多元散射校正(MSC)處理結果最好,因此文中蘋果光譜采用MSC預處理,建模方法為DBN。

圖2 蘋果原始光譜Figure 2 Original spectrum of apple

表1 不同預處理建模效果對比Table 1 Comparison of modeling effects of different pretreatment
由于蘋果光譜數據具有維度高而復雜的特點,蘋果品質評價模型建立之前先對光譜數據進行降維處理,文中分別對比全波段、主成分分析和連續投影法[13](SPA)篩選特征波長的結果,最終確定蘋果光譜特征波長篩選方法。特征波長篩選后建模效果對比如表2所示。由表2可知,連續投影法(SPA)特征波長篩選結果最好。運用SPA篩選蘋果光譜數據的特征波長,不同波長成分進行訓練時,正確率和均方根誤差與主數的關系圖如圖3所示。由圖3可知,當主成分數為13時,蘋果內部品質評價的正確率最高。

圖3 SPA特征篩選結果Figure 3 SPA feature selection results

表2 波長篩選結果對比Table 2 Comparison of wavelength screening results
為了驗證GWO-DBN模型的有效性和可靠性,將采集到的234組蘋果光譜劃分為校正集和預測集,校正集樣本163組,其中高品質、中品質和低品質樣本分別為70,46,47組;預測集樣本71組,其中高品質、中品質和低品質樣本分別為26,21,24組。根據維生素C含量、果實硬度、可滴定酸含量、可溶性固形物含量、可溶性糖含量、固酸比和糖酸比等7項理化指標,蘋果內部品質評價標準如表3所示。不同模型參數設定如下① GWO算法:種群規模N=20、最大迭代次數Tmax=100;② 粒子群(particle swarm optimization algorithm,PSO)算法:種群規模N=20、最大迭代次數Tmax=100、學習因子c1=c2=2、慣性權重w=0.2;③ 遺傳算法[14](genetic algorithm,GA)算法:最大迭代次數Tmax=100,種群規模N=10,變異概率pm=0.1,交叉概率pc=0.7。蘋果內部品質評價結果如圖4~圖7所示,訓練集和預測集的評價精度如表4所示。

表3 蘋果內部品質分級標準Table 3 Grading standard of apple quality
由圖4~圖7和表4可知,在訓練集和預測集上,GWO-DBN的準確率分別為92.02%和81.69%,優于PSO-DBN、GA-DBN和DBN的。與單獨的DBN模型相比,GWO-DBN的蘋果內部品質評價的準確率分別提高了3.06%和7.04%,說明GWO-DBN可以有效提高蘋果內部品質評價的精度。

圖4 GWO-DBN評價結果Figure 4 GWO-DBN evaluation results

圖5 PSO-DBN評價結果Figure 5 PSO-DBN evaluation results

圖6 GA-DBN評價結果Figure 6 GA-DBN evaluation results

圖7 DBN評價結果Figure 7 DBN evaluation results

表4 不同模型評價結果Table 4 Evaluation results of different models %
為了進一步考察GWO-DBN法的有效性,將GWO-DBN與支持向量機(support vector machine,SVM)、網格搜索優化支持向量機(Grid-SVM)和粒子群優化支持向量機(PSO-SVM)進行對比,對比結果如表5所示。

表5 不同算法蘋果內部品質評價結果Table 5 Results of pork quality identification with different algorithms %
由表5可知,在訓練集和測試集上,GWO-DBN算法蘋果內部品質評價的正確率最高。在訓練集上,高品質、中品質和低品質評價的正確率分別為96.15%,97.06%,96.15%;在測試集上,高品質、中品質和低品質評價的正確率分別為100.00%,94.11%,92.31%,優于PSO-SVM模型、Grid-SVM模型以及SVM模型的蘋果內部品質評價的正確率。
通過研究可知,GWO-DBN算法可以有效提高蘋果內部品質評價的正確率,為蘋果內部品質評價提供了新的方法。主要結論:① 蘋果內部品質評價時,近紅外光譜的預處理方式對評價精度有重要影響,其中多元散射校正(MSC)處理結果最好。② 蘋果光譜數據特征波長的選擇影響蘋果內部品質評價的結果,通過對比全波段和主成分分析法、連續投影法等特征波長篩選方法,發現連續投影法效果最好。③ 與DBN模型、GA-DBN模型和PSO-DBN模型相比,GWO-DBN可以有效提高蘋果內部品質評價的精度,與DBN模型相比,訓練集和測試集上的準確率分別提高了3.06%和7.04%。通過GA、PSO和GWO優化DBN模型參數,可以提高DBN模型的性能。④ 與PSO-SVM模型、Grid-SVM模型以及SVM模型相比,GWO-DBN在訓練集和測試集上,不同品質的評價精度更高,主要因為DBN模型可以更好地提取蘋果光譜數據特征,加強了特征數據與品質類別之間的映射關系。
為了提高蘋果內部品質評價的精度,提出一種連續投影法的特征波長篩選與灰狼優化算法改進深度置信網絡的蘋果內部品質評價模型。針對深度置信網絡模型性能受參數設定的影響,運用灰狼優化算法對深度置信網絡模型參數進行優化選擇,提出一種連續投影法的特征波長篩選與灰狼優化算法改進深度置信網絡的蘋果內部品質評價模型。與粒子群算法改進深度置信網絡、遺傳算法改進深度置信網絡和深度置信網絡相比,基于灰狼優化算法改進深度置信網絡的蘋果內部品質評價模型可以有效提高蘋果內部品質評價的準確率。
雖然研究提出的算法可以有效提高蘋果內部品質評價的準確率,但是優化效率有待進一步提高。后續將從深度置信網絡的內部機制進行改進,運用支持向量機或者極限學習機替換為深度置信網絡的輸出層來提高深度置信網絡的執行效率和泛化能力。